Huawei Cloud на KubeCon EU 2024 – новая эра за счет инноваций с открытым исходным кодом

28 марта 2024

На конференции KubeCon + CloudNativeCon Europe 2024, состоявшейся в Париже, Деннис Гу (Dennis Gu), главный архитектор Huawei Cloud, в своей программной речи под названием «Облачно-ориентированные технологии и ИИ – наступление интеллектуальной эры благодаря непрерывным инновациям с открытым исходным кодом» отметил, что интеграция облачно-ориентированных и ИИ-технологий имеет решающее значение для трансформации отрасли. Huawei Cloud планирует продолжать внедрять инновационные проекты с открытым исходным кодом и сотрудничать с разработчиками, чтобы ускорить наступление интеллектуальной эры.

Dennis Gu, Chief Architect of Huawei Cloud

ИИ представляет основные вызовы для облачно-ориентированной парадигмы.

В последние годы облачные технологии произвели революцию в традиционных ИТ-системах и ускорили цифровые достижения в таких областях, как Интернет и государственные услуги. Концепция Cloud native дала новые возможности, такие как молниеносные продажи и гибкие операции, такие как DevOps, благодаря управлению микросервисами. Эти изменения оказали значительное влияние на жизнь людей, а быстрый рост и широкое внедрение ИИ, включая крупномасштабные модели, стали основой отраслевых интеллектуальных систем.

Согласно опросу Epoch в 2023 году, вычислительная мощность, необходимая для базовых моделей, увеличивается в 10 раз каждые 18 месяцев, что в пять раз быстрее, чем темпы роста, предсказанные законом Мура для общих вычислений. Появление этого «нового закона Мура» благодаря ИИ и преобладание крупномасштабных моделей ИИ представляет проблемы для облачно-ориентированных технологий. В своем выступлении Деннис Гу обозначил следующие ключевые моменты:

  • Низкая средняя загрузка GPU/NPU повышает стоимость обучения ИИ и вывода ИИ.
  • Частые сбои обучающих кластеров больших моделей снижают эффективность обучения.
  • Сложная конфигурация крупномасштабных моделей приводит к высоким требованиям к разработке ИИ.
  • Развертывание крупномасштабного вывода ИИ сопряжено с риском непредсказуемых задержек доступа конечных пользователей и потенциальных проблем с конфиденциальностью данных.

Инновации Huawei Cloud AI предлагают разработчикам идеи для решения таких проблем.

Растущие размеры моделей ИИ требуют больше вычислений, что создает проблемы для облачно-ориентированных технологий, но также создает возможности для инноваций в отрасли. Деннис Гу поделился историями об инновациях ИИ Huawei Cloud, предложив разработчикам ориентир для решения проблем.

Huawei Cloud использовала KubeEdge, облачную платформу граничных вычислений, для создания многороботовой платформы планирования и управления. С помощью этой платформы пользователи могут использовать команды естественного языка, чтобы указывать платформе, что делать, а система будет координировать работу роботов на периферии для выполнения сложных задач. Система разработана с трехкомпонентной архитектурой (облако, периферийный узел и робот) для решения таких задач, как понимание естественного языка, эффективное планирование и управление несколькими роботами, а также управление доступом роботов перекрестного типа. Она использует большие модели для выполнения команд на естественном языке и выполняет прогнозирование трафика, назначение задач и планирование маршрута. Трехкомпонентная архитектура значительно повышает гибкость робот-платформы, эффективность управления на 25 %, сокращает время, необходимое для развертывания системы, на 30 % и время, необходимое для развертывания новых роботов, с нескольких месяцев до нескольких дней.

Для одной из ведущих платформ обмена контентом в Китае, у которой более 100 миллионов активных пользователей в месяц, основной услугой являются рекомендации на главной странице. Эта функция поддерживается моделью с почти 100 миллиардами параметров. Для обучения этой модели платформа использует обучающий кластер с тысячами вычислительных узлов, включая сотни ПК и специалистов для одной обучающей задачи. Таким образом, существует большой спрос на улучшение планирования топологии, высокую производительность и высокую пропускную способность. Volcano, проект с открытым исходным кодом, расширяет поддержку рабочих нагрузок ИИ или машинного обучения на Kubernetes и предлагает ряд политик управления заданиями и расширенного планирования. Volcano включает в себя такие алгоритмы, как планирование с учетом топологии, упаковка контейнера и планирование с учетом Соглашения об уровне обслуживания (SLA), что приводит к повышению общей производительности обучения на 20 % и значительному снижению сложности эксплуатации и технического обслуживания для платформы.

Serverless AI (Бессерверный ИИ) находится на переднем крае разработки облачно-ориентированно архитектуры.

Многие предприятия и разработчики сталкиваются с проблемой эффективного и надежного запуска приложений ИИ при минимизации эксплуатационных расходов. Huawei Cloud разработала решение этой проблемы, определив ключевые требования облачно-ориентированных ИИ-платформ и представив новую концепцию под названием Serverless AI.

Во время своего выступления Деннис Гу объяснил, что Serverless AI предназначен для упрощения сложных задач обучения и вывода за счет разумно рекомендуемых параллельных политик, облегчая их использование разработчиками. Он также включает в себя адаптивную функцию автоматического расширения GPU/NPU, которая динамически настраивает распределение ресурсов на основе изменений рабочей нагрузки в реальном времени, обеспечивая эффективное выполнение задач. Кроме того, в Serverless AI существует бесперебойный кластер GPU/NPU, освобождающий разработчиков от опасений, что аппаратные сбои могут прерывать услуги работу сервисов. Самое главное, что Serverless AI совместим с основными фреймворками ИИ, что позволяет разработчикам легко интегрировать свои существующие инструменты и модели ИИ.

Serverless AI также является очень важной разработкой для поставщиков облачных сервисов. Serverless AI обеспечивает множество преимуществ, таких как улучшенное использование GPU/NPU, более эффективные гибридные рабочие нагрузки для обучения, вывода и разработки, а также экологичные вычисления за счет повышения энергоэффективности, что позволяет экономить деньги на электроэнергии. Кроме того, Serverless AI дает возможность совместного использования GPU/NPU несколькими арендаторами в разных пространствах или в разное время, улучшая показатель повторного использования ресурсов. Наиболее значимым аспектом Serverless AI является его способность обеспечивать гарантированное качество обслуживания (QoS) и соглашения об уровне обслуживания (SLA) как для задач обучения, так и для задач вывода, обеспечивая стабильное и качественное обслуживание.

Serverless AI использует гибкий уровень планирования ресурсов, который построен на виртуализированной операционной системе. Этот уровень реализует основные функции фреймворков приложений в промежуточный уровень ресурса приложений. Деннис Гу представил эталонную архитектуру Serverless AI. Он считает, что эта архитектура позволяет Serverless AI автоматически управлять крупномасштабными ресурсами ИИ. Это включает в себя точный анализ моделей использования ресурсов, совместное использование ресурсов из гетерогенных пулов оборудования и обеспечение отказоустойчивости во время задач обучения ИИ с помощью виртуализации GPU/NPU и миграции нагрузки в реальном времени. Кроме того, многомерное планирование и адаптивное эластичное масштабирование улучшают использование ресурсов.

На подфоруме технические эксперты из Huawei Cloud отметили, что рабочие нагрузки ИИ или машинного обучения, работающие на Kubernetes, неуклонно растут. В результате многие компании создают облачно-ориентированные платформы искусственного интеллекта на основе нескольких кластеров Kubernetes, которые распространяются по центрам обработки данных и различным типам графических процессоров. Karmada и Volcano могут разумно планировать рабочие нагрузки графических процессоров в нескольких кластерах, поддерживая передачу неисправностей и обеспечивая согласованность и эффективность внутри кластеров и между ними. Они также могут сбалансировать использование ресурсов во всей системе и качество обслуживания рабочих нагрузок с различными приоритетами для решения задач управления крупномасштабными и гетерогенными средами графических процессоров.

Karmada предлагает быстрое, надежное автоматическое управление приложениями в мультиоблачных и гибридных облачных сценариях. Все большее число пользователей используют Karmada для создания адаптируемых и эффективных решений в производственных средах. Karmada была официально обновлена до инкубационного проекта CNCF в 2023 году, и сообщество с нетерпением ожидает присоединения большего числа партнеров и разработчиков.

Volcano Gang Scheduling – это решение для распределенного обучения ИИ и сценариев больших данных, которое решает проблемы бесконечного ожидания и взаимной блокировки в распределенных обучающих задачах. Благодаря топологии задач и планированию с учетом ввода-вывода задержка передачи распределенных учебных задач сводится к минимуму, что повышает эффективность обучения на 31 %. Кроме того, minResources решает конфликт ресурсов между драйвером Spark и исполнителем в высококонкурентных сценариях, оптимизирует степень параллелизма и улучшает производительность на 39,9 %.

Деннис Гу считает, что ключом к повышению производительности ИИ является гибкость облачно-ориентированных технологий и инновации гетерогенных вычислительных платформ ИИ. Huawei Cloud посвящена инновациям с открытым исходным кодом и стремится работать с коллегами по отрасли, чтобы вступить в новую интеллектуальную эру.

Другие новости

Самые сильные и слабые паспорта мира в 2025 году

Сингапур вернул себе звание лидера среди паспортов, предоставляющих максимальную свободу перемещения. Согласно  Индексу паспортов мира,…

Перспективы совместной зарядки. Huawei опубликовала 10 ключевых тенденций отрасли сетей зарядных станций 2025 г. 

Компания Huawei опубликовала 10 ключевых тенденций отрасли сетей зарядных станций 2025 года под заголовком «Перспективы…

Перед Новым годом в Москве появится уникальный арт-объект для тех, кто мечтает о чуде

Принять участие в его создании могут все желающие. Арт-объект “Здесь и сейчас” появится в столице…