Взрывной рост вычислительной мощности ИИ вынуждает к инновациям в архитектуре серверов.


Время публикации:

2021-11-09

Взрывной рост вычислительных мощностей ИИ стимулирует модернизацию архитектуры серверов благодаря многомерным технологическим инновациям, способствуя комплексной перестройке отрасли — от аппаратного до системного уровня. Основным движущим фактором этого процесса является экспоненциальный рост потребности в вычислительных ресурсах, обусловленный крупными AI-моделями, что приводит к прорывным инновациям в таких областях, как вычислительные блоки, системы хранения данных, технологии взаимосвязи, управление питанием и решения по охлаждению.

Взрывной рост вычислительной мощности ИИ стимулирует многомерные технологические инновации, которые в свою очередь подталкивают к модернизации архитектуры серверов и способствуют всесторонней перестройке от аппаратного до системного уровня. Основным движущим фактором этого процесса является экспоненциальный рост потребности в вычислительных ресурсах, обусловленный крупными AI-моделями, что побуждает серверные архитектуры к прорывным инновациям в таких областях, как вычислительные блоки, системы хранения данных, технологии взаимосвязи, управление питанием и решения по охлаждению.

 

1. Вычислительный блок: от доминирования CPU до гетерогенных вычислений

Традиционные серверы строятся вокруг процессоров, однако задачи ИИ (например, обучение крупных моделей) требуют параллельных вычислений, значительно превышающих возможности CPU. GPU, обладая тысячами CUDA-ядер, стали основным носителем вычислительной мощности для ИИ; их доля на рынке с 12% в 2018 году подскочила до 35% в 2023 году. Например, NVIDIA H100 GPU благодаря высокопроизводительному запоминающему устройству HBM3 и технологии взаимосвязи NVLink с пропускной способностью 900 ГБ/с достигает пиковой производительности 1979 ТФЛОПс (FP16) на одну карту, что позволяет поддерживать обучение моделей с сотнями миллиардов параметров.

 

Между тем, чипы DSA (специализированные архитектуры для конкретных задач), такие как Google TPU и AMD MI300X, за счёт оптимизации аппаратной схемы под конкретные AI-задачи (например, вывод AIGC) превосходят универсальные GPU по соотношению энергопотребления и производительности. По прогнозам McKinsey, к 2030 году 95% вычислительных задач в области ИИ будут выполняться с использованием архитектур DSA, что может привести к замене доминирующей роли GPU.

 

2. Системы хранения: преодоление узкого места «стену памяти»

После того как масштаб параметров AI-моделей превысил триллионные значения, хранение и доступ к данным стали ключевым узким местом, ограничивающим производительность системы. Традиционная пропускная способность и задержки DRAM и NAND Flash уже не удовлетворяют потребности, что стимулирует следующие технологические инновации:

1. HBM (высокоскоростная память): благодаря технологии 3D-стекирования многослойная DRAM вертикально интегрируется, что в сочетании с технологией сквозных отверстий в кремнии (TSV) обеспечивает сверхбыструю передачу данных. Например, пропускная способность одного чипа HBM3e достигает 1,2 ТБ/с, что позволяет серверам ИИ обрабатывать терабайты данных в режиме реального времени.

2. Вычисления внутри памяти (PIM): вычислительные блоки интегрируются непосредственно в чипы памяти, что снижает объем перемещаемых данных. Схема HBM-PIM от Samsung повышает скорость AI-вывода в 2,5 раза и снижает энергопотребление на 40%.

3. NVMe SSD и Intel Optane Persistent Memory: благодаря интерфейсу с пропускной способностью до 64 Гбит/с, реализованному по протоколу NVMe, а также использованию памяти Optane для создания многоуровневого хранилища, производительность серверов баз данных повышается в 5–8 раз.

 

3. Технологии взаимосвязи: от PCIe до сверхбыстрых сетей

После расширения кластера ИИ, обмен данными между вычислительными узлами стал узким местом производительности. Традиционная пропускная способность PCIe 5.0 составляет всего 128 ГБ/с, что недостаточно для удовлетворения потребностей совместной работы нескольких GPU. Технологии NVIDIA NVLink и NVSwitch позволяют добиться прорыва благодаря следующим инновациям:

- NVLink 4.0: пропускная способность до 900 ГБ/с, что в 7 раз превышает PCIe 5.0, и поддерживает сверхнизкую задержку при коммуникации между GPU.

- Система NVSwitch: 64 порта на одном чипе, поддержка передачи данных со скоростью 13,6 Тбит/с, являющаяся «нервным центром» для построения AI-кластеров масштаба в десятки тысяч графических процессоров.

- Протокол взаимосвязи CXL: обеспечивает согласованность кэша между процессором и ускорителями, что делает возможным объединение вычислительных ресурсов в единый пул и повышает эффективность использования ресурсов более чем на 30%.

 

4. Управление питанием: от 12 В до систем постоянного тока 48 В

Потребление энергии на AI-серверах резко возросло (мощность одной видеокарты превышает 700 Вт), при этом традиционные 12-вольтовые решения питания недостаточно эффективны. Система постоянного тока на 48 В с помощью модуля преобразования DC/DC снижает напряжение до 0,8 В, что уменьшает потери при передаче тока и повышает энергоэффективность на 15–20%. Отечественные компании, такие как Huawei, уже разрабатывают собственные модули DCX, способствуя обеспечению независимости и контроля над цепочками поставок.

 

5. Решение по теплоотводу: от воздушного охлаждения к жидкостному революционному переходу

При высокой нагрузке серверы ИИ развивают плотность мощности более 50 кВт на шкаф, и традиционное воздушное охлаждение уже не способно удовлетворить потребности в теплоотводе. Жидкостное и погружное охлаждение становятся основными технологиями:

- Технология жидкостного охлаждения: за счет прямого контакта теплоотводящих панелей или холодной жидкости с нагревающимися компонентами эффективность отведения тепла повышается в 3–5 раз, а значение PUE снижается ниже 1,1.

- Погружное охлаждение: серверы полностью погружаются в фторидную жидкость, что повышает эффективность отвода тепла на 40% и снижает затраты на обслуживание на 30%. Проект подводного дата-центра Microsoft благодаря погружному охлаждению достигает значения PUE всего 1,06.

 

6. Архитектурные модели: от традиционной виртуализации к облачным нативным решениям

Традиционная серверная архитектура использует виртуализацию, что приводит к проблемам, таким как производительность и зависимость высокой доступности от аппаратного обеспечения хоста. Классическая облачная архитектура обеспечивает инновации за счет следующих особенностей:

- Микросервисизация: разбиение приложения на несколько независимых сервисов, что обеспечивает эластичное масштабирование и отказоустойчивость.

- Контейнеризация: реализация межплатформенного развертывания с помощью Docker/Kubernetes, что позволило повысить эффективность использования ресурсов более чем на 50%.

- Автоматизированная эксплуатация и обслуживание: ресурсное планирование и прогнозирование неисправностей на основе ИИ снижают затраты на эксплуатацию и обслуживание на 40%.

 

7. Влияние на рынок и отрасль

1. Размер рынка: в 2024 году глобальный рынок AI-серверов достиг 125,1 млрд долларов США, а к 2028 году, согласно прогнозам, превысит 222,7 млрд долларов США; доля серверов для генеративного ИИ увеличится с 29,6% до 37,7%.

2. Реструктуризация производственной цепочки: доля прямых продаж традиционных OEM-производителей снизилась с 68% в 2015 году до 41% в 2023 году, при этом доля модели прямых поставок ODM для сверхмасштабных центров обработки данных превысила 35%.

3. Прорыв в импортозамещении: отечественные компании ускоряют замену зарубежных решений в таких областях, как HBM, DSA-чипы и технологии жидкостного охлаждения; доля отечественных компонентов в цепочке производства вычислительной мощности становится центральной темой для политики и капитала.

Соответствующая информация