Чип Cerebras оснащён 44 ГБ сверхбыстрой памяти, что позволяет ему обрабатывать модели ИИ с триллионами параметров
Компания Cerebras представила свой новый чип для обработки задач искусственного интеллекта, который позиционируется как грозный конкурент DGX100 от Nvidia. Этот чип оснащён 44 ГБ высокоскоростной памяти, что позволяет ему обрабатывать модели ИИ до триллионов параметров. Для моделей, которые превосходят ёмкость памяти одного чипа, Cerebras может распределить их по нескольким системам CS-3. Одна система CS-3 может вместить 20 миллиардов моделей параметров, а 70 миллиардов параметров моделей могут управляться всего четырьмя системами.
Целью Cerebras является предоставление высокопроизводительной платформы для разработки и развёртывания открытых моделей языкового моделирования (LLM). Для достижения этой цели компания использует 16-битные веса модели, которые обеспечивают более высокую точность по сравнению с 8-битными моделями, используемыми некоторыми конкурентами.
Источник: Cerebras
По словам Cerebras, 16-битные модели работают на 5% лучше в языковых моделях, математике и задачах рассуждения по сравнению с 8-битными моделями, обеспечивая более точные и надёжные выходные данные.
Платформа вывода Cerebras доступна через чат и API-доступ и разработана для лёгкой интеграции разработчиками, знакомыми с форматом OpenAI Chat Completions. Платформа может похвастаться возможностью запускать модели Llama3.1 70B со скоростью 450 токенов в секунду, что делает её единственным решением для достижения мгновенной скорости для таких больших моделей.
Для разработчиков Cerebras предлагает 1 миллион бесплатных токенов ежедневно при запуске и цены значительно ниже, чем в популярных облаках GPU.
Cerebras изначально запускается с моделями Llama3.1 8B и 70B, с планами добавить поддержку более крупных моделей, таких как Llama3 405B и Mistral Large 2, в ближайшем будущем. Компания подчёркивает, что возможности быстрого вывода имеют решающее значение для обеспечения более сложных рабочих процессов ИИ и улучшения «интеллекта» LLM в реальном времени, особенно в таких методах, как скаффолдинг, который требует значительного использования токенов.
Патрик Кеннеди из ServeTheHome увидел продукт в действии на недавнем симпозиуме Hot Chips 2024 и отметил: «У меня была возможность посидеть с Эндрю Фельдманом [генеральным директором Cerebras] перед выступлением, и он показал мне демонстрации вживую. Это неприлично быстро. Причина, по которой это важно, заключается не только в том, чтобы человек мог инициировать взаимодействие. Вместо этого в мире агентов, где компьютерные агенты ИИ общаются с несколькими другими компьютерными агентами ИИ — представьте себе, что каждому агенту требуются секунды, чтобы выдать результат, и в этом конвейере есть несколько шагов. Если вы думаете об автоматизированных конвейерах агентов ИИ, то вам нужен быстрый вывод, чтобы сократить время для всей цепочки».
Cerebras позиционирует свою платформу как установку нового стандарта в разработке и развёртывании открытых LLM, предлагая рекордную производительность, конкурентоспособные цены и широкий доступ к API.
Источник: ixbt.com