Cerebras Systems , el pionero en computación de IA de alto rendimiento, anunció Cerebras Inference, la solución de inferencia de IA más rápida del mundo. Con 1800 tokens por segundo para Llama 3.1 8B y 450 tokens por segundo para Llama 3.1 70B, Cerebras Inference es 20 veces más rápida que las soluciones basadas en GPU de NVIDIA en nubes de hiperescala. A partir de solo 10c por millón de tokens, Cerebras Inference tiene un precio que es una fracción del de las soluciones de GPU, lo que proporciona una relación precio-rendimiento 100 veces superior para las cargas de trabajo de IA.
A diferencia de los enfoques alternativos que sacrifican la precisión en pos del rendimiento, Cerebras ofrece el rendimiento más rápido y, al mismo tiempo, mantiene una precisión de vanguardia al permanecer en el dominio de 16 bits durante toda la ejecución de la inferencia. Cerebras Inference tiene un precio que es una fracción del de sus competidores basados en GPU, con un precio de pago por uso de 10 centavos por millón de tokens para Llama 3.1 8B y 60 centavos por millón de tokens para Llama 3.1 70B.
“Cerebras ha tomado la delantera en los puntos de referencia de inferencia de IA de Artificial Analysis. Cerebras está ofreciendo velocidades un orden de magnitud más rápido que las soluciones basadas en GPU para los modelos de IA Llama 3.1 8B y 70B de Meta. Estamos midiendo velocidades superiores a 1.800 tokens de salida por segundo en Llama 3.1 8B y superiores a 446 tokens de salida por segundo en Llama 3.1 70B, un nuevo récord en estos puntos de referencia”, afirmó Micah Hill-Smith, cofundador y director ejecutivo de Artificial Analysis.
“Artificial Analysis ha verificado que Llama 3.1 8B y 70B en Cerebras Inference logran resultados de evaluación de calidad acordes con la precisión nativa de 16 bits según las versiones oficiales de Meta. Con velocidades que superan la frontera del rendimiento y precios competitivos, Cerebras Inference es particularmente atractivo para los desarrolladores de aplicaciones de IA con requisitos de tiempo real o de gran volumen”, concluyó Hill-Smith.
La inferencia es el segmento de computación de IA que crece más rápido y constituye aproximadamente el 40 % del mercado total de hardware de IA. La llegada de la inferencia de IA de alta velocidad, que supera los 1000 tokens por segundo, es comparable a la introducción de Internet de banda ancha, lo que genera enormes oportunidades nuevas y anuncia una nueva era para las aplicaciones de IA. La precisión de 16 bits de Cerebras y las llamadas de inferencia 20 veces más rápidas permiten a los desarrolladores crear aplicaciones de IA de próxima generación que requieren un desempeño complejo, de varios pasos y en tiempo real de tareas, como los agentes de IA.
“DeepLearning.AI tiene múltiples flujos de trabajo de agentes que requieren solicitarle a un LLM repetidamente que obtenga un resultado. Cerebras ha desarrollado una capacidad de inferencia increíblemente rápida que será muy útil para dichas cargas de trabajo”, afirmó el Dr. Andrew Ng, fundador de DeepLearning.AI.
Los líderes de IA tanto en grandes empresas como en empresas emergentes coinciden en que más rápido es mejor:
“La velocidad y la escala lo cambian todo”, afirmó Kim Branson, vicepresidente sénior de IA/ML en GlaxoSmithKline, uno de los primeros clientes de Cerebras.
“LiveKit está entusiasmado de asociarse con Cerebras para ayudar a los desarrolladores a crear la próxima generación de aplicaciones de IA multimodales. Al combinar los mejores modelos SoTA y de computación de Cerebras con la red de borde global de LiveKit, los desarrolladores ahora pueden crear experiencias de IA basadas en voz y video con una latencia ultrabaja y características más parecidas a las humanas”, afirmó Russell D’sa, director ejecutivo y cofundador de LiveKit.
“Sabemos que, en el caso de los motores de búsqueda tradicionales, las latencias más bajas impulsan una mayor participación del usuario y que los resultados instantáneos han cambiado la forma en que las personas interactúan con las búsquedas y con Internet. En Perplexity, creemos que las velocidades de inferencia ultrarrápidas, como las que está demostrando Cerebras, pueden tener un efecto similar en la interacción del usuario con el futuro de las búsquedas: los motores de respuesta inteligentes”, afirmó Denis Yarats, director de tecnología y cofundador de Perplexity.
“En el caso de la infraestructura, la velocidad es primordial. El rendimiento de Cerebras Inference potencia a Meter Command para generar software personalizado y tomar medidas, todo con la velocidad y la facilidad de una búsqueda en la web. Este nivel de capacidad de respuesta ayuda a nuestros clientes a obtener la información que necesitan, exactamente cuando la necesitan para mantener a sus equipos en línea y productivos”, afirmó Anil Varanasi, director ejecutivo de Meter.
Cerebras ha puesto su servicio de inferencia a disposición en tres niveles con precios competitivos: gratuito, para desarrolladores y empresarial.
- El nivel gratuito ofrece acceso gratuito a la API y límites de uso generosos para cualquier persona que inicie sesión.
- El nivel de desarrollador , diseñado para una implementación flexible y sin servidor, ofrece a los usuarios un punto final de API a una fracción del costo de las alternativas en el mercado, con los modelos Llama 3.1 8B y 70B con un precio de 10 centavos y 60 centavos por millón de tokens, respectivamente. De cara al futuro, Cerebras seguirá implementando soporte para muchos más modelos.
- El nivel empresarial ofrece modelos optimizados, acuerdos de nivel de servicio personalizados y soporte dedicado. Ideal para cargas de trabajo sostenidas, las empresas pueden acceder a Cerebras Inference a través de una nube privada administrada por Cerebras o en las instalaciones del cliente. Los precios para empresas están disponibles a pedido.
Alianzas estratégicas para acelerar el desarrollo de la IA : la creación de aplicaciones de IA requiere una variedad de herramientas especializadas en cada etapa, desde gigantes de modelos de código abierto hasta marcos como LangChain y LlamaIndex que permiten un desarrollo rápido. Otros como Docker, que garantiza la contenedorización y la implementación consistentes de aplicaciones impulsadas por IA, y herramientas MLOps como Weights & Biases que mantienen la eficiencia operativa. A la vanguardia de la innovación, empresas como Meter están revolucionando la gestión de redes impulsada por IA, mientras que las plataformas de aprendizaje como DeepLearning.AI están equipando a la próxima generación de desarrolladores con habilidades críticas. Cerebras se enorgullece de colaborar con estos líderes de la industria, incluidos Docker, Nasdaq, LangChain, LlamaIndex, Weights & Biases, Weaviate, AgentOps y Log10 para impulsar el futuro de la IA.
Cerebras Inference funciona con el sistema Cerebras CS-3 y su procesador de IA líder en la industria: Wafer Scale Engine 3 (WSE-3). A diferencia de las unidades de procesamiento gráfico que obligan a los clientes a hacer concesiones entre velocidad y capacidad, el CS-3 ofrece el mejor rendimiento por usuario de su clase y, al mismo tiempo, ofrece un alto rendimiento. El enorme tamaño del WSE-3 permite que muchos usuarios simultáneos se beneficien de una velocidad vertiginosa. Con 7000 veces más ancho de banda de memoria que el NVIDIA H100, el WSE-3 resuelve el desafío técnico fundamental de la IA generativa: el ancho de banda de memoria. Los desarrolladores pueden acceder fácilmente a la API de Cerebras Inference, que es totalmente compatible con la API de finalización de chat de OpenAI, lo que hace que la migración sea sencilla con solo unas pocas líneas de código.
Acerca de Cerebras Systems
Cerebras Systems es un equipo de arquitectos informáticos pioneros, científicos informáticos, investigadores de aprendizaje profundo e ingenieros de todo tipo. Nos hemos unido para acelerar la IA generativa mediante la construcción desde cero de una nueva clase de supercomputadora de IA. su producto estrella, el sistema CS-3, está impulsado por el procesador de IA más grande y rápido del mundo, nuestro Wafer-Scale Engine-3. Los CS-3 se agrupan de forma rápida y sencilla para formar las supercomputadoras de IA más grandes del mundo y hacer que la colocación de modelos en las supercomputadoras sea extremadamente sencilla al evitar la complejidad de la computación distribuida. Las principales corporaciones, instituciones de investigación y gobiernos utilizan las soluciones de Cerebras para el desarrollo de modelos propietarios innovadores y para entrenar modelos de código abierto con millones de descargas. Las soluciones de Cerebras están disponibles a través de Cerebras Cloud y en las instalaciones.