Appen lanza soluciones de evaluación comparativa y comentarios de chat de IA para una evaluación LLM mejorada

Appen permite a las empresas crear soluciones de inteligencia artificial conversacional más complejas.

0
94
(Foto: Business Wire)

Appen Limited, un proveedor líder de datos de alta calidad para el ciclo de vida de la IA, anunció hoy el lanzamiento de dos nuevos productos que permitirán a los clientes lanzar aplicaciones de alto rendimiento modelos de lenguaje grandes (LLM) cuyas respuestas son útiles, inofensivas y honestas para reducir los prejuicios y la toxicidad.

Estas soluciones son:

  • Retroalimentación de AI Chat : empodera a los expertos del dominio para evaluar una conversación en vivo de varios turnos, lo que les permite revisar, calificar y reescribir cada respuesta.
  • Evaluación comparativa : una solución diseñada para ayudar a los clientes a evaluar el rendimiento del modelo en varias dimensiones, como la precisión del modelo, la toxicidad, etc.

El auge de los asistentes y chatbots basados ​​en LLM ha acelerado la demanda de una IA conversacional más sofisticada que pueda soportar múltiples tareas. Es importante evaluar la comprensión contextual y la coherencia de un LLM en conversaciones complejas que se extienden a través de múltiples turnos o diálogos, reflejando aplicaciones del mundo real.

Esto ayudará a identificar las fortalezas y debilidades en el manejo de interacciones extendidas y, en última instancia, mejorará la calidad de las experiencias de los usuarios y la utilidad práctica del modelo. AI Chat Feedback de Appen gestiona el flujo de datos de extremo a extremo a través de múltiples rondas de evaluación y proporciona a los clientes los datos necesarios para ayudar a mejorar los modelos.

La herramienta Benchmarking de Appen resuelve un punto de inflexión que enfrentan las empresas cuando están bajo presión para ingresar rápidamente al mercado de IA: cómo determinar el LLM adecuado para elegir una aplicación empresarial específica. La selección del modelo tiene implicaciones estratégicas para muchas dimensiones de una aplicación, incluida la experiencia del usuario, la facilidad de mantenimiento y la rentabilidad. Con la solución Benchmarking, los clientes pueden evaluar el rendimiento de varios modelos a lo largo de dimensiones de uso común o totalmente personalizadas.

En combinación con una multitud seleccionada de especialistas en capacitación en inteligencia artificial de Appen, la herramienta evalúa el desempeño según las dimensiones demográficas de interés, como el género, la etnia y el idioma. Un tablero configurable permite la comparación eficiente de múltiples modelos en varias dimensiones de interés.

“A medida que los Chatbots de IA se vuelven más avanzados, las empresas tienen más en juego para implementarlos correctamente antes de que se lancen al mundo, o corren el riesgo de sesgos dañinos y respuestas peligrosas que podrían tener impactos a largo plazo en el negocio”, dijo el CEO de Appen. Armughan Ahmad.

“Los nuevos productos de evaluación de Appen brindan a nuestros clientes una capa de confianza esencial que garantiza que estén lanzando herramientas de inteligencia artificial que sean realmente útiles y no dañinas para el público. Esta capa de confianza está respaldada por conjuntos de datos y procesos sólidos que han demostrado su eficacia en nuestros 27 años de trabajo de capacitación en IA y un equipo de más de un millón de expertos humanos que prestan atención a los matices de los datos”.

Se ha demostrado que la retroalimentación humana es fundamental para el rendimiento de los modelos LLM. La tecnología de clase mundial de Appen se ve reforzada por su equipo global de más de 1 millón de especialistas en capacitación en IA que evalúan la precisión y el sesgo de los conjuntos de datos. La herramienta AI Chat Feedback conecta directamente un resultado de LLM con especialistas para que pueda aprender de diversos datos de chat naturales.

Appen aprovechó sus más de dos décadas de experiencia con plataformas de anotación intuitivas y eficientes para diseñar una interfaz de chat que demuestre familiaridad y facilidad. Los especialistas conversan en vivo con un modelo, ya sea el modelo de un cliente o el de un tercero, y califican, marcan y brindan contexto para su evaluación. Este servicio de primera se extiende a un personal dedicado al proyecto que analiza meticulosamente cada lote de datos, descubriendo casos extremos y optimizando la calidad de los datos.

Acerca de Appen

Appen es el líder mundial en datos para el ciclo de vida de la IA con más de 27 años de experiencia en obtención de datos, anotación y evaluación de modelos. A través de su experiencia, plataforma y multitud global, permiten que las organizaciones lancen los productos de inteligencia artificial más innovadores del mundo con velocidad y escala.

Appen mantiene la plataforma de anotación de datos asistida por IA más avanzada de la industria y cuenta con una multitud global de más de 1 millón de colaboradores en todo el mundo, que hablan más de 235 idiomas. Sus productos y servicios hacen de Appen un socio de confianza para los líderes en tecnología, automoción, finanzas, comercio minorista, sanidad y gobierno. Appen tiene clientes y oficinas en todo el mundo.

 

LEAVE A REPLY

Please enter your comment!
Please enter your name here