cio_jphace 38d
Están surgiendo nuevos trabajos de TI para ayudar a las organizaciones a evaluar mejor los resultados de la IA a medida que pasan de los pilotos de IA a las implementaciones a gran escala. Muchas organizaciones ahora están considerando formar o contratar equipos de evaluación de IA, y algunos expertos consideran que estos roles creados recientemente son una red de seguridad esencial para las empresas que implementan herramientas de IA. El rápido aumento de los agentes de IA está estimulando esta tendencia, y los equipos de evaluación de IA están comenzando a tomar forma en los últimos meses, dice Yasmeen Ahmad, director general de gestión de productos, datos y nube de IA en Google Cloud. "No estábamos realmente en la etapa de tener un razonamiento de múltiples pasos, agentes complejos que sean autónomos", dice. "A medida que los clientes observan cómo se comportan los agentes en la naturaleza, por así decirlo, se dan cuenta de que la evaluación no es una puerta, tiene que ser una práctica continua". En Google, los equipos de evaluación están integrados con grupos de desarrollo de agentes para que las dos funciones se realicen simultáneamente, dice Ahmad. "A medida que los creadores de agentes se construyen, se lleva a cabo una evaluación al mismo tiempo para que exista ese ciclo de iteración rápida", afirma. Otras organizaciones han comenzado a crear grupos de trabajo de evaluación de IA dentro de sus áreas más grandes de IA y TI. departamentos, afirma Maksim Hodar, CIO de la empresa de desarrollo de software Innowise. En algunos casos, las empresas combinan arquitectos de datos, responsables de seguridad y responsables de cumplimiento en el nuevo equipo, en lugar de contratar desde cero, señala. La evaluación se vuelve necesaria. Los miembros del equipo de evaluación de IA asumen un papel híbrido, situándose entre la codificación en bruto y las prácticas comerciales éticas, añade. "Es seguro decir que estamos siendo testigos de la evolución del equipo de evaluación de IA de algo "bueno tenerlo" a una necesidad", afirma Hodar. "Hemos observado que las empresas se están alejando de la adopción ciega de la IA y adoptando un enfoque más mesurado de la llamada 'red de seguridad'". Si bien un conjunto emergente de herramientas, incluidos productos de observabilidad y gobernanza, se centran en prevenir el deterioro de la IA, la tecnología no es una respuesta completa, añade. Se necesitarán seres humanos para decidir si la herramienta de TI está alineada con los valores y regulaciones de la empresa, como el RGPD, afirma. “Si bien la tecnología puede identificar errores técnicos, no puede evaluar el contexto”, añade Hodar. "La tecnología ayuda a proporcionar información, pero el equipo de evaluación aún da luz verde. No se puede automatizar la rendición de cuentas". Los agentes de IA se han vuelto muy buenos a la hora de pasar controles de resultados en entornos de prueba, pero se necesitan equipos de evaluación para realizar un seguimiento de sus resultados en situaciones del mundo real, afirma. “Las aplicaciones de agentes podrían pasar la prueba unitaria inicial de este escenario específico que usted estaba describiendo”, afirma. "Pero los sistemas agentes son tomadores de decisiones no deterministas, por lo que no se comportan; no se están probando todas las formas potenciales en que podrían comportarse en el mundo real". Si bien una herramienta de observabilidad puede proporcionar datos sobre el uso de tokens, el uso de herramientas, las fallas de las herramientas y los errores de razonamiento, se necesitan evaluadores humanos para solucionar muchos de los problemas, agrega. Los equipos de evaluación pueden proporcionar un contexto para los errores de razonamiento más comunes que cometen los agentes, agrega. “Cuando nuestros equipos de evaluación interna dedican mucho tiempo a nuestros agentes, gran parte del tiempo se pregunta: ‘¿Por qué falló la lógica de razonamiento aquí?’”, dice Ahmad. "Es porque el agente no tiene acceso a suficiente contexto. La solución a esto es proporcionar el contexto correcto en las capas correctas del agente para que pueda tomar mejores decisiones de razonamiento". Pruebas en un entorno complejo Un buen equipo de evaluación también aborda varias otras cuestiones, incluida la gobernanza, la preparación cultural, la alineación del flujo de trabajo organizacional y el impacto comercial mensurable de las herramientas de IA, agrega Noe Ramos, vicepresidente de operaciones de IA del proveedor de gestión del ciclo de vida por contrato Agiloft. La tecnología por sí sola no puede abordar todos esos problemas, afirma. “El mayor obstáculo no es técnico, sino humano”, añade. "Se pueden comprar herramientas poderosas y aun así tener problemas si la gente no confía en ellas, no las entiende o no ve cómo encajan en su trabajo". Al igual que Hodar y Ahmad, Ramos también ve una creciente demanda de equipos de evaluación de IA, aunque los roles están surgiendo más como una capacidad que como títulos formalizados. "A medida que las organizaciones van más allá de la experimentación, se dan cuenta de que la IA no se puede implementar basándose únicamente en el entusiasmo", añade. "No se trata sólo de seguridad, sino de garantizar que la IA impulse la claridad y la acción en lugar de añadir ruido", afirma Ramos. “O, como lo planteamos internamente, estamos usando la IA para impulsar la claridad y la acción, sin abrumar a los equipos con más paneles”. Recientemente, Ramos fue ascendida de vicepresidenta de TI a vicepresidenta de operaciones de IA, y su equipo incluye un líder de operaciones de IA, un ingeniero de agentes de IA y un líder de sistemas de GPT y IA, señala. El objetivo es incorporar la evaluación en el modelo operativo de IA de Agiloft. A medida que las organizaciones maduran en sus usos de la IA, un cambio del entusiasmo a la evaluación disciplinada está creando la necesidad de una función de evaluación estructurada, añade. “En mi experiencia, uno de los mayores riesgos es que las iniciativas de IA sean impulsadas por las ruedas más chirriantes en lugar de prioridades operativas reales”, añade. "No creo que el desarrollo de la IA deba depender de las voces más fuertes; debe centrarse en que el sonido se amplifique al máximo para lograr el impacto en la organización". En la mayoría de las empresas, la función de evaluación debe ubicarse en la intersección de TI, seguridad, liderazgo de datos y partes interesadas operativas, dice Ramos, y agrega que los líderes de evaluación también deben tener una comprensión profunda de cómo funciona la organización. "Una de las razones por las que la evaluación de la IA falla es que las empresas no siempre entienden sus propios flujos de trabajo", dice Ramos. "No se puede evaluar inteligentemente la IA comparándola con flujos de trabajo que no se han mapeado, cuellos de botella que no se han identificado o prioridades que no se han alineado".