Métricas que importan en proyectos de IA

En todos los comités de proyectos de IA donde he estado, alguien presenta un dashboard. La mayoría son hermosos, llenos de gráficos y de números crecientes. Y la mayoría no dicen lo que importa. Miden actividad, no resultado. Miden uso, no impacto. Miden lo fácil de medir, no lo que cuesta dinero.

Vamos a ordenar este territorio. Las métricas que conviene mirar en proyectos de IA se agrupan en cuatro capas, cada una respondiendo a una pregunta distinta. Si confundes las capas, vas a tomar malas decisiones.

Capa 1: Adopción real, no licencias activas

La primera capa responde a "¿la gente está usando esto?". Pero hay que tener cuidado con qué entendemos por usar.

Qué medir

Usuarios activos semanales (no mensuales). El mensual oculta abandonos, el semanal los revela.
Frecuencia media de uso por usuario activo. Decir "tenemos 200 usuarios" sin saber cuántas veces a la semana usa cada uno es propaganda.
Profundidad de uso: variedad de casos por usuario. ¿Sólo hacen una tarea siempre o exploran usos distintos?
Curva de retención por cohortes. Quien empezó hace tres meses, ¿sigue usándolo igual o ha bajado?

Qué NO medir como adopción

Licencias activas. Cuentas creadas. Logins. Instalaciones. Eso lo mide el área de IT y no dice nada del valor entregado. He visto proyectos con 1.000 licencias, 100 usuarios reales y un 80% de licencias durmientes que el dashboard contaba como éxito.

Una licencia inactiva es una mentira en tu cuadro de mando. Cuesta lo mismo que una activa y no produce nada.

Capa 2: Calidad del output

La segunda capa responde a "¿lo que la IA produce sirve?". Aquí entran métricas que la mayoría de comités evita porque obligan a juzgar la calidad subjetivamente, pero son las que más mueven el resultado.

Qué medir

Tasa de aceptación de las sugerencias de la IA. Cuando la IA propone, ¿qué porcentaje de veces el usuario acepta sin tocar, edita o descarta? Esta sola métrica te dice si el modelo está alineado con tu caso.
Tasa de "no lo sé" honesto. Un copiloto que dice "no lo sé" cuando no lo sabe es mucho mejor que uno que inventa con voz segura. Esta tasa no debería ser cero.
Errores graves detectados por mes. No sólo el número, también la severidad. Tres errores menores pesan menos que un error que llegó al cliente.
Tiempo de revisión humana por output. Si la persona necesita 10 minutos para validar lo que la IA produjo en 30 segundos, el ahorro es menor de lo que parece.

El test del observador

Una vez al mes, un evaluador humano revisa una muestra aleatoria de 30-50 outputs y los puntúa en una escala simple: útil, parcialmente útil, irrelevante, dañino. Sin esa señal cualitativa, los números cuantitativos navegan a ciegas.

Capa 3: Impacto en el negocio

La tercera capa responde a "¿esto está moviendo el número que nos importa?". Aquí es donde la mayoría de proyectos se encalla, porque conectar la IA con la métrica de negocio requiere disciplina.

Qué medir

Tiempo medio por tarea antes y después. Con muestreo riguroso, no con autoreportes. La gente sobreestima sus ahorros entre 1.5x y 3x cuando se les pregunta.
Coste por unidad de trabajo (ticket, lead, informe, llamada). Antes y después de la IA. Esta métrica brutal es la que pone a todos en la realidad.
Volumen procesado a igual o menor recurso. Si tu equipo de soporte cierra el doble de tickets sin crecer, eso es valor.
Indicadores de calidad del cliente final. NPS, CSAT, tasa de churn. La IA no debería mejorar productividad a costa de calidad de servicio. Si lo hace, hay que ajustar.

El truco del control

Cuando es posible, mantener un grupo control que no usa la IA durante los primeros tres meses. Comparar la evolución del grupo con IA contra el grupo control da la única señal limpia. Sin control, todas las mejoras se atribuyen a la IA y muchas no son suyas.

Capa 4: Coste y eficiencia

La cuarta capa responde a "¿cuánto nos cuesta esto realmente?". Casi todos los dashboards subestiman este lado.

Qué medir

Coste total mensual: licencias + API + infraestructura + horas humanas dedicadas. El sumatorio completo, no sólo la factura del proveedor.
Coste por interacción exitosa. Divide el coste total por las interacciones útiles, no las totales. Si tienes 10.000 conversaciones y 6.000 son útiles, divide por 6.000.
Tendencia de coste por unidad en el tiempo. ¿Está bajando con el aprendizaje y la optimización, o subiendo descontroladamente?
Coste de no-IA evitado. Si no hubieras hecho esto, ¿qué habrías tenido que contratar o subcontratar? Esa es la base del retorno.

El coste oculto que casi nadie cuenta

Las horas de PM, de IT y de los expertos del negocio que dedican tiempo a curar prompts, ajustar tópicos y revisar outputs. En proyectos serios, esto puede ser el 30-50% del coste total real. Si no lo cuentas, tu retorno está inflado y tomarás decisiones en falso.

El cuadro mínimo viable

Si tuviera que reducir todo a cinco números para un comité ejecutivo, mi cuadro sería este:

Usuarios activos semanales y su tendencia.
Tasa de aceptación de output (proxy de calidad).
Métrica de negocio movida (la única que pactaste antes de empezar).
Coste total mensual y coste por interacción útil.
Top 3 problemas en lista de espera de mejora.

Cinco números, no quince. Un comité que mira cinco números puede tomar decisiones. Un comité que recibe quince paneles termina mirando el más bonito y olvidándose del importante.

Las trampas más comunes en cuadros de IA

He visto suficientes dashboards como para haber catalogado los trucos.

El conteo de "ideas generadas"

Equipos que miden cuántas ideas la IA ayudó a producir. La idea no es valor. El valor es la idea ejecutada. Cuenta lo que llegó a producción, no lo que se brainstormed.

El "ahorro proyectado"

Multiplicar minutos por usuarios por días por 220 días al año, y presentar un número de seis cifras como "ahorro anual". Es fantasía con calculadora. Mide ahorro real con muestreo, no proyectado con multiplicaciones.

El NPS sin contexto

Un NPS de 60 puede ser excelente o decepcionante según la base. Pídelo siempre con un comparable: NPS frente a cuál era antes, NPS frente a alternativas, NPS por segmento de uso.

Cuándo cambiar las métricas

Una métrica que no cambia el comportamiento, no debería existir. Cada trimestre conviene preguntarse: ¿qué decisiones se han tomado mirando este número en los últimos 90 días? Si la respuesta es "ninguna", esa métrica está decorando, no informando. Quítala. El espacio mental que libera vale por sí solo.

El error que veo más a menudo

El error que veo más a menudo es medir lo fácil. Lo fácil es contar usuarios, contar conversaciones, contar tokens. Lo difícil es medir tiempo ahorrado real, calidad de output y movimiento del número de negocio. Y como lo difícil cuesta más, los proyectos por defecto se van a lo fácil. Pero los comités que sólo ven lo fácil terminan tomando decisiones equivocadas, porque la actividad sube y el negocio no se mueve.

La regla que aplico: en cualquier proyecto de IA serio, antes de empezar, escribo en una hoja la métrica única de negocio que se va a mover. Si no podemos comprometernos con una sola, el proyecto no está listo para empezar. Esa disciplina, que parece pequeña, separa a los equipos que aportan valor real de los que están muy ocupados en lo que parece valor.

Las métricas que importan en proyectos de IA no son las que más datos generan, son las que más decisiones cambian. Adopción real, calidad de output, impacto en negocio y coste total honesto. Esas cuatro capas, con disciplina, te dicen en cualquier momento si tu proyecto está vivo, agonizando o teatralizando. El resto, por bonito que sea, es decoración.

Métricas que importan en proyectos de IA

Capa 1: Adopción real, no licencias activas

Qué medir

Qué NO medir como adopción

Capa 2: Calidad del output

Qué medir

El test del observador

Capa 3: Impacto en el negocio

Qué medir

El truco del control

Capa 4: Coste y eficiencia

Qué medir

El coste oculto que casi nadie cuenta

El cuadro mínimo viable

Las trampas más comunes en cuadros de IA

El conteo de "ideas generadas"

El "ahorro proyectado"

El NPS sin contexto

Cuándo cambiar las métricas

El error que veo más a menudo

Servicio relacionado

¿Te ha resultado útil?