NUCBA - Formación profesional digital

La industria tech está llena de modelos de machine learning increíbles que nunca vieron la luz. Proyectos con accuracy del 95%, arquitecturas sofisticadas y notebooks impecables que terminaron archivados en algún repositorio perdido.

La realidad es que tu primer modelo de ML no debería ser perfecto. Debería funcionar.

Esta obsesión por la perfección antes del deployment es uno de los errores más costosos que cometen los equipos de IA. Mientras pasás meses refinando tu modelo en Jupyter, la competencia ya está aprendiendo de datos reales de usuarios.

El mito del modelo perfecto

Cuando arrancás un proyecto de ML, es tentador pensar que necesitás el modelo ideal antes de mostrárselo al mundo. Esta mentalidad viene de la academia, donde publicás papers con resultados finales, no versiones beta.

Pero en el mundo real, el mejor modelo es el que está en producción generando valor, no el que tiene mejores métricas en tu dataset de test.

Considerá estos números:

Un modelo con 80% de accuracy en producción te da feedback real
Un modelo con 95% de accuracy en tu notebook no impacta a ningún usuario
El costo de oportunidad de 6 meses de desarrollo puede ser millones en revenue perdido

Por qué simple funciona mejor

Los modelos simples tienen ventajas que van más allá de las métricas de performance:

Son más fáciles de debuggear Cuando algo falla en producción (y va a fallar), necesitás entender qué pasó. Con una regresión linear o un árbol de decisión, podés rastrear cada predicción. Con una red neural de 50 capas, estás volando a ciegas.

Se entrenan más rápido Iteraciones rápidas son clave en ML. Si tu modelo tarda 8 horas en entrenar, vas a probar menos hipótesis. Si tarda 10 minutos, podés experimentar todo el día.

Consumen menos recursos Un modelo simple corre en cualquier lado. No necesitás GPUs caras ni infraestructura compleja. Esto reduce costos y elimina barreras para el deployment.

La trampa de la complejidad prematura

Es común ver equipos que arrancan con transformers cuando podrían resolver el problema con TF-IDF. O que usan redes neuronales profundas cuando una regresión logística haría el trabajo.

Esta complejidad prematura mata proyectos por varias razones:

Tiempo de desarrollo: Modelos complejos toman más tiempo en implementar y ajustar
Deuda técnica: Más código, más dependencias, más puntos de falla
Dificultad para explicar: Stakeholders no van a adoptar algo que no entienden

La regla es simple: empezá con el modelo más básico que pueda resolver tu problema. Siempre podés agregar complejidad después.

Cómo implementar el enfoque "simple first"

Acá tenés una estrategia concreta para lanzar rápido:

1. Definí tu baseline

Antes de entrenar cualquier modelo, establecé un baseline estúpido. Para clasificación binaria, podría ser "siempre predecí la clase mayoritaria". Para regresión, "siempre devolvé la media".

Este baseline te da una referencia mínima que tu modelo debe superar.

2. Empezá con heurísticas

Antes de ML, probá reglas simples. Para un sistema de recomendaciones, podés empezar recomendando los productos más populares. Para detección de fraude, filtrá por montos sospechosos.

Estas heurísticas suelen ser más efectivas de lo que esperás y te dan insights sobre el problema.

3. Elegí modelos interpretables

Tu primer modelo debe ser algo que puedas explicar:

Regresión linear/logística para problemas de clasificación simple
Árboles de decisión para reglas interpretables
Random Forest como upgrade manteniendo interpretabilidad

4. Medí lo que importa

No te obsesiones con accuracy si lo que importa es precision. No optimices F1-score si el negocio se mide por revenue. Alineá tus métricas con el valor real que genera tu modelo.

Aprender en producción vs. en el notebook

Los datos de entrenamiento nunca son iguales a los datos reales. Siempre hay diferencias en:

Distribución temporal (concept drift)
Calidad de los datos
Comportamiento de usuarios
Casos edge que no consideraste

Solo en producción vas a descubrir estos problemas. Y cuanto antes los descubras, mejor.

Un ejemplo real: un modelo de clasificación de imágenes funcionaba perfecto en el dataset de entrenamiento, pero fallaba con fotos tomadas de noche. Esto solo se descubrió cuando usuarios reales empezaron a subir fotos en horarios diferentes.

Cuándo agregar complejidad

No estamos diciendo que nunca uses modelos complejos. Pero agregá complejidad solo cuando:

Tu modelo simple ya está en producción y funcionando
Tenés métricas claras de que necesitás mejor performance
El costo/beneficio justifica la complejidad adicional
Tu equipo tiene la capacidad técnica para mantenerlo

La complejidad es una deuda que vas a tener que pagar con tiempo de desarrollo, recursos computacionales y dificultad de mantenimiento.

El costo real de la perfección

Cada día que tu modelo no está en producción es un día perdido de:

Feedback de usuarios reales
Datos de comportamiento actual
Revenue potencial
Aprendizajes sobre el problema real

En startups, esto puede ser la diferencia entre sobrevivir o morir. En empresas grandes, puede ser millones en oportunidades perdidas.

Construir el hábito de iterar rápido

El enfoque "simple first" no es solo sobre el primer modelo. Es sobre construir una cultura de iteración rápida en tu equipo:

Deploy semanal: Establecé un ritmo de mejoras frecuentes
A/B testing: Compará modelos con datos reales, no con métricas de test
Monitoreo constante: Sabé cuándo tu modelo se está degradando
Rollback fácil: Si algo falla, podés volver rápido a la versión anterior

Este hábito de iteración rápida va a servir para todos tus proyectos futuros, no solo para ML.

Preguntas frecuentes

¿No es irresponsable lanzar un modelo "imperfecto"? Es más irresponsable no lanzar nada. Un modelo simple bien monitoreado es más seguro que un modelo complejo sin feedback real. Además, podés empezar con una implementación gradual o en modo "shadow" para validar antes del rollout completo.

¿Qué pasa si mi stakeholder exige accuracy del 95%? Mostrá el valor incremental. Si tu modelo simple mejora la situación actual en 20%, ese ya es un win. Demostrá resultados tangibles y después negociá mejoras iterativas. La mayoría de las veces, los stakeholders prefieren valor rápido que promesas futuras.

¿Cómo convenzo a mi equipo de que "simple" no es "malo"? Hablá en términos de time-to-value y risk management. Un modelo simple reduce el riesgo técnico y acelera el aprendizaje. Además, la mayoría de los problemas reales no necesitan la complejidad que pensamos que necesitan.

¿Por qué tu primer modelo de ML debería fallar rápido?