El machine learning: sus luces y sus sombras

TPB294, oct19. Juan Jesús Alcolea es miembro fundador y director de analítica de Dimetrical, The Analytics Lab, una startup especializada en sistemas y servicios avanzados de análisis de datos para instituciones de educación superior. ¿Por qué los algoritmos opacos funcionan mejor que los transparentes? ¿Por qué son capaces de aprender cuestiones más complejas y de equivocarse menos? ¿Está la industria preparada a dejarse guiar de manera autónoma y no supervisada?

EN SU trayectoria profesional, acumula más de 20 años de experiencia en business intelligence, campo en el que tiene diversas publicaciones, siendo la más reciente un artículo de investigación que recoge la experiencia aprendida en el desarrollo, puesta en producción y mantenimiento de un sistema de prevención de abandono estudiantil basado en modelos predictivos, publicado en IEEE Transactions on Learning Technologies. En esta entrevista nos habla desde su experiencia en una de las tecnologías más mediáticas en la actualidad: el machine learning o aprendizaje automático.

¿Qué es el aprendizaje automático y por qué se habla tanto de él?

El aprendizaje automático –o machine learning– es una disciplina que engloba una multitud de técnicas y tecnologías cuyo principal interés es que son capaces de descubrir relaciones en conjuntos muy grandes de datos, relaciones que serían imposibles o muy costosas de identificar para un analista humano.

Existen dos motivos que explican el interés mediático en esta disciplina: el primero es que se trata de la disciplina que está detrás de lo que comúnmente se denomina Inteligencia Artificial, que en el fondo no es más –ni menos– que aprendizaje automático aplicado; el segundo es que el uso cada vez más generalizado de estas técnicas en todos los ámbitos de la vida está revelando algunas zonas oscuras que llevan aparejada una carga de polémica importante.

¿Se trata de una única disciplina o existen varias tipologías de aprendizaje automático?

Se trata de una única disciplina, pero en su seno existe una gran diversidad de técnicas, y constantemente aparecen otras nuevas, ya que se trata de un campo en el que se está llevando a cabo una enorme actividad investigadora. Existen algunas clasificaciones más o menos estándar de todo este abanico de técnicas. Sin ir más lejos, una clasificación tradicional es, por ejemplo, la de separar las técnicas en aprendizaje supervisado o no supervisado.

¿Puedes explicarnos algo más sobre ese aprendizaje supervisado del que habla?

Grosso modo, las técnicas de aprendizaje supervisado necesitan, para aprender, que les proporcionemos muchos casos resueltos del problema que deseamos que aprendan a resolver. Por ejemplo, si un distribuidor de fruta quiere desarrollar un sistema que aprenda a reconocer y discriminar de forma automática qué naranjas deben distribuirse a las fruterías, cuáles deben ir para fabricar zumo, y cuales deben desecharse por estar en mal estado –tarea que hasta el momento se habría hecho “a mano”-, debemos preparar un conjunto lo más grande posible de imágenes en el que estén representadas las tres categorías de naranjas, y dar el problema resuelto, es decir, cada caso “etiquetado” con la clasificación correcta –para distribución, para zumo, o para deshechar- .

Este conjunto de datos –en este caso, imágenes- con el problema “resuelto” es lo que en términos de aprendizaje automático se conoce como “conjunto de entrenamiento”. La magia del aprendizaje automático consiste en que, sin darle ninguna directriz específica, simplemente mediante la “observación” de los casos resueltos, el sistema será capaz de detectar qué características son las que debe valorar para decidir si una naranja debe ir a distribución, a zumo, o a la basura (por ejemplo, el tamaño, el color, el peso, la uniformidad de la piel, la existencia de imperfecciones o “picaduras”, etc.), e idealmente desarrollará de forma automática una lógica que le permitirá, en adelante, discernir correctamente las naranjas que se le muestren y el destino que debe tener cada una.

¿Y qué hay del no supervisado?

Por otro lado, las técnicas de aprendizaje no supervisado no necesitan ese etiquetado “previo”, ya que su uso es más exploratorio, es decir, se usan fundamentalmente para descubrir relaciones y estructuras ocultas en conjuntos de datos. Por ejemplo, una familia de técnicas de aprendizaje no supervisado típica es la que se conoce como algoritmos de segmentación o clustering; si alimentamos a uno de estos algoritmos con nuestra base de datos de clientes, el resultado puede ser que el algoritmo detecte que donde nosotros percibíamos un colectivo homogéneo de 10.000 clientes, realmente existen seis tipologías que se diferencian claramente entre sí. Otro ejemplo de aprendizaje no supervisado son los algoritmos de “reducción de la dimensionalidad”, que básicamente permiten reducir la cantidad de datos conservando la máxima información.

«La magia del aprendizaje automático consiste en que, sin darle ninguna directriz específica, el sistema será capaz de detectar qué características son las que debe valorar para decidir»

¿Cuál es el tipo de problema más habitual para el cual se recurre a estas técnicas?

Bueno, la aplicabilidad de estas técnicas es enorme. En la actualidad ya podemos decir que se trata de una tecnología de uso cotidiano. Desde la recomendación de productos de Amazon, pasando por la detección automática de spam de tu servicio de correo, o la detección facial de tu teléfono móvil. Sin embargo, si me pides un caso de uso “estrella”, yo diría que los modelos predictivos se lleva la palma.

El objetivo de un modelo predictivo es tratar de averiguar qué va a pasar, partiendo de una serie de datos que describen una situación. Se trata de un caso específico de aprendizaje supervisado, donde lo que el sistema aprende es cómo eran esos datos que describen la situación cuando el suceso que se quiere predecir ocurrió en el pasado.

¿Puedes ponernos un ejemplo de uso para los modelos predictivos?

Existen infinidad de casos. El ejemplo prototípico es predecir la posible pérdida de un cliente para poder evitarla, pero existen otros más ingeniosos; nosotros, por ejemplo, los aplicamos para detectar de forma temprana estudiantes universitarios en riesgo de abandono, de forma que se les pueda apoyar y tratar de evitar que dejen sus estudios.

Otro ejemplo de uso muy interesante surge aprovechando la explosión del Internet de las Cosas y la sensorización de cada vez más industrias, con la disciplina denominada “mantenimiento predictivo”, que se basa en sistemas de aprendizaje automático que han aprendido a predecir cuándo una máquina se va a averiar a corto plazo. Lo que aprenden, lógicamente, es a identificar una serie de anomalías o señales que los sensores registran cuando el problema que acabará provocando la avería aún es incipiente. ThyssenKrupp, por ejemplo, aplica estas técnicas a sus ascensores.

Si nos fijamos, en el fondo es el mismo problema que el de las naranjas, solo que en este caso en vez de imágenes de naranjas el conjunto de entrenamiento son lecturas de sensores, y la “etiqueta” del problema resuelto es si esa lectura se correspondió en el pasado con una avería posterior, o no.

Antes has hablado de “zonas oscuras”; ¿nos puedes explicar de dónde procede la polémica?

Bueno, como sucede con todas las tecnologías, el primer problema es que pueden usarse inmoralmente de forma intencionada. Sin embargo, no es esto lo que está generando la polémica sino –por extraño que pueda parecer– su uso inadvertidamente inmoral. A mi juicio, las inquietudes son legítimas y provienen, fundamentalmente, de dos problemas relacionados entre sí: la opacidad de algunos algoritmos y el aprendizaje de rasgos inmorales.

Los algoritmos opacos –también conocidos como black box o de caja negra- son aquellos que resuelven el problema para el cual se les ha entrenado, pero son incapaces de decirnos cómo lo han hecho. O más bien debería decir que somos incapaces de entender cómo lo han hecho. No sabemos el por qué de sus decisiones. Por tanto, dan lugar a decisiones cuya justificación desconocemos. Por ejemplo, un algoritmo puede negar un crédito a alguien, o desaconsejar una determinada operación quirúrgica, pero el empleado de banca o el médico que debe asumir esa decisión, desconoce los motivos. ¿Está el algoritmo aplicando motivos éticos?, y lo que es aun peor, ¿está aplicando motivos correctos? No lo sabemos. Da la casualidad, además, de que habitualmente los algoritmos opacos funcionan mejor que los transparentes, es decir, en general son capaces de aprender cuestiones más complejas y de equivocarse menos, por lo que son una tendencia clara en la industria.

¿Y qué hay de el aprendizaje de rasgos inmorales?

Se trata de un problema simple de entender, pero no tan sencillo de resolver. El aprendizaje supervisado, como hemos visto, aprende mediante la inspección de “problemas resueltos” en el pasado. Ahora bien, ¿qué pasa si esos problemas resueltos contienen –inadvertidamente- sesgos inmorales? Pues lo que pasa es que la máquina aprende también esos sesgos. Resultado: modelos que predicen el riesgo de reincidencia de delincuentes que son racistas, modelos de selección automática de currículums que son machistas, etc.

¿Por qué ocurre esto? Bien, imaginemos que en la empresa distribuidora de naranjas que ponía antes de ejemplo trabaja un operario que por motivos personales odia a un determinado agricultor proveedor de la empresa. Este operario, durante años, ha estado enviando a la basura de forma sistemática a todas las naranjas que procedían de este proveedor. ¿Qué ocurre si las fotos de esas naranjas junto con su destino forman parte del conjunto de entrenamiento del algoritmo de aprendizaje supervisado? Pues seguramente, que en la lógica interna del modelo se acabe desarrollando una regla que diga que las naranjas del proveedor X deben ir todas a la basura. Y ¿qué pasa si hemos usado una técnica de “caja negra”? Pues que seguramente tal regla jamás será detectada por nadie, y tendremos un algoritmo que ha aprendido… a odiar a un proveedor. Sin duda aún nos queda muchas situaciones por imaginar y saber resolver.

Por Alter Fines

«Las técnicas de aprendizaje no supervisado no necesitan ese etiquetado “previo”, ya que su uso es más exploratorio, es decir, se usan para descubrir relaciones y estructuras ocultas»

 

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *