La semana pasada, la nueva representante estadounidense Alexandria Ocasio-Cortez fue noticia cuando dijo, como parte del cuarto evento anual MLK Now, que las tecnologías y algoritmos de reconocimiento facial "siempre tienen estas desigualdades raciales que se traducen, porque los algoritmos aún se hacen por seres humanos, y esos algoritmos aún están vinculados a supuestos humanos básicos. Son simplemente automatizados. Y supuestos automatizados: si no corrige el sesgo, entonces simplemente está automatizando el sesgo ".
¿Eso significa que los algoritmos, que se basan teóricamente en las verdades objetivas de las matemáticas, pueden ser "racistas"? Y si es así, ¿qué se puede hacer para eliminar ese sesgo?
Resulta que la salida de los algoritmos puede producir resultados sesgados. Los científicos de datos dicen que los programas informáticos, las redes neuronales, los algoritmos de aprendizaje automático y la inteligencia artificial (IA) funcionan porque aprenden a comportarse a partir de los datos que se les proporcionan. El software está escrito por humanos que tienen sesgo, y los datos de entrenamiento también son generados por humanos que tienen sesgo.
Las dos etapas del aprendizaje automático muestran cómo este sesgo puede introducirse en un proceso aparentemente automatizado. En la primera etapa, la etapa de entrenamiento, un algoritmo aprende basándose en un conjunto de datos o en ciertas reglas o restricciones. La segunda etapa es la etapa de inferencia, en la cual un algoritmo aplica lo que ha aprendido en la práctica. Esta segunda etapa revela los sesgos de un algoritmo. Por ejemplo, si un algoritmo se entrena con imágenes de solo mujeres que tienen cabello largo, entonces pensará que cualquier persona con cabello corto es un hombre.
Google fue infamemente criticado en 2015 cuando Google Photos etiquetó a las personas negras como gorilas, probablemente porque esos eran los únicos seres de piel oscura en el conjunto de entrenamiento.
Y el sesgo puede colarse por muchas vías. "Un error común es entrenar un algoritmo para hacer predicciones basadas en decisiones pasadas de humanos sesgados", dijo a Live Science Sophie Searcy, científica senior de datos del campo de entrenamiento de ciencia de datos Metis. "Si hago un algoritmo para automatizar las decisiones tomadas previamente por un grupo de oficiales de crédito, podría tomar el camino fácil y entrenar el algoritmo en las decisiones pasadas de esos oficiales de crédito. Pero, por supuesto, si esos oficiales de crédito estaban sesgados, entonces el algoritmo que construyo continuará con esos sesgos ".
Searcy citó el ejemplo de COMPAS, una herramienta predictiva utilizada en todo el sistema de justicia penal de los Estados Unidos para la sentencia, que trata de predecir dónde ocurrirá el crimen. ProPublica realizó un análisis en COMPAS y descubrió que, después de controlar otras explicaciones estadísticas, la herramienta sobrestimaba el riesgo de reincidencia para los acusados negros y subestimaba constantemente el riesgo para los acusados blancos.
Para ayudar a combatir los sesgos algorítmicos, Searcy le dijo a Live Science que los ingenieros y científicos de datos deberían construir conjuntos de datos más diversos para nuevos problemas, así como tratar de comprender y mitigar el sesgo integrado en los conjuntos de datos existentes.
En primer lugar, dijo Ira Cohen, científico de datos de la compañía de análisis predictivo Anodot, los ingenieros deberían tener un conjunto de entrenamiento con una representación relativamente uniforme de todos los tipos de población si están entrenando un algoritmo para identificar atributos étnicos o de género. "Es importante representar suficientes ejemplos de cada grupo de población, incluso si son una minoría en la población general que se examina", dijo Cohen a Live Science. Finalmente, Cohen recomienda verificar los sesgos en un conjunto de pruebas que incluye personas de todos estos grupos. "Si, para una determinada raza, la precisión es estadísticamente significativamente menor que las otras categorías, el algoritmo puede tener un sesgo, y evaluaría los datos de entrenamiento que se utilizaron para ello", dijo Cohen a LiveScience. Por ejemplo, si el algoritmo puede identificar correctamente 900 de cada 1,000 caras blancas, pero detecta correctamente solo 600 de cada 1,000 caras asiáticas, entonces el algoritmo puede tener un sesgo "contra" los asiáticos, agregó Cohen.
Eliminar el sesgo puede ser increíblemente desafiante para la IA.
Incluso Google, considerado un precursor en la IA comercial, aparentemente no pudo encontrar una solución integral para su problema de gorilas a partir de 2015. Wired descubrió que, en lugar de encontrar una forma para que sus algoritmos distinguieran entre personas de color y gorilas, Google simplemente bloqueó sus algoritmos de reconocimiento de imagen para identificar gorilas en absoluto.
El ejemplo de Google es un buen recordatorio de que entrenar el software de IA puede ser un ejercicio difícil, particularmente cuando el software no está siendo probado o entrenado por un grupo representativo y diverso de personas.