En esta era digital, es cada vez más común el uso de mecanismos automatizados para la toma de decisiones. Un conjunto importante de estos mecanismos está basado en el aprendizaje estadístico, más conocido por el popular término de machine learning. Estas decisiones pueden afectar de manera diferenciada a diversos sectores de la población, de tal manera que la decisión final, de manera intencional o no, discrimine a cierto sector de la población injustificadamente.
Un ejemplo típico de este fenómeno sería un mecanismo que determine el salario de un individuo tomando en cuenta su género. De esta manera, podría ocurrir que a dos perfiles prácticamente idénticos, en los que la única diferencia fuera que uno es hombre y el otro mujer, les fueran asignados salarios diferentes. La justicia algorítmica busca corregir este tipo de sesgos tanto a nivel individual como a nivel poblacional, de manera tal que en el futuro a corto y mediano plazo logremos conseguir una sociedad mas justa y equitativa.
Las técnicas de machine learning hacen uso de la creciente capacidad de cómputo de la que disponemos para encontrar patrones en un conjunto de datos. Estos patrones, que pueden tomar la forma de funciones o conjuntos anidados de reglas, permiten atacar diversos tipos de problemas; yo me he enfocado en problemas de clasificación, en los que se debe determinar la categoría a la que pertence un individuo. Un ejemplo típico de problema de clasificación es determinar si un individuo es acreedor a un crédito bancario, o si debe ser contratado por una empresa.
A manera de ejemplo súper simplificado, supongamos que tenemos un banco cuenta con un conjunto de entrenamiento de 100 instancias de créditos otorgados, a hombres y mujeres de México. Si en el conjunto de entrenamiento el 80% de los hombres pagó su crédito a tiempo, mientras que solamente el 40% de las mujeres hicieron lo mismo, se corre el riesgo de generar un clasificador que prediga con mayor facilidad que un solicitante masculino pagará su crédito a tiempo, mientras que una solicitante femenina no lo haga. Sin embargo, la diferencia en los porcentajes de pago presente en el conjunto de entrenamiento se puede deber a múltiples factores, por ejemplo una mala recolección de datos que no refleje los porcentajes de pago verdaderos. Para corregir este problema, es posible sobrerepresentar
Un problema con este tipo de solución, sin embargo, es que al modificar los datos de entrenamiento la precisión de las predicciones tiende a disminuir. Este fenómeno se conoce como la compensación justicia-precisión. El reto entonces es desarrollar algoritmos en los que se obtenga la mayor justicia posible pagando el mínimo costo en la precisión de nuestro clasificador.
Mtro. Carlos Vladimiro González Zelaya
Déjanos saber lo que pensaste acerca de este post
Pon tu comentario abajo.