# Gu√≠a Pr√°ctica para la Gobernanza de la IA y el Combate al Sesgo Algor√≠tmico üõ°Ô∏è

En esta gu√≠a pr√°ctica, vamos a **probar** los conceptos clave que exploramos en clase sobre la **Gobernanza de la IA**, el insidioso **sesgo algor√≠tmico** y la **importancia fundamental de los datos y su metadata**.

Prep√°rate para **ejecutar este c√≥digo** y sumergirte en el proceso:
*   Ver√°s c√≥mo se **generan datos sint√©ticos** (¬°incluso introduciremos un sesgo intencional para aprender de forma pr√°ctica!).
*   Descubrir√°s la vital importancia de **documentar todo con metadata**.

Entender y aplicar estos conceptos es **clave** para construir proyectos de IA que sean verdaderamente **justos, transparentes y responsables**.

**Hilo Conductor:** "Sesgos Algor√≠tmicos: ¬øC√≥mo los detectamos y combatimos desde la base? La Gobernanza de la IA empieza en los datos."

In [1]:
# Paso 1: Instalamos las librer√≠as necesarias
# Si no las ten√©s instaladas en tu entorno de Colab, este comando las instala.

!pip install Faker pandas

print("Librer√≠as instaladas correctamente. ¬°Listos para empezar!")

Collecting Faker
  Downloading faker-37.4.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.4.0-py3-none-any.whl (1.9 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.9/1.9 MB[0m [31m26.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Faker
Successfully installed Faker-37.4.0
Librer√≠as instaladas correctamente. ¬°Listos para empezar!


In [2]:
# Paso 2: Importamos lo que vamos a usar
# Faker: Para generar datos falsos (sint√©ticos) pero con aspecto real.
# pandas: Para manejar los datos en un formato de tabla (DataFrame).
# json: Para trabajar con la metadata en formato JSON, que es un est√°ndar para intercambiar informaci√≥n.

from faker import Faker
import pandas as pd
import random
import json
import datetime

print("Librer√≠as importadas.")

Librer√≠as importadas.


In [3]:
# Paso 3: Inicializamos Faker
# Ac√° le decimos a Faker que genere datos con estilo argentino (es_AR).
# Esto es genial para que los ejemplos se sientan m√°s cercanos.

fake = Faker('es_AR')

print(f"Faker inicializado con locale '{fake.locale}'.")

Faker inicializado con locale '<bound method BaseProvider.locale of <faker.providers.user_agent.Provider object at 0x7c039b79dad0>>'.


# M√≥dulo 1: Generaci√≥n de Datos Sint√©ticos con Sesgo Intencional

Ac√° vamos a crear un dataset sint√©tico de "empleados".
¬øTe acord√°s el caso de Amazon y el sesgo en la contrataci√≥n?

Para que veas c√≥mo se cuela un sesgo en los datos, vamos a introducir uno intencionalmente en el campo `genero_reportado`. Vamos a hacer que haya un 70% de hombres y un 30% de mujeres para esta demo.

*   Esto simula un "sesgo de proporci√≥n" o "sesgo hist√≥rico" que podr√≠amos encontrar en datos reales si, por ejemplo, una empresa hist√≥ricamente contrat√≥ m√°s hombres para ciertos roles.

In [4]:
num_records = 50 # Un buen n√∫mero para la demo

data_empleados = []
roles_disponibles = ['Desarrollador', 'Gerente de Proyectos', 'Analista de Datos', 'Dise√±ador UX', 'Especialista de RRHH', 'Contador', 'Asistente Administrativo']
departamentos_disponibles = ['IT', 'Ventas', 'Marketing', 'Finanzas', 'RRHH', 'Operaciones']

# Definimos una distribuci√≥n sesgada para el g√©nero: 70% Masculino, 30% Femenino
# Esto se hace repitiendo 'Masculino' 7 veces y 'Femenino' 3 veces en la lista.
generos_con_sesgo = ['Masculino'] * 7 + ['Femenino'] * 3

print(f"Generando {num_records} registros de empleados. Atento al sesgo de g√©nero intencional.")

Generando 50 registros de empleados. Atento al sesgo de g√©nero intencional.


In [5]:
for i in range(num_records):
    # Elegimos el g√©nero seg√∫n nuestra distribuci√≥n sesgada
    genero_elegido = random.choice(generos_con_sesgo)

    # Asignamos el nombre seg√∫n el g√©nero
    if genero_elegido == 'Masculino':
        nombre = fake.first_name_male()
    elif genero_elegido == 'Femenino':
        nombre = fake.first_name_female()
    else: # Por si agregamos m√°s g√©neros en el futuro
        nombre = fake.first_name()

    data_empleados.append({
        'id_empleado': fake.unique.uuid4(), # ID √∫nico
        'nombre': nombre,
        'apellido': fake.last_name(),
        'genero_reportado': genero_elegido, # Campo con el sesgo
        'rol': random.choice(roles_disponibles),
        'salario': round(random.uniform(70000, 250000), 2), # Salarios aleatorios
        'departamento': random.choice(departamentos_disponibles),
        'fecha_contratacion': fake.date_this_decade() # Fecha dentro de los √∫ltimos 10 a√±os
    })

# Convertimos la lista de diccionarios a un DataFrame de Pandas para un manejo m√°s f√°cil
df_empleados = pd.DataFrame(data_empleados)

print("\n--- Dataset Sint√©tico de Empleados Generado ---")


--- Dataset Sint√©tico de Empleados Generado ---


In [6]:
# Mostramos las primeras filas para que vean c√≥mo qued√≥
print(df_empleados.head())

print("\n--- Distribuci√≥n del G√©nero Reportado (¬°Atento al Sesgo!) ---")
# Contamos cu√°ntos registros hay de cada g√©nero para confirmar el sesgo
print(df_empleados['genero_reportado'].value_counts())

print("\nFijate que el campo 'genero_reportado' muestra un desbalance. Esto es un SESGO DE PROPORCI√ìN, similar al que pudo haber existido en los datos de Amazon.")

                            id_empleado        nombre  apellido  \
0  94bd6198-a360-41fb-9277-88b03cc6cf63      Santiago  Gonzalez   
1  e4d1847a-e161-4aef-b154-1c80460c94d4        Milena    Franco   
2  3414c934-843c-4e44-9c24-99f25eacc708  Miguel Angel      Paez   
3  083e5204-67a0-482e-859c-d0b97b4198df       Santino     Perez   
4  4c2f36e1-4950-4c37-8090-d22743371c62      Milagros    Flores   

  genero_reportado                       rol    salario departamento  \
0        Masculino                  Contador  224517.05     Finanzas   
1         Femenino                  Contador  220103.56       Ventas   
2        Masculino  Asistente Administrativo  140563.31  Operaciones   
3        Masculino  Asistente Administrativo  237793.66     Finanzas   
4         Femenino         Analista de Datos  245027.94       Ventas   

  fecha_contratacion  
0         2020-11-02  
1         2020-04-03  
2         2023-02-22  
3         2024-04-26  
4         2023-10-27  

--- Distribuci√≥n del G√©

# M√≥dulo 2: Creaci√≥n de Metadata para Nuestro Dataset

Ahora que tenemos nuestro dataset sint√©tico, vamos a crear su metadata.
La metadata es el "ADN" del dataset. Nos dice todo sobre √©l: de d√≥nde viene, qu√© contiene, ¬°y crucialmente, qu√© sesgos conocidos tiene!
Sin metadata, es como tener una caja llena de cosas sin etiqueta: no sab√©s qu√© hay ni si es seguro usarlo.
Esta metadata es clave para la GOBERNANZA:

*   **Transparencia:** Cualquier persona puede entender el dataset.
*   **Trazabilidad:** Saber el origen y las transformaciones.
*   **Detecci√≥n de Sesgos:** Documentar expl√≠citamente los sesgos conocidos (¬°como el que acabamos de crear!).
*   **Rendici√≥n de Cuentas:** Si hay un problema, podemos rastrear la fuente.

In [7]:
metadata_empleados = {
    "nombre_dataset": "empleados_sinteticos_demo_sesgo_genero",
    "descripcion": "Dataset de perfiles de empleados generado sint√©ticamente para fines educativos y demostraci√≥n de sesgo algor√≠tmico. NO CONTIENE DATOS REALES.",
    "fuente_datos": {
        "tipo": "Sint√©tico",
        "herramienta": "Faker vX.Y.Z (reemplazar X.Y.Z por la versi√≥n usada)",
        "locale_faker": "es_AR",
        "metodo_generacion": "Generaci√≥n aleatoria de campos con distribuci√≥n de g√©nero ajustada intencionalmente (70% Masculino / 30% Femenino)."
    },
    "fecha_creacion": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "ultima_modificacion": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "version": "1.0",
    "licencia_uso": "Solo para fines educativos, investigaci√≥n y desarrollo interno. NO para uso productivo o comercial. No usar para inferir patrones reales de empleo."
}

In [8]:
metadata_empleados["columnas"] = [
    {
        "nombre": "id_empleado",
        "tipo": "string (UUID)",
        "descripcion": "Identificador √∫nico de cada empleado. Generado aleatoriamente.",
        "sensibilidad": "Baja (sint√©tico, no real)",
        "ejemplo_valor": df_empleados['id_empleado'].iloc[0]
    },
    {
        "nombre": "nombre",
        "tipo": "string",
        "descripcion": "Nombre de pila del empleado. Generado aleatoriamente seg√∫n el g√©nero asignado.",
        "sensibilidad": "Baja (sint√©tico, no real)",
        "ejemplo_valor": df_empleados['nombre'].iloc[0]
    },
    {
        "nombre": "apellido",
        "tipo": "string",
        "descripcion": "Apellido del empleado. Generado aleatoriamente.",
        "sensibilidad": "Baja (sint√©tico, no real)",
        "ejemplo_valor": df_empleados['apellido'].iloc[0]
    },
    {
        "nombre": "genero_reportado",
        "tipo": "string",
        "descripcion": "G√©nero autodeclarado del empleado. Campo con sesgo intencional para demostraci√≥n.",
        "sensibilidad": "Media (si fuera real, ser√≠a un dato personal sensible)",
        "procesamiento": "Seleccionado aleatoriamente de ['Masculino', 'Femenino'] con probabilidad de 70% y 30% respectivamente.",
        "distribucion_observada": df_empleados['genero_reportado'].value_counts().to_dict(),
        "advertencia_sesgo_campo": "Este campo introduce un sesgo de g√©nero en el dataset. Si se usa para entrenamiento de modelos, el modelo podr√≠a aprender a favorecer impl√≠citamente al grupo mayoritario ('Masculino')."
    }
]

In [9]:
# Continuamos con el resto de columnas
metadata_empleados["columnas"].extend([
    {
        "nombre": "rol",
        "tipo": "string",
        "descripcion": "Rol laboral del empleado en la empresa.",
        "sensibilidad": "Baja",
        "ejemplo_valor": df_empleados['rol'].iloc[0]
    },
    {
        "nombre": "salario",
        "tipo": "float",
        "descripcion": "Salario anual del empleado en moneda local.",
        "sensibilidad": "Media (si fuera real, dato personal)",
        "ejemplo_valor": df_empleados['salario'].iloc[0]
    },
    {
        "nombre": "departamento",
        "tipo": "string",
        "descripcion": "Departamento al que pertenece el empleado.",
        "sensibilidad": "Baja",
        "ejemplo_valor": df_empleados['departamento'].iloc[0]
    },
    {
        "nombre": "fecha_contratacion",
        "tipo": "date",
        "descripcion": "Fecha en que el empleado fue contratado.",
        "sensibilidad": "Baja",
        "ejemplo_valor": str(df_empleados['fecha_contratacion'].iloc[0])
    }
])

In [10]:
# Agregamos la informaci√≥n cr√≠tica sobre sesgos conocidos
metadata_empleados["sesgos_conocidos_dataset"] = [
    {
        "tipo_sesgo": "Sesgo de Proporci√≥n / Desbalance de Clase",
        "campo_afectado": "genero_reportado",
        "descripcion": "La distribuci√≥n de g√©nero en este dataset est√° *intencionalmente desbalanceada* (aproximadamente 70% hombres, 30% mujeres) para fines de demostraci√≥n. Esto simula c√≥mo un sesgo hist√≥rico o de muestreo en datos reales podr√≠a influir en un modelo.",
        "impacto_potencial": "Un modelo de aprendizaje autom√°tico (ej. para contrataci√≥n, desempe√±o o promoci√≥n) entrenado con este dataset podr√≠a desarrollar sesgos de predicci√≥n o clasificaci√≥n que favorezcan al grupo mayoritario ('Masculino'), perpetuando la discriminaci√≥n."
    }
]

metadata_empleados["acciones_mitigacion_sugeridas"] = "Si este fuera un dataset real y se fuera a usar para un modelo de impacto, se requerir√≠a aplicar t√©cnicas de balanceo de clases (oversampling, undersampling), ajustar pesos en el modelo o usar algoritmos conscientes de equidad (como los explorados por IBM AI Fairness 360 o Fairlearn de Microsoft) antes de entrenar un modelo."

metadata_empleados["limitaciones_uso"] = "Este dataset *no* es representativo de la poblaci√≥n laboral real y debe ser usado con extrema precauci√≥n. Su prop√≥sito es *demostrar* conceptos de sesgo y metadata, no para inferir patrones reales o para uso en sistemas productivos sin una validaci√≥n exhaustiva."

In [11]:
# Imprimimos la metadata en un formato legible (JSON indentado)
print("\n--- Metadata Generada para el Dataset Sint√©tico ---")
print(json.dumps(metadata_empleados, indent=4, ensure_ascii=False))

print("\n--- ¬°Fijate bien en la secci√≥n 'sesgos_conocidos_dataset' de la metadata! ---")
print("Ah√≠ es donde documentamos el sesgo que introdujimos. Esto es CR√çTICO para la transparencia.")


--- Metadata Generada para el Dataset Sint√©tico ---
{
    "nombre_dataset": "empleados_sinteticos_demo_sesgo_genero",
    "descripcion": "Dataset de perfiles de empleados generado sint√©ticamente para fines educativos y demostraci√≥n de sesgo algor√≠tmico. NO CONTIENE DATOS REALES.",
    "fuente_datos": {
        "tipo": "Sint√©tico",
        "herramienta": "Faker vX.Y.Z (reemplazar X.Y.Z por la versi√≥n usada)",
        "locale_faker": "es_AR",
        "metodo_generacion": "Generaci√≥n aleatoria de campos con distribuci√≥n de g√©nero ajustada intencionalmente (70% Masculino / 30% Femenino)."
    },
    "fecha_creacion": "2025-06-26 07:54:37",
    "ultima_modificacion": "2025-06-26 07:54:37",
    "version": "1.0",
    "licencia_uso": "Solo para fines educativos, investigaci√≥n y desarrollo interno. NO para uso productivo o comercial. No usar para inferir patrones reales de empleo.",
    "columnas": [
        {
            "nombre": "id_empleado",
            "tipo": "string (UUID)",


# M√≥dulo 3: Conexi√≥n con la Gobernanza y el Combate al Sesgo

¬øC√≥mo se relaciona todo esto con la Gobernanza de la IA y el caso Amazon?

1.  **El Problema de Amazon:**
    Si Amazon hubiera tenido una Gobernanza de Datos robusta, habr√≠an exigido metadata detallada para sus datos hist√≥ricos de contrataci√≥n. Esa metadata, como la que acabamos de crear, habr√≠a revelado el desbalance de g√©nero en sus datos.

2.  **La Metadata como "Alerta Temprana":**
    Al ver esa "advertencia de sesgo" en la metadata, el equipo habr√≠a podido:
    *   Auditar los datos con herramientas especializadas (¬°como las que vimos de IBM!).
    *   Remediar el dataset (ej. balancearlo, si fuera posible, o ajustar t√©cnicas de modelado).
    *   Aplicar algoritmos conscientes de equidad.

3.  **La Gobernanza es Prevenci√≥n:**
    Esto demuestra que la Gobernanza de la IA, a trav√©s de pr√°cticas como la creaci√≥n rigurosa de metadata y la trazabilidad, es una herramienta PREVENTIVA. Te permite "diagnosticar" problemas en tus datos antes de que se traduzcan en sesgos en tu modelo y causen da√±os en el mundo real.

4.  **Tu Rol Fundamental:**
    Como futuro profesional de la IA, ten√©s la capacidad de influir directamente. Cada decisi√≥n que tomes, desde c√≥mo eleg√≠s tus datos, c√≥mo los gener√°s (si son sint√©ticos) y c√≥mo document√°s esa informaci√≥n con metadata, tiene un impacto √©tico.

# Ejercicios Adicionales para Explorar

*   Cambi√° la distribuci√≥n de g√©nero para que sea 50/50 y observ√° c√≥mo cambia la metadata.
*   Agreg√° otro tipo de sesgo, por ejemplo en los salarios seg√∫n el g√©nero.
*   Experiment√° con otros campos como edad, experiencia laboral, etc.
*   Investig√° herramientas de detecci√≥n de sesgo como IBM AI Fairness 360 o Fairlearn de Microsoft.
*   Cre√° tu propia metadata para un dataset que uses en otro proyecto.