<a href="https://colab.research.google.com/github/EJYEPEZM/PPIA/blob/main/unidad_1_fundamentos_vectorizacion/3_Pandas_Data_Wrangling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üíä C√°psula 3: Detectives de Datos (Pandas)
**Tema:** Carga robusta, `.loc`, limpieza de tipos y manejo de errores.

## 1. El mundo real est√° sucio

En Excel, una celda puede tener un n√∫mero y la de abajo un texto. En Data Science, eso es un crimen. Las columnas deben tener un **Tipo de Dato** estricto (int, float, string).

### Los dos superpoderes de hoy:
1.  **`pd.to_numeric(..., errors='coerce')`**: Es el "bot√≥n m√°gico" de limpieza. Intenta convertir todo a n√∫mero. Si encuentra basura (texto, errores), no detiene el programa; lo convierte en `NaN` (Not a Number) y sigue.
2.  **`.loc[fila, columna]`**: La forma profesional de filtrar.
    *   ‚ùå Mal: `df[df['edad'] > 30]['salario'] = 1000` (Genera Warning de copia).
    *   ‚úÖ Bien: `df.loc[df['edad'] > 30, 'salario'] = 1000` (Modifica el original de forma segura).

In [None]:
import pandas as pd
import numpy as np

# --- CREACI√ìN DE DATOS SUCIOS (Simulaci√≥n) ---
data = {
    'ID': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Luis', 'Pepe', 'Marta', 'Juan'],
    'Salario': ['2000', '3000', 'ERROR', '2500', 'No sabe'], # <--- ¬°BASURA!
    'Edad': [25, 40, 35, 28, 50]
}
df = pd.DataFrame(data)

print("--- DATOS ORIGINALES (Sucios) ---")
print(df)
print(f"\nTipo de dato columna Salario: {df['Salario'].dtype} (Object = Texto)")

# 1. INTENTO FALLIDO (Crash)
# df['Salario'].astype(int)
# Esto lanzar√≠a un error: "invalid literal for int() with base 10: 'ERROR'"

# 2. LIMPIEZA ROBUSTA (Coerce)
# errors='coerce' transforma 'ERROR' y 'No sabe' en NaN
df['Salario'] = pd.to_numeric(df['Salario'], errors='coerce')

print("\n--- DATOS DESPU√âS DE TO_NUMERIC ---")
print(df)

# 3. FILTRADO PROFESIONAL CON .LOC
# Queremos subir el sueldo a los mayores de 30 a√±os
# Usamos .loc[filas, columnas]
df.loc[df['Edad'] > 30, 'Salario'] += 500

print("\n--- DESPU√âS DEL AUMENTO (Solo >30 a√±os) ---")
print(df)
# Nota como Pepe (ID 3) ahora tiene NaN + 500 = NaN. Pandas maneja nulos matem√°ticamente.

## üî• Micro-Desaf√≠o: Auditor√≠a Salarial

Tienes un reporte de empleados. Tu jefe quiere saber el **Salario Promedio** del departamento de **'IT'**.

**Problemas:**
1.  La columna `bono` tiene un dato corrupto ("???").
2.  Debes calcular el `ingreso_total` (salario + bono).
3.  Debes filtrar solo 'IT' y calcular el promedio.

**Tu Misi√≥n:**
1.  Convierte la columna `bono` a num√©rico usando `coerce` para eliminar la basura.
2.  Rellena los nulos (`NaN`) del bono con `0` (usa `.fillna(0)`).
3.  Crea la columna `total` sumando salario y bono.
4.  Filtra y calcula la media del total para 'IT'.

In [None]:
# Datos iniciales
empleados = pd.DataFrame({
    'nombre': ['Carlos', 'Elena', 'Migue', 'Sofia'],
    'depto': ['IT', 'Ventas', 'IT', 'IT'],
    'salario': [3000, 4000, 3200, 2900],
    'bono': ['500', '1000', '???', '200'] # <--- Dato sucio
})

# --- TU C√ìDIGO AQU√ç ---

# 1. Limpiar columna 'bono' (to_numeric + coerce)
# empleados['bono'] = ...

# 2. Rellenar NaNs con 0
# empleados['bono'] = ...

# 3. Crear columna 'total' (salario + bono)
# empleados['total'] = ...

# 4. Calcular promedio de 'total' solo para 'IT'
# promedio_it = ...

# --- VALIDACI√ìN ---
print(empleados)
print(f"\nPromedio IT calculado: {promedio_it}")

# El promedio deber√≠a ser:
# Carlos: 3000 + 500 = 3500
# Migue: 3200 + 0   = 3200 (El error se volvi√≥ 0)
# Sofia: 2900 + 200 = 3100
# (3500 + 3200 + 3100) / 3 = 3266.66...

if promedio_it > 3266 and promedio_it < 3267:
    print("‚úÖ ¬°Correcto! Has limpiado y calculado los datos como un pro.")
else:
    print("‚ùå Resultado incorrecto. Revisa la limpieza de los bonos.")