
# Clase 6 - Fundamentos de IA (IBM)
## Tema: Limpieza y TransformaciÃ³n de Datos con Python (pandas)

En esta clase aprenderemos a preparar datos antes de analizarlos.  
Este proceso es fundamental porque **los datos sin limpiar pueden llevar a conclusiones errÃ³neas**.

---

### Objetivos de Aprendizaje
1. Comprender la importancia de la limpieza de datos en el ciclo de vida de la analÃ­tica.
2. Identificar problemas comunes en datasets reales.
3. Aplicar tÃ©cnicas de limpieza con `pandas`.
4. Realizar transformaciones bÃ¡sicas para mejorar la calidad de los datos.
5. Resolver un caso prÃ¡ctico de negocio: **CafÃ© de Barrio**.

---

### Preguntas iniciales para reflexionar
- Â¿QuÃ© recuerdas de la clase anterior?
- Â¿QuÃ© esperas aprender hoy?
- Â¿QuÃ© dudas tienes antes de comenzar?


## 1. ImportaciÃ³n de LibrerÃ­as y ConfiguraciÃ³n Inicial

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random

# ConfiguraciÃ³n para mostrar mÃ¡s informaciÃ³n en las tablas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

print("LibrerÃ­as cargadas correctamente.")



## 2. GeneraciÃ³n de un Dataset de Ejemplo (Simulado)

Para practicar, vamos a **generar un dataset grande** (300 registros) con diferentes problemas:
- Valores faltantes.
- Duplicados.
- Fechas en distintos formatos.
- Emails repetidos.
- Precios negativos o extremadamente altos.
- Texto en diferentes capitalizaciones.

AsÃ­ podremos aplicar todas las tÃ©cnicas de limpieza en un solo caso.


In [None]:

# FunciÃ³n para generar datos de ejemplo
np.random.seed(42)
random.seed(42)

clientes = ["Ana", "Luis", "Carla", "Pedro", "Maria", "Sofia", "Carlos", "Laura", "Diego", "Valentina"]
emails = [c.lower() + "@mail.com" for c in clientes]

def generar_fecha():
    formatos = ["%Y-%m-%d", "%d/%m/%Y", "%b %d, %Y"]
    fecha = pd.to_datetime("2024-01-01") + pd.to_timedelta(np.random.randint(0, 365), unit="D")
    return fecha.strftime(random.choice(formatos))

data = {
    "cliente": [random.choice(clientes + [None]) for _ in range(300)],
    "fecha": [generar_fecha() if random.random() > 0.05 else None for _ in range(300)],
    "email": [random.choice(emails) for _ in range(300)],
    "precio": [random.choice([random.randint(-100, 2000), None, 999999]) for _ in range(300)],
    "satisfaccion": [random.choice([1,2,3,4,5,None]) for _ in range(300)]
}

df = pd.DataFrame(data)
df.head(10)


## 3. InspecciÃ³n Inicial del Dataset

In [None]:
df.info()

In [None]:
df.describe(include='all')

In [None]:
df.isnull().sum()


## 4. Tratamiento de Valores Faltantes

Estrategias posibles:
1. Eliminar filas con valores nulos.
2. Rellenar con un valor estadÃ­stico (media, mediana, moda).
3. Rellenar con un valor fijo.
4. Usar mÃ©todos de propagaciÃ³n (`ffill` o `bfill`).


In [None]:

# Eliminar filas con valores faltantes en 'cliente'
df_dropna = df.dropna(subset=['cliente'])
print("TamaÃ±o original:", df.shape)
print("DespuÃ©s de eliminar:", df_dropna.shape)

# Rellenar NaN en precio con la mediana
df['precio'] = df['precio'].fillna(df['precio'].median())

# Rellenar NaN en satisfacciÃ³n con 3 (neutral)
df['satisfaccion'] = df['satisfaccion'].fillna(3)

df.head(10)


## 5. EliminaciÃ³n de Duplicados

In [None]:

# Buscar duplicados en email
duplicados = df[df.duplicated(subset=['email'], keep=False)]
print("Duplicados detectados:", len(duplicados))

# Eliminar duplicados
df = df.drop_duplicates(subset=['email'])
df.head()


## 6. Manejo de Inconsistencias de Formato en Fechas

In [None]:

# Convertir columna fecha a datetime
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')
df[['cliente', 'fecha']].head(10)


## 7. Manejo de Valores AtÃ­picos (Outliers)

In [None]:

# DetecciÃ³n con boxplot
plt.boxplot(df['precio'])
plt.title("Boxplot de precios")
plt.show()

# Filtrar precios negativos o extremadamente altos
df = df[(df['precio'] > 0) & (df['precio'] < 10000)]
df.describe()


## 8. Transformaciones BÃ¡sicas

In [None]:

# Normalizar nombres de clientes a mayÃºsculas
df['cliente'] = df['cliente'].str.upper()

# Crear nueva columna de rango de satisfacciÃ³n
df['satisfaccion_categoria'] = df['satisfaccion'].replace({1:"Muy Baja",2:"Baja",3:"Media",4:"Alta",5:"Muy Alta"})

# Crear nueva columna: logaritmo del precio
df['precio_log'] = np.log(df['precio'] + 1)

df.head(10)


## 9. Ejemplos Adicionales de Transformaciones

In [None]:

# Extraer aÃ±o y mes de la fecha
df['anio'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month

# Contar cuÃ¡ntos clientes por mes
clientes_mes = df.groupby('mes')['cliente'].count()
print(clientes_mes)

# Agrupar satisfacciÃ³n promedio por aÃ±o
satisfaccion_anual = df.groupby('anio')['satisfaccion'].mean()
print(satisfaccion_anual)


## 10. Caso PrÃ¡ctico: CafÃ© de Barrio

In [None]:

# SimulaciÃ³n de datos de CafÃ© de Barrio
np.random.seed(123)
cafe = pd.DataFrame({
    "mes": pd.date_range("2024-01-01", periods=12, freq="M"),
    "temperatura": np.random.randint(18, 35, 12),
    "ventas": np.random.randint(200, 1000, 12),
    "publicidad": np.random.randint(100, 500, 12),
    "empleados": np.random.randint(3, 10, 12),
    "satisfaccion": np.random.randint(1, 6, 12)
})
cafe.head()


In [None]:

# CorrelaciÃ³n temperatura vs ventas
print("CorrelaciÃ³n:", cafe['temperatura'].corr(cafe['ventas']))
plt.scatter(cafe['temperatura'], cafe['ventas'])
plt.xlabel("Temperatura (Â°C)")
plt.ylabel("Ventas")
plt.title("RelaciÃ³n temperatura - ventas")
plt.show()



## 11. Cierre y ReflexiÃ³n

- Â¿QuÃ© fue lo mÃ¡s Ãºtil de la clase?  
- Â¿QuÃ© parte te costÃ³ mÃ¡s?  
- Â¿QuÃ© te gustarÃ­a repasar o reforzar?  

ðŸ‘‰ Con esta prÃ¡ctica, entendimos cÃ³mo los **datos crudos** pueden transformarse en **datos Ãºtiles para la toma de decisiones**.
