# 🧹 Ejercicio Práctico de Limpieza de Datos

## Objetivo

En este ejercicio, trabajarás con un dataset que simula datos de una tienda online de tecnología. El dataset contiene varios problemas comunes que necesitarás resolver utilizando las técnicas aprendidas en los notebooks anteriores.

## Tareas

1. Explorar y analizar los datos iniciales
2. Limpiar y estandarizar las fechas
3. Manejar valores nulos
4. Estandarizar categorías de productos
5. Detectar y manejar outliers en precios
6. Validar correos electrónicos
7. Crear métricas de ventas

## Dataset

El dataset contiene las siguientes columnas:
- fecha_compra: Fecha de la transacción (en diferentes formatos)
- producto: Nombre del producto
- categoria: Categoría del producto (con inconsistencias)
- precio: Precio del producto (con outliers y valores nulos)
- cantidad: Cantidad comprada
- email_cliente: Email del cliente (algunos inválidos)
- pais: País de la compra (con inconsistencias y valores nulos)

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import re

# Configuraciones
pd.set_option('display.max_columns', None)


In [3]:
# Crear dataset de ejemplo con problemas
np.random.seed(42)
n = 1000

# Generar fechas en diferentes formatos
fechas_base = pd.date_range(start='2023-01-01', end='2023-12-31', periods=n)
formatos_fecha = ['%Y-%m-%d', '%d/%m/%Y', '%d-%m-%y', '%Y.%m.%d']
fechas = [f.strftime(np.random.choice(formatos_fecha)) for f in fechas_base]

# Productos y categorías con inconsistencias
productos = {
    'Laptops': ['MacBook Pro', 'Dell XPS', 'HP Pavilion', 'Lenovo ThinkPad'],
    'Smartphones': ['iPhone 14', 'Samsung S23', 'Google Pixel', 'Xiaomi 13'],
    'Tablets': ['iPad Pro', 'Samsung Tab', 'Lenovo Tab', 'Amazon Fire'],
    'Accesorios': ['AirPods Pro', 'Magic Mouse', 'USB-C Hub', 'Power Bank']
}

categorias_inconsistentes = {
    'Laptops': ['laptops', 'LAPTOPS', 'Portatiles', 'Notebooks'],
    'Smartphones': ['smartphones', 'Celulares', 'Moviles', 'SMARTPHONES'],
    'Tablets': ['tablets', 'TABLETS', 'Tabletas', 'TABs'],
    'Accesorios': ['accesorios', 'ACCESORIOS', 'Accessories', 'ACC']
}

# Generar datos
todos_productos = [item for sublist in productos.values() for item in sublist]
todas_categorias = [item for sublist in categorias_inconsistentes.values() for item in sublist]

df = pd.DataFrame({
    'fecha_compra': fechas,
    'producto': np.random.choice(todos_productos, n),
    'categoria': np.random.choice(todas_categorias, n),
    'precio': np.random.uniform(100, 2000, n),
    'cantidad': np.random.randint(1, 5, n),
    'email_cliente': [f'cliente{i}@ejemplo.com' if np.random.random() > 0.1 
                      else np.random.choice(['invalido@.com', 'cliente@', '@dominio.com']) 
                      for i in range(n)],
    'pais': np.random.choice(['España', 'españa', 'ESPAÑA', 'ESP', 
                             'Mexico', 'méxico', 'MEXICO', 'MEX'], n)
})

# Introducir problemas
# 1. Valores nulos
df.loc[np.random.choice(n, 50), 'precio'] = None
df.loc[np.random.choice(n, 30), 'pais'] = None

# 2. Outliers en precios
df.loc[np.random.choice(n, 10), 'precio'] = np.random.uniform(5000, 10000, 10)

# 3. Duplicados
df = pd.concat([df, df.sample(n=50)])

# Mostrar primeras filas y información del dataset
print("Primeras filas del dataset:")
display(df.head())

print("\nInformación del dataset:")
print(df.info())

print("\nValores nulos por columna:")
print(df.isnull().sum())

Primeras filas del dataset:


Unnamed: 0,fecha_compra,producto,categoria,precio,cantidad,email_cliente,pais
0,01-01-23,Samsung S23,Accessories,1086.255392,3,cliente0@ejemplo.com,España
1,2023.01.01,USB-C Hub,TABs,1010.445567,3,cliente1@ejemplo.com,MEX
2,2023-01-01,MacBook Pro,ACCESORIOS,148.719925,3,cliente2@ejemplo.com,Mexico
3,02-01-23,iPad Pro,ACC,748.370872,3,cliente3@ejemplo.com,españa
4,02-01-23,MacBook Pro,SMARTPHONES,822.371676,4,cliente4@ejemplo.com,ESP



Información del dataset:
<class 'pandas.core.frame.DataFrame'>
Index: 1050 entries, 0 to 688
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   fecha_compra   1050 non-null   object 
 1   producto       1050 non-null   object 
 2   categoria      1050 non-null   object 
 3   precio         998 non-null    float64
 4   cantidad       1050 non-null   int64  
 5   email_cliente  1050 non-null   object 
 6   pais           1017 non-null   object 
dtypes: float64(1), int64(1), object(5)
memory usage: 65.6+ KB
None

Valores nulos por columna:
fecha_compra      0
producto          0
categoria         0
precio           52
cantidad          0
email_cliente     0
pais             33
dtype: int64


## Ejercicios

### 1. Exploración Inicial
- Realiza un análisis exploratorio de los datos
- Identifica los principales problemas en cada columna
- Crea visualizaciones para entender mejor los datos

In [None]:
# Tu código aquí


### 2. Limpieza de Fechas
- Identifica los diferentes formatos de fecha presentes
- Crea una función para estandarizar todas las fechas a formato ISO (YYYY-MM-DD)
- Verifica que todas las fechas se han convertido correctamente

In [None]:
# Tu código aquí


### 3. Manejo de Valores Nulos
- Analiza los valores nulos en cada columna
- Decide la mejor estrategia para cada tipo de valor nulo
- Implementa las estrategias de imputación elegidas

In [None]:
# Tu código aquí


### 4. Estandarización de Categorías
- Identifica todas las variantes de cada categoría
- Crea un sistema de mapeo para estandarizar las categorías
- Aplica la estandarización y verifica los resultados

In [None]:
# Tu código aquí


### 5. Detección y Manejo de Outliers
- Identifica outliers en la columna de precios
- Visualiza la distribución de precios
- Implementa una estrategia para manejar los outliers

In [None]:
# Tu código aquí


### 6. Validación de Emails
- Crea una función para validar formatos de email
- Identifica y marca los emails inválidos
- Decide cómo manejar los emails inválidos

In [None]:
# Tu código aquí


### 7. Métricas de Ventas
- Calcula el total de ventas por categoría
- Identifica los productos más vendidos
- Crea visualizaciones para mostrar las tendencias de ventas

In [None]:
# Tu código aquí


## Bonus: Automatización

Como desafío adicional, crea una clase `LimpiadorDatos` que automatice todo el proceso de limpieza anterior. La clase debería:

1. Recibir el DataFrame como input
2. Tener métodos para cada tipo de limpieza
3. Permitir encadenar operaciones
4. Generar un reporte de los cambios realizados

In [None]:
# Tu código aquí
