# Exploración de Datos con Pandas

Este notebook demuestra cómo realizar un análisis exploratorio de datos (EDA) completo usando Pandas.

**Referencia:** [Jupyter Notebooks para Datos](../pandas/jupyter-notebooks-para-datos.md)

**Objetivos:**
- Cargar y explorar datos desde CSV
- Realizar estadísticas descriptivas
- Detectar problemas de calidad
- Visualizar distribuciones y relaciones
- Aplicar técnicas de filtrado y agrupación

## 1. Importar librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

print("✅ Librerías importadas")

## 2. Cargar datos

In [None]:
# Cargar datos desde el CSV de ejemplo
df = pd.read_csv('../data/ventas.csv')

print(f"✅ Datos cargados: {len(df)} registros")
print(f"\nColumnas: {df.columns.tolist()}")
df.head()

## 3. Información básica

In [None]:
print("=== INFORMACIÓN BÁSICA ===")
print(f"Shape: {df.shape}")
print(f"\nColumnas: {df.columns.tolist()}")
print(f"\nTipos de datos:")
print(df.dtypes)

In [None]:
print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
df.describe()

## 4. Detectar problemas de calidad

In [None]:
print("=== VALORES NULOS ===")
nulos = df.isnull().sum()
print(nulos[nulos > 0])

print("\n=== PORCENTAJE DE NULOS ===")
porcentaje_nulos = (df.isnull().sum() / len(df) * 100).sort_values(ascending=False)
print(porcentaje_nulos[porcentaje_nulos > 0])

In [None]:
print("=== DUPLICADOS ===")
duplicados = df.duplicated().sum()
print(f"Duplicados completos: {duplicados}")

In [None]:
print("=== DETECTAR OUTLIERS (IQR) ===")

def detectar_outliers(df, columna):
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = df[(df[columna] < limite_inferior) | (df[columna] > limite_superior)]
    return outliers

outliers_precio = detectar_outliers(df, 'precio')
print(f"Outliers en 'precio': {len(outliers_precio)}")
if len(outliers_precio) > 0:
    print(outliers_precio[['id', 'producto', 'precio']].head())

## 5. Análisis de relaciones

In [None]:
print("=== VENTAS POR CATEGORÍA ===")
ventas_categoria = df.groupby('categoria').agg({
    'total': ['sum', 'mean', 'count'],
    'precio': 'mean'
}).round(2)
print(ventas_categoria)

In [None]:
print("=== VENTAS POR CIUDAD ===")
ventas_ciudad = df.groupby('ciudad')['total'].sum().sort_values(ascending=False)
print(ventas_ciudad)

## 6. Visualizaciones

In [None]:
# Histograma de precios
plt.figure(figsize=(10, 6))
df['precio'].hist(bins=20, edgecolor='black')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')
plt.title('Distribución de Precios')
plt.show()

In [None]:
# Ventas por categoría
plt.figure(figsize=(10, 6))
df.groupby('categoria')['total'].sum().sort_values(ascending=True).plot(kind='barh', color='steelblue')
plt.title('Ventas Totales por Categoría')
plt.xlabel('Ventas Totales (€)')
plt.tight_layout()
plt.show()

In [None]:
# Ventas por mes
df['fecha'] = pd.to_datetime(df['fecha'])
df['mes'] = df['fecha'].dt.to_period('M')

plt.figure(figsize=(12, 6))
ventas_mensuales = df.groupby('mes')['total'].sum()
ventas_mensuales.plot(marker='o', linewidth=2)
plt.title('Tendencia de Ventas Mensuales')
plt.xlabel('Mes')
plt.ylabel('Ventas Totales (€)')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Resumen de insights

In [None]:
print("=== INSIGHTS PRINCIPALES ===")
print(f"1. Total de ventas: €{df['total'].sum():,.2f}")
print(f"2. Promedio por transacción: €{df['total'].mean():,.2f}")
print(f"3. Categoría con más ventas: {df.groupby('categoria')['total'].sum().idxmax()}")
print(f"4. Ciudad con más ventas: {df.groupby('ciudad')['total'].sum().idxmax()}")
print(f"5. Total de transacciones: {len(df)}")
print(f"6. Valores nulos: {df.isnull().sum().sum()}")
print(f"7. Duplicados: {df.duplicated().sum()}")
print(f"8. Precio promedio: €{df['precio'].mean():.2f}")
print(f"9. Producto más caro: {df.loc[df['precio'].idxmax(), 'producto']} (€{df['precio'].max():.2f})")

---

**Próximo paso:** Revisa el notebook de [Storytelling con Datos](02-storytelling-datos.ipynb) para aprender a comunicar estos insights efectivamente.