# üìä An√°lisis Exploratorio de Datos (EDA) - Tutorial Paso a Paso

## üéØ Objetivos de este Tutorial

En este notebook aprender√°s a realizar un **An√°lisis Exploratorio de Datos (EDA)** completo usando Python. Al finalizar, sabr√°s:

- ‚úÖ Cargar y examinar datasets
- ‚úÖ Limpiar y preparar datos
- ‚úÖ Crear visualizaciones informativas
- ‚úÖ Identificar patrones y tendencias
- ‚úÖ Detectar valores at√≠picos (outliers)
- ‚úÖ Analizar correlaciones entre variables

---

## üìö ¬øQu√© es el EDA?

El **An√°lisis Exploratorio de Datos** es el proceso de investigar un dataset para:
- Entender su estructura y contenido
- Identificar patrones, tendencias y anomal√≠as
- Generar hip√≥tesis sobre los datos
- Decidir qu√© an√°lisis m√°s profundos realizar

Es como ser un detective de datos! üïµÔ∏è‚Äç‚ôÇÔ∏è

## üîß Paso 1: Importar las Librer√≠as Necesarias

Comenzamos importando las herramientas que necesitaremos:

In [None]:
!uv pip install seaborn
!uv pip install plotly


In [None]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configuraci√≥n de estilo
plt.style.use('default')
sns.set_palette("husl")

# Configurar matplotlib para mostrar gr√°ficos en espa√±ol
plt.rcParams['font.size'] = 12
plt.rcParams['figure.figsize'] = (10, 6)

# Suprimir warnings innecesarios
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ ¬°Librer√≠as importadas exitosamente!")
print(f"üì¶ Pandas versi√≥n: {pd.__version__}")
print(f"üî¢ NumPy versi√≥n: {np.__version__}")

## üìÇ Paso 2: Cargar los Datos

Para este tutorial, crearemos un dataset de ejemplo que simula datos de ventas de una tienda online. En un caso real, cargar√≠as tus datos desde un archivo CSV, Excel, base de datos, etc.

In [None]:
# Crear un dataset de ejemplo - Ventas de tienda online
np.random.seed(42)  # Para reproducibilidad

# Generar datos simulados
n_registros = 1000

# Fechas
fechas = pd.date_range(start='2023-01-01', end='2023-12-31', periods=n_registros)

# Categor√≠as de productos
categorias = ['Electr√≥nicos', 'Ropa', 'Hogar', 'Deportes', 'Libros']
categoria = np.random.choice(categorias, n_registros)

# Regiones
regiones = ['Norte', 'Sur', 'Este', 'Oeste', 'Centro']
region = np.random.choice(regiones, n_registros)

# Precios (con distribuci√≥n realista)
precio_base = {'Electr√≥nicos': 500, 'Ropa': 50, 'Hogar': 200, 'Deportes': 100, 'Libros': 25}
precio = [precio_base[cat] * (0.5 + np.random.random()) for cat in categoria]

# Cantidad vendida
cantidad = np.random.randint(1, 11, n_registros)

# Ingresos totales
ingresos = [p * c for p, c in zip(precio, cantidad)]

# Edad del cliente
edad = np.random.normal(35, 12, n_registros).astype(int)
edad = np.clip(edad, 18, 80)  # Limitar entre 18 y 80 a√±os

# M√©todo de pago
metodo_pago = np.random.choice(['Tarjeta', 'Efectivo', 'PayPal', 'Transferencia'], n_registros)

# Crear el DataFrame
datos = pd.DataFrame({
    'fecha': fechas,
    'categoria': categoria,
    'region': region,
    'precio_unitario': precio,
    'cantidad': cantidad,
    'ingresos_totales': ingresos,
    'edad_cliente': edad,
    'metodo_pago': metodo_pago
})

# Agregar algunos valores nulos para hacer m√°s realista
indices_nulos = np.random.choice(datos.index, size=20, replace=False)
datos.loc[indices_nulos[:10], 'edad_cliente'] = np.nan
datos.loc[indices_nulos[10:], 'metodo_pago'] = np.nan

print(f"‚úÖ Dataset creado exitosamente con {len(datos):,} registros")
print(f"üìÖ Per√≠odo: {datos['fecha'].min().strftime('%Y-%m-%d')} a {datos['fecha'].max().strftime('%Y-%m-%d')}")

## üëÄ Paso 3: Primera Exploraci√≥n - Conocer los Datos

Siempre comenzamos con una exploraci√≥n b√°sica para entender qu√© tenemos:

In [None]:
# Ver las primeras filas
print("üîç PRIMERAS 5 FILAS DEL DATASET:")
print("=" * 50)
display(datos.head())

print("\nüìè FORMA DEL DATASET:")
print(f"Filas: {datos.shape[0]:,}")
print(f"Columnas: {datos.shape[1]}")

print("\nüìã NOMBRES Y TIPOS DE COLUMNAS:")
print("=" * 30)
display(datos.dtypes)

In [None]:
# Informaci√≥n general del dataset
print("üìä INFORMACI√ìN GENERAL DEL DATASET:")
print("=" * 40)
datos.info()

print("\nüîç √öLTIMAS 3 FILAS:")
print("=" * 20)
display(datos.tail(3))

## üßπ Paso 4: Limpieza y Calidad de Datos

Antes de analizar, debemos verificar la calidad de nuestros datos:

In [None]:
# Verificar valores nulos
print("‚ùå VALORES NULOS POR COLUMNA:")
print("=" * 30)
valores_nulos = datos.isnull().sum()
porcentaje_nulos = (valores_nulos / len(datos)) * 100

resumen_nulos = pd.DataFrame({
    'Valores_Nulos': valores_nulos,
    'Porcentaje': porcentaje_nulos.round(2)
})

display(resumen_nulos[resumen_nulos['Valores_Nulos'] > 0])

# Verificar duplicados
duplicados = datos.duplicated().sum()
print(f"\nüîÑ FILAS DUPLICADAS: {duplicados}")

if duplicados > 0:
    print("‚ö†Ô∏è  Se encontraron filas duplicadas. Considera eliminarlas.")
else:
    print("‚úÖ No hay filas duplicadas.")

In [None]:
# Tratamiento de valores nulos (ejemplo)
print("üîß TRATAMIENTO DE VALORES NULOS:")
print("=" * 35)

# Para edad: llenar con la mediana
mediana_edad = datos['edad_cliente'].median()
datos['edad_cliente'].fillna(mediana_edad, inplace=True)
print(f"‚úÖ Edad nula llenada con mediana: {mediana_edad:.0f} a√±os")

# Para m√©todo de pago: llenar con el m√°s frecuente
metodo_frecuente = datos['metodo_pago'].mode()[0]
datos['metodo_pago'].fillna(metodo_frecuente, inplace=True)
print(f"‚úÖ M√©todo de pago nulo llenado con: {metodo_frecuente}")

# Verificar que no quedan nulos
nulos_restantes = datos.isnull().sum().sum()
print(f"\nüéØ Valores nulos restantes: {nulos_restantes}")

## üìà Paso 5: Estad√≠sticas Descriptivas

Ahora exploramos las caracter√≠sticas estad√≠sticas de nuestros datos:

In [None]:
# Estad√≠sticas para variables num√©ricas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS:")
print("=" * 55)
display(datos.describe().round(2))

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("üìù ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS:")
print("=" * 55)

variables_categoricas = ['categoria', 'region', 'metodo_pago']

for variable in variables_categoricas:
    print(f"\nüè∑Ô∏è  {variable.upper()}:")
    conteos = datos[variable].value_counts()
    porcentajes = (datos[variable].value_counts(normalize=True) * 100).round(1)
    
    resumen = pd.DataFrame({
        'Cantidad': conteos,
        'Porcentaje': porcentajes
    })
    
    display(resumen)

## üìä Paso 6: Visualizaciones Univariadas

Exploramos cada variable por separado para entender sus distribuciones:

In [None]:
# Histogramas para variables num√©ricas
variables_numericas = ['precio_unitario', 'cantidad', 'ingresos_totales', 'edad_cliente']

fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('üìä Distribuci√≥n de Variables Num√©ricas', fontsize=16, fontweight='bold')

for i, variable in enumerate(variables_numericas):
    ax = axes[i//2, i%2]
    
    # Histograma
    datos[variable].hist(bins=30, alpha=0.7, color='skyblue', edgecolor='black', ax=ax)
    
    # L√≠nea de la media
    media = datos[variable].mean()
    ax.axvline(media, color='red', linestyle='--', linewidth=2, label=f'Media: {media:.1f}')
    
    # Configuraci√≥n
    ax.set_title(f'{variable.replace("_", " ").title()}', fontweight='bold')
    ax.set_xlabel(variable.replace('_', ' ').title())
    ax.set_ylabel('Frecuencia')
    ax.legend()
    ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Interpretaciones
print("üîç INTERPRETACIONES:")
print("=" * 20)
print("‚Ä¢ Precio unitario: Muestra la distribuci√≥n de precios por categor√≠a")
print("‚Ä¢ Cantidad: La mayor√≠a de compras son de pocas unidades")
print("‚Ä¢ Ingresos totales: Distribuci√≥n sesgada hacia valores m√°s bajos")
print("‚Ä¢ Edad cliente: Distribuci√≥n aproximadamente normal centrada en ~35 a√±os")

In [None]:
# Gr√°ficos de barras para variables categ√≥ricas
fig, axes = plt.subplots(1, 3, figsize=(18, 6))
fig.suptitle('üìä Distribuci√≥n de Variables Categ√≥ricas', fontsize=16, fontweight='bold')

variables_cat = ['categoria', 'region', 'metodo_pago']
colores = ['lightcoral', 'lightgreen', 'lightblue']

for i, (variable, color) in enumerate(zip(variables_cat, colores)):
    conteos = datos[variable].value_counts()
    
    # Gr√°fico de barras
    conteos.plot(kind='bar', ax=axes[i], color=color, edgecolor='black', alpha=0.8)
    
    # Configuraci√≥n
    axes[i].set_title(f'{variable.replace("_", " ").title()}', fontweight='bold')
    axes[i].set_xlabel('')
    axes[i].set_ylabel('Frecuencia')
    axes[i].tick_params(axis='x', rotation=45)
    axes[i].grid(True, alpha=0.3)
    
    # Agregar valores en las barras
    for j, v in enumerate(conteos.values):
        axes[i].text(j, v + 5, str(v), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

## üîç Paso 7: An√°lisis Bivariado

Ahora exploramos las relaciones entre pares de variables:

In [None]:
# Matriz de correlaci√≥n
print("üîó MATRIZ DE CORRELACI√ìN:")
print("=" * 25)

# Seleccionar solo variables num√©ricas
datos_numericos = datos.select_dtypes(include=[np.number])
correlaciones = datos_numericos.corr()

# Crear heatmap
plt.figure(figsize=(10, 8))
mask = np.triu(np.ones_like(correlaciones, dtype=bool))  # M√°scara para mostrar solo la mitad

sns.heatmap(correlaciones, 
            mask=mask,
            annot=True, 
            cmap='RdYlBu_r', 
            center=0,
            square=True,
            fmt='.2f',
            cbar_kws={'label': 'Coeficiente de Correlaci√≥n'})

plt.title('üîó Matriz de Correlaci√≥n entre Variables Num√©ricas', fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Mostrar correlaciones m√°s fuertes
print("\nüéØ CORRELACIONES M√ÅS FUERTES (|r| > 0.3):")
print("=" * 45)
correlaciones_fuertes = []
for i in range(len(correlaciones.columns)):
    for j in range(i+1, len(correlaciones.columns)):
        var1 = correlaciones.columns[i]
        var2 = correlaciones.columns[j]
        corr = correlaciones.iloc[i, j]
        if abs(corr) > 0.3:
            correlaciones_fuertes.append((var1, var2, corr))

for var1, var2, corr in sorted(correlaciones_fuertes, key=lambda x: abs(x[2]), reverse=True):
    direccion = "positiva" if corr > 0 else "negativa"
    print(f"‚Ä¢ {var1} ‚Üî {var2}: {corr:.3f} ({direccion})")

In [None]:
# Scatter plots para relaciones interesantes
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Precio vs Ingresos (coloreado por categor√≠a)
for categoria in datos['categoria'].unique():
    mask = datos['categoria'] == categoria
    axes[0].scatter(datos[mask]['precio_unitario'], 
                   datos[mask]['ingresos_totales'],
                   label=categoria, alpha=0.6, s=50)

axes[0].set_xlabel('Precio Unitario')
axes[0].set_ylabel('Ingresos Totales')
axes[0].set_title('üí∞ Precio vs Ingresos por Categor√≠a')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Edad vs Ingresos
axes[1].scatter(datos['edad_cliente'], datos['ingresos_totales'], 
               alpha=0.6, color='purple', s=50)
axes[1].set_xlabel('Edad del Cliente')
axes[1].set_ylabel('Ingresos Totales')
axes[1].set_title('üë• Edad vs Ingresos')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üìä Paso 8: An√°lisis por Categor√≠as

Exploremos c√≥mo se comportan nuestros datos seg√∫n diferentes categor√≠as:

In [None]:
# Box plots para comparar distribuciones por categor√≠a
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üì¶ Distribuci√≥n de Ingresos por Diferentes Categor√≠as', fontsize=16, fontweight='bold')

# Por categor√≠a de producto
sns.boxplot(data=datos, x='categoria', y='ingresos_totales', ax=axes[0,0])
axes[0,0].set_title('Por Categor√≠a de Producto')
axes[0,0].tick_params(axis='x', rotation=45)

# Por regi√≥n
sns.boxplot(data=datos, x='region', y='ingresos_totales', ax=axes[0,1])
axes[0,1].set_title('Por Regi√≥n')

# Por m√©todo de pago
sns.boxplot(data=datos, x='metodo_pago', y='ingresos_totales', ax=axes[1,0])
axes[1,0].set_title('Por M√©todo de Pago')
axes[1,0].tick_params(axis='x', rotation=45)

# Por grupos de edad
datos['grupo_edad'] = pd.cut(datos['edad_cliente'], 
                            bins=[0, 25, 35, 50, 100], 
                            labels=['18-25', '26-35', '36-50', '51+'])
sns.boxplot(data=datos, x='grupo_edad', y='ingresos_totales', ax=axes[1,1])
axes[1,1].set_title('Por Grupo de Edad')

for ax in axes.flat:
    ax.grid(True, alpha=0.3)
    ax.set_ylabel('Ingresos Totales')

plt.tight_layout()
plt.show()

In [None]:
# Tabla resumen por categor√≠a
print("üìã RESUMEN ESTAD√çSTICO POR CATEGOR√çA DE PRODUCTO:")
print("=" * 50)

resumen_categoria = datos.groupby('categoria').agg({
    'ingresos_totales': ['count', 'mean', 'median', 'std', 'sum'],
    'edad_cliente': 'mean',
    'cantidad': 'mean'
}).round(2)

# Simplificar nombres de columnas
resumen_categoria.columns = ['Num_Ventas', 'Ingreso_Promedio', 'Ingreso_Mediano', 
                           'Desv_Estandar', 'Ingresos_Totales', 'Edad_Promedio', 'Cantidad_Promedio']

display(resumen_categoria)

print("\nüéØ INSIGHTS CLAVE:")
categoria_mas_ingresos = resumen_categoria['Ingresos_Totales'].idxmax()
categoria_mas_ventas = resumen_categoria['Num_Ventas'].idxmax()
categoria_mayor_ticket = resumen_categoria['Ingreso_Promedio'].idxmax()

print(f"‚Ä¢ üí∞ Categor√≠a con mayores ingresos totales: {categoria_mas_ingresos}")
print(f"‚Ä¢ üõçÔ∏è  Categor√≠a con m√°s ventas: {categoria_mas_ventas}")
print(f"‚Ä¢ üíé Categor√≠a con mayor ticket promedio: {categoria_mayor_ticket}")

## ‚ö° Paso 9: Detecci√≥n de Valores At√≠picos (Outliers)

Identifiquemos valores inusuales que podr√≠an requerir atenci√≥n especial:

In [None]:
def detectar_outliers_iqr(serie, factor=1.5):
    """
    Detecta outliers usando el m√©todo del rango intercuartil (IQR)
    """
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - factor * IQR
    limite_superior = Q3 + factor * IQR
    
    outliers = serie[(serie < limite_inferior) | (serie > limite_superior)]
    
    return outliers, limite_inferior, limite_superior

# Detectar outliers en ingresos totales
print("üö® DETECCI√ìN DE VALORES AT√çPICOS:")
print("=" * 35)

variable = 'ingresos_totales'
outliers, limite_inf, limite_sup = detectar_outliers_iqr(datos[variable])

print(f"üìä Variable analizada: {variable}")
print(f"üìè L√≠mite inferior: {limite_inf:.2f}")
print(f"üìè L√≠mite superior: {limite_sup:.2f}")
print(f"üö® N√∫mero de outliers: {len(outliers)} ({len(outliers)/len(datos)*100:.1f}%)")

if len(outliers) > 0:
    print(f"üí∞ Valor m√≠nimo outlier: {outliers.min():.2f}")
    print(f"üí∞ Valor m√°ximo outlier: {outliers.max():.2f}")

# Visualizar outliers
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Box plot con outliers marcados
bp = ax1.boxplot(datos[variable], patch_artist=True, showfliers=True)
bp['boxes'][0].set_facecolor('lightblue')
ax1.set_ylabel('Ingresos Totales')
ax1.set_title('üì¶ Box Plot - Detecci√≥n de Outliers')
ax1.grid(True, alpha=0.3)

# Histograma con l√≠neas de l√≠mites
ax2.hist(datos[variable], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
ax2.axvline(limite_inf, color='red', linestyle='--', label=f'L√≠mite inf: {limite_inf:.0f}')
ax2.axvline(limite_sup, color='red', linestyle='--', label=f'L√≠mite sup: {limite_sup:.0f}')
ax2.set_xlabel('Ingresos Totales')
ax2.set_ylabel('Frecuencia')
ax2.set_title('üìä Histograma con L√≠mites de Outliers')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üìÖ Paso 10: An√°lisis Temporal

Exploremos c√≥mo cambian nuestros datos a lo largo del tiempo:

In [None]:
# Agregar columnas de tiempo
datos['mes'] = datos['fecha'].dt.month
datos['nombre_mes'] = datos['fecha'].dt.month_name()
datos['d√≠a_semana'] = datos['fecha'].dt.day_name()

# An√°lisis por mes
ventas_por_mes = datos.groupby('mes').agg({
    'ingresos_totales': ['sum', 'count', 'mean']
}).round(2)

ventas_por_mes.columns = ['Ingresos_Totales', 'Num_Ventas', 'Ticket_Promedio']

# Crear gr√°ficos temporales
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üìÖ An√°lisis Temporal de Ventas', fontsize=16, fontweight='bold')

# Ingresos por mes
ventas_por_mes['Ingresos_Totales'].plot(kind='line', marker='o', 
                                       color='blue', linewidth=2, ax=axes[0,0])
axes[0,0].set_title('üí∞ Ingresos Totales por Mes')
axes[0,0].set_xlabel('Mes')
axes[0,0].set_ylabel('Ingresos Totales')
axes[0,0].grid(True, alpha=0.3)

# N√∫mero de ventas por mes
ventas_por_mes['Num_Ventas'].plot(kind='bar', color='green', alpha=0.7, ax=axes[0,1])
axes[0,1].set_title('üõçÔ∏è N√∫mero de Ventas por Mes')
axes[0,1].set_xlabel('Mes')
axes[0,1].set_ylabel('N√∫mero de Ventas')
axes[0,1].tick_params(axis='x', rotation=0)
axes[0,1].grid(True, alpha=0.3)

# An√°lisis por d√≠a de la semana
orden_dias = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
ventas_por_dia = datos.groupby('d√≠a_semana')['ingresos_totales'].sum().reindex(orden_dias)

ventas_por_dia.plot(kind='bar', color='orange', alpha=0.7, ax=axes[1,0])
axes[1,0].set_title('üìä Ingresos por D√≠a de la Semana')
axes[1,0].set_xlabel('D√≠a de la Semana')
axes[1,0].set_ylabel('Ingresos Totales')
axes[1,0].tick_params(axis='x', rotation=45)
axes[1,0].grid(True, alpha=0.3)

# Evoluci√≥n diaria (muestra una semana)
datos_semana = datos[datos['fecha'].between('2023-01-01', '2023-01-07')]
ingresos_diarios = datos_semana.groupby('fecha')['ingresos_totales'].sum()

ingresos_diarios.plot(kind='line', marker='o', color='purple', linewidth=2, ax=axes[1,1])
axes[1,1].set_title('üìà Evoluci√≥n Diaria (Primera Semana)')
axes[1,1].set_xlabel('Fecha')
axes[1,1].set_ylabel('Ingresos Totales')
axes[1,1].tick_params(axis='x', rotation=45)
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas temporales
print("\nüìä ESTAD√çSTICAS TEMPORALES:")
print("=" * 30)
mes_mejor = ventas_por_mes['Ingresos_Totales'].idxmax()
mes_peor = ventas_por_mes['Ingresos_Totales'].idxmin()
dia_mejor = ventas_por_dia.idxmax()
dia_peor = ventas_por_dia.idxmin()

print(f"üèÜ Mejor mes: {mes_mejor} (${ventas_por_mes.loc[mes_mejor, 'Ingresos_Totales']:,.2f})")
print(f"üìâ Peor mes: {mes_peor} (${ventas_por_mes.loc[mes_peor, 'Ingresos_Totales']:,.2f})")
print(f"üèÜ Mejor d√≠a: {dia_mejor} (${ventas_por_dia[dia_mejor]:,.2f})")
print(f"üìâ Peor d√≠a: {dia_peor} (${ventas_por_dia[dia_peor]:,.2f})")

## üéØ Paso 11: Resumen de Insights y Conclusiones

Consolidemos los hallazgos m√°s importantes de nuestro an√°lisis:

In [None]:
# Crear un resumen ejecutivo
print("üìã RESUMEN EJECUTIVO - INSIGHTS CLAVE")
print("=" * 40)

# M√©tricas generales
ingresos_totales = datos['ingresos_totales'].sum()
num_transacciones = len(datos)
ticket_promedio = datos['ingresos_totales'].mean()
edad_promedio = datos['edad_cliente'].mean()

print(f"üí∞ Ingresos totales: ${ingresos_totales:,.2f}")
print(f"üõçÔ∏è  Total de transacciones: {num_transacciones:,}")
print(f"üí≥ Ticket promedio: ${ticket_promedio:.2f}")
print(f"üë• Edad promedio de clientes: {edad_promedio:.1f} a√±os")

print("\nüèÜ TOP PERFORMERS:")
print("-" * 20)
categoria_top = datos.groupby('categoria')['ingresos_totales'].sum().idxmax()
region_top = datos.groupby('region')['ingresos_totales'].sum().idxmax()
metodo_top = datos.groupby('metodo_pago')['ingresos_totales'].sum().idxmax()

print(f"ü•á Mejor categor√≠a: {categoria_top}")
print(f"ü•á Mejor regi√≥n: {region_top}")
print(f"ü•á M√©todo de pago preferido: {metodo_top}")

print("\n‚ö†Ô∏è  √ÅREAS DE ATENCI√ìN:")
print("-" * 25)
outliers_pct = len(outliers) / len(datos) * 100
print(f"üö® {outliers_pct:.1f}% de transacciones son outliers")

categoria_peor = datos.groupby('categoria')['ingresos_totales'].sum().idxmin()
print(f"üìâ Categor√≠a con menores ingresos: {categoria_peor}")

print("\nüí° RECOMENDACIONES:")
print("-" * 20)
print(f"‚Ä¢ Enfocar marketing en categor√≠a '{categoria_top}' (mejor performance)")
print(f"‚Ä¢ Investigar por qu√© '{categoria_peor}' tiene bajos ingresos")
print(f"‚Ä¢ Optimizar estrategia para regi√≥n '{region_top}'")
print(f"‚Ä¢ Promover uso de '{metodo_top}' como m√©todo de pago")
if outliers_pct > 5:
    print("‚Ä¢ Revisar transacciones at√≠picas para detectar fraudes o errores")
print("‚Ä¢ Analizar patrones temporales para optimizar inventario")

## üìä Paso 12: Dashboard Interactivo (Bonus)

Creemos algunas visualizaciones interactivas usando Plotly:

In [None]:
# Gr√°fico de dispersi√≥n interactivo
fig = px.scatter(datos, 
                x='precio_unitario', 
                y='ingresos_totales',
                color='categoria',
                size='cantidad',
                hover_data=['edad_cliente', 'region', 'metodo_pago'],
                title='üí∞ An√°lisis Interactivo: Precio vs Ingresos por Categor√≠a',
                labels={
                    'precio_unitario': 'Precio Unitario ($)',
                    'ingresos_totales': 'Ingresos Totales ($)',
                    'cantidad': 'Cantidad',
                    'categoria': 'Categor√≠a'
                })

fig.update_layout(
    width=900,
    height=600,
    showlegend=True
)

fig.show()

print("üí° TIP: Pasa el cursor sobre los puntos para ver m√°s detalles!")

In [None]:
# Gr√°fico de barras interactivo por mes
ventas_mes_categoria = datos.groupby(['mes', 'categoria'])['ingresos_totales'].sum().reset_index()

fig = px.bar(ventas_mes_categoria, 
            x='mes', 
            y='ingresos_totales',
            color='categoria',
            title='üìÖ Ingresos Mensuales por Categor√≠a (Interactivo)',
            labels={
                'mes': 'Mes',
                'ingresos_totales': 'Ingresos Totales ($)',
                'categoria': 'Categor√≠a'
            })

fig.update_layout(
    width=900,
    height=500,
    showlegend=True
)

fig.show()

print("üí° TIP: Haz clic en las leyendas para mostrar/ocultar categor√≠as!")

## üéì Paso 13: Pr√≥ximos Pasos y Mejores Pr√°cticas

### üîç Lo que hemos aprendido:

1. **Exploraci√≥n inicial**: Siempre comienza entendiendo la estructura de tus datos
2. **Limpieza**: Maneja valores nulos y duplicados antes del an√°lisis
3. **Estad√≠sticas descriptivas**: Conoce las distribuciones de tus variables
4. **Visualizaci√≥n**: Las gr√°ficas revelan patrones que los n√∫meros no muestran
5. **An√°lisis bivariado**: Las correlaciones revelan relaciones importantes
6. **Segmentaci√≥n**: Analizar por categor√≠as revela insights espec√≠ficos
7. **Outliers**: Los valores at√≠picos pueden ser errores o insights valiosos
8. **An√°lisis temporal**: Los patrones en el tiempo son cruciales para el negocio

### üöÄ Pr√≥ximos pasos sugeridos:

- **Modelado predictivo**: Usar machine learning para predecir ventas
- **Segmentaci√≥n de clientes**: Clustering para identificar tipos de clientes
- **An√°lisis de series temporales**: Forecasting de ventas futuras
- **A/B testing**: Experimentaci√≥n para optimizar estrategias
- **Dashboard automatizado**: Crear reportes que se actualicen autom√°ticamente

### üìö Recursos para seguir aprendiendo:

- **Pandas**: Documentaci√≥n oficial para manipulaci√≥n de datos
- **Seaborn**: Para visualizaciones estad√≠sticas avanzadas
- **Plotly**: Para dashboards interactivos
- **Scikit-learn**: Para machine learning
- **Streamlit**: Para crear aplicaciones web de datos

---

## üéâ ¬°Felicitaciones!

Has completado un an√°lisis exploratorio de datos completo. Ahora tienes las herramientas para:

‚úÖ Cargar y explorar cualquier dataset  
‚úÖ Limpiar y preparar datos para an√°lisis  
‚úÖ Crear visualizaciones informativas  
‚úÖ Identificar patrones y tendencias  
‚úÖ Generar insights accionables para el negocio  

**¬°Sigue practicando con tus propios datos!** üìäüöÄ