# Demo 1: Análisis Básico de Datos E-commerce

En esta demostración, aprenderemos a realizar un análisis básico de datos de e-commerce usando pandas.

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar visualización
plt.style.use('Solarize_Light2')
%matplotlib inline

# Configurar opciones de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

print('Bibliotecas importadas correctamente')

In [None]:
# Crear dataset de ejemplo
np.random.seed(42)  # Para reproducibilidad

# Crear datos de ventas
data = {
    'fecha': pd.date_range('2024-01-01', periods=100),
    'producto': np.random.choice(['Laptop', 'Smartphone', 'Tablet', 'Smartwatch'], 100),
    'categoria': np.random.choice(['Electrónica', 'Accesorios'], 100),
    'precio': np.random.uniform(100, 1000, 100).round(2),
    'cantidad': np.random.randint(1, 5, 100),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], 100)
}

# Crear DataFrame
df = pd.DataFrame(data)

# Mostrar las primeras filas
print('Primeras 5 filas del DataFrame:')
df.head()

## 1. Exploración Inicial de Datos

In [None]:
# Información básica del DataFrame
print('Información del DataFrame:')
df.info()

print('\nEstadísticas descriptivas:')
df.describe()

print('\nValores únicos por columna:')
for columna in ['producto', 'categoria', 'region']:
    print(f'\n{columna.title()}:')
    print(df[columna].value_counts())

## 2. Análisis de Ventas

In [None]:
# Calcular ventas
df['ventas'] = df['precio'] * df['cantidad']

# Análisis por categoría
print('Análisis de ventas por categoría:')
ventas_categoria = df.groupby('categoria').agg({
    'ventas': ['sum', 'mean', 'count'],
    'cantidad': 'sum'
}).round(2)

display(ventas_categoria)

# Análisis por producto
print('\nVentas por producto:')
ventas_producto = df.groupby('producto')['ventas'].sum().sort_values(ascending=False)
display(ventas_producto)

## 3. Análisis Temporal

In [None]:
# Análisis temporal
ventas_diarias = df.groupby('fecha')['ventas'].sum()
ventas_promedio = ventas_diarias.mean()

# Calcular tendencia con promedio móvil
tendencia = ventas_diarias.rolling(window=7).mean()

# Visualizar tendencia
plt.figure(figsize=(12, 6))
plt.plot(ventas_diarias.index, ventas_diarias.values, label='Ventas diarias', alpha=0.5)
plt.plot(tendencia.index, tendencia.values, label='Tendencia (7 días)', linewidth=2)
plt.axhline(y=ventas_promedio, color='r', linestyle='--', label='Promedio')

plt.title('Tendencia de Ventas Diarias')
plt.xlabel('Fecha')
plt.ylabel('Ventas ($)')
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 4. Análisis de Distribución

In [None]:
# Crear subplot con diferentes visualizaciones
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Distribución de precios
sns.histplot(data=df, x='precio', bins=20, ax=axes[0,0])
axes[0,0].set_title('Distribución de Precios')

# 2. Ventas por categoría
df.groupby('categoria')['ventas'].sum().plot(kind='bar', ax=axes[0,1])
axes[0,1].set_title('Ventas Totales por Categoría')

# 3. Box plot de precios por producto
sns.boxplot(data=df, x='producto', y='precio', ax=axes[1,0])
axes[1,0].set_title('Distribución de Precios por Producto')
axes[1,0].tick_params(axis='x', rotation=45)

# 4. Ventas por región
df.groupby('region')['ventas'].sum().plot(kind='pie', ax=axes[1,1], autopct='%1.1f%%')
axes[1,1].set_title('Distribución de Ventas por Región')

plt.tight_layout()
plt.show()

## 5. KPIs y Métricas Clave

In [None]:
# Calcular KPIs
kpis = {
    'Venta Total': df['ventas'].sum(),
    'Ticket Promedio': df['ventas'].mean(),
    'Cantidad Total Vendida': df['cantidad'].sum(),
    'Número de Transacciones': len(df),
    'Precio Promedio': df['precio'].mean()
}

# Crear DataFrame con KPIs
kpis_df = pd.DataFrame(kpis.items(), columns=['Métrica', 'Valor'])
kpis_df['Valor'] = kpis_df['Valor'].round(2)

print('KPIs Principales:')
display(kpis_df)

# Top 5 días con mayores ventas
print('\nTop 5 días con mayores ventas:')
display(ventas_diarias.sort_values(ascending=False).head())