# Laboratorio 1: Análisis Básico de Datos E-commerce

En este laboratorio, practicarás el análisis de datos de e-commerce usando pandas y técnicas de visualización.

## Objetivos
1. Realizar análisis exploratorio de datos
2. Calcular métricas clave de ventas
3. Crear visualizaciones informativas
4. Identificar patrones en los datos

## Datos
Trabajaremos con un dataset de ventas de e-commerce que incluye información sobre:
- Productos y categorías
- Precios y cantidades
- Fechas de venta
- Canales de venta

## Ejercicio 1: Preparación y Exploración Inicial

### 1.1 Importar Bibliotecas y Configurar Ambiente
Importa las bibliotecas necesarias y configura el ambiente de visualización.

In [None]:
# TODO: Importar las bibliotecas necesarias (pandas, numpy, matplotlib, seaborn)
# TODO: Configurar el estilo de visualización
# TODO: Configurar las opciones de pandas

# Tu código aquí:

# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

# Configurar visualización
plt.style.use('Solarize_Light2')
%matplotlib inline

# Configurar opciones de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

print('Bibliotecas importadas correctamente')


### 1.2 Cargar y Explorar los Datos
Vamos a crear un dataset de ejemplo y realizar una exploración inicial.

In [None]:
# Dataset de ejemplo (no modificar)
np.random.seed(42)
data = {
    'fecha': pd.date_range('2024-01-01', periods=1000, freq='h'),
    'producto': np.random.choice(['Laptop', 'Smartphone', 'Tablet', 'Auriculares'], 1000),
    'categoria': np.random.choice(['Electrónica', 'Accesorios'], 1000),
    'precio': np.random.uniform(100, 1000, 1000).round(2),
    'cantidad': np.random.randint(1, 5, 1000),
    'canal': np.random.choice(['Online', 'Tienda'], 1000)
}

df = pd.DataFrame(data)


### 1.3. Realizar exploración inicial


#### 1.3.1. Mostrar las primeras 5 filas

In [None]:
df.head(5)

#### 1.3.2. Obtener información del DataFrame

In [None]:
df.info()

#### 1.3.3. Calcular estadísticas descriptivas

In [None]:
df.describe()

#### 1.3.4. Verificar valores únicos en las columnas categóricas

Las columnas categóricas son:
 - producto
 - categoría
 - canal

In [None]:
for col in ['producto', 'categoria', 'canal']:
    print(f'\n{col.title()}:')
    display(df[col].value_counts())

## Ejercicio 2: Análisis de Ventas

### 2.1 Calcular Métricas de Ventas
Calcula las métricas básicas de ventas y crea un resumen.

#### 2.1.1. Crear columna de ventas (precio * cantidad)

In [None]:
df["ventas"] = df["precio"] * df["cantidad"]
display(df)

#### 2.1.2. Calcular ventas totales

In [None]:
print(df["ventas"].sum())

#### 2.1.3. Calcular ventas por categoría

In [None]:
df.groupby("categoria")["ventas"].sum()

#### 2.1.4. Calcular ticket promedio

In [None]:
print(f"El ticket promedio de ventas es {df["ventas"].mean().round(2)}")

#### 2.1.5. Identificar los productos más vendidos

In [None]:
df.groupby("producto").agg({"cantidad": "sum"}).sort_values("cantidad", ascending=False)

### 2.2 Visualizar Distribución de Ventas
Crea visualizaciones para entender la distribución de las ventas.

1. Gráfico de barras de ventas por categoría
2. Gráfico de torta para distribución de ventas por producto
3. Histograma de montos de venta
4. Box plot de precios por categoría

In [None]:
# Visualizaciones de ventas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Ventas por categoría
sns.barplot(data=df, x='categoria', y='ventas', estimator='sum', ax=axes[0,0])
axes[0,0].set_title('Ventas Totales por Categoría')
axes[0,0].set_ylabel('Ventas ($)')

# 2. Distribución por producto
df.groupby('producto')['ventas'].sum().plot(kind='pie', autopct='%1.1f%%', ax=axes[0,1])
axes[0,1].set_title('Distribución de Ventas por Producto')

# 3. Histograma de ventas
sns.histplot(data=df, x='ventas', bins=30, ax=axes[1,0])
axes[1,0].set_title('Distribución de Montos de Venta')
axes[1,0].set_xlabel('Monto de Venta ($)')

# 4. Box plot de precios
sns.boxplot(data=df, x='categoria', y='precio', ax=axes[1,1])
axes[1,1].set_title('Distribución de Precios por Categoría')
axes[1,1].set_ylabel('Precio ($)')

plt.tight_layout()
plt.show()


## Ejercicio 3: Análisis Temporal

### 3.1 Tendencias de Ventas
Analiza cómo varían las ventas a lo largo del tiempo.

#### 3.1.1 Agrupar ventas por fecha

In [None]:
df["dia"] = df["fecha"].dt.date
ventas_diarias = df.groupby('dia')['ventas'].sum()
display(ventas_diarias)

#### 3.1.2. Calcular promedio móvil

In [None]:
tendencia = ventas_diarias.rolling(window=7).mean()

#### 3.2.3. Identificar picos de venta y 3.2.4. Visualizar tendencia temporal

In [None]:
plt.figure(figsize=(15, 6))
plt.plot(ventas_diarias.index, ventas_diarias.values, label='Ventas diarias', alpha=0.5)
plt.plot(tendencia.index, tendencia.values, label='Tendencia (7 días)', linewidth=2)
plt.axhline(y=ventas_diarias.mean(), color='r', linestyle='--', label='Promedio')

plt.title('Tendencia de Ventas')
plt.xlabel('Fecha')
plt.ylabel('Ventas ($)')
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### 3.2 Patrones por Canal de Venta
Analiza las diferencias entre canales de venta.

#### 3.2.1 Comparar ventas por canal

In [None]:
ventas_canal = df.groupby(['canal', 'producto'])['ventas'].sum().unstack()
print('\nVentas por canal y producto:')
display(ventas_canal)

#### 3.2.2. Analizar preferencias de producto por canal

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(ventas_canal, annot=True, cmap='Spectral',fmt="g", center=0)
plt.title('Preferencias por producto y canal')
plt.tight_layout()
plt.show()

#### 3.2.3. Visualizar distribución de ventas por canal

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='canal', y='ventas')
plt.title('Distribución de Ventas por Canal')
plt.show()

## Ejercicio 4: Análisis de Correlaciones
Identifica relaciones entre variables numéricas.

#### 4.1. Calcular matriz de correlación

In [None]:
df["dia_semana"] = df["fecha"].dt.day_of_week
variables_numericas = ['precio', 'cantidad', 'ventas', "dia_semana"]
correlaciones = df[variables_numericas].corr()
display(correlaciones)

#### 4.2. Crear heatmap de correlaciones

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(correlaciones, annot=True, cmap='RdBu', center=0)
plt.title('Matriz de Correlación - Variables Numéricas')
plt.tight_layout()
plt.show()

#### 4.3. Identificar relaciones importantes

In [None]:
corr_flat = correlaciones.unstack()
corr_ord = corr_flat[corr_flat != 1.0].abs().sort_values(ascending=False)
display(corr_ord.head())


## Ejercicio 5: Reporte Final
Prepara un resumen ejecutivo con los hallazgos principales.

### Principales Hallazgos

TODO: Completa esta sección con tus hallazgos principales. Incluye:
1. Métricas clave de ventas
2. Patrones identificados
3. Insights sobre canales de venta
4. Recomendaciones basadas en datos

Tu análisis aquí: