# Análisis de ventas - Chipotle

Este notebook realiza un análisis exploratorio de un dataset real de ventas en Chipotle.

Incluye:
- Limpieza de datos
- Análisis de ingredientes
- Visualizaciones
- Ejercicios prácticos al final

In [None]:
# Si estás en Google Colab, descomentá la siguiente línea para instalar las librerías:
# !pip install pandas matplotlib seaborn

In [None]:
# Cargar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style='whitegrid')

## 1. Carga del archivo chipotle.tsv

In [None]:
# Cargar el archivo
ventas = pd.read_csv('chipotle.tsv', sep='\t')
ventas.head()

## 2. Limpieza de columnas

In [None]:
# Limpiar la columna de precios
ventas['item_price'] = ventas['item_price'].replace('[\$,]', '', regex=True).astype(float)

# Limpiar y convertir choice_description en listas
ventas['ingredientes'] = ventas['choice_description'].dropna().apply(
    lambda x: x.replace('[', '').replace(']', '').split(', ')
)

## 3. Ingredientes más comunes

In [None]:
# Explode de ingredientes
ingredientes_explotados = ventas[['order_id', 'ingredientes']].explode('ingredientes').dropna()

# Conteo
conteo_ingredientes = ingredientes_explotados['ingredientes'].value_counts().head(10)

# Gráfico
plt.figure(figsize=(10, 5))
sns.barplot(x=conteo_ingredientes.values, y=conteo_ingredientes.index, palette='viridis')
plt.title('Top 10 Ingredientes más comunes')
plt.xlabel('Frecuencia')
plt.ylabel('Ingrediente')
plt.tight_layout()
plt.show()

## 4. Productos más vendidos

In [None]:
# Top productos
top_productos = ventas['item_name'].value_counts().head(10)

# Gráfico
plt.figure(figsize=(10, 5))
sns.barplot(x=top_productos.values, y=top_productos.index, palette='magma')
plt.title('Top 10 Productos más vendidos')
plt.xlabel('Cantidad de ventas')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()

## 5. Precio promedio por producto

In [None]:
precio_promedio = ventas.groupby('item_name')['item_price'].mean().loc[top_productos.index]

# Gráfico
plt.figure(figsize=(10, 5))
sns.barplot(x=precio_promedio.values, y=precio_promedio.index, palette='coolwarm')
plt.title('Precio promedio de los productos más vendidos')
plt.xlabel('Precio promedio ($)')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()

## 6. Ejercicios propuestos 🧠

1. ¿Cuál es el precio total generado por cada producto (`item_name`)?
2. ¿Qué producto genera más ingresos en total?
3. ¿Cuál es el número total de órdenes únicas?
4. ¿Cuántos ingredientes distintos hay en total?
5. **Bonus:** Graficar la distribución del precio total por orden (usando `groupby` + `sum`).

> 💡 Intentá resolverlos usando `groupby`, `sum`, `nunique`, `value_counts`, y `plot()`.

### ✅ Ejercicio 1: Precio total por producto

In [None]:
# Precio total generado por cada producto
total_por_producto = ventas.groupby('item_name')['item_price'].sum().sort_values(ascending=False)
total_por_producto.head(10)

### ✅ Ejercicio 2: Producto que más ingresos genera

In [None]:
# Producto que más ingresos genera
producto_top = total_por_producto.idxmax()
ingreso_top = total_por_producto.max()
print(f"El producto que más ingresos genera es '{producto_top}' con un total de ${ingreso_top:.2f}")

### ✅ Ejercicio 3: Número total de órdenes únicas

In [None]:
# Número total de órdenes únicas
ordenes_unicas = ventas['order_id'].nunique()
print(f"Hay un total de {ordenes_unicas} órdenes únicas.")

### ✅ Ejercicio 4: Ingredientes distintos en total

In [None]:
# Ingredientes únicos
ingredientes_unicos = ingredientes_explotados['ingredientes'].nunique()
print(f"Hay un total de {ingredientes_unicos} ingredientes distintos.")

### ✅ Ejercicio Bonus: Distribución del precio total por orden

In [None]:
# Precio total por orden
precio_por_orden = ventas.groupby('order_id')['item_price'].sum()

# Histograma
plt.figure(figsize=(8, 5))
sns.histplot(precio_por_orden, bins=30, color='skyblue', kde=True)
plt.title('Distribución del precio total por orden')
plt.xlabel('Total de la orden ($)')
plt.ylabel('Cantidad de órdenes')
plt.tight_layout()
plt.show()

### 📊 Bonus Extra: Ingresos totales por producto (visual)

In [None]:
# Top ingresos por producto
top_ingresos = total_por_producto.head(10)

# Gráfico
plt.figure(figsize=(10, 5))
sns.barplot(x=top_ingresos.values, y=top_ingresos.index, palette='cividis')
plt.title('Top 10 productos por ingreso total')
plt.xlabel('Ingreso total ($)')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()