# 📊 Summary Statistics Analysis: Beauty Product Sales
En este notebook aplicarás estadística descriptiva para descubrir patrones, errores, y oportunidades ocultas en los datos de ventas de una tienda de cosméticos naturales.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

## 1. 📥 Cargar y explorar los datos

In [None]:
df = pd.read_csv('../data/beauty_sales_summary.csv')
df['month'] = pd.to_datetime(df['month'])
df.head()

### 📌 Descripción general del dataset

In [None]:
df.info()

### 📊 Estadísticas descriptivas básicas

In [None]:
df.describe(include='all')

## 2. 🧠 Clasificación de tipos de datos
- **Categóricas:** `product_id`, `product_name`, `category`, `channel`, `region`
- **Numéricas:** `units_sold`, `unit_price`, `revenue`
- **Temporales:** `month`

> Esta clasificación es fundamental para saber qué tipo de estadística usar en cada caso.

## 3. 🎯 Comparación entre media y mediana por categoría

In [None]:
df.groupby('category')['units_sold'].agg(['mean', 'median']).sort_values(by='mean', ascending=False)

## 4. 📐 Medidas de dispersión por canal

In [None]:
df.groupby('channel')['revenue'].std().sort_values(ascending=False)

## 5. 🔍 Visualización de distribuciones y asimetría (skewness)

In [None]:
sns.histplot(df['revenue'], bins=50, kde=True)
plt.title('Distribución de Revenue');

In [None]:
print('Skewness:', df['revenue'].skew())

## 6. 🗺️ Boxplot de ingresos por región

In [None]:
plt.figure(figsize=(10,5))
sns.boxplot(data=df, x='region', y='revenue')
plt.title('Distribución de Revenue por Región')

## 7. 🚨 Detección de outliers usando IQR

In [None]:
Q1 = df['revenue'].quantile(0.25)
Q3 = df['revenue'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['revenue'] < lower_bound) | (df['revenue'] > upper_bound)]
print(f'Total outliers encontrados: {len(outliers)}')
outliers.head()

## 🧠 Reflexión final
- ¿La media o la mediana es más representativa en estos datos?
- ¿Qué regiones presentan mayor varianza?
- ¿Qué podrías hacer con los outliers detectados?
- ¿Qué aprendiste sobre cómo analizar datos reales?