# EDA – Explicación de Visualizaciones  
**Proyecto:** Retail Sales Dataset  
**Notebook:** 2.5 Análisis Exploratorio de Datos (EDA)

---

## 1. Distribución de variables numéricas  
**Archivo generado:** `1_eda_distribuciones_variables.png`

### Descripción  
Esta visualización agrupa los histogramas de las principales variables numéricas del dataset:  
- edad  
- cantidad  
- precio_unitario  
- monto_total  

Los histogramas permiten observar la distribución de frecuencias de cada variable y detectar comportamientos característicos como asimetrías, concentraciones o valores atípicos.

### Relación con lo visto en clase  
En los notebooks EDA01 y EDA02 se realizaron histogramas para el reconocimiento inicial de los datos, identificando patrones previos a la transformación o modelado. Este análisis replica esa metodología aplicada a datos de retail.

### Utilidad analítica  
Ayuda a comprender la forma de cada variable, su dispersión y si existen comportamientos anómalos que deban considerarse en etapas posteriores.

### Relevancia empresarial  
Permite conocer la diversidad de clientes y el comportamiento general del ticket de compra, lo cual es relevante para segmentación y estrategias de precios.

---

## 2. Boxplots de variables numéricas  
**Archivo generado:** `2_eda_boxplots_variables.png`

### Descripción  
Los boxplots representan la mediana, los cuartiles y los valores extremos de cada variable. Es una técnica útil para detectar outliers y entender la dispersión.

### Relación con lo visto en clase  
Durante las sesiones de normalización (Normalization_Ex01 y EDA01), utilizamos boxplots para justificar el uso de escaladores como MinMaxScaler o StandardScaler. En el proyecto, se aplica el mismo enfoque para evaluar el comportamiento de las variables de retail.

### Utilidad analítica  
Revela que monto_total es la variable con mayor variabilidad, mientras que edad y cantidad tienen distribuciones más compactas.

### Relevancia empresarial  
Una variabilidad elevada en precios y montos indica una mezcla amplia de productos económicos y premium, crucial para análisis de ventas y segmentación.

---

## 3. Cantidad de ventas por categoría  
**Archivo generado:** `3_eda_ventas_por_categoria.png`

### Descripción  
Gráfico de barras que muestra la cantidad total de ventas por categoría de producto: Clothing, Electronics y Beauty.

### Relación con lo visto en clase  
En los notebooks de Data Wrangling, utilizamos value_counts() para explorar variables categóricas. Esta visualización sigue ese mismo procedimiento aplicado a un contexto empresarial.

### Utilidad analítica  
Permite identificar cuáles categorías presentan mayor rotación y volumen de ventas.

### Relevancia empresarial  
Es fundamental para la planificación de inventarios, estrategias promocionales y decisiones sobre el portafolio de productos.

---

## 4. Monto total de ventas por mes  
**Archivo generado:** `4_eda_ventas_por_mes.png`

### Descripción  
Gráfica de barras que muestra el monto total vendido por mes durante el periodo observado.

### Relación con lo visto en clase  
En las prácticas de transformación (Transformaciones.ipynb) se generaron variables de fecha como mes y año. Esta visualización utiliza ese mismo concepto para obtener una perspectiva temporal de las ventas.

### Utilidad analítica  
Destaca picos de venta en ciertos meses, lo que evidencia estacionalidad o ciclos de demanda.

### Relevancia empresarial  
Permite definir estrategias de marketing estacional, gestionar inventario con anticipación y pronosticar meses críticos para la empresa.

---

## 5. Matriz de correlación  
**Archivo generado:** `5_eda_matriz_correlacion.png`

### Descripción  
Mapa de calor que muestra la correlación entre variables numéricas. Las correlaciones ayudan a entender qué variables están asociadas entre sí.

### Relación con lo visto en clase  
En EDA y en modelos de regresión lineal (BostonHousing.ipynb) utilizamos heatmaps para seleccionar variables relevantes. El mismo criterio se aplica aquí para evaluar la estructura del dataset retail.

### Utilidad analítica  
La correlación entre cantidad y monto_total suele ser la más significativa, indicando que la cantidad comprada impacta notablemente en el valor total.

### Relevancia empresarial  
Permite identificar relaciones clave para modelos predictivos y variables influyentes para estrategias comerciales.

---

## 6. Ventas totales por rango de edad  
**Archivo generado:** `6_eda_ventas_por_rango_edad.png`

### Descripción  
Gráfico de barras que agrupa las ventas totales según rangos de edad como resultado del uso de binning (segmentación mediante intervalos).

### Relación con lo visto en clase  
Durante el Data Wrangling se aplicó pd.cut para segmentar variables numéricas en rangos. Esta visualización utiliza esa técnica para realizar un análisis demográfico del comportamiento de compra.

### Utilidad analítica  
Revela qué grupos de edad aportan mayor volumen de ingresos a la empresa.

### Relevancia empresarial  
Facilita el diseño de campañas de publicidad dirigidas, programas de fidelización y estrategias comerciales basadas en perfiles demográficos.

---

## Conclusión General del EDA

El análisis exploratorio proporciona una comprensión integral del comportamiento del cliente y del funcionamiento general del negocio a través de variables como categoría, edad, precio y temporalidad.  
Este conjunto de visualizaciones constituye la base para el desarrollo de modelos predictivos y sirve como fundamento para la toma de decisiones empresariales, apoyando actividades como segmentación, análisis estacional, planificación de inventarios y estrategias comerciales.

