<a href="https://colab.research.google.com/github/nmolina1982/Proyecto-Aurelion-/blob/main/Proyecto_Aurelion_Documentaci%C3%B3n_Sprint2_md.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto Aurelion – Documentación Sprint 2
**Fecha:** 18-11-2025  
**Autor:** Nicolás Molina  

---

## 1. Objetivo del Sprint 2
El objetivo de este sprint fue realizar un **Análisis Exploratorio de Datos (EDA)** completo sobre la base del proyecto Aurelion para preparar los datos para futuros modelos de Machine Learning.

Incluyó:
- Limpieza de datos.
- Normalización de columnas.
- Corrección de categorías mal asignadas.
- Unión integral de todas las tablas.
- Análisis estadístico descriptivo.
- Detección de outliers.
- Análisis de correlaciones.
- Creación de gráficos avanzados.

---

## 2. Conexión a Drive y carga de datos
Lectura directa desde Google Sheets usando `pandas.read_excel()`.

---

## 3. Normalización de tablas

### ✔ Normalización de nombres de columnas
df.columns = df.columns.str.lower().str.replace(" ", "_")

**Permite:**
- Estandarizar nombres.
- Evitar errores en merges.
- Facilitar consultas.

### ✔ Eliminación de duplicados
clientes = clientes.drop_duplicates()  
productos = productos.drop_duplicates()  
ventas = ventas.drop_duplicates()  
detalle_ventas = detalle_ventas.drop_duplicates()

### ✔ Conversión correcta de fechas
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

---

## 4. Corrección de categorías mal asignadas
Se detectaron productos mal clasificados (ej. quesos en “Limpieza”).  
Se aplicó una corrección automática por palabras clave.

### ✔ Corrección para alimentos
productos.loc[ productos['nombre_producto'].str.contains('queso|pan|arroz|galletitas|alfajor|helado|vino|cerveza|fernet|fanta|jugo', case=False), 'categoria'] = 'Alimentos'

### ✔ Corrección para limpieza
productos.loc[ productos['nombre_producto'].str.contains('lavandina|detergente|jabón|shampoo|trapo|esponja', case=False), 'categoria'] = 'Limpieza'

---

## 5. Unión de tablas
Integración final:

df = detalle_ventas.merge(ventas, on="id_venta", how="left")  
df = df.merge(productos, on="id_producto", how="left")  
df = df.merge(clientes, on="id_cliente", how="left")

**Creación de importe:**
df['importe'] = df['cantidad'] * df['precio_unitario']

---

## 6. Análisis estadístico y exploración

### 6.1 Distribución del Importe
- Concentración en importes bajos.  
- Cola larga derecha (sesgo positivo).

### 6.2 Outliers
Detección con **Z-Score**:

z_scores = np.abs(stats.zscore(df['importe'].dropna()))  
outliers = df[z_scores > 3]

Resultado: 2 outliers.

---

## 7. Visualizaciones generadas

### 7.1 Histograma del Importe  
### 7.2 Boxplot del Importe  
### 7.3 Ventas por Categoría  
### 7.4 Top 10 ciudades por ventas  
### 7.5 Evolución temporal de ventas  
### 7.6 Boxplot por método de pago  
### 7.7 Dispersión: Importe vs Cantidad  

Cada gráfico aporta insight sobre:
- Distribución  
- Tendencias  
- Comportamiento por método de pago  
- Relación entre cantidad e importe  

---

## 8. Análisis de correlaciones
Variables analizadas:
- importe  
- cantidad  
- precio_unitario  

**Hallazgos:**
- **cantidad** es la variable que más explica la variación del importe.  
- El precio influye menos.  
- La facturación depende del volumen vendido.

---

## 9. Conclusiones del Sprint 2
- Dataset completamente limpiado y normalizado.  
- Corrección de categorías mejoró la coherencia.  
- Integración total de tablas.  
- Se generaron múltiples visualizaciones profesionales.  
- Outliers identificados correctamente.  
- El análisis estadístico mostró que el negocio depende del volumen de ventas.  
- La base quedó lista para el Sprint 3 (Feature Engineering y ML).

---

## 10. Carpeta de entrega
**Google Drive:**  
https://drive.google.com/drive/folders/11PEm-AJi0Pc2Z21mLij5pSQyHIyCmFfu?usp=sharing  

**Autor:** Nicolás Molina
```
