# 🧼 Limpieza de Datos Minoristas en Google Colab

Este notebook ejecuta el flujo completo de limpieza y visualización de un dataset minorista simulado, adaptado al entorno de Google Colab.

In [None]:
# 📁 Subir archivo CSV desde tu ordenador
from google.colab import files
uploaded = files.upload()

In [None]:
# ✅ Verificar que el archivo se haya subido correctamente
if 'ventas_minoristas.csv' not in uploaded:
    raise FileNotFoundError("❌ No se encontró el archivo 'ventas_minoristas.csv'. Vuelve a ejecutarlo y asegúrate de subirlo.")
else:
    print("✅ Archivo 'ventas_minoristas.csv' cargado correctamente. ¡Listo para trabajar!")

In [None]:
# 🔍 Leer archivo subido
import io
import pandas as pd

df = pd.read_csv(io.BytesIO(uploaded['ventas_minoristas.csv']))
df.head()

In [None]:
# 🗂 Crear estructura de carpetas y guardar archivo en 'data/raw/'
import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)
df.to_csv("data/raw/ventas_minoristas.csv", index=False)

In [None]:
# 📂 Cargar dataset desde carpeta 'data/raw/'
df = pd.read_csv("data/raw/ventas_minoristas.csv")
df.head()

## 🧹 Limpieza de datos

In [None]:
# Eliminar duplicados y revisar valores nulos
df = df.drop_duplicates()
df.isnull().sum()

In [None]:
# Conversión de tipos de datos
df['Fecha'] = pd.to_datetime(df['Fecha'])
df['Cantidad'] = df['Cantidad'].astype(int)


## 📊 Visualización de los datos

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style='whitegrid')

In [None]:
# Distribución de cantidades vendidas
plt.figure(figsize=(8, 4))
sns.histplot(df['Cantidad'], bins=10, kde=True)
plt.title('Distribución de Cantidades Vendidas')
plt.xlabel('Cantidad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Total de ventas por categoría
plt.figure(figsize=(10, 5))
ventas_por_categoria = df.groupby('Categoria')['Total_Venta'].sum().sort_values()
ventas_por_categoria.plot(kind='barh', color='skyblue')
plt.title('Total de Ventas por Categoría')
plt.xlabel('Total en €')
plt.ylabel('Categoría')
plt.tight_layout()
plt.show()

In [None]:
# Comparativa de ventas por canal
plt.figure(figsize=(6, 4))
sns.boxplot(x='Canal_Venta', y='Total_Venta', data=df)
plt.title('Distribución de Ventas por Canal')
plt.xlabel('Canal')
plt.ylabel('Total Venta (€)')
plt.show()

## 💾 Exportar dataset limpio

In [None]:
# Guardar dataset limpio en carpeta processed
df.to_csv("data/processed/ventas_limpias.csv", index=False)

In [None]:
# ✅ Resumen general del dataset limpio
print("Resumen del Dataset Limpio:")
print("-----------------------------")
print(f"Total de filas: {df.shape[0]}")
print(f"Total de columnas: {df.shape[1]}")
print(f"Total de ventas (sumatoria): €{df['Total_Venta'].sum():,.2f}")
print("\nDistribución por categoría:")
print(df['Categoria'].value_counts())
print("\nDistribución por canal de venta:")
print(df['Canal_Venta'].value_counts())