# Limpieza, Estandarización y Etiquetado
Este notebook aplica técnicas de limpieza, estandarización y etiquetado al dataset ventas.csv.

In [6]:
import pandas as pd
import numpy as np

# Cargar datos desde archivo CSV
df = pd.read_csv('datasets/ventas.csv')
df.head()

Unnamed: 0,id,fecha,producto,categoria,ventas_mensuales,costos
0,1,2023-01-15,Zapatos,A,200000,120000
1,2,2023-01-16,Camisa,B,150000,80000
2,3,2023-01-17,Pantalón,C,180000,100000
3,4,2023-01-18,Zapatos,A,210000,130000


### Revisión de valores nulos

In [7]:
df.isnull().sum()

id                  0
fecha               0
producto            0
categoria           0
ventas_mensuales    0
costos              0
dtype: int64

### Tratamiento de valores nulos

In [9]:
# Rellenar o eliminar nulos si es necesario
df['ventas_mensuales'] = df['ventas_mensuales'].fillna(df['ventas_mensuales'].median())
df['categoria'] = df['categoria'].fillna('sin_dato')

### Eliminación de duplicados

In [10]:
df = df.drop_duplicates()

### Estandarización de texto

In [11]:
df['producto'] = df['producto'].str.lower().str.strip()
df['producto'] = df['producto'].str.replace(r'[^a-zA-Z0-9áéíóúüñ ]', '', regex=True)

### Conversión y validación de fechas

In [12]:
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')
df['anio'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month

### Etiquetado de columnas

In [14]:
df['categoria'] = df['categoria'].map({'A': 'Alta', 'B': 'Media', 'C': 'Baja'})

# Etiquetado por rangos de ventas
bins = [0, 150000, 300000, 500000]
etiquetas = ['bajo', 'medio', 'alto']
df['rango_venta'] = pd.cut(df['ventas_mensuales'], bins=bins, labels=etiquetas)

### Revisión de tipos de datos y resumen

In [15]:
df.dtypes
df.describe()

Unnamed: 0,id,fecha,ventas_mensuales,costos,anio,mes
count,4.0,4,4.0,4.0,4.0,4.0
mean,2.5,2023-01-16 12:00:00,185000.0,107500.0,2023.0,1.0
min,1.0,2023-01-15 00:00:00,150000.0,80000.0,2023.0,1.0
25%,1.75,2023-01-15 18:00:00,172500.0,95000.0,2023.0,1.0
50%,2.5,2023-01-16 12:00:00,190000.0,110000.0,2023.0,1.0
75%,3.25,2023-01-17 06:00:00,202500.0,122500.0,2023.0,1.0
max,4.0,2023-01-18 00:00:00,210000.0,130000.0,2023.0,1.0
std,1.290994,,26457.513111,22173.557826,0.0,0.0


### Guardar dataset limpio y etiquetado

In [17]:
df.to_csv('ventas_limpias_etiquetadas.csv', index=False)