In [9]:
import pandas as pd
import numpy as np

In [10]:
df = pd.read_excel('../Base_de_datos/Productos.xlsx')
df

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777
...,...,...,...,...
95,96,Suavizante 1L,Limpieza,4920
96,97,Limpiavidrios 500ml,Alimentos,872
97,98,Desengrasante 500ml,Limpieza,2843
98,99,Esponjas x3,Alimentos,2430


# **1. Analizar problemas con el dataset**

### **Tipos de datos y valores nulos**

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB


### **Estadísticas generales**

In [12]:
df.describe(include='all')

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
count,100.0,100,100,100.0
unique,,100,2,
top,,Coca Cola 1.5L,Alimentos,
freq,,1,50,
mean,50.5,,,2718.55
std,29.011492,,,1381.635324
min,1.0,,,272.0
25%,25.75,,,1590.0
50%,50.5,,,2516.0
75%,75.25,,,4026.5


### **Conteo de valores faltantes**

In [13]:
df.isnull().sum()

id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0
dtype: int64

### **Conteo de filas duplicadas**

In [14]:
df.duplicated().sum()

np.int64(0)

### **Frecuencia por categoría**

In [15]:
df['categoria'].value_counts()

categoria
Alimentos    50
Limpieza     50
Name: count, dtype: int64

### **Verificación de valores únicos en columnas categóricas**

In [16]:
df['categoria'].unique()

array(['Alimentos', 'Limpieza'], dtype=object)

### **Verificación de rangos de precios**

In [17]:
(df['precio_unitario'] > 0).sum()

np.int64(100)

# **2. Limpieza de datos**

### **Eliminación de filas duplicadas**

In [18]:
df = df.drop_duplicates()

### **Quitar espacios y capitalizar**

In [19]:
df['categoria'] = df['categoria'].str.strip().str.title()

### **Eliminar filas con valores nulos en 'id_producto' o 'nombre_producto'**

In [20]:
df = df.dropna(subset=['id_producto', 'nombre_producto'])

# **3. Estandarización**

### **Asegurar que todos los datos sigan el mismo formato:**
- Nombres de productos con mayúscula inicial
- Categorías estandarizadas  
- Precios con formato numérico correcto

In [21]:
df['nombre_producto'] = df['nombre_producto'].str.title()
df['precio_unitario'] = pd.to_numeric(df['precio_unitario'], errors='coerce')
df['categoria'] = df['categoria'].replace({
    'Alimentos' : 'Alimentos',
    'Limpieza' : 'Limpieza'
})

# **4. Transformación**

Se encuentra que existen productos que son alimentos pero estan catalogados como productos de limpieza y existen productos de limpieza catalogados como alimentos.

In [None]:
# Se cambia la categoria a Limpieza de productos catalogados erroneamente como Alimentos

productos_limpieza = ['Desodorante Aerosol', 'Cepillo de Dientes', 'Mascarilla Capilar', 'Limpiavidrios 500ml', 'Esponjas x3', 'Shampoo 400ml', 'Servilletas x100']
df.loc[df['nombre_producto'].isin(productos_limpieza), 'categoria'] = 'Limpieza'

# Verificar que los cambios se realizaron correctamente
df[df['nombre_producto'].isin(productos_limpieza)][['nombre_producto', 'categoria']]

Unnamed: 0,nombre_producto,categoria
90,Desodorante Aerosol,Limpieza
94,Mascarilla Capilar,Limpieza


In [None]:
# Se cambia la categoria a Alimentos de productos catalogados erroneamente como Limpieza


productos_limpieza = ['Pepsi 1.5L', 'Fanta Naranja 1.5L', 'Jugo de Naranja 1L', 'Energética Nitro 500ml', 'Yerba Mate Intensa 1kg', 'Té Negro 20 saquitos', 'Leche Entera 1L',
'Yogur Natural 200g', 'Queso Rallado 150g', 'Pan Lactal Blanco', 'Medialunas de Manteca', 'Galletitas Chocolate', 'Alfajor Triple', 'Papas Fritas Clásicas 100g', 'Maní Salado 200g',
'Chocolate Amargo 100g', 'Turrón 50g','Dulce de Leche 400g', 'Mermelada de Frutilla 400g', 'Helado Chocolate 1L', 'Vinagre de Alcohol 500ml', 'Arroz Largo Fino 1kg', 'Lentejas Secas 500g',
'Porotos Negros 500g', 'Azúcar 1kg','Caramelos Masticables', 'Chupetín', 'Stevia 100 sobres', 'Avena Instantánea 250g', 'Cerveza Negra 1L', 'Vino Blanco 750ml', 'Fernet 750ml', 'Ron 700ml',
'Whisky 750ml', 'Pizza Congelada Muzzarella', 'Verduras Congeladas Mix', 'Helado de Frutilla 1L', 'Aceitunas Negras 200g', 'Queso Azul 150g', 'Jugo en Polvo Limón', 'Caldo Concentrado Carne']
df.loc[df['nombre_producto'].isin(productos_limpieza), 'categoria'] = 'Alimentos'

# Verificar que los cambios se realizaron correctamente
df[df['nombre_producto'].isin(productos_limpieza)][['nombre_producto', 'categoria']]

Unnamed: 0,nombre_producto,categoria
1,Pepsi 1.5L,Alimentos
3,Fanta Naranja 1.5L,Alimentos
13,Leche Entera 1L,Alimentos
19,Pan Lactal Blanco,Alimentos
23,Galletitas Chocolate,Alimentos
25,Alfajor Triple,Alimentos
39,Helado Chocolate 1L,Alimentos
57,Caramelos Masticables,Alimentos
59,Chupetín,Alimentos
65,Cerveza Negra 1L,Alimentos


# **5. Normalización de datos**

### **Normalización de IDs de producto**

In [24]:
df['id_producto'] = pd.to_numeric(df['id_producto'], errors='coerce')

### **Normalización de nombres de producto**

In [25]:
df['nombre_producto'] = df['nombre_producto'].str.strip().str.replace(r'\s+', ' ', regex=True)

### **Normalización de precios**

In [26]:
df['precio_unitario'] = df['precio_unitario'].abs()
df.drop_duplicates(subset=['nombre_producto'], inplace=True)

### **Normalización de categorías (adicional)**

In [27]:
variaciones_adicionales = {
    'Tecnologia': 'Tecnología',
    'Ropa Y Accesorios': 'Ropa y Accesorios',
    'Deportes Y Aire Libre': 'Deportes y Aire Libre'
}
df['categoria'] = df['categoria'].replace(variaciones_adicionales)

### **One-hot encoding para variables categóricas**

In [28]:
df = pd.get_dummies(df, columns=['categoria'], prefix='cat')
df

Unnamed: 0,id_producto,nombre_producto,precio_unitario,cat_Alimentos,cat_Limpieza
0,1,Coca Cola 1.5L,2347,True,False
1,2,Pepsi 1.5L,4973,True,False
2,3,Sprite 1.5L,4964,True,False
3,4,Fanta Naranja 1.5L,2033,True,False
4,5,Agua Mineral 500Ml,4777,True,False
...,...,...,...,...,...
95,96,Suavizante 1L,4920,False,True
96,97,Limpiavidrios 500Ml,872,True,False
97,98,Desengrasante 500Ml,2843,False,True
98,99,Esponjas X3,2430,True,False


In [29]:
# Convertir las columnas de dummies a tipo entero

dummies_cols = ['cat_Alimentos', 'cat_Limpieza']
df[dummies_cols] = df[dummies_cols].astype(int)

df

Unnamed: 0,id_producto,nombre_producto,precio_unitario,cat_Alimentos,cat_Limpieza
0,1,Coca Cola 1.5L,2347,1,0
1,2,Pepsi 1.5L,4973,1,0
2,3,Sprite 1.5L,4964,1,0
3,4,Fanta Naranja 1.5L,2033,1,0
4,5,Agua Mineral 500Ml,4777,1,0
...,...,...,...,...,...
95,96,Suavizante 1L,4920,0,1
96,97,Limpiavidrios 500Ml,872,1,0
97,98,Desengrasante 500Ml,2843,0,1
98,99,Esponjas X3,2430,1,0


# **6. Validación Post-Limpieza y Normalización**

### **Verificar el resultado de la limpieza**

In [30]:
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   precio_unitario  100 non-null    int64 
 3   cat_Alimentos    100 non-null    int64 
 4   cat_Limpieza     100 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 4.0+ KB


Unnamed: 0,id_producto,nombre_producto,precio_unitario,cat_Alimentos,cat_Limpieza
0,1,Coca Cola 1.5L,2347,1,0
1,2,Pepsi 1.5L,4973,1,0
2,3,Sprite 1.5L,4964,1,0
3,4,Fanta Naranja 1.5L,2033,1,0
4,5,Agua Mineral 500Ml,4777,1,0


### **Comparación antes vs después**

# **7. Exportar datos limpios y normalizados**

In [31]:
df.to_csv('../Base_de_datos_limpia/Productos_limpio.csv', index=False)