In [1]:
#üöÄ PRIMERA ETAPA: Configuraci√≥n y exploraci√≥n inicial
#1Ô∏è‚É£ Crear la estructura de carpetas (si a√∫n no existe)

#3Ô∏è‚É£ Instalar librer√≠as necesarias
#En la terminal:
#pip install pandas numpy matplotlib seaborn plotly openpyxl jupyter scikit-learn python-dateutil


# --- Mi Minimarket: An√°lisis de datos inicial ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from dateutil import parser

# Configuraci√≥n visual
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8')

# --- 1. Carga de datos ---
clientes = pd.read_excel('database/clientes.xlsx')
productos = pd.read_excel('database/productos.xlsx')
ventas = pd.read_excel('database/ventas.xlsx')
detalle = pd.read_excel('database/detalle_ventas.xlsx')

# --- 2. Inspecci√≥n r√°pida ---
print("Clientes:")
display(clientes.head())

print("\nProductos:")
display(productos.head())

print("\nVentas:")
display(ventas.head())

print("\nDetalle Ventas:")
display(detalle.head())


Clientes:


Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05



Productos:


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777



Ventas:


Unnamed: 0,id_venta,fecha,id_cliente,nombre_cliente,email,medio_pago
0,1,2024-06-19,62,Guadalupe Romero,guadalupe.romero@mail.com,tarjeta
1,2,2024-03-17,49,Olivia Gomez,olivia.gomez@mail.com,qr
2,3,2024-01-13,20,Tomas Acosta,tomas.acosta@mail.com,tarjeta
3,4,2024-02-27,36,Martina Molina,martina.molina@mail.com,transferencia
4,5,2024-06-11,56,Bruno Diaz,bruno.diaz@mail.com,tarjeta



Detalle Ventas:


Unnamed: 0,id_venta,id_producto,nombre_producto,cantidad,precio_unitario,importe
0,1,90,Toallas H√∫medas x50,1,2902,2902
1,2,82,Aceitunas Negras 200g,5,2394,11970
2,2,39,Helado Vainilla 1L,5,469,2345
3,2,70,Fernet 750ml,2,4061,8122
4,2,22,Medialunas de Manteca,1,2069,2069


In [2]:
#üßπ FASE 2: Limpieza y Transformaci√≥n (ETL con Pandas)
#üéØ Objetivo

#Verificar la estructura, tipos de datos, valores nulos y duplicados.

#Estandarizar formatos (fechas, texto, num√©ricos).

#Integrar las 4 tablas (clientes, productos, ventas, detalle_ventas) en una sola vista anal√≠tica.

# --- 3. Inspecci√≥n de estructura ---
for nombre, df in [('Clientes', clientes), ('Productos', productos), ('Ventas', ventas), ('Detalle Ventas', detalle)]:
    print(f"\n===== {nombre.upper()} =====")
    print(df.info())
    print(f"Duplicados: {df.duplicated().sum()}")
    print(f"Valores nulos:\n{df.isnull().sum()}")



===== CLIENTES =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 3   ciudad          100 non-null    object        
 4   fecha_alta      100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 4.0+ KB
None
Duplicados: 0
Valores nulos:
id_cliente        0
nombre_cliente    0
email             0
ciudad            0
fecha_alta        0
dtype: int64

===== PRODUCTOS =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null

In [3]:
#Vamos a realizar un proceso profesional y controlado de recategorizaci√≥n de productos en el dataset productos, de modo que puedas detectar inconsistencias, analizarlas y corregirlas sin perder trazabilidad.

#üîç Qu√© observar√°s:

#Errores comunes: may√∫sculas/min√∫sculas, tildes, espacios extra, nombres duplicados (ej: ‚ÄúL√°cteos‚Äù, ‚Äúlacteos‚Äù, ‚ÄúLacteos‚Äù).

#Productos mal ubicados o gen√©ricos (ej: ‚ÄúSin categor√≠a‚Äù, ‚ÄúOtros‚Äù, ‚ÄúDefault‚Äù).

# --- An√°lisis de categor√≠as ---
print("Categor√≠as √∫nicas:")
print(productos['categoria'].unique())

print("\nConteo de productos por categor√≠a:")
display(productos['categoria'].value_counts())


Categor√≠as √∫nicas:
['Alimentos' 'Limpieza']

Conteo de productos por categor√≠a:


categoria
Alimentos    50
Limpieza     50
Name: count, dtype: int64

In [4]:
#Listar productos sospechosos por categor√≠a

#Si detectas categor√≠as con pocos registros o nombres raros, inspecci√≥nalas:

# --- Ver productos por categor√≠a espec√≠fica ---
categoria = "otros"  # reemplaza por la categor√≠a sospechosa
display(productos[productos['categoria'].str.lower() == categoria.lower()])


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario


In [None]:
#Normalizar texto antes de recategorizar

#Conviene unificar el formato para que no existan variantes de texto:

# --- Limpieza de texto en categor√≠as ---
productos['categoria'] = productos['categoria'].str.strip().str.title()

# Correcciones b√°sicas autom√°ticas
productos['categoria'] = productos['categoria'].replace({
    'Lacteos': 'L√°cteos',
    'Lacteo': 'L√°cteos',
    'Verdura': 'Verduras',
    'Fruta': 'Frutas',
    'Cereal': 'Cereales',
    'Otros': 'Otros Productos',
    'Alimento': 'Alimentos'
})


In [None]:
#Bloque automatizado de sugerencias de recategorizaci√≥n

#Este bloque agrupa los productos seg√∫n coincidencias con palabras clave comunes y te muestra sugerencias para corregirlos.

# --- Sugerencias de recategorizaci√≥n autom√°tica ---

# Diccionario de palabras clave ‚Üí categor√≠a sugerida
reglas_categoria = {
    "Jugo|Bebida|Agua|Refresco|Gaseosa|T√©|Energ√©tica|Mate|Pepsi|Cerveza|Avena|Vino|Ron|Whisky|Fernet|Cola|Sprite|Licor|Vodka": "Bebidas",
    "Manzana|Banano|Naranja|Pera|Uva": "Bebidas",
    "Pan|Ponqu√©|Bizcocho|Panela|Mermelada|Manteca": "Panader√≠a",
    "Yogur|Leche|Queso|Mantequilla": "L√°cteos",
    "Arroz|Frijol|Lenteja|Cereal|Frutos secos|Garbanzos|Granola": "Granos y Cereales",
    "Tomate|Cebolla|Papa|Lechuga|Zanahoria|Verduras": "Verduras",
    "Detergente|Jab√≥n|Limpiador|Desinfectante|Lacandina|Shampoo|Servilletas|Cepillo|Mascarilla|Limpiavidrios|Esponjas|Desodorante": "Limpieza",
    "Galleta|Chocolate|Dulce|Confite|Alfajor|Man√≠|Turr√≥n|Az√∫car|Caramelo|Chupet√≠n|Stevia|Pizza|Helado|Galletitas|Chicle Menta": "Snacks y Dulces"
}

# Buscar productos candidatos para recategorizaci√≥n
sugerencias = []

for patron, categoria_sugerida in reglas_categoria.items():
    mask = productos['nombre_producto'].str.contains(patron, case=False, na=False)
    df_sugerido = productos.loc[mask & (productos['categoria'] != categoria_sugerida), 
                                ['id_producto', 'nombre_producto', 'categoria']]
    if not df_sugerido.empty:
        df_sugerido['categoria_sugerida'] = categoria_sugerida
        sugerencias.append(df_sugerido)

# Concatenar resultados
if sugerencias:
    sugerencias_df = pd.concat(sugerencias, ignore_index=True)
    print("üîç Productos potencialmente mal categorizados (seg√∫n palabra clave):")
    display(sugerencias_df)
else:
    print("‚úÖ No se detectaron productos fuera de su categor√≠a esperada.")


üîç Productos potencialmente mal categorizados (seg√∫n palabra clave):


Unnamed: 0,id_producto,nombre_producto,categoria,categoria_sugerida
0,33,Chocolate con Leche 100g,Snacks y Dulces,Bebidas
1,43,Salsa de Tomate 500g,Verduras,Bebidas
2,33,Chocolate con Leche 100g,Snacks y Dulces,L√°cteos
3,36,Dulce de Leche 400g,Snacks y Dulces,L√°cteos
4,93,Cepillo de Dientes,Alimentos,Limpieza
5,95,Mascarilla Capilar,Alimentos,Limpieza
6,97,Limpiavidrios 500ml,Alimentos,Limpieza
7,99,Esponjas x3,Alimentos,Limpieza
8,24,Galletitas Chocolate,Bebidas,Snacks y Dulces
9,32,Chocolate Amargo 100g,Bebidas,Snacks y Dulces


In [21]:
#Aplicar todas las sugerencias autom√°ticamente

#Si revisaste sugerencias_df y est√°s de acuerdo con todas las correcciones sugeridas:

# --- Aplicar todas las sugerencias autom√°ticamente ---
for _, fila in sugerencias_df.iterrows():
    productos.loc[productos['id_producto'] == fila['id_producto'], 'categoria'] = fila['categoria_sugerida']

# Guardar los cambios en un nuevo archivo
#productos.to_excel('database/productos_actualizados.xlsx', index=False)
#print("üíæ Todas las sugerencias aplicadas y guardadas en 'productos_actualizados.xlsx'.")


In [8]:
#Recategorizaci√≥n manual controlada

#A veces necesitar√°s reasignar producto por producto.
#Por ejemplo, si el dataset tiene un producto ‚ÄúYogur Natural‚Äù en categor√≠a ‚ÄúSnacks‚Äù, pero deber√≠a ir en ‚ÄúL√°cteos‚Äù:

# --- Correcci√≥n manual ---

#Puedes crear varias reglas as√≠:
#productos.loc[productos['nombre_producto'].str.contains("Pan", case=False), 'categoria'] = "Panader√≠a"
#productos.loc[productos['nombre_producto'].str.contains("Jugo|Bebida|Agua|Fanta|Energ√©tica|Mate|T√©|Leche|Queso", case=False), 'categoria'] = "Alimentos"



In [22]:
#Verificar los cambios

#Despu√©s de hacer tus correcciones:

print("Categor√≠as finales actualizadas:")
display(productos['categoria'].value_counts())

# Opcional: vista previa por categor√≠a
for cat in productos['categoria'].unique():
    subset = productos[productos['categoria'] == cat].head(20)
    print(f"\n{cat}:")
    display(subset[['id_producto', 'nombre_producto']])


Categor√≠as finales actualizadas:


categoria
Bebidas              25
Snacks y Dulces      20
Limpieza             17
Alimentos            12
L√°cteos               9
Panader√≠a             8
Granos y Cereales     6
Verduras              3
Name: count, dtype: int64


Bebidas:


Unnamed: 0,id_producto,nombre_producto
0,1,Coca Cola 1.5L
1,2,Pepsi 1.5L
2,3,Sprite 1.5L
3,4,Fanta Naranja 1.5L
4,5,Agua Mineral 500ml
5,6,Jugo de Naranja 1L
6,7,Jugo de Manzana 1L
7,8,Energ√©tica Nitro 500ml
8,9,Yerba Mate Suave 1kg
9,10,Yerba Mate Intensa 1kg



Alimentos:


Unnamed: 0,id_producto,nombre_producto
10,11,Caf√© Molido 250g
40,41,Aceite de Girasol 1L
44,45,Fideos Spaghetti 500g
48,49,Harina de Trigo 1kg
50,51,Sal Fina 500g
52,53,Lavandina 1L
60,61,Miel Pura 250g
68,69,Sidra 750ml
72,73,Gin 700ml
78,79,Hamburguesas Congeladas x4



L√°cteos:


Unnamed: 0,id_producto,nombre_producto
13,14,Leche Entera 1L
14,15,Leche Descremada 1L
15,16,Yogur Natural 200g
16,17,Queso Cremoso 500g
17,18,Queso Rallado 150g
32,33,Chocolate con Leche 100g
35,36,Dulce de Leche 400g
82,83,Queso Untable 190g
83,84,Queso Azul 150g



Panader√≠a:


Unnamed: 0,id_producto,nombre_producto
18,19,Manteca 200g
19,20,Pan Lactal Blanco
20,21,Pan Lactal Integral
21,22,Medialunas de Manteca
22,23,Bizcochos Salados
36,37,Mermelada de Durazno 400g
37,38,Mermelada de Frutilla 400g
76,77,Empanadas Congeladas



Snacks y Dulces:


Unnamed: 0,id_producto,nombre_producto
23,24,Galletitas Chocolate
24,25,Galletitas Vainilla
25,26,Alfajor Triple
26,27,Alfajor Simple
29,30,Man√≠ Salado 200g
31,32,Chocolate Amargo 100g
33,34,Turr√≥n 50g
38,39,Helado Vainilla 1L
39,40,Helado Chocolate 1L
49,50,Az√∫car 1kg



Verduras:


Unnamed: 0,id_producto,nombre_producto
27,28,Papas Fritas Cl√°sicas 100g
28,29,Papas Fritas Onduladas 100g
77,78,Verduras Congeladas Mix



Granos y Cereales:


Unnamed: 0,id_producto,nombre_producto
30,31,Mix de Frutos Secos 200g
34,35,Barrita de Cereal 30g
43,44,Arroz Largo Fino 1kg
45,46,Lentejas Secas 500g
46,47,Garbanzos 500g
62,63,Granola 250g



Limpieza:


Unnamed: 0,id_producto,nombre_producto
41,42,Vinagre de Alcohol 500ml
47,48,Porotos Negros 500g
51,52,Detergente L√≠quido 750ml
53,54,Jab√≥n de Tocador
54,55,Shampoo 400ml
55,56,Papel Higi√©nico x4
56,57,Servilletas x100
89,90,Toallas H√∫medas x50
91,92,Crema Dental 90g
92,93,Cepillo de Dientes
