# üè™ Proyecto Aurelion

Este notebook documenta el proceso de **an√°lisis, limpieza y transformaci√≥n de datos** de la tabla `PRODUCTOS` del proyecto *Aurelion*, utilizando la biblioteca **Pandas** en Python.

El objetivo es preparar un conjunto de datos estructurado, limpio y estandarizado para posteriores procesos de an√°lisis estad√≠stico, modelado o visualizaci√≥n.

## üìä Descripci√≥n General

La tabla `PRODUCTOS` contiene el cat√°logo de art√≠culos disponibles para venta, incluyendo identificadores, nombres, categor√≠as y precios unitarios.

### Tareas Principales del Notebook

1. **Importaci√≥n de datos** desde archivo Excel con rutas portables.
2. **Inspecci√≥n inicial** para validar estructura, tipos y valores faltantes.
3. **Normalizaci√≥n de tipos de datos** y limpieza de texto (espacios, may√∫sculas).
4. **Optimizaci√≥n de memoria** mediante conversi√≥n a tipo `category`.
5. **Control de calidad** para detectar duplicados y anomal√≠as.
6. **Auditor√≠a de categorizaci√≥n** para identificar productos mal asignados.
7. **Correcci√≥n autom√°tica** mediante an√°lisis sem√°ntico del nombre del producto.

### Metodolog√≠a ETL Aplicada

- **Extracci√≥n (E):** Lectura del archivo Excel con `pd.read_excel()`.
- **Transformaci√≥n (T):** Normalizaci√≥n de tipos, limpieza de texto, an√°lisis sem√°ntico.
- **Carga (L):** Datos corregidos permanecen en memoria para exportaci√≥n CSV futura (conjunta con otras tablas).

**Nota:** El archivo original `productos.xlsx` NO se modifica. Los cambios se mantienen en el dataframe.

In [22]:
# Importa paquetes de an?lisis (pandas/numpy) y visualizaci?n (matplotlib/seaborn) con rutas portables
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path


## üõ† Instalaci√≥n e Importaci√≥n de Librer√≠as

En esta secci√≥n se instalan y cargan las principales bibliotecas de Python utilizadas para el an√°lisis de datos:

- **pandas:** Manipulaci√≥n y an√°lisis de dataframes.
- **numpy:** Operaciones num√©ricas y arrays.
- **matplotlib/seaborn:** Visualizaci√≥n de datos.
- **pathlib:** Rutas portables entre sistemas operativos.

## üì• Carga del Archivo de Datos

En esta secci√≥n se realiza la **importaci√≥n del dataset principal** utilizando una **ruta relativa** y la librer√≠a `pathlib.Path`. Esto no solo simplifica la ruta, sino que tambi√©n garantiza que el c√≥digo sea **portable** y funcione correctamente en diferentes sistemas operativos (Windows, macOS, Linux), siempre y cuando la estructura de directorios se mantenga consistente.

> üìÇ **Ruta del archivo:** ¬†
> El archivo se accede mediante la construcci√≥n **`Path('db') / 'productos.xlsx'`**.

La lectura del archivo se efect√∫a mediante la funci√≥n `pd.read_excel()` de la biblioteca **pandas**, creando el dataframe inicial `df_productos_c`, el cual servir√° como base para los procesos posteriores de limpieza y an√°lisis.

## üì• Carga del Archivo de Datos

En esta secci√≥n se realiza la **importaci√≥n del dataset principal** de productos utilizando **rutas relativas** y la librer√≠a `pathlib.Path`. Esto garantiza que el c√≥digo sea **portable** entre sistemas operativos (Windows, macOS, Linux).

> üìÇ **Ruta del archivo:** El archivo se accede mediante `Path('db') / 'productos.xlsx'`.

El dataframe inicial `df_productos_c` servir√° como base para los procesos posteriores de limpieza y an√°lisis.

In [23]:
# Lee el cat√°logo de productos desde la carpeta db usando rutas relativas
path_dataset = Path('db') / 'productos.xlsx'
df_productos_c = pd.read_excel(path_dataset)

# Inspecciona los primeros registros para validar estructura y campos
df_productos_c.head()


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777


## üîç Inspecci√≥n Inicial del Dataset

En esta etapa se realiza una **inspecci√≥n exploratoria b√°sica** del DataFrame `df_productos_c` reci√©n cargado, con el objetivo de verificar que los datos se hayan importado correctamente y posean la estructura esperada.

Para ello, se utilizan las funciones:

## üîç Inspecci√≥n Inicial y Exploraci√≥n de Datos

En esta etapa se realiza una **inspecci√≥n exploratoria b√°sica** del DataFrame `df_productos_c` para verificar que los datos se hayan importado correctamente y posean la estructura esperada.

Se eval√∫an:
- **Estructura y tipos de datos:** Verificaci√≥n de columnas y tipos (int64, object, float64, etc.).
- **Valores faltantes (NaN):** Identificaci√≥n de vac√≠os que requieran tratamiento.
- **Duplicados:** Validaci√≥n de unicidad en identificadores clave.

In [24]:
# Ampl?a la vista inicial a 8 filas para detectar anomal?as tempranas
df_productos_c.head(8)


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777
5,6,Jugo de Naranja 1L,Limpieza,4170
6,7,Jugo de Manzana 1L,Alimentos,3269
7,8,Energ√©tica Nitro 500ml,Limpieza,4218


In [25]:
# Revisa las ?ltimas 4 filas para confirmar consistencia al final del archivo
df_productos_c.tail(4)


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
96,97,Limpiavidrios 500ml,Alimentos,872
97,98,Desengrasante 500ml,Limpieza,2843
98,99,Esponjas x3,Alimentos,2430
99,100,Trapo de Piso,Limpieza,4854


In [26]:
# Resume tipos de datos, nulos y memoria del dataframe importado
df_productos_c.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB


> üí° **Conclusi√≥n:**  
> A partir de la ejecuci√≥n de la inspecci√≥n del DataFrame, se observa que la base de datos cuenta con **100 registros** distribuidos en **4 columnas**.  
> Cada columna presenta **100 valores no nulos**, lo que indica que **no existen datos faltantes (NaN)** en el dataset en esta etapa.  
> Los tipos de datos est√°n definidos de la siguiente manera: **campos de identificaci√≥n y precio** como enteros (`int64`), y **campos descriptivos** (`nombre_producto`, `categoria`) como texto (`object`). Esta estructura inicial es **coherente y est√° lista** para los procesos de **normalizaci√≥n** (ej. estandarizaci√≥n de texto) y **transformaci√≥n** (ej. conversi√≥n de precios a float).

### üïµÔ∏è‚Äç‚ôÇÔ∏è Detecci√≥n de Valores Nulos

Se analiza la presencia de valores faltantes para priorizar acciones de limpieza y asegurar la consistencia del dataset.

In [27]:
# Visualiza la m√°scara booleana donde True marca valores faltantes por celda
df_productos_c.isnull()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
95,False,False,False,False
96,False,False,False,False
97,False,False,False,False
98,False,False,False,False


In [28]:
# Resume la cantidad de nulos por columna para priorizar limpieza
df_productos_c.isnull().sum()

id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0
dtype: int64

## ‚öôÔ∏è Normalizaci√≥n y Correcci√≥n de Tipos de Datos

Antes de realizar la normalizaci√≥n de la base de datos, es necesario **verificar y corregir los tipos de datos** asignados a las variables y estandarizar los campos de texto. En este caso, la columna `precio_unitario` se convierte al formato `float64` para asegurar precisi√≥n decimal. Adicionalmente, se **normalizan** los campos de texto (`nombre_producto` y `categoria`) y se optimiza `categoria` a tipo `categ√≥rico` para mejorar la eficiencia del DataFrame.

### üß© Fundamento

Corregir los tipos de datos garantiza la **precisi√≥n num√©rica** en c√°lculos y estad√≠sticas. Si el `precio_unitario` se mantuviera como entero, se perder√≠a informaci√≥n decimal y se podr√≠an producir errores al calcular promedios, totales o al aplicar operaciones aritm√©ticas.

Este paso forma parte del proceso de **limpieza estructural** dentro de la metodolog√≠a ETL (Extract, Transform, Load):

1. **Extracci√≥n:** se importan los datos desde el archivo Excel.  
2. **Transformaci√≥n estructural:** se ajustan los tipos de datos para asegurar coherencia.  
3. **Normalizaci√≥n:** se reorganiza la base, eliminando redundancias o columnas innecesarias.

### üßÆ Procedimiento

- Se aplican las transformaciones para:

     **Precio:** Asegurar formato `float64` (precisi√≥n decimal).

     **Texto:** Limpiar `nombre_producto` y `categoria` (eliminar espacios, unificar may√∫sculas/min√∫sculas).

     **Categ√≥ricas:** Convertir `categoria` a tipo `category`.

In [29]:
# 1. Correcci√≥n de Tipo de Dato Num√©rico
# Se convierte 'precio_unitario' a float64 para asegurar precisi√≥n decimal.
df_productos_c['precio_unitario'] = df_productos_c['precio_unitario'].astype('float64')

# 2. Normalizaci√≥n de Campos de Texto y Categ√≥rico
# Se aplica limpieza de espacios y estandarizaci√≥n a campos de texto.
df_productos_c['nombre_producto'] = (
    df_productos_c['nombre_producto']
    .str.strip()
    .str.title() # Formato T√≠tulo para nombres de producto
)

# Se aplica limpieza y se convierte a categ√≥rico para optimizar memoria y agrupaci√≥n.
df_productos_c['categoria'] = (
    df_productos_c['categoria']
    .str.strip()
    .str.lower()
    .astype('category')
)

## ‚öôÔ∏è Normalizaci√≥n y Correcci√≥n de Tipos de Datos

Antes de realizar an√°lisis, es necesario **verificar y corregir los tipos de datos** asignados a cada columna. En este caso:

- **Precio unitario:** Conversi√≥n a `float64` para asegurar precisi√≥n decimal en c√°lculos financieros.
- **Nombre producto y Categor√≠a:** Limpieza de espacios y normalizaci√≥n de may√∫sculas/min√∫sculas.
- **Categor√≠a:** Conversi√≥n a tipo `category` para optimizar memoria y facilitar agrupaciones.

### Fundamento

Corregir tipos de datos garantiza:
- ‚úÖ **Precisi√≥n num√©rica** en c√°lculos financieros.
- ‚úÖ **Consistencia de datos** en an√°lisis y reportes.
- ‚úÖ **Eficiencia de memoria** mediante tipos optimizados.
- ‚úÖ **Facilidad de agrupaci√≥n** mediante categor√≠as.

In [30]:
# Resumen estad√≠stico limpio y presentable
print('\n=== Resumen estad√≠stico - PRODUCTOS ===\n')
# Dimensiones y tipos
print('Dimensiones:', df_productos_c.shape)
print('\nTipos de datos:')
print(df_productos_c.dtypes.to_string())
# Nulos y duplicados
print('\nNulos por columna:')
print(df_productos_c.isnull().sum().to_string())
print('\nDuplicados totales:', df_productos_c.duplicated().sum())
# Estad√≠sticas num√©ricas para precio_unitario
print('\nResumen de `precio_unitario`:')
print(df_productos_c['precio_unitario'].describe().to_string())
print('\nEstad√≠sticas adicionales de precio:')
print(f'Mediana: {df_productos_c['precio_unitario'].median():.2f}')
print(f'Desviaci√≥n t√≠pica: {df_productos_c['precio_unitario'].std():.2f}')
# skew puede fallar si hay pocos puntos; lo protegemos
try:
    skew_val = df_productos_c['precio_unitario'].skew()
except Exception:
    skew_val = float('nan')
print(f'Skewness: {skew_val:.2f}')
# Conteos y top valores
print('\nConteo por categor√≠a (top 10):')
print(df_productos_c['categoria'].value_counts().head(10).to_string())
print('\nProductos m√°s frecuentes (top 10):')
print(df_productos_c['nombre_producto'].value_counts().head(10).to_string())
# Resumen final compacto
print('\nResumen final:')
print(f'Productos √∫nicos: {df_productos_c['id_producto'].nunique()} | Categor√≠as √∫nicas: {df_productos_c['categoria'].nunique()}')



=== Resumen estad√≠stico - PRODUCTOS ===

Dimensiones: (100, 4)

Tipos de datos:
id_producto           int64
nombre_producto      object
categoria          category
precio_unitario     float64

Nulos por columna:
id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0

Duplicados totales: 0

Resumen de `precio_unitario`:
count     100.000000
mean     2718.550000
std      1381.635324
min       272.000000
25%      1590.000000
50%      2516.000000
75%      4026.500000
max      4982.000000

Estad√≠sticas adicionales de precio:
Mediana: 2516.00
Desviaci√≥n t√≠pica: 1381.64
Skewness: 0.15

Conteo por categor√≠a (top 10):
categoria
alimentos    50
limpieza     50

Productos m√°s frecuentes (top 10):
nombre_producto
Coca Cola 1.5L             1
Avena Instant√°nea 250G     1
Whisky 750Ml               1
Gin 700Ml                  1
Ron 700Ml                  1
Vodka 700Ml                1
Fernet 750Ml               1
Sidra 750Ml                1
Vino Blanco 750Ml   

### üîç Verificaci√≥n de Transformaciones Aplicadas

Se valida que los cambios hayan surtido efecto en tipos de datos y muestras de datos.

In [31]:
# Verifica los tipos de datos de las columnas normalizadas tras la conversi√≥n en la tabla PRODUCTOS
df_productos_c[["id_producto", "nombre_producto", "categoria", "precio_unitario"]].dtypes

id_producto           int64
nombre_producto      object
categoria          category
precio_unitario     float64
dtype: object

In [32]:
# Realiza muestreo de las columnas transformadas para comprobar resultados
df_productos_c[["id_producto", "nombre_producto", "categoria", "precio_unitario"]].head()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,alimentos,2347.0
1,2,Pepsi 1.5L,limpieza,4973.0
2,3,Sprite 1.5L,alimentos,4964.0
3,4,Fanta Naranja 1.5L,limpieza,2033.0
4,5,Agua Mineral 500Ml,alimentos,4777.0


### üïµÔ∏è‚Äç‚ôÇÔ∏è Control de Calidad: Validaci√≥n de Unicidad

Se eval√∫a la integridad de registros, especialmente en `id_producto` como identificador clave.

In [33]:
# Eval√∫a duplicados globales y por id_producto para validar la unicidad clave de productos
cantidad_duplicados = df_productos_c.duplicated().sum()
duplicados_id_producto = df_productos_c['id_producto'].duplicated().sum()

print()
print('--- Registros Duplicados ---')
if cantidad_duplicados > 0:
    print(f'Se encontraron {cantidad_duplicados} filas duplicadas.')
    # Si se encuentran duplicados y se necesita eliminarlos, usar:
    # df_productos_c = df_productos_c_True_duplicates().copy()
else:
    print('No se encontraron filas duplicadas.')

print()
if duplicados_id_producto > 0:
    print(f'Alerta: se detectaron {duplicados_id_producto} valores repetidos en id_producto (posible clave primaria).')
else:
    print('id_producto es √∫nico en df_productos_c.')


--- Registros Duplicados ---
No se encontraron filas duplicadas.

id_producto es √∫nico en df_productos_c.


> üí° **Conclusi√≥n:**
> Luego de la verificaci√≥n y **normalizaci√≥n optimizada** de tipos de datos, se confirma que todas las variables del *dataset* `PRODUCTOS` presentan formatos consistentes y adecuados:
>
> * La columna **`precio_unitario`** fue convertida a **`float64`**, lo cual asegura la **precisi√≥n decimal** necesaria para c√°lculos financieros (ej. promedios y m√°rgenes).
> * Las columnas **`nombre_producto`** y **`id_producto`** mantienen tipos coherentes con su contenido (`object` / `int64`), asegurando la **normalizaci√≥n de texto** (eliminaci√≥n de espacios y unificaci√≥n de may√∫sculas/min√∫sculas).
> * La variable **`categoria`** fue convertida al tipo **categ√≥rico (`category`)**, lo que facilita las agrupaciones y segmentaciones y genera una **mejora en la eficiencia del procesamiento** y el uso de memoria.
>
> De esta forma, el *dataframe* `df_productos_c` queda estructurado de manera coherente, **garantizando integridad, consistencia, y una ligera mejora en la eficiencia del procesamiento** para las etapas posteriores de transformaci√≥n y an√°lisis.

## üèÜ Resumen: Normalizaci√≥n y Limpieza Completada

Tras la **normalizaci√≥n optimizada**, se confirma que todas las variables presentan formatos consistentes:

‚úÖ **Precio unitario ‚Üí float64:** Precisi√≥n decimal asegurada.  
‚úÖ **Nombre producto ‚Üí str (t√≠tulo):** Normalizaci√≥n de may√∫sculas aplicada.  
‚úÖ **Categor√≠a ‚Üí category:** Optimizaci√≥n de memoria y facilidad de agrupaci√≥n.  
‚úÖ **Sin duplicados:** Integridad de identificadores clave validada.  

El dataframe `df_productos_c` est√° **estructurado, coherente y listo** para la auditor√≠a de categorizaci√≥n.

In [34]:
# An√°lisis de categorizaci√≥n: identificar productos mal categorizados
# Se utiliza an√°lisis sem√°ntico del nombre_producto para detectar incongruencias

print('\n' + '='*100)
print('AUDITOR√çA DE CATEGORIZACI√ìN DE PRODUCTOS')
print('='*100)

# Mostrar distribuci√≥n actual de productos por categor√≠a
print('\nDistribuci√≥n actual de productos por categor√≠a:')
print(df_productos_c['categoria'].value_counts().sort_values(ascending=False).to_string())

print('\n--- An√°lisis por categor√≠a: primeros 5 productos de cada una ---\n')

# Agrupar por categor√≠a para revisar nombres y detectar incongruencias
for cat in df_productos_c['categoria'].unique():
    productos_cat = df_productos_c[df_productos_c['categoria'] == cat][['id_producto', 'nombre_producto', 'precio_unitario']].head(10)
    print(f'\nüì¶ Categor√≠a: {cat}')
    print(productos_cat.to_string(index=False))
    print('-' * 100)

print('\nüí° Nota: Revise los nombres de productos y detecte si alguno est√° mal asignado.')
print('Despu√©s de identificar, aplicaremos correcciones sistem√°ticas en la siguiente celda.')



AUDITOR√çA DE CATEGORIZACI√ìN DE PRODUCTOS

Distribuci√≥n actual de productos por categor√≠a:
categoria
alimentos    50
limpieza     50

--- An√°lisis por categor√≠a: primeros 5 productos de cada una ---


üì¶ Categor√≠a: alimentos
 id_producto      nombre_producto  precio_unitario
           1       Coca Cola 1.5L           2347.0
           3          Sprite 1.5L           4964.0
           5   Agua Mineral 500Ml           4777.0
           7   Jugo De Manzana 1L           3269.0
           9 Yerba Mate Suave 1Kg           3878.0
          11     Caf√© Molido 250G           2053.0
          13 T√© Verde 20 Saquitos           2383.0
          15  Leche Descremada 1L           2538.0
          17   Queso Cremoso 500G           4834.0
          19         Manteca 200G           3251.0
----------------------------------------------------------------------------------------------------

üì¶ Categor√≠a: limpieza
 id_producto        nombre_producto  precio_unitario
           2          

## üîé Auditor√≠a de Categorizaci√≥n de Productos

Esta secci√≥n realiza una **auditor√≠a completa** para identificar productos mal categorizados utilizando an√°lisis sem√°ntico del nombre del producto.

### Metodolog√≠a

1. **An√°lisis Sem√°ntico:** Se identifican palabras clave espec√≠ficas de cada categor√≠a en el nombre del producto.
2. **Clasificaci√≥n Autom√°tica:** Se asigna la categor√≠a correcta basada en coincidencias de palabras clave.
3. **Detecci√≥n de Anomal√≠as:** Se comparan categor√≠as actuales con las recomendadas para identificar errores.

In [35]:
# Correcci√≥n de Categorizaci√≥n: Reasignar productos a categor√≠as correctas
# Metodolog√≠a: An√°lisis sem√°ntico del nombre_producto y reglas de negocio

print('\n' + '='*100)
print('CORRECCI√ìN DE CATEGORIZACI√ìN: REASIGNACI√ìN DE PRODUCTOS')
print('='*100)

# Palabras clave por categor√≠a para identificar productos correctamente
palabras_alimentos = [
    'cola', 'pepsi', 'sprite', 'fanta', 'agua', 'jugo', 'energ√©tica', 
    'yerba', 'caf√©', 't√©', 'leche', 'queso', 'manteca', 'yogur', 'pan',
    'bebida', 'refresco', 'bebidas', 'l√°cteos', 'l√°cteo'
]

palabras_limpieza = [
    'limpiador', 'detergente', 'jab√≥n', 'desinfectante', 'cloro', 
    'escoba', 'trapo', 'esponja', 'cepillo', 'limpieza'
]

# Funci√≥n para clasificar producto seg√∫n nombre
def clasificar_producto(nombre_producto):
    """
    Clasifica un producto seg√∫n palabras clave en su nombre.
    Retorna: 'alimentos' o 'limpieza'
    """
    nombre_lower = nombre_producto.lower()
    
    # Contar coincidencias
    count_alimentos = sum(1 for palabra in palabras_alimentos if palabra in nombre_lower)
    count_limpieza = sum(1 for palabra in palabras_limpieza if palabra in nombre_lower)
    
    # Determinar categor√≠a seg√∫n coincidencias
    if count_alimentos > count_limpieza:
        return 'alimentos'
    elif count_limpieza > count_alimentos:
        return 'limpieza'
    else:
        # Por defecto, si hay ambig√ºedad, revisar patrones adicionales
        # Bebidas, alimentos refrigerados ‚Üí alimentos
        if any(x in nombre_lower for x in ['ml', 'litro', 'l.', '1l', 'kg', 'g.', '200g', '500g', '150g', '250g']):
            return 'alimentos'
        return 'alimentos'  # Por defecto

# Crear una copia para comparar antes/despu√©s
df_productos_c['categoria_original'] = df_productos_c['categoria'].copy()
df_productos_c['categoria_correcta'] = df_productos_c['nombre_producto'].apply(clasificar_producto)

# Comparar y mostrar cambios necesarios
cambios = df_productos_c[df_productos_c['categoria'] != df_productos_c['categoria_correcta']]

if len(cambios) > 0:
    print(f'\n‚úÖ Se detectaron {len(cambios)} productos mal categorizados:\n')
    print('PRODUCTOS A REASIGNAR:')
    print('-' * 100)
    cambios_display = cambios[['id_producto', 'nombre_producto', 'categoria_original', 'categoria_correcta', 'precio_unitario']]
    print(cambios_display.to_string(index=False))
    
    # Aplicar correcciones
    print('\n' + '-' * 100)
    print('\nAplicando correcciones...\n')
    
    for idx, row in cambios.iterrows():
        producto = row['nombre_producto']
        cat_vieja = row['categoria_original']
        cat_nueva = row['categoria_correcta']
        df_productos_c.loc[idx, 'categoria'] = cat_nueva
        print(f"  ‚úì Producto ID {row['id_producto']:>3d}: '{producto}' movido de '{cat_vieja}' ‚Üí '{cat_nueva}'")
    
    print(f'\n‚úÖ Correcci√≥n completada: {len(cambios)} productos reasignados.')
else:
    print('\n‚úÖ No se detectaron productos mal categorizados. La categorizaci√≥n es correcta.')

# Validar resultado final
print('\n' + '='*100)
print('DISTRIBUCI√ìN FINAL DESPU√âS DE CORRECCIONES')
print('='*100)
print('\nProductos por categor√≠a:')
print(df_productos_c['categoria'].value_counts().sort_values(ascending=False).to_string())

# Limpiar columnas temporales
df_productos_c = df_productos_c.drop(columns=['categoria_original', 'categoria_correcta'])

print('\n‚úÖ Dataframe normalizado y listo para an√°lisis.')



CORRECCI√ìN DE CATEGORIZACI√ìN: REASIGNACI√ìN DE PRODUCTOS

‚úÖ Se detectaron 49 productos mal categorizados:

PRODUCTOS A REASIGNAR:
----------------------------------------------------------------------------------------------------
 id_producto            nombre_producto categoria_original categoria_correcta  precio_unitario
           2                 Pepsi 1.5L           limpieza          alimentos           4973.0
           4         Fanta Naranja 1.5L           limpieza          alimentos           2033.0
           6         Jugo De Naranja 1L           limpieza          alimentos           4170.0
           8     Energ√©tica Nitro 500Ml           limpieza          alimentos           4218.0
          10     Yerba Mate Intensa 1Kg           limpieza          alimentos           4883.0
          12       T√© Negro 20 Saquitos           limpieza          alimentos            570.0
          14            Leche Entera 1L           limpieza          alimentos           1723.0
  