# üè™ Proyecto Aurelion

Este notebook documenta el proceso de **an√°lisis, limpieza y transformaci√≥n de datos** de la tabla `PRODUCTOS` del proyecto *Aurelion*, utilizando la biblioteca **Pandas** en Python.

El objetivo es preparar un conjunto de datos estructurado, limpio y estandarizado para posteriores procesos de an√°lisis estad√≠stico, modelado o visualizaci√≥n.

## üìä Descripci√≥n General

La tabla `VENTAS` contiene informaci√≥n detallada sobre operaciones comerciales, incluyendo campos de identificaci√≥n, fechas, montos y categor√≠as de productos.

A lo largo de este notebook se realizar√°n las siguientes tareas principales:

- Importaci√≥n de los datos desde un archivo **Excel (.xlsx)**.  
- Creaci√≥n del dataframe inicial `df_productos_c`.  
- Procesamiento, normalizaci√≥n y renombrado de columnas para generar el dataframe limpio `df_productos`.  
- Aplicaci√≥n de operaciones b√°sicas de **limpieza**, **transformaci√≥n** y **estandarizaci√≥n** de los datos.  
- Generaci√≥n de **estad√≠sticas descriptivas** para comprender la distribuci√≥n y consistencia de las variables.

## ‚öôÔ∏è Limpieza y Transformaci√≥n de los Datos

En esta secci√≥n se detallan las operaciones realizadas para asegurar la integridad y coherencia del dataset:

1. **Revisi√≥n de valores nulos y duplicados.**  
   - Identificaci√≥n y tratamiento de valores faltantes.  
   - Eliminaci√≥n o imputaci√≥n seg√∫n el contexto de negocio.

2. **Estandarizaci√≥n de tipos de datos.**  
   - Conversi√≥n de fechas, montos y categor√≠as al formato correcto.  
   - Normalizaci√≥n de cadenas y eliminaci√≥n de espacios o caracteres no deseados.

3. **Renombrado de columnas.**  
   - Aplicaci√≥n de nombres consistentes y descriptivos conforme a las buenas pr√°cticas de an√°lisis de datos.

4. **Validaci√≥n del dataframe final.**  
   - Verificaci√≥n de dimensiones, tipos y contenido.  
   - Comparaci√≥n con el dataframe original (`df_productos_c`).

#### Importamos librerias instaladas para implementarlas en el c√≥digo

In [16]:
# Importa paquetes de an?lisis (pandas/numpy) y visualizaci?n (matplotlib/seaborn) con rutas portables
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path


## üì• Carga del Archivo de Datos

En esta secci√≥n se realiza la **importaci√≥n del dataset principal** utilizando una **ruta relativa** y la librer√≠a `pathlib.Path`. Esto no solo simplifica la ruta, sino que tambi√©n garantiza que el c√≥digo sea **portable** y funcione correctamente en diferentes sistemas operativos (Windows, macOS, Linux), siempre y cuando la estructura de directorios se mantenga consistente.

> üìÇ **Ruta del archivo:** ¬†
> El archivo se accede mediante la construcci√≥n **`Path('db') / 'productos.xlsx'`**.

La lectura del archivo se efect√∫a mediante la funci√≥n `pd.read_excel()` de la biblioteca **pandas**, creando el dataframe inicial `df_productos_c`, el cual servir√° como base para los procesos posteriores de limpieza y an√°lisis.

In [17]:
# Lee el cat√°logo de productos desde la carpeta db usando rutas relativas
path_dataset = Path('db') / 'productos.xlsx'
df_productos_c = pd.read_excel(path_dataset)

In [18]:
# Inspecciona los primeros registros para validar estructura y campos
df_productos_c.head()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777


## üîç Inspecci√≥n Inicial del Dataset

En esta etapa se realiza una **inspecci√≥n exploratoria b√°sica** del DataFrame `df_productos_c` reci√©n cargado, con el objetivo de verificar que los datos se hayan importado correctamente y posean la estructura esperada.

Para ello, se utilizan las funciones:

In [19]:
# Ampl?a la vista inicial a 8 filas para detectar anomal?as tempranas
df_productos_c.head(8)


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777
5,6,Jugo de Naranja 1L,Limpieza,4170
6,7,Jugo de Manzana 1L,Alimentos,3269
7,8,Energ√©tica Nitro 500ml,Limpieza,4218


In [20]:
# Revisa las ?ltimas 4 filas para confirmar consistencia al final del archivo
df_productos_c.tail(4)


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
96,97,Limpiavidrios 500ml,Alimentos,872
97,98,Desengrasante 500ml,Limpieza,2843
98,99,Esponjas x3,Alimentos,2430
99,100,Trapo de Piso,Limpieza,4854


#### üîç Control de Calidad Inicial (QA): Resumen Detallado de df_productos_c

- Este an√°lisis es fundamental para diagnosticar la calidad de los datos antes de las transformaciones. En la tabla PRODUCTOS, nos centraremos en:

    -  Verificar que id_producto no tenga duplicados (es clave primaria).

    -  Evaluar la distribuci√≥n y consistencia de precio_unitario.

    -  Identificar la inconsistencia categ√≥rica entre nombre_producto y categoria, donde productos obvios (ej: 'Pepsi 1.5L') est√°n etiquetados incorrectamente.

In [22]:
# Resumen detallado de df_productos_c - incluye m√©tricas num√©ricas y categ√≥ricas
import pandas as pd
import numpy as np

# ASUMIENDO df_productos_c ya cargado y definido en una celda anterior.
# Se trabaja directamente sobre el DataFrame de origen sin usar .copy()
df = df_productos_c
total_rows = len(df)
print('='*110)
print('RESUMEN DETALLADO Y PROLIJO: df_productos_c (Carga Inicial)')
print('='*110)
print(f'Tama√±o del dataframe: {total_rows:,} filas x {df.shape[1]:,} columnas')
print(f'Memoria (approx): {df.memory_usage(deep=True).sum()/1024**2:.2f} MB')

for col in df.columns:
    s = df[col]
    
    # --- Encabezado de Columna Mejorado ---
    print('\n' + '‚ñà'*110)
    print(f"COLUMNA: {col:25s} | DTYPE: {str(s.dtype):15s}")
    
    n = len(s)
    n_missing = s.isna().sum()
    pct_missing = (n_missing / n * 100) if n > 0 else 0
    n_unique = s.nunique(dropna=True)
    
    # CORRECCI√ìN DE ERROR: Eliminamos el especificador de formato de alineaci√≥n '<'
    # de la variable 'n' para evitar el ValueError, manteniendo el formato de miles ','.
    print(f"  Count: {n:,} | Missing: {n_missing:,} ({pct_missing:.2f}%) | Unique: {n_unique:,}")
    print('‚Äî'*110)
    
    # Columnas num√©ricas
    if pd.api.types.is_numeric_dtype(s):
        s_num = pd.to_numeric(s, errors='coerce').dropna()
        
        if s_num.empty:
            print('  (No hay valores num√©ricos tras coerci√≥n)')
            continue

        if col == 'id_producto':
            print('  --- ID/CLAVE PRIMARIA ‚Äî')
            print(f"  M√≠nimo ID: {s_num.min():,.0f} | M√°ximo ID: {s_num.max():,.0f}")
            if s_num.nunique() != len(s_num):
                 print(f"  üö® ALERTA: ID DUPLICADOS ENCONTRADOS ({len(s_num) - s_num.nunique()} duplicados)")
            continue
            
        # Estad√≠sticas Num√©ricas para Precio Unitario
        p = s_num.quantile([0.01, 0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99]).to_dict()
        print('  --- üìà ESTAD√çSTICAS NUM√âRICAS ‚Äî')
        
        # Bloque 1: M√≠nimo y Percentiles
        print(f"  Min: {s_num.min():<10,.2f} | 1%: {p.get(0.01, np.nan):<10,.2f} | 5%: {p.get(0.05, np.nan):<10,.2f} | 10%: {p.get(0.1, np.nan):<10,.2f}")
        print(f"  Q1: {p.get(0.25, np.nan):<10,.2f} | Mediana: {p.get(0.5, np.nan):<10,.2f} | Q3: {p.get(0.75, np.nan):<10,.2f} | Max: {s_num.max():<10,.2f}")
        print(f"  90%: {p.get(0.9, np.nan):<10,.2f} | 95%: {p.get(0.95, np.nan):<10,.2f} | 99%: {p.get(0.99, np.nan):<10,.2f}")
        print('‚Äî'*110)
        
        # Bloque 2: Tendencia Central, Dispersi√≥n y Forma
        mean = s_num.mean()
        std = s_num.std()
        skew = s_num.skew()
        kurt = s_num.kurtosis()
        
        print(f"  Mean: {mean:<10,.2f} | Std: {std:<10,.2f} | Skew: {skew:<10.4f} | Kurtosis: {kurt:<10.4f}")
        
    else:
        # Categ√≥ricas/texto: nombre_producto y categoria
        print('  --- üè∑Ô∏è ESTAD√çSTICAS CATEG√ìRICAS/TEXTO ‚Äî')
        nonnull = s.dropna()
        if nonnull.empty:
            print('  (Todos los valores son NaN)')
        else:
            try:
                top = nonnull.mode().iloc[0]
                freq = nonnull.value_counts(dropna=True).iloc[0]
                pct_top = freq / len(nonnull) * 100 if len(nonnull)>0 else 0
                print(f"  Moda: {str(top):50s} | Freq: {freq:,} | % Moda: {pct_top:.2f}%")
            except Exception as e:
                print(f'  No se pudo calcular moda: {e}')
            
            if n_unique <= 20 and n_unique > 1:
                print(f'  Distribuci√≥n de valores de {col}:')
                vc = nonnull.value_counts(dropna=True).head(20)
                for v, cnt in vc.items():
                    pct = cnt / len(nonnull) * 100
                    print(f"    -> {str(v):<30s} : {cnt:,} ({pct:.2f}%)")
            elif n_unique > 20:
                print(f"  Valores √∫nicos > 20. Ejemplos (Top 10): {list(nonnull.unique()[:10])}")

print('\n' + '‚ñà'*110)
print('Tabla pandas .describe(include="all") como referencia r√°pida:')
print('‚ñà'*110)
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(df.describe(include='all'))

RESUMEN DETALLADO Y PROLIJO: df_productos_c (Carga Inicial)
Tama√±o del dataframe: 100 filas x 4 columnas
Memoria (approx): 0.01 MB

‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
COLUMNA: id_producto               | DTYPE: int64          
  Count: 100 | Missing: 0 (0.00%) | Unique: 100
‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî‚Äî
  --- ID/CLAVE PRIMARIA ‚Äî
  M√≠nimo ID: 1 | M√°ximo ID: 100

‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
count,100.0,100,100,100.0
unique,,100,2,
top,,Coca Cola 1.5L,Alimentos,
freq,,1,50,
mean,50.5,,,2718.55
std,29.011492,,,1381.635324
min,1.0,,,272.0
25%,25.75,,,1590.0
50%,50.5,,,2516.0
75%,75.25,,,4026.5


## üß† Exploraci√≥n de Tipos de Datos y Valores Nulos

En esta etapa se realiza una **revisi√≥n estructural del DataFrame** para confirmar que los tipos de datos asignados a cada variable durante la lectura con `pd.read_excel()` sean correctos y coherentes con la naturaleza de la informaci√≥n (por ejemplo, fechas, n√∫meros, textos, etc.).

Adem√°s, se eval√∫a la **presencia de valores nulos o faltantes**, los cuales podr√≠an requerir tratamiento posterior durante el proceso de limpieza y estandarizaci√≥n.

### üß© Procedimiento

In [None]:
# Resume tipos de datos, nulos y memoria del dataframe importado
df_productos_c.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB


> üí° **Conclusi√≥n:**  
> A partir de la ejecuci√≥n de la inspecci√≥n del DataFrame, se observa que la base de datos cuenta con **100 registros** distribuidos en **4 columnas**.  
> Cada columna presenta **100 valores no nulos**, lo que indica que **no existen datos faltantes (NaN)** en el dataset en esta etapa.  
> Los tipos de datos est√°n definidos de la siguiente manera: **campos de identificaci√≥n y precio** como enteros (`int64`), y **campos descriptivos** (`nombre_producto`, `categoria`) como texto (`object`). Esta estructura inicial es **coherente y est√° lista** para los procesos de **normalizaci√≥n** (ej. estandarizaci√≥n de texto) y **transformaci√≥n** (ej. conversi√≥n de precios a float).

### üïµÔ∏è‚Äç‚ôÇÔ∏è Detecci√≥n de Valores Nulos

Se analiza la presencia de valores faltantes para priorizar acciones de limpieza y asegurar la consistencia del dataset.

In [None]:
# Visualiza la m√°scara booleana donde True marca valores faltantes por celda
df_productos_c.isnull()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
95,False,False,False,False
96,False,False,False,False
97,False,False,False,False
98,False,False,False,False


In [None]:
# Resume la cantidad de nulos por columna para priorizar limpieza
df_productos_c.isnull().sum()

id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0
dtype: int64

## ‚öôÔ∏è Normalizaci√≥n y Correcci√≥n de Tipos de Datos

Antes de realizar la normalizaci√≥n de la base de datos, es necesario **verificar y corregir los tipos de datos** asignados a las variables y estandarizar los campos de texto. En este caso, la columna `precio_unitario` se convierte al formato `float64` para asegurar precisi√≥n decimal. Adicionalmente, se **normalizan** los campos de texto (`nombre_producto` y `categoria`) y se optimiza `categoria` a tipo `categ√≥rico` para mejorar la eficiencia del DataFrame.

### üß© Fundamento

Corregir los tipos de datos garantiza la **precisi√≥n num√©rica** en c√°lculos y estad√≠sticas. Si el `precio_unitario` se mantuviera como entero, se perder√≠a informaci√≥n decimal y se podr√≠an producir errores al calcular promedios, totales o al aplicar operaciones aritm√©ticas.

Este paso forma parte del proceso de **limpieza estructural** dentro de la metodolog√≠a ETL (Extract, Transform, Load):

1. **Extracci√≥n:** se importan los datos desde el archivo Excel.  
2. **Transformaci√≥n estructural:** se ajustan los tipos de datos para asegurar coherencia.  
3. **Normalizaci√≥n:** se reorganiza la base, eliminando redundancias o columnas innecesarias.

### üßÆ Procedimiento

- Se aplican las transformaciones para:

     **Precio:** Asegurar formato `float64` (precisi√≥n decimal).

     **Texto:** Limpiar `nombre_producto` y `categoria` (eliminar espacios, unificar may√∫sculas/min√∫sculas).

     **Categ√≥ricas:** Convertir `categoria` a tipo `category`.

In [None]:
# 1. Correcci√≥n de Tipo de Dato Num√©rico
# Se convierte 'precio_unitario' a float64 para asegurar precisi√≥n decimal.
df_productos_c['precio_unitario'] = df_productos_c['precio_unitario'].astype('float64')

# 2. Normalizaci√≥n de Campos de Texto y Categ√≥rico
# Se aplica limpieza de espacios y estandarizaci√≥n a campos de texto.
df_productos_c['nombre_producto'] = (
    df_productos_c['nombre_producto']
    .str.strip()
    .str.title() # Formato T√≠tulo para nombres de producto
)

# Se aplica limpieza y se convierte a categ√≥rico para optimizar memoria y agrupaci√≥n.
df_productos_c['categoria'] = (
    df_productos_c['categoria']
    .str.strip()
    .str.lower()
    .astype('category')
)

In [None]:
# Resumen estad√≠stico limpio y presentable
print('\n=== Resumen estad√≠stico - PRODUCTOS ===\n')
# Dimensiones y tipos
print('Dimensiones:', df_productos_c.shape)
print('\nTipos de datos:')
print(df_productos_c.dtypes.to_string())
# Nulos y duplicados
print('\nNulos por columna:')
print(df_productos_c.isnull().sum().to_string())
print('\nDuplicados totales:', df_productos_c.duplicated().sum())
# Estad√≠sticas num√©ricas para precio_unitario
print('\nResumen de `precio_unitario`:')
print(df_productos_c['precio_unitario'].describe().to_string())
print('\nEstad√≠sticas adicionales de precio:')
print(f'Mediana: {df_productos_c['precio_unitario'].median():.2f}')
print(f'Desviaci√≥n t√≠pica: {df_productos_c['precio_unitario'].std():.2f}')
# skew puede fallar si hay pocos puntos; lo protegemos
try:
    skew_val = df_productos_c['precio_unitario'].skew()
except Exception:
    skew_val = float('nan')
print(f'Skewness: {skew_val:.2f}')
# Conteos y top valores
print('\nConteo por categor√≠a (top 10):')
print(df_productos_c['categoria'].value_counts().head(10).to_string())
print('\nProductos m√°s frecuentes (top 10):')
print(df_productos_c['nombre_producto'].value_counts().head(10).to_string())
# Resumen final compacto
print('\nResumen final:')
print(f'Productos √∫nicos: {df_productos_c['id_producto'].nunique()} | Categor√≠as √∫nicas: {df_productos_c['categoria'].nunique()}')



=== Resumen estad√≠stico - PRODUCTOS ===

Dimensiones: (100, 4)

Tipos de datos:
id_producto           int64
nombre_producto      object
categoria          category
precio_unitario     float64

Nulos por columna:
id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0

Duplicados totales: 0

Resumen de `precio_unitario`:
count     100.000000
mean     2718.550000
std      1381.635324
min       272.000000
25%      1590.000000
50%      2516.000000
75%      4026.500000
max      4982.000000

Estad√≠sticas adicionales de precio:
Mediana: 2516.00
Desviaci√≥n t√≠pica: 1381.64
Skewness: 0.15

Conteo por categor√≠a (top 10):
categoria
alimentos    50
limpieza     50

Productos m√°s frecuentes (top 10):
nombre_producto
Coca Cola 1.5L             1
Avena Instant√°nea 250G     1
Whisky 750Ml               1
Gin 700Ml                  1
Ron 700Ml                  1
Vodka 700Ml                1
Fernet 750Ml               1
Sidra 750Ml                1
Vino Blanco 750Ml   

#### üïµÔ∏è‚Äç‚ôÇÔ∏è Verificaci√≥n de Transformaciones

Se valida que los cambios aplicados hayan surtido efecto tanto en los tipos de datos como en los valores muestreados.

In [None]:
# Verifica los tipos de datos de las columnas normalizadas tras la conversi√≥n en la tabla PRODUCTOS
df_productos_c[["id_producto", "nombre_producto", "categoria", "precio_unitario"]].dtypes

id_producto           int64
nombre_producto      object
categoria          category
precio_unitario     float64
dtype: object

In [None]:
# Realiza muestreo de las columnas transformadas para comprobar resultados
df_productos_c[["id_producto", "nombre_producto", "categoria", "precio_unitario"]].head()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,alimentos,2347.0
1,2,Pepsi 1.5L,limpieza,4973.0
2,3,Sprite 1.5L,alimentos,4964.0
3,4,Fanta Naranja 1.5L,limpieza,2033.0
4,5,Agua Mineral 500Ml,alimentos,4777.0


#### üïµÔ∏è‚Äç‚ôÇÔ∏è Control de Calidad: Duplicados

Se eval√∫a la unicidad de registros, especialmente en la columna `id_producto`, que act√∫a como identificador clave.

In [None]:
# Eval√∫a duplicados globales y por id_producto para validar la unicidad clave de productos
cantidad_duplicados = df_productos_c.duplicated().sum()
duplicados_id_producto = df_productos_c['id_producto'].duplicated().sum()

print()
print('--- Registros Duplicados ---')
if cantidad_duplicados > 0:
    print(f'Se encontraron {cantidad_duplicados} filas duplicadas.')
    # Si se encuentran duplicados y se necesita eliminarlos, usar:
    # df_productos_c = df_productos_c_True_duplicates().copy()
else:
    print('No se encontraron filas duplicadas.')

print()
if duplicados_id_producto > 0:
    print(f'Alerta: se detectaron {duplicados_id_producto} valores repetidos en id_producto (posible clave primaria).')
else:
    print('id_producto es √∫nico en df_productos_c.')


--- Registros Duplicados ---
No se encontraron filas duplicadas.

id_producto es √∫nico en df_productos_c.


> üí° **Conclusi√≥n:**
> Luego de la verificaci√≥n y **normalizaci√≥n optimizada** de tipos de datos, se confirma que todas las variables del *dataset* `PRODUCTOS` presentan formatos consistentes y adecuados:
>
> * La columna **`precio_unitario`** fue convertida a **`float64`**, lo cual asegura la **precisi√≥n decimal** necesaria para c√°lculos financieros (ej. promedios y m√°rgenes).
> * Las columnas **`nombre_producto`** y **`id_producto`** mantienen tipos coherentes con su contenido (`object` / `int64`), asegurando la **normalizaci√≥n de texto** (eliminaci√≥n de espacios y unificaci√≥n de may√∫sculas/min√∫sculas).
> * La variable **`categoria`** fue convertida al tipo **categ√≥rico (`category`)**, lo que facilita las agrupaciones y segmentaciones y genera una **mejora en la eficiencia del procesamiento** y el uso de memoria.
>
> De esta forma, el *dataframe* `df_productos_c` queda estructurado de manera coherente, **garantizando integridad, consistencia, y una ligera mejora en la eficiencia del procesamiento** para las etapas posteriores de transformaci√≥n y an√°lisis.

#### üß© Normalizaci√≥n de la Base de Datos