# Limpieza de Datos - Tienda Aurelion

Este notebook realiza el proceso de limpieza y preparación de los datos de la tienda Aurelion. El objetivo es identificar y corregir errores, inconsistencias y valores faltantes en los datasets para asegurar que la información sea confiable para el análisis.

## 1. Importación de Librerías

In [1]:
import pandas as pd

## 2. Carga de Datos

Cargamos los cuatro archivos de Excel que contienen los datos de la tienda:

In [2]:
try:
    clientes_df = pd.read_excel("../../data/clientes.xlsx")
    detalle_ventas_df = pd.read_excel("../../data/detalle_ventas.xlsx")
    productos_df = pd.read_excel("../../data/productos.xlsx")
    ventas_df = pd.read_excel("../../data/ventas.xlsx")
    print("Archivos cargados exitosamente.")
except FileNotFoundError as e:
    print(f"Error al cargar los archivos: {e}")

Archivos cargados exitosamente.


## 3. Inspección Inicial de los Datos

Realizamos una primera revisión de cada DataFrame para entender su estructura, tipos de datos y la presencia de valores nulos.

### Clientes

In [3]:
print("Información del DataFrame de Clientes:")
clientes_df.info()
print("Valores nulos en Clientes:")
print(clientes_df.isnull().sum())
print("Primeras filas de Clientes:")
clientes_df.head()

Información del DataFrame de Clientes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 3   ciudad          100 non-null    object        
 4   fecha_alta      100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 4.0+ KB
Valores nulos en Clientes:
id_cliente        0
nombre_cliente    0
email             0
ciudad            0
fecha_alta        0
dtype: int64
Primeras filas de Clientes:


Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05


### Detalle de Ventas

In [4]:
print("Información del DataFrame de Detalle de Ventas:")
detalle_ventas_df.info()
print("Valores nulos en Detalle de Ventas:")
print(detalle_ventas_df.isnull().sum())
print("Primeras filas de Detalle de Ventas:")
detalle_ventas_df.head()

Información del DataFrame de Detalle de Ventas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343 entries, 0 to 342
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_venta         343 non-null    int64 
 1   id_producto      343 non-null    int64 
 2   nombre_producto  343 non-null    object
 3   cantidad         343 non-null    int64 
 4   precio_unitario  343 non-null    int64 
 5   importe          343 non-null    int64 
dtypes: int64(5), object(1)
memory usage: 16.2+ KB
Valores nulos en Detalle de Ventas:
id_venta           0
id_producto        0
nombre_producto    0
cantidad           0
precio_unitario    0
importe            0
dtype: int64
Primeras filas de Detalle de Ventas:


Unnamed: 0,id_venta,id_producto,nombre_producto,cantidad,precio_unitario,importe
0,1,90,Toallas Húmedas x50,1,2902,2902
1,2,82,Aceitunas Negras 200g,5,2394,11970
2,2,39,Helado Vainilla 1L,5,469,2345
3,2,70,Fernet 750ml,2,4061,8122
4,2,22,Medialunas de Manteca,1,2069,2069


### Productos

In [5]:
print("Información del DataFrame de Productos:")
productos_df.info()
print("Valores nulos en Productos:")
print(productos_df.isnull().sum())
print("Primeras filas de Productos:")
productos_df.head()

Información del DataFrame de Productos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB
Valores nulos en Productos:
id_producto        0
nombre_producto    0
categoria          0
precio_unitario    0
dtype: int64
Primeras filas de Productos:


Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Alimentos,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Alimentos,2033
4,5,Agua Mineral 500ml,Alimentos,4777


### Ventas

In [6]:
print("Información del DataFrame de Ventas:")
ventas_df.info()
print("Valores nulos en Ventas:")
print(ventas_df.isnull().sum())
print("Primeras filas de Ventas:")
ventas_df.head()

Información del DataFrame de Ventas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_venta        120 non-null    int64         
 1   fecha           120 non-null    datetime64[ns]
 2   id_cliente      120 non-null    int64         
 3   nombre_cliente  120 non-null    object        
 4   email           120 non-null    object        
 5   medio_pago      120 non-null    object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.8+ KB
Valores nulos en Ventas:
id_venta          0
fecha             0
id_cliente        0
nombre_cliente    0
email             0
medio_pago        0
dtype: int64
Primeras filas de Ventas:


Unnamed: 0,id_venta,fecha,id_cliente,nombre_cliente,email,medio_pago
0,1,2024-06-19,62,Guadalupe Romero,guadalupe.romero@mail.com,tarjeta
1,2,2024-03-17,49,Olivia Gomez,olivia.gomez@mail.com,qr
2,3,2024-01-13,20,Tomas Acosta,tomas.acosta@mail.com,tarjeta
3,4,2024-02-27,36,Martina Molina,martina.molina@mail.com,transferencia
4,5,2024-06-11,56,Bruno Diaz,bruno.diaz@mail.com,tarjeta


## 4. Limpieza y Transformación

Basado en la inspección inicial, aplicamos las siguientes correcciones:

### 4.1. Manejo de Duplicados

In [7]:
clientes_df.drop_duplicates(inplace=True)
productos_df.drop_duplicates(inplace=True)
ventas_df.drop_duplicates(inplace=True)
detalle_ventas_df.drop_duplicates(inplace=True)
print("Registros duplicados eliminados.")

Registros duplicados eliminados.


### 4.2. Manejo de Valores Faltantes

En el DataFrame de `clientes`, la columna `nombre_cliente` tiene valores faltantes. Dado que el nombre es un identificador clave, eliminaremos las filas donde este dato no esté presente.

In [8]:
clientes_df.dropna(subset=['nombre_cliente'], inplace=True)
print("Filas con nombres faltantes eliminadas del DataFrame de clientes.")

Filas con nombres faltantes eliminadas del DataFrame de clientes.


### 4.3. Corrección de Tipos de Datos

La columna `Fecha` en `ventas_df` es de tipo `datetime64[ns]`, lo cual es correcto. Si fuera un `object`, necesitaríamos convertirla con `pd.to_datetime()`.

In [9]:
# Ejemplo de cómo se haría la conversión si fuera necesario
# ventas_df['Fecha'] = pd.to_datetime(ventas_df['Fecha'])

## 5. Unión de los Datos (Merge)

Para tener una visión completa, uniremos los DataFrames. La estructura parece ser:
- `ventas_df` se une con `clientes_df` por `id_cliente`.
- `ventas_df` se une con `detalle_ventas_df` por `id_venta`.
- `detalle_ventas_df` se une con `productos_df` por `id_producto`.

In [10]:
# Para evitar columnas duplicadas, primero eliminamos la información redundante
# de las tablas de hechos (ventas, detalle_ventas) que ya existe en las
# tablas de dimensiones (clientes, productos).
ventas_df.drop(columns=['nombre_cliente', 'email'], inplace=True, errors='ignore')
detalle_ventas_df.drop(columns=['nombre_producto', 'precio_unitario'], inplace=True, errors='ignore')

# Unir ventas con detalle_ventas
ventas_full_df = pd.merge(ventas_df, detalle_ventas_df, on="id_venta")

# Unir el resultado con productos
ventas_full_df = pd.merge(ventas_full_df, productos_df, on="id_producto")

# Unir el resultado con clientes
ventas_full_df = pd.merge(ventas_full_df, clientes_df, on="id_cliente")

print("DataFrames unidos exitosamente.")
ventas_full_df.head()

DataFrames unidos exitosamente.


Unnamed: 0,id_venta,fecha,id_cliente,medio_pago,id_producto,cantidad,importe,nombre_producto,categoria,precio_unitario,nombre_cliente,email,ciudad,fecha_alta
0,1,2024-06-19,62,tarjeta,90,1,2902,Toallas Húmedas x50,Limpieza,2902,Guadalupe Romero,guadalupe.romero@mail.com,Carlos Paz,2023-03-03
1,2,2024-03-17,49,qr,82,5,11970,Aceitunas Negras 200g,Alimentos,2394,Olivia Gomez,olivia.gomez@mail.com,Rio Cuarto,2023-02-18
2,2,2024-03-17,49,qr,39,5,2345,Helado Vainilla 1L,Alimentos,469,Olivia Gomez,olivia.gomez@mail.com,Rio Cuarto,2023-02-18
3,2,2024-03-17,49,qr,70,2,8122,Fernet 750ml,Alimentos,4061,Olivia Gomez,olivia.gomez@mail.com,Rio Cuarto,2023-02-18
4,2,2024-03-17,49,qr,22,1,2069,Medialunas de Manteca,Alimentos,2069,Olivia Gomez,olivia.gomez@mail.com,Rio Cuarto,2023-02-18


## 6. Inspección Final del Dataset Unificado

In [11]:
print("Información del DataFrame unificado:")
ventas_full_df.info()
print("Valores nulos en el DataFrame unificado:")
print(ventas_full_df.isnull().sum())

Información del DataFrame unificado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343 entries, 0 to 342
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_venta         343 non-null    int64         
 1   fecha            343 non-null    datetime64[ns]
 2   id_cliente       343 non-null    int64         
 3   medio_pago       343 non-null    object        
 4   id_producto      343 non-null    int64         
 5   cantidad         343 non-null    int64         
 6   importe          343 non-null    int64         
 7   nombre_producto  343 non-null    object        
 8   categoria        343 non-null    object        
 9   precio_unitario  343 non-null    int64         
 10  nombre_cliente   343 non-null    object        
 11  email            343 non-null    object        
 12  ciudad           343 non-null    object        
 13  fecha_alta       343 non-null    datetime64[ns]
dtypes: da

## 7. Guardar los Datos Limpios

Finalmente, guardamos el dataset limpio y unificado en un nuevo archivo CSV para su posterior análisis.

In [12]:
ventas_full_df.to_csv("../output/ventas_limpias.csv", index=False)
print("El archivo 'ventas_limpias.csv' ha sido guardado en la carpeta 'output'.")

El archivo 'ventas_limpias.csv' ha sido guardado en la carpeta 'output'.
