# **Importación de la librería pandas y descripción general de los datos**

## 📄 Descripción del Dataset

**Este conjunto de datos contiene 12,575 registros sintéticos que simulan transacciones reales en una tienda minorista. Incluye información sobre productos, cantidades vendidas, precios unitarios, descuentos aplicados y fechas. Los datos están diseñados intencionadamente con errores comunes como valores faltantes, inconsistencias y posibles duplicados, lo cual lo hace ideal para ejercicios de limpieza y preprocesamiento.**

### Revisión inicial de Dataset - Retail Stores Sales

**Exploramos la estructura general de los datos.**

In [1]:
import pandas as pd # Importar la biblioteca pandas para manipulación de datos

retail_store = pd.read_csv("retail_store_sales.csv") # Cargar el archivo CSV en un DataFrame

In [2]:
retail_store.info() # Explora la información del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12575 entries, 0 to 12574
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Transaction ID    12575 non-null  object 
 1   Customer ID       12575 non-null  object 
 2   Category          12575 non-null  object 
 3   Item              11362 non-null  object 
 4   Price Per Unit    11966 non-null  float64
 5   Quantity          11971 non-null  float64
 6   Total Spent       11971 non-null  float64
 7   Payment Method    12575 non-null  object 
 8   Location          12575 non-null  object 
 9   Transaction Date  12575 non-null  object 
 10  Discount Applied  8376 non-null   object 
dtypes: float64(3), object(8)
memory usage: 1.1+ MB


In [3]:
retail_store.head() # Explora las primeras filas del DataFrame

Unnamed: 0,Transaction ID,Customer ID,Category,Item,Price Per Unit,Quantity,Total Spent,Payment Method,Location,Transaction Date,Discount Applied
0,TXN_6867343,CUST_09,Patisserie,Item_10_PAT,18.5,10.0,185.0,Digital Wallet,Online,2024-04-08,True
1,TXN_3731986,CUST_22,Milk Products,Item_17_MILK,29.0,9.0,261.0,Digital Wallet,Online,2023-07-23,True
2,TXN_9303719,CUST_02,Butchers,Item_12_BUT,21.5,2.0,43.0,Credit Card,Online,2022-10-05,False
3,TXN_9458126,CUST_06,Beverages,Item_16_BEV,27.5,9.0,247.5,Credit Card,Online,2022-05-07,
4,TXN_4575373,CUST_05,Food,Item_6_FOOD,12.5,7.0,87.5,Digital Wallet,Online,2022-10-02,False


## Limpieza de datos
- **Nombres de columna**
- **Valores nulos**
- **Tipos de datos**
- **Duplicados**

### Cambio de nombres

In [4]:
new_columns = {"Transaction ID": "transaction_id",
               "Customer ID": "customer_id",
               "Category": "category",
               "Item": "item",
               "Price Per Unit": "price_per_unit",
               "Quantity": "quantity",
               "Total Spent": "total_spent",
               "Payment Method": "payment_method",
               "Location": "location",
               "Transaction Date": "transaction_date",
               "Discount Applied": "discount_applied"
              }
# Renombrar las columnas del DataFrame
retail_store.rename(columns=new_columns, inplace=True)

### Valores ausentes y tipo de datos 

In [5]:
# Rellenar los valores nulos en la columna 'item' con 'Unkown'
retail_store['item'] = retail_store['item'].fillna('Unkown')

# Rellenar los valores nulos en la columna quantity con la mediana de la columna
retail_store['quantity'] = retail_store['quantity'].fillna(retail_store['quantity'].median())
retail_store['quantity'] = retail_store['quantity'].astype("int64") # Convertir a tipo entero

# Rellenar los valores nulos en la columna 'price_per_unit' con la media de la columna
retail_store['price_per_unit'] = retail_store['price_per_unit'].fillna(retail_store['price_per_unit'].mean())

# Rellenar los valores nulos en la columna 'total_spent' con el producto de 'price_per_unit' y 'quantity'
retail_store['total_spent'] = retail_store['total_spent'].fillna(retail_store['price_per_unit'] * retail_store['quantity'])

# Convertir la columna 'transaction_date' a tipo fecha
retail_store['transaction_date'] = pd.to_datetime(retail_store['transaction_date'], format='%Y-%m-%d')

# Rellenar los valores nulos en la columna 'payment_method' con 'Unkown'
retail_store['discount_applied'] = retail_store['discount_applied'].fillna('Unkown')
retail_store['discount_applied'] = retail_store['discount_applied'].astype("category") # Convertir a tipo categoría

### Gestión de duplicados 

In [6]:
retail_store.duplicated().sum() # Verifica si hay filas duplicadas

0

## Resultados de la limpieza

**Aquí se muestran los cambios aplicados y el estado final del dataset**

In [7]:
print("Estado final del dataset", "\n")
print(retail_store.info())    # Información general del DataFrame con los cambios realizados

Estado final del dataset 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12575 entries, 0 to 12574
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   transaction_id    12575 non-null  object        
 1   customer_id       12575 non-null  object        
 2   category          12575 non-null  object        
 3   item              12575 non-null  object        
 4   price_per_unit    12575 non-null  float64       
 5   quantity          12575 non-null  int64         
 6   total_spent       12575 non-null  float64       
 7   payment_method    12575 non-null  object        
 8   location          12575 non-null  object        
 9   transaction_date  12575 non-null  datetime64[ns]
 10  discount_applied  12575 non-null  category      
dtypes: category(1), datetime64[ns](1), float64(2), int64(1), object(6)
memory usage: 995.0+ KB
None


## Observaciones finales de limpieza de datos

**Durante la etapa de limpieza del dataset "Ventas Sucias en Tiendas Minoristas", se realizaron los siguientes pasos para abordar los valores ausentes, errores de tipo y posibles duplicados:**

1. **Columnas numéricas (quantity, price_per_unit, total_spent)
La columna quantity presentaba valores ausentes. Se imputaron usando la mediana, al tratarse de una cantidad entera que no puede tener decimales.**

**La columna unit_price se imputó usando la media, ya que los precios son datos continuos y la media representa mejor la tendencia general.**

**Para los valores faltantes en la columna total, se calculó el valor multiplicando la cantidad por el precio unitario fila por fila, una vez que ambas columnas fueron imputadas.**

2. **Columna item
Esta columna contenía 1,213 valores ausentes, distribuidos en todas las categorías del dataset.**

**Dado que no se identificó una lógica clara para imputar productos específicos por categoría, y considerando el tiempo y el aporte limitado de esa tarea, se optó por imputar estos valores como "Producto desconocido".**

3. **Columna discount_applied
Esta columna tenía valores booleanos (True o False) indicando si se aplicó un descuento.**

**Los valores ausentes no pueden asumirse como False, ya que eso implicaría una decisión sin respaldo. Por lo tanto, se imputaron como "Desconocido", reconociendo que no se tiene información suficiente para afirmarlo ni negarlo.**

4. **Valores duplicados
Se verificó el dataset en busca de filas duplicadas con .duplicated(), y se concluyó que no existen duplicados. Por lo tanto, no fue necesario eliminarlos.**

✅ **Estado final del dataset
El dataset ha sido limpiado y está listo para su uso en análisis exploratorio (EDA) o desarrollo de modelos. Las imputaciones realizadas se hicieron bajo criterios lógicos y con el objetivo de conservar la integridad de los datos sin introducir sesgos innecesarios.**

In [9]:
retail_store.to_csv("retail_store_sales_cleaned.csv", index=False) # Guardar el DataFrame limpio en un nuevo archivo CSV