# Limpieza de datos con Python

In [None]:
# Importar librerias
import pandas as pd # Para manejo de datos
import matplotlib.pyplot as plt # Para graficar
import seaborn as sns # Para graficar
import numpy as np # Para manejo de datos numéricos
from colorama import Fore # Para colores en terminal

In [14]:
# Ruta del archivo CSV
ruta_archivo = "../data/raw/Adidas US Sales.csv"

df = pd.read_csv(ruta_archivo)

## 1. Inspección Inicial

In [24]:
# Inspección inicial del dataset
print(Fore.BLUE + "Inspección inicial del dataset:" + Fore.RESET)
print(Fore.GREEN + f"El dataset cuenta con {df.shape[0]} filas y {df.shape[1]} columnas" + Fore.RESET)

[34mInspección inicial del dataset:[39m
[32mEl dataset cuenta con 9637 filas y 13 columnas[39m


In [28]:
# Primeras cinco filas del dataset
print(Fore.BLUE + "Primeras cinco filas del dataset:" + Fore.RESET)
df.head()

[34mPrimeras cinco filas del dataset:[39m


Unnamed: 0,sales_id,retailer,retailer_id,invoice_date,region,state,city,product,price_per_unit,units_sold,total_sales,operating_profit,sales_method
0,1,Foot Locker,1185732,2021-11-06,Southeast,South Carolina,Charleston,Men's Street Footwear,50,278,13900,792,Online
1,2,Foot Locker,1185732,2020-03-14,Northeast,New York,New York,Men's Apparel,46,278,12788,435,Outlet
2,3,West Gear,1128299,2021-01-19,West,California,San Francisco,Men's Athletic Footwear,47,278,13066,287,Outlet
3,4,Walmart,1128299,2021-06-17,Southeast,Florida,Orlando,Women's Apparel,103,218,22454,1257,Online
4,5,Sports Direct,1197831,2021-09-14,South,Alabama,Birmingham,Women's Street Footwear,36,278,10008,530,Outlet


In [29]:
# Información general del dataset
print(Fore.BLUE + "Información general del dataset:" + Fore.RESET)
df.info()

[34mInformación general del dataset:[39m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9637 entries, 0 to 9636
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   sales_id          9637 non-null   int64 
 1   retailer          9637 non-null   object
 2   retailer_id       9637 non-null   int64 
 3   invoice_date      9637 non-null   object
 4   region            9637 non-null   object
 5   state             9637 non-null   object
 6   city              9637 non-null   object
 7   product           9637 non-null   object
 8   price_per_unit    9637 non-null   int64 
 9   units_sold        9637 non-null   int64 
 10  total_sales       9637 non-null   int64 
 11  operating_profit  9637 non-null   int64 
 12  sales_method      9637 non-null   object
dtypes: int64(6), object(7)
memory usage: 978.9+ KB


### Interpretación:

- Podemos concluir que no hay nulos en nuestro dataset.
- La columna invoice_date tiene un tipo de dato (Dtype) incorrecto.

In [30]:
# Descripción estadística del dataset
print(Fore.BLUE + "Descripción estadística del dataset:" + Fore.RESET)
df.describe()

[34mDescripción estadística del dataset:[39m


Unnamed: 0,sales_id,retailer_id,price_per_unit,units_sold,total_sales,operating_profit
count,9637.0,9637.0,9637.0,9637.0,9637.0,9637.0
mean,4819.0,1173846.0,45.218948,256.886064,12451.621355,3440.706029
std,2782.106606,26363.04,14.70452,214.0976,12708.094249,5418.2102
min,1.0,1128299.0,7.0,6.0,160.0,8.0
25%,2410.0,1185732.0,35.0,106.0,4068.0,192.0
50%,4819.0,1185732.0,45.0,176.0,7805.0,437.0
75%,7228.0,1185732.0,55.0,350.0,15834.0,5200.0
max,9637.0,1197831.0,110.0,1275.0,82500.0,39000.0


### Interpretación:

- En este caso estamos viendo solo las estadísticas generales pero para las columnas con tipo de dato (Dtype) Numérico.
- Podemos ver las estadísticas como:
    - Count - Cantidad de Filas -> Incluido los nombres de las columnas
    - mean - Media o promedio
    - std - Desviación Estandar 
    - min - Valor Mínimo
    - 25% - Q1 - Quartil 1
    - 50% - Mediana - Quartil 2 - Q2
    - 75% - Q3 - Quartil 3
    - max - Valor Máximo


## 2. Manejo de valores nulos

In [32]:
# Ver valores nulos
print(Fore.BLUE + "Valores nulos en las columnas del dataset:" + Fore.RESET)
print(df.isnull().sum())

[34mValores nulos en las columnas del dataset:[39m
sales_id            0
retailer            0
retailer_id         0
invoice_date        0
region              0
state               0
city                0
product             0
price_per_unit      0
units_sold          0
total_sales         0
operating_profit    0
sales_method        0
dtype: int64


### Interpretación:
- No hay valores nulos en ninguna de las columnas.

## 3. Eliminación de duplicados

In [33]:
print(Fore.BLUE + "Valores únicos en cada columna:" + Fore.RESET)
# Ver valores únicos en cada columna
for columna in df.columns:
    print(f"{columna}: {df[columna].nunique()} valores únicos")
# Verificar si hay duplicados
print(Fore.BLUE + "¿Existen filas duplicadas en el dataset?" + Fore.RESET)
print(df.duplicated().any())

[34mValores únicos en cada columna:[39m
sales_id: 9637 valores únicos
retailer: 6 valores únicos
retailer_id: 4 valores únicos
invoice_date: 724 valores únicos
region: 5 valores únicos
state: 50 valores únicos
city: 52 valores únicos
product: 6 valores únicos
price_per_unit: 94 valores únicos
units_sold: 360 valores únicos
total_sales: 3081 valores únicos
operating_profit: 1529 valores únicos
sales_method: 3 valores únicos
[34m¿Existen filas duplicadas en el dataset?[39m
False


### Interpretación:
- No hay duplicados en el dataset