<a href="https://colab.research.google.com/github/Toyi15/intro_limpieza_datos/blob/main/3_intro_limpieza_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
# Sesión: LIMPIEZA DE DATOS
---

## Dataset: VENTAS DE CAFÉ
* url: [dirty_cafe_sales](https://www.kaggle.com/code/maurosteban99/limpieza-de-datos-ventas-de-caf/notebook)


**Columnas**:
* "Transaction ID": Identificador de la transacción (categórica)
* "Item": Producto (categórica)
* "Quantity": Cantidad (numérica)
* "Price Per Unit": Precio unitario (numérica)
* "Total Spent": Total (numérica)
* "Payment Method": Medio de pago (categórica)
* "Location": Ubicación (categórica)
* "Transaction Date": Fecha de la transacción (fecha)

---
## **Objetivo del Análisis de Datos**:
* Aplicar conceptos de limpieza de datos en el análisis de datos sobre el conjunto de datos denonimado **dirty_cafe_sales**

---
## Inicio de Exploración del Dataset

In [1]:
# Importar librerías
import numpy as np
import pandas as pd

---
### Cargar los Datos y Examniar Dataset

In [2]:
df_cafe = pd.read_csv('dirty_cafe_sales.csv')

df_cafe

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9995,TXN_7672686,Coffee,2,2.0,4.0,,UNKNOWN,2023-08-30
9996,TXN_9659401,,3,,3.0,Digital Wallet,,2023-06-02
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3,,3.0,Digital Wallet,,2023-12-02


In [3]:
# Vista gral. de los primeros registros
df_cafe.head(8)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
5,TXN_2602893,Smoothie,5,4.0,20.0,Credit Card,,2023-03-31
6,TXN_4433211,UNKNOWN,3,3.0,9.0,ERROR,Takeaway,2023-10-06
7,TXN_6699534,Sandwich,4,4.0,16.0,Cash,UNKNOWN,2023-10-28


In [4]:
# Dimensiones
print(f'Diemnsiones: {df_cafe.shape}')
print(f'Número de filas: {df_cafe.shape[0]}')
print(f'Número de columnas: {df_cafe.shape[1]}')

Diemnsiones: (10000, 8)
Número de filas: 10000
Número de columnas: 8


In [5]:
# Información general
df_cafe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    10000 non-null  object
 1   Item              9667 non-null   object
 2   Quantity          9862 non-null   object
 3   Price Per Unit    9821 non-null   object
 4   Total Spent       9827 non-null   object
 5   Payment Method    7421 non-null   object
 6   Location          6735 non-null   object
 7   Transaction Date  9841 non-null   object
dtypes: object(8)
memory usage: 625.1+ KB


In [6]:
# Descripción general por columnas
df_cafe.describe()

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
count,10000,9667,9862,9821.0,9827.0,7421,6735,9841
unique,10000,10,7,8.0,19.0,5,4,367
top,TXN_9226047,Juice,5,3.0,6.0,Digital Wallet,Takeaway,UNKNOWN
freq,1,1171,2013,2429.0,979.0,2291,3022,159


---
### 1. Eliminar Duplicados

Manejo de **registros dupicados**, si los hay:
* ***.duplicated()*** ---------------------- // Devuelve una **Serie** de tipo boolean donde False es registro no duplicate y True es registro duplicado. Los registros duplicados son los que están déspues del registro original, recorriendo el DataFrame de aariba hacia abajo.
* ***.drop_duplicates()*** --------------- // Devuelve un DataFrame donde ***.duplicated()*** es igual a False, es decir, un DataFrame sin registros duplicados.
  * ***.drop_duplicates(inplace=True)*** --------------------------------------------------- // Los valores se eliminan del dataset original. Si se le da un valor de **False** al argumento **inplace**, solo se mostrara un dataset modificado, pero dichas modificaciones no se realizaran sobre el dataset original.
  * ***.drop_duplicates(keep='last')*** o ***.duplicated(keep='last')*** ----------------------- // Realiza el mismo proceso, pero de abajo hacia arriba en el DataFrame, es decir, el registro duplicado son los que están por encima del registro original.

In [7]:
# Contar cuantos registros están duplicados
df_cafe.duplicated().sum()

np.int64(0)

In [8]:
# Eliminar posibles registros duplicados
df_cafe.drop_duplicates(inplace=True)

---
### 2. Manejo de Valores Nulos

Manejo de **datos faltantes** con el uso de métodos como:
* ***.isna()*** ------------------ // Devuelve una serie boolena: True para valores nulos y False para valores no nulos.
* ***.notna()***  ---------------- // Negación de ***.isna()***
* ***.dropna()*** -------------- // Quita todos los registros que contengan al menos un valor de sus columnas igual a **NaN** (No A Number). Recordar que pandas convierte los valores **None** (= Na = No Aviable) en valores **NaN**.
  * ***df.dropna(subset=[nombre_columna_especificada])*** -- // Elimina los registros nulos del DataFrame que están presentes únicamente en la columna especificada **nombre_columna_especificada**.
  * ***.dropna(inplce=True)*** ------------------------ // Los valores se eliminan del dataset original. Si se le da un valor de **False** al argumento **inplace**, solo se mostrara un dataset modificado, pero dichas modificaciones no se realizaran sobre el dataset original.
  * ***.dropna(how='all')*** ----------------------------- // Quita solo los registros que contienen en todos sus valores de columnas valores **NaN** o **None**.
  * ***.dropna(thresh=un_número)*** ------------ // Mantiene los registro que contengan un máximo de valores **NaN** o **None** igual o menor que **=un_número**

In [9]:
# Ver columnas con valores nulos
df_cafe.isna().sum()

Unnamed: 0,0
Transaction ID,0
Item,333
Quantity,138
Price Per Unit,179
Total Spent,173
Payment Method,2579
Location,3265
Transaction Date,159


In [10]:
# Eliminar filas con al menos una valor nulos en una de sus columnas muchos valores nulos (si es necesario)
df_cafe.dropna(inplace=True)

In [11]:
df_cafe

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9984,TXN_3142496,Smoothie,UNKNOWN,4.0,4.0,Cash,Takeaway,2023-07-27
9986,TXN_2858441,Sandwich,2,4.0,8.0,Credit Card,In-store,2023-12-14
9991,TXN_3897619,Sandwich,3,4.0,12.0,Cash,Takeaway,2023-02-24
9992,TXN_2739140,Smoothie,4,4.0,16.0,UNKNOWN,In-store,2023-07-05


In [12]:
df_cafe.isna().sum()

Unnamed: 0,0
Transaction ID,0
Item,0
Quantity,0
Price Per Unit,0
Total Spent,0
Payment Method,0
Location,0
Transaction Date,0


In [13]:
# Eliminar filas con muchos valores nulos
df_cafe.dropna( thresh=2, inplace=True )
df_cafe

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9984,TXN_3142496,Smoothie,UNKNOWN,4.0,4.0,Cash,Takeaway,2023-07-27
9986,TXN_2858441,Sandwich,2,4.0,8.0,Credit Card,In-store,2023-12-14
9991,TXN_3897619,Sandwich,3,4.0,12.0,Cash,Takeaway,2023-02-24
9992,TXN_2739140,Smoothie,4,4.0,16.0,UNKNOWN,In-store,2023-07-05


---
### 3. Conversión de Tipos de Datos

In [14]:
df_cafe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4550 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    4550 non-null   object
 1   Item              4550 non-null   object
 2   Quantity          4550 non-null   object
 3   Price Per Unit    4550 non-null   object
 4   Total Spent       4550 non-null   object
 5   Payment Method    4550 non-null   object
 6   Location          4550 non-null   object
 7   Transaction Date  4550 non-null   object
dtypes: object(8)
memory usage: 319.9+ KB


In [15]:
# Convertir columna 'Fecha' a tipo datetime
df_cafe['Transaction Date'] = pd.to_datetime(df_cafe['Transaction Date'], errors='coerce')
print( 'Tipo de dato actual de la columna Transaction Date:', df_cafe['Transaction Date'].dtype )

# Convertir columna 'Cantidad' a entero
df_cafe['Quantity'] = pd.to_numeric(df_cafe['Quantity'], errors='coerce')
print( 'Tipo de dato actual de la columna Quantity:', df_cafe['Quantity'].dtype )

# Convertir columna 'Price Per Unit' a entero
df_cafe['Price Per Unit'] = pd.to_numeric(df_cafe['Price Per Unit'], errors='coerce')
print( 'Tipo de dato actual de la columna Price Per Unit:', df_cafe['Price Per Unit'].dtype )

# Convertir columna 'Total Spent' a entero
df_cafe['Total Spent'] = pd.to_numeric(df_cafe['Total Spent'], errors='coerce')
print( 'Tipo de dato actual de la columna Total Spent:', df_cafe['Total Spent'].dtype )

Tipo de dato actual de la columna Transaction Date: datetime64[ns]
Tipo de dato actual de la columna Quantity: float64
Tipo de dato actual de la columna Price Per Unit: float64
Tipo de dato actual de la columna Total Spent: float64


In [16]:
df_cafe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4550 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Transaction ID    4550 non-null   object        
 1   Item              4550 non-null   object        
 2   Quantity          4404 non-null   float64       
 3   Price Per Unit    4382 non-null   float64       
 4   Total Spent       4395 non-null   float64       
 5   Payment Method    4550 non-null   object        
 6   Location          4550 non-null   object        
 7   Transaction Date  4422 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 319.9+ KB


---
### 4. Imputación de Valores Nulos

**Imputación** de datos con el método **.fillna()**
* ***.fillna(value=*x*)*** --------------------------------- // A todos los valores faltantes del DataFrame les asigna el valor numérico de *x*.
* ***.fillna(method=...)*** --------------------------------- // ***method*** puede ser **bfill** (relleno hacia atrás ↑) o **ffill** (relleno hacia adelante ↓). Estos son métodos de interpolación.
* ***.fillna({'col_1:_ num_1, 'col_2:_ num_2,...})*** -------------- // Asigna a los valores faltantes valores según su columna (clave = columna y valor = valor a asignar).
* ***.fillna(df.mean())*** ------------------ // Asigna a los valores faltantes la media calculada de su columna.
* ***df.fillna(df_2)*** ------------------ // Asigna a los valores faltantes su equivalente de un segundo DataFrame, en lo que a posición dentro de los DataFrames correponde.

In [17]:
# Rellenar con la media de una columna específica
print( df_cafe['Quantity'].isna().sum() )

df_cafe['Quantity'].fillna( df_cafe['Quantity'].mean(), inplace=True )

print( df_cafe['Quantity'].isna().sum() )

146
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_cafe['Quantity'].fillna( df_cafe['Quantity'].mean(), inplace=True )


In [18]:
# Rellenar valores nulos con ceros
print( df_cafe['Total Spent'].isna().sum() )

df_cafe['Total Spent'].fillna( 0, inplace=True )

print( df_cafe['Total Spent'].isna().sum() )

155
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_cafe['Total Spent'].fillna( 0, inplace=True )


In [19]:
print( df_cafe['Item'].isna().sum() )

df_cafe['Item'].fillna( 'No disponible', inplace=True )

print( df_cafe['Item'].isna().sum() )

0
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_cafe['Item'].fillna( 'No disponible', inplace=True )


In [20]:
df_cafe['Item'].value_counts()

Unnamed: 0_level_0,count
Item,Unnamed: 1_level_1
Juice,569
Salad,564
Sandwich,547
Cake,539
Cookie,537
Tea,505
Coffee,503
Smoothie,491
UNKNOWN,159
ERROR,136


---
### 5. Categorización:
Pasar datos numéricos continuos a discrteos (contenedores). La discretización es el proceso de convertir valores numéricos continuos en valores discretos. La discretización se puede realizar de varias maneras, dependiendo del objetivo del análisis. Un método comunmente usado en la discretización es:

* **Binning:** Los valores se agrupan en intervalos discretos. Por ejemplo, los valores de temperatura podrían agruparse en intervalos de 10 grados Celsius.

In [21]:
# Ve solo la columna 'Price Per Unit'
df_cafe['Price Per Unit']

Unnamed: 0,Price Per Unit
0,2.0
1,3.0
2,1.0
3,5.0
4,2.0
...,...
9984,4.0
9986,4.0
9991,4.0
9992,4.0


In [22]:
print(df_cafe['Price Per Unit'].min())
print(df_cafe['Price Per Unit'].max())

1.0
5.0


In [23]:
# Categorizar el precio en rangos
df_cafe['Rango Precio'] = pd.cut( df_cafe['Price Per Unit'], [ 0, 2, 3, 4, 5 ], labels=['Bajo', 'Medio', 'Alto', 'Premiun'])

df_cafe[ ['Price Per Unit',	'Rango Precio'] ]

Unnamed: 0,Price Per Unit,Rango Precio
0,2.0,Bajo
1,3.0,Medio
2,1.0,Bajo
3,5.0,Premiun
4,2.0,Bajo
...,...,...
9984,4.0,Alto
9986,4.0,Alto
9991,4.0,Alto
9992,4.0,Alto


---
### 6. Codificación de Variables Categóricas (One-Hot Encoding)

In [24]:
# Aplicar one-hot encoding a la columna 'item'
df_cafe = pd.get_dummies( df_cafe, columns=['Item'], prefix=['Prod_'] )

df_cafe

Unnamed: 0,Transaction ID,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date,Rango Precio,Prod__Cake,Prod__Coffee,Prod__Cookie,Prod__ERROR,Prod__Juice,Prod__Salad,Prod__Sandwich,Prod__Smoothie,Prod__Tea,Prod__UNKNOWN
0,TXN_1961373,2.000000,2.0,4.0,Credit Card,Takeaway,2023-09-08,Bajo,False,True,False,False,False,False,False,False,False,False
1,TXN_4977031,4.000000,3.0,12.0,Cash,In-store,2023-05-16,Medio,True,False,False,False,False,False,False,False,False,False
2,TXN_4271903,4.000000,1.0,0.0,Credit Card,In-store,2023-07-19,Bajo,False,False,True,False,False,False,False,False,False,False
3,TXN_7034554,2.000000,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27,Premiun,False,False,False,False,False,True,False,False,False,False
4,TXN_3160411,2.000000,2.0,4.0,Digital Wallet,In-store,2023-06-11,Bajo,False,True,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9984,TXN_3142496,3.022934,4.0,4.0,Cash,Takeaway,2023-07-27,Alto,False,False,False,False,False,False,False,True,False,False
9986,TXN_2858441,2.000000,4.0,8.0,Credit Card,In-store,2023-12-14,Alto,False,False,False,False,False,False,True,False,False,False
9991,TXN_3897619,3.000000,4.0,12.0,Cash,Takeaway,2023-02-24,Alto,False,False,False,False,False,False,True,False,False,False
9992,TXN_2739140,4.000000,4.0,16.0,UNKNOWN,In-store,2023-07-05,Alto,False,False,False,False,False,False,False,True,False,False


---
### 7. Guardar Datos Limpios

In [25]:
df_cafe.to_csv('cleaned_cafe_sales.csv', index=False)

print("Datos limpios guardados como 'cleaned_cafe_sales.csv'")

Datos limpios guardados como 'cleaned_cafe_sales.csv'


---
### 8. Crear DataFrame con el dataset después de la etapa de la limpieza

In [26]:
df_cleaned = pd.read_csv('cleaned_cafe_sales.csv')
df_cleaned

Unnamed: 0,Transaction ID,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date,Rango Precio,Prod__Cake,Prod__Coffee,Prod__Cookie,Prod__ERROR,Prod__Juice,Prod__Salad,Prod__Sandwich,Prod__Smoothie,Prod__Tea,Prod__UNKNOWN
0,TXN_1961373,2.000000,2.0,4.0,Credit Card,Takeaway,2023-09-08,Bajo,False,True,False,False,False,False,False,False,False,False
1,TXN_4977031,4.000000,3.0,12.0,Cash,In-store,2023-05-16,Medio,True,False,False,False,False,False,False,False,False,False
2,TXN_4271903,4.000000,1.0,0.0,Credit Card,In-store,2023-07-19,Bajo,False,False,True,False,False,False,False,False,False,False
3,TXN_7034554,2.000000,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27,Premiun,False,False,False,False,False,True,False,False,False,False
4,TXN_3160411,2.000000,2.0,4.0,Digital Wallet,In-store,2023-06-11,Bajo,False,True,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4545,TXN_3142496,3.022934,4.0,4.0,Cash,Takeaway,2023-07-27,Alto,False,False,False,False,False,False,False,True,False,False
4546,TXN_2858441,2.000000,4.0,8.0,Credit Card,In-store,2023-12-14,Alto,False,False,False,False,False,False,True,False,False,False
4547,TXN_3897619,3.000000,4.0,12.0,Cash,Takeaway,2023-02-24,Alto,False,False,False,False,False,False,True,False,False,False
4548,TXN_2739140,4.000000,4.0,16.0,UNKNOWN,In-store,2023-07-05,Alto,False,False,False,False,False,False,False,True,False,False
