**<center><h1>LIMPIEZA Y TRANSFORMACIÓN DE DATOS</h1><center>**

El proceso de preprocesamiento de datos se lleva a cabo una vez que hemos explorado y limpiado nuestro conjunto de datos, de modo que entendamos su contenido, estructura y calidad. Al explorar nuestros datos, es probable que obtengamos una buena idea de cómo queremos modelarlos, lo cual nos ayudará a decidir la mejor manera de preprocesarlos para que estén listos para el modelado desde el principio.

In [None]:
#Importar la librería Pandas e instalación de pandas-profiling
import pandas as pd
!pip install pandas-profiling[notebook]

In [26]:
#Cargar el dataset
df = pd.read_csv("clientes.csv")

In [27]:
#Obtener información del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 157 entries, 0 to 156
Data columns (total 8 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   ID del cliente                    157 non-null    int64  
 1   Nombre                            155 non-null    object 
 2   Última fecha de compra            156 non-null    object 
 3   Frecuencia de compra              157 non-null    int64  
 4   Valor promedio de la compra       152 non-null    float64
 5   Categoría de productos comprados  151 non-null    object 
 6   Método de pago                    153 non-null    object 
 7   Edad                              154 non-null    float64
dtypes: float64(2), int64(2), object(4)
memory usage: 9.9+ KB


In [28]:
df

Unnamed: 0,ID del cliente,Nombre,Última fecha de compra,Frecuencia de compra,Valor promedio de la compra,Categoría de productos comprados,Método de pago,Edad
0,1,Juan Perez,15/03/2022,5,200.5,Ropa,Tarjeta de crédito,32.0
1,2,Ana Rodriguez,01/04/2022,2,80.0,Juguetes,Efectivo,45.0
2,3,Luisa Hernandez,10/12/2021,3,150.2,Electrónica,Transferencia bancaria,28.0
3,4,Carlos Garcia,28/02/2022,1,300.0,Alimentos,Tarjeta de crédito,50.0
4,5,Maria Gomez,20/03/2022,4,75.8,Ropa,Efectivo,22.0
...,...,...,...,...,...,...,...,...
152,160,Andrea Soto,09/06/2022,2,50.0,Electrónica,Transferencia bancaria,25.0
153,161,Laura Hernandez,06/06/2022,1,120.0,Alimentos,Efectivo,39.0
154,145,Luis Garcia,04/06/2022,4,75.2,Alimentos,Transferencia bancaria,28.0
155,154,Luisa Perez,08/06/2022,2,80.0,Ropa,Transferencia bancaria,33.0


# **Tratamiento de valores nulos**

Los datos nulos o faltantes pueden ser problemáticos en un conjunto de datos, ya que pueden afectar la precisión de los análisis. Para tratar los datos nulos o faltantes, podemos utilizar varias funciones que veremos a continuación.

In [29]:
#Obtener la cantidad de nulos por columna
df.isnull().sum()

ID del cliente                      0
Nombre                              2
Última fecha de compra              1
Frecuencia de compra                0
Valor promedio de la compra         5
Categoría de productos comprados    6
Método de pago                      4
Edad                                3
dtype: int64

In [30]:
df

Unnamed: 0,ID del cliente,Nombre,Última fecha de compra,Frecuencia de compra,Valor promedio de la compra,Categoría de productos comprados,Método de pago,Edad
0,1,Juan Perez,15/03/2022,5,200.5,Ropa,Tarjeta de crédito,32.0
1,2,Ana Rodriguez,01/04/2022,2,80.0,Juguetes,Efectivo,45.0
2,3,Luisa Hernandez,10/12/2021,3,150.2,Electrónica,Transferencia bancaria,28.0
3,4,Carlos Garcia,28/02/2022,1,300.0,Alimentos,Tarjeta de crédito,50.0
4,5,Maria Gomez,20/03/2022,4,75.8,Ropa,Efectivo,22.0
...,...,...,...,...,...,...,...,...
152,160,Andrea Soto,09/06/2022,2,50.0,Electrónica,Transferencia bancaria,25.0
153,161,Laura Hernandez,06/06/2022,1,120.0,Alimentos,Efectivo,39.0
154,145,Luis Garcia,04/06/2022,4,75.2,Alimentos,Transferencia bancaria,28.0
155,154,Luisa Perez,08/06/2022,2,80.0,Ropa,Transferencia bancaria,33.0


Otra forma de conocer la cantidad de valores nulos, duplicados, correlación, entre otros datos, es utilizar pandas_profiling 

In [None]:
#Importar la librería Pandas e instalación de pandas-profiling
import pandas as pd
!pip install pandas-profiling[notebook]

In [None]:
#Crear un reporte HTML del dataset para conocer valores nulos, repetidos, etc.
from pandas_profiling import ProfileReport
report = ProfileReport(df)
report.to_file(output_file='reporte.html')

In [16]:
#Eliminar filas específicas donde se encuentran los valores nulos
df = df.drop([16, 30, 35])

In [None]:
#Eliminar todos los registros que contengan valores nulos
df.dropna()

Otro tratamiento para los datos nulos o faltantes, es utilizar la función fillna() de la librería Pandas en Python. Por ejemplo, podemos llenar los valores nulos con la media de la columna utilizando el siguiente código:

In [None]:
# Tratamiento de valores nulos con fillna. Recuerda cargar nuevamente el df, en la celda de codigo 7 
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df.fillna(df[numeric_cols].mean(axis=0), inplace=True)
#Obtener información del dataset
df.info()

In [None]:
df

# **Tratamiento de valores atípicos**

Pandas ofrece varias funciones que se pueden usar para tratar valores atípicos o valores anómalos en un conjunto de datos.

Una opción común es simplemente eliminar los valores atípicos del conjunto de datos. Esto se puede hacer utilizando el método ``` drop() ``` de Pandas.
```
#df = df.drop(df[df['nombre_columna'] > limite_superior].index)
#df = df.drop(df[df['nombre_columna'] < limite_inferior].index)
```







In [None]:
#Podemos conocer valores mínimos y máximos de cada columna con describe()
df.describe()

In [None]:
#Visualizar valores atípicos con gráficos
df.boxplot(column='Edad')

In [20]:
#Eliminamos valores atípicos de la columna edad
df = df.drop(df[df['Edad'] < 18].index)

Otra opción es reemplazar los valores atípicos con algún valor más adecuado. Esto se puede hacer utilizando la función replace() de Pandas.
```
df.loc[df['nombre_columna'] > limite_superior, 'nombre_columna'] = limite_superior
```



In [21]:
#Cambiar las edades superiores a 90 por promedio
df.loc[df['Edad'] > 90, 'Edad'] = 31.233

# **Eliminar variables irrelevantes**


Para eliminar variables irrelevantes (también conocidas como características o atributos) de un DataFrame en Pandas, puedes utilizar la función drop(). Esta función elimina una o varias columnas de un DataFrame. Puedes seleccionar las columnas que deseas eliminar utilizando su nombre o su índice.
```
df = df.drop(['columna1', 'columna2'], axis=1)
```

```
df = df.drop(df.columns[[0, 2]], axis=1)

```





In [23]:
#Elimina la columna "Nombre" por etiqueta o nombre
df = df.drop(['Nombre'], axis=1)

In [None]:
#Elimina la columna "ID del cliente y Última fecha de compra" por indice
df = df.drop(df.columns[[0, 1]], axis=1)

# Trasformación de variables

**Codificación one-hot:** esta técnica implica crear una columna binaria para cada categoría de la variable categórica. La columna tendrá un valor de 1 si la categoría está presente y 0 en caso contrario. Pandas tiene una función get_dummies() que realiza esta codificación automáticamente.

In [None]:
#Transforma la columna 'Método de pago'
df = pd.get_dummies(df, columns=['Método de pago'])

**Codificación ordinal:** esta técnica implica asignar un número único a cada categoría de la variable categórica en orden de importancia o frecuencia.

In [None]:
#Transforma columna 'Categoría de productos comprados'
df['Categoría de productos comprados'] = df['Categoría de productos comprados'].map({'Ropa': 1, 'Juguetes': 2, 'Electrónica': 3, 'Alimentos':4})


# Renombrar columnas


Renombrar las columnas de un DataFrame de Pandas es una tarea común en el análisis de datos. A menudo, los nombres de las columnas pueden ser poco claros o difíciles de entender, o pueden contener errores. 

In [None]:
#Renombra las columnas del df
df.columns = ['frecuencia_compra', 'valor_promedio_compra', 'categoria_compra', 'edad', 'pago_efectivo', 'pago_credito', 'pago_transferencia']