**<center><h1>LIMPIEZA Y TRANSFORMACIÓN DE DATOS</h1><center>**

El proceso de preprocesamiento de datos se lleva a cabo una vez que hemos explorado y limpiado nuestro conjunto de datos, de modo que entendamos su contenido, estructura y calidad. Al explorar nuestros datos, es probable que obtengamos una buena idea de cómo queremos modelarlos, lo cual nos ayudará a decidir la mejor manera de preprocesarlos para que estén listos para el modelado desde el principio.

In [None]:
#Importar la librería Pandas e instalación de pandas-profiling
import pandas as pd
!pip install pandas-profiling[notebook]

In [12]:
#Cargar el dataset
df = pd.read_csv("clientes.csv")

In [None]:
#Obtener información del dataset
df.info()

# **Tratamiento de valores nulos**

Los datos nulos o faltantes pueden ser problemáticos en un conjunto de datos, ya que pueden afectar la precisión de los análisis. Para tratar los datos nulos o faltantes, podemos utilizar varias funciones que veremos a continuación.

In [None]:
#Obtener la cantidad de nulos por columna
df.isnull().sum()

Otra forma de conocer la cantidad de valores nulos, duplicados, correlación, entre otros datos, es utilizar pandas_profiling 

In [None]:
#Crear un reporte HTML del dataset para conocer valores nulos, repetidos, etc.
from pandas_profiling import ProfileReport
report = ProfileReport(df)
report.to_file(output_file='reporte.html')

In [None]:
#Eliminar filas específicas donde se encuentran los valores nulos
df = df.drop([16, 30, 35])

In [None]:
#Eliminar todos los registros que contengan valores nulos
df.dropna()

Otro tratamiento para los datos nulos o faltantes, es utilizar la función fillna() de la librería Pandas en Python. Por ejemplo, podemos llenar los valores nulos con la media de la columna utilizando el siguiente código:

In [9]:
# Tratamiento de valores nulos con fillna. Recuerda cargar nuevamente el df, en la celda de codigo 7 
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df.fillna(df[numeric_cols].mean(axis=0), inplace=True)

# **Tratamiento de valores atípicos**

Pandas ofrece varias funciones que se pueden usar para tratar valores atípicos o valores anómalos en un conjunto de datos.

Una opción común es simplemente eliminar los valores atípicos del conjunto de datos. Esto se puede hacer utilizando el método ``` drop() ``` de Pandas.
```
#df = df.drop(df[df['nombre_columna'] > limite_superior].index)
#df = df.drop(df[df['nombre_columna'] < limite_inferior].index)
```







In [None]:
#Podemos conocer valores mínimos y máximos de cada columna con describe()
df.describe()

In [None]:
#Visualizar valores atípicos con gráficos
df.boxplot(column='Edad')

In [9]:
#Eliminamos valores atípicos de la columna edad
df = df.drop(df[df['Edad'] < 18].index)

Otra opción es reemplazar los valores atípicos con algún valor más adecuado. Esto se puede hacer utilizando la función replace() de Pandas.
```
df.loc[df['nombre_columna'] > limite_superior, 'nombre_columna'] = limite_superior
```



In [None]:
#Cambiar las edades superiores a 90 por 90
df.loc[df['Edad'] > 90, 'Edad'] = 90

# **Eliminar variables irrelevantes**


Para eliminar variables irrelevantes (también conocidas como características o atributos) de un DataFrame en Pandas, puedes utilizar la función drop(). Esta función elimina una o varias columnas de un DataFrame. Puedes seleccionar las columnas que deseas eliminar utilizando su nombre o su índice.
```
df = df.drop(['columna1', 'columna2'], axis=1)
```

```
df = df.drop(df.columns[[0, 2]], axis=1)

```





In [None]:
#Elimina la columna "Nombre" por etiqueta o nombre
df = df.drop(['Nombre'], axis=1)

In [17]:
#Elimina la columna "ID del cliente y Última fecha de compra" por indice
df = df.drop(df.columns[[0, 1]], axis=1)

# Trasformación de variables

**Codificación one-hot:** esta técnica implica crear una columna binaria para cada categoría de la variable categórica. La columna tendrá un valor de 1 si la categoría está presente y 0 en caso contrario. Pandas tiene una función get_dummies() que realiza esta codificación automáticamente.

In [19]:
#Transforma la columna 'Método de pago'
df = pd.get_dummies(df, columns=['Método de pago'])

**Codificación ordinal:** esta técnica implica asignar un número único a cada categoría de la variable categórica en orden de importancia o frecuencia.

In [21]:
#Transforma columna 'Categoría de productos comprados'
df['Categoría de productos comprados'] = df['Categoría de productos comprados'].map({'Ropa': 1, 'Juguetes': 2, 'Electrónica': 3, 'Alimentos':4})


# Renombrar columnas


Renombrar las columnas de un DataFrame de Pandas es una tarea común en el análisis de datos. A menudo, los nombres de las columnas pueden ser poco claros o difíciles de entender, o pueden contener errores. 

In [23]:
#Renombra las columnas del df
df.columns = ['frecuencia_compra', 'valor_promedio_compra', 'categoria_compra', 'edad', 'pago_efectivo', 'pago_credito', 'pago_transferencia']