# Clase 5: Limpieza y Transformacion de Datos

## Actividad Practica
En esta actividad practica, vamos a concentrar nuestros esfuerzos en aplicar tecnicas de escalamiento, normalizacion y codificacion de variables categoricas. Estas transformaciones son cruciales para preparar nuestros datos de manera que sean compatibles con los algoritmos de machine learning y para mejorar tanto la interpretacion como el rendimiento del modelo.
## Objetivo de la actividad
- Aplicar la normalizacion y estandarizacion a las caracteristicas numericas del conjunto de datos.
- Implementar tecnicas de codificacion para variables categoricas, utilizando tanto One-Hot Encoding como Codificacion de Etiquetas.
- Comprender el impacto de estas transformaciones en la preparacion de datos para el analisis y modelado.
## Instrucciones
1. <b>Cargar el Conjunto de Datos:</b> Utilizaremos un conjunto de datos de ejemplo para esta actividad. Puedes utilizar un dataset propio o uno de los conjuntos de datos estandar disponibles en la libreria <code>seaborn.</code>
2. <b>Escalamiento Y Normalizacion:</b>
   - Aplica la <b>normalizacion</b> a las columnas numericas para cambiar la escala de los datos a un rango de [0,1].
   - Aplica la <b> estandarizacion</b> para transformar los datos de modo que tengan una media de 0 y una desviacion estandar de 1.
3. <b>Codificacion de Variables Categoricas:</b>
   - Utiliza <b>Codificacion de Etiquetas</b> para convertir las variables categoricas en numeros enteros que representan cada categoria.
## Implementacion en Python
A lo largo de esta actividad, emplearemos las librerias pandas, scikit-learn y numpy para realizar las transformaciones necesarias.

Asegurate de seguir las instrucciones y de probar los distintos metodospara ver como afectan a tus datos.

Manos a la obra y buena suerte con la actividad practica!


## Cargar el Conjunto de Datos
Primero, vamos a cargar un conjunto de datos de ejemplo. En este caso, utilizaremos el conjunto de datos "tips" disponible en la libreria <code>seaborn</code>, que contiene informacion sobre las propinas en un restaurante.

Este conjunto de datos incluye las siguientes columnas:

- **total_bill**: El total de la factura.
- **tip**: La propina.
- **sex**: El sexo de la persona que pago.
- **smoker**: Si la persona que pago es fumadora o no
- **day** El dia de la semana.
- **time** El tiempo del dia (Almuerzo o Cena)
- **size** El tamaño del grupo.

In [3]:
import pandas as pd
import seaborn as sns

# Cargar el conjunto de datos 'tips' de seaborn
df = sns.load_dataset('tips')

# Mostrar las primeras filas del Dataframe
df.head()
df.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


### Normalizacion de una Columna
Ahora, vamos a normalizar la columna total_bill del conjunto de datos para cambiar la escala de los valores a un rango de [0, 1]

In [5]:
from sklearn.preprocessing import MinMaxScaler

# Crear una instancia del escalador 
scaler = MinMaxScaler()

# Normalizar la columna 'total_bill'
df['total_bill_normalized'] = scaler.fit_transform(df[['total_bill']])

# Mostrar las primeras filas del DataFrame con la columna normalizada
df['total_bill_normalized'].describe()

count    244.000000
mean       0.350145
std        0.186477
min        0.000000
25%        0.215281
50%        0.308442
75%        0.441087
max        1.000000
Name: total_bill_normalized, dtype: float64

## Estandarizacion de una Columna
Ahora, vamos a estandarizar la columna tip del conjunto de datos para que haga una media de 0 y una desviacion estandar de 1.


In [7]:
from sklearn.preprocessing import StandardScaler

# Crear una instancia del escalador
scaler = StandardScaler()

# Estandarizar la columna 'tip'
df['tip_standardized'] = scaler.fit_transform(df[['tip']])

# Mostrar las primeras filas del DataFrame con la columna estandarizada
df[['tip', 'tip_standardized']].head()
df[['tip_standardized']]

Unnamed: 0,tip_standardized
0,-1.439947
1,-0.969205
2,0.363356
3,0.225754
4,0.443020
...,...
239,2.115963
240,-0.722971
241,-0.722971
242,-0.904026


## Codificacion de Variables Categoricas
En esta seccion, vamos a aplicar tecnicas de codificacion de variables categoricas para preparar el conjunto de datos tips. Utilizaremos tanto One-Hot Enconding como Codificacion de Etiquetas para convertir las variables categoricas en una forma numérica.
### One-Hot Enconding
La codificacion One-Hot crea una columna binaria para cada categoria de la variable categorica. Esta tecnica es util cuando no existe un orden natural entre las categorías.

In [8]:
import pandas as pd
import seaborn as sns

# Cargar el conjunta de datos 'tips' de seaborn
df = sns.load_dataset('tips')

# Aplicar One-Hot Enconding a las variables categóricas 'sex' y 'smoker'
df_one_hot_encoded = pd.get_dummies(df, columns=['sex', 'smoker'])

# Mostrar las primeras filas del DataFrame con las columnas One-Hot Encoded
df_one_hot_encoded.head()

Unnamed: 0,total_bill,tip,day,time,size,sex_Male,sex_Female,smoker_Yes,smoker_No
0,16.99,1.01,Sun,Dinner,2,False,True,False,True
1,10.34,1.66,Sun,Dinner,3,True,False,False,True
2,21.01,3.5,Sun,Dinner,3,True,False,False,True
3,23.68,3.31,Sun,Dinner,2,True,False,False,True
4,24.59,3.61,Sun,Dinner,4,False,True,False,True


### Codificacion de Etiquetas
La codificacion de etiquetas asigna un valor numerico a cada categoria de la variable categorica. Esta tecnica es util cuando existe un orden natural entre las categorias.

In [9]:
from sklearn.preprocessing import LabelEncoder

# Crear una instancia del codificador de etiquetas
label_encoder = LabelEncoder()

# Aplicar Codificacion de Etiquetas a la variable categorica 'day'
df['day_encoded'] = label_encoder.fit_transform(df['day'])

# Mostrar las primeras filas del DataFrame con la columna Label Encoded
df[['day', 'day_encoded']]

Unnamed: 0,day,day_encoded
0,Sun,2
1,Sun,2
2,Sun,2
3,Sun,2
4,Sun,2
...,...,...
239,Sat,1
240,Sat,1
241,Sat,1
242,Sat,1


### Resumen de tecnicas.
- **One-Hot Encoding**: Util cuando no hay un orden natural entre las categorias.
- **Codificacion de Etiquetas**: Util cuando hay un orden natural entre las categorias.
- **Min-Max Scaler:** Util para metodos basados en distancia.
- **Standard Scaler:** Util para metodos basados en distancia.
- **MaxAbs Scaler:** Util para datos centrados en 0.
- **Robust Scaler:** Util para datos con outliers significativos
- **Frequency Encoding:** Util para modelos que pueden beneficiarse de la frecuencia relativa.
- **Target Encoding:** Util en contextos supervisados con un objetivo continuo.
