##Escalamiento y encodeo

En este Notebook revisaremos lo visto en clase sobre escalamiento y encodeo de variables

In [None]:
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

In [None]:
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

# Normalización y estandarización
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# Encodeo
from sklearn import preprocessing


Usaremos el data set de: California Housing

In [None]:
# puedes agregar la dirección que quieras, siempre y cuando haga referencia al dataset.
# Debes poner atencion al separador. El parametro "sep" indica como se separan los datosen el dataset.

url = "https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv"
df_housing = pd.read_csv(url, sep=",")
df_housing

In [None]:
# Algunas estadísticas básicas de solo las variables numéricas
df_housing.describe()

In [None]:
# Revisamos el tipo de datos
df_housing.dtypes

**se pueden calcular muchas otras cosas, pero usamos pandas profiling que hace muchas cosas en un solo paso**

In [None]:
ProfileReport(df_housing)

#Normalización y estandarización

In [None]:
# Se crea primero el objeto Standard Scaler
scaler = StandardScaler()

# Luego "entrenamos" con los datos para obtener los parámetros del escalamiento
scaler.fit(df_housing)

# Finalmente aplicamos el escalamiento
array_scaler = scaler.transform(df_housing)
array_scaler

Se ve que entrega los datos más "desordenados". Esto pasa por que lo que entrega es un arreglo (array). Lo pasaremos a DataFrame

In [None]:
df_scaler = pd.DataFrame(array_scaler)
df_scaler

**Ahora el problema es que las columnas perdieron sus nombres**

Podemos recuperar los nombres

In [None]:
df_scaler.columns = df_housing.columns
df_scaler

Finalmente, corroboramos el resultado:

In [None]:
df_scaler.describe()

### ¿Cómo sabemos que lo hizo bien?

## Tarea: hacer la normalización con la función MinMaxScaler

#Encodeo

Veremos Label Encoder, la cual cambia valores categóricos de una variable a valores numéricos.

Para esto usaremos un datat set pequeño para ver los resultados más facilmente

In [None]:
datos = {'alumno': ['Zutano', 'Mengano', 'Zutano','Pepe' ,'Fulanito, Cosme', 'Maria'],
         'Primera prueba': [7, 8,7,7,8.5, 10],
         'Segunda prueba': [10,9,10,4,10,6.7],
         'observaciones':['ninguna','libre','ninguna','ninguna','libre','oyente'],
         'DNI':[23000000, 12389100,23000000, 99999, 1001,30406011]}
df = pd.DataFrame(datos)
df

In [None]:
# creamos el objeto
le = preprocessing.LabelEncoder()

# tomamos un variable categorica, en este caso usaremos la variable: "observaciones"
data = df['observaciones']
data

In [None]:
# ahora aplicamos el "entrenamiento", que vendria siendo el obtener los parámetros del modelo
le.fit(data)

data_transformada = le.transform(data)
data_transformada

In [None]:
# ahora hacemos el cambio a los datos
df['observaciones'] = data_transformada
df

## ¿Te preguntaste si la variable categórica era nominal u ordinal?

## Tarea: aplicar OneHotEncoder a la variable categórica.