<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/taca/blob/main/ref/geron/chap_2/5_prepare_for_algorithms/2_data_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/taca/blob/main/ref/geron/chap_2/5_prepare_for_algorithms/2_data_cleaning.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Manejo de atributos de texto y categóricos  

Gerón página 105

### [Primer video de apoyo a la lectura](https://www.youtube.com/watch?v=OmEAPp14ZnE) 

Hasta ahora solo nos hemos ocupado de los atributos numéricos, pero ahora veamos los atributos de texto. 

En este conjunto de datos, solo hay uno: el atributo `ocean_proximity`.

Veamos su valor para las primeras 10 instancias:

Pero recordemos la parte de construcción del conjunto de entrenamiento y testeo:

In [1]:
import numpy as np 
import pandas as pd 

In [2]:
url = 'https://raw.githubusercontent.com/marco-canas/taca/main/datasets/housing/housing.csv'
housing = pd.read_csv(url)

In [3]:
housing.head() 

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [4]:
housing['ocean_proximity'].tail()  

20635    INLAND
20636    INLAND
20637    INLAND
20638    INLAND
20639    INLAND
Name: ocean_proximity, dtype: object

In [None]:
housing['median_income'].head() 

In [None]:
housing['income_cat'] = pd.cut(housing['median_income'], 
                              bins = [0,1.5,3.0,4.5,6.0, np.inf], 
                              labels = [1,2,3,4,5])

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit 

In [None]:
barajado = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2, random_state = 513) 

In [None]:
for train_indices, test_indices in barajado.split(housing, housing['income_cat']):
    strat_train_set = housing.loc[train_indices]
    strat_test_set = housing.loc[test_indices] 
    
     

In [None]:
housing = strat_train_set.drop(['income_cat', 'median_house_value'], axis = 1).copy() 

In [None]:
housing_label = strat_train_set['median_house_value'] 

In [None]:
housing.info() 

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="median")

In [None]:
housing_num = housing.drop("ocean_proximity", axis=1)

In [None]:
imputer.fit(housing_num)

In [None]:
X = imputer.transform(housing_num)   # ojo: devuelve una matriz de numpy

Transformemos esta matriz de `NumPy` es el nuevo dataframe `housing_imputado`

In [None]:
housing_imputado = pd.DataFrame(X, columns = housing_num.columns, index = housing_num.index)

Ahora sí veamos las 10 primeras instancias del atributo `ocean_proximity`

In [None]:
housing_cat = housing[["ocean_proximity"]]
housing_cat.head(10)


In [None]:
housing_cat.value_counts() 

La mayoría de los algoritmos de aprendizaje automático prefieren trabajar con números, así que debemos convertir estos datos de texto en datos numéricos.

Para esto, podemos usar la clase `OrdinalEncoder` de `Scikit-Learn`:

In [None]:
from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat) 
# Ojo los objetos que devuelven son de numpy
housing_cat_encoded = housing_cat_encoded.reshape(1,-1)

In [None]:
housing_cat_encoded = housing_cat_encoded[0]  

# .ravel() 

In [None]:
housing_cat_codificada = pd.DataFrame({'ocean_proximity':housing_cat_encoded}, 
                                      index = housing_imputado.index)  

In [None]:
housing_cat_codificada 

Puede obtener la lista de categorías utilizando la variable de instancia `categories_`.

Es una lista que contiene una matriz 1D de categorías para cada atributo categórico (en este caso, una lista que contiene una única matriz, ya que solo hay un atributo categórico):

In [None]:
ordinal_encoder.categories_

Un problema con esta representación es que los algoritmos ML supondrán que dos valores cercanos son más similares que dos valores distantes.

* Esto puede estar bien en algunos casos (p. Ej., Para categorías ordenadas como "malo", "promedio", "bueno" y "excelente"), 
* pero obviamente no es el caso de la columna `ocean_proximity`
(por ejemplo, las categorías 0 y 4 son claramente más similares que las categorías 0 y 1).

Para solucionar este problema, una solución común es crear un **atributo binario** por categoría: 

* **un atributo** igual a 1 cuando la categoría es "`<1H OCEAN`" (y 0 en caso contrario), 
* **otro atributo** igual a 1 cuando la categoría es "`INLAND`" ( y 0 en caso contrario), 
* y así sucesivamente.

Esto se llama codificación one-hot, porque solo un atributo será igual a 1 (hot), mientras que los otros serán 0 (frío).

Los nuevos atributos a veces se denominan **atributos ficticios**. 

Scikit-Learn proporciona una clase `OneHotEncoder` para convertir valores categóricos en vectores one-hot:

In [None]:
from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot


Observe que la salida es una matriz dispersa `SciPy`, en lugar de una matriz `NumPy`.

Esto es muy útil cuando tiene atributos categóricos con miles de categorías.

Después de la codificación one-hot, obtenemos una matriz con miles de columnas, y la matriz está llena de ceros excepto por un solo 1 por fila. 

Usar toneladas de memoria principalmente para almacenar ceros sería un desperdicio, por lo que una matriz dispersa solo almacena la ubicación de los elementos distintos de cero.

Puede usarlo principalmente como una matriz 2D normal, pero si realmente desea convertirlo en una matriz NumPy (densa), simplemente llame al método `toarray()`:

In [None]:
housing_cat_1hot.toarray()

Una vez más, puede obtener la lista de categorías utilizando la variable de instancia `categories_` del codificador:

In [None]:
cat_encoder.categories_


## Finalmente adicionamos el atributo codifidado al dataframe imputado

In [None]:
housing = pd.concat([housing_imputado, housing_cat_codificada ], axis = 1) 
# Ojo, axis debe ser en 1 para concatenar series, una al dado de la otra

In [None]:
housing.head() 

### Sugerencia

Si un atributo categórico tiene una gran cantidad de categorías posibles (p. Ej., Código de país, profesión, especie), la codificación one-hot dará como resultado una gran cantidad de características de entrada.

Esto puede ralentizar el entrenamiento y degradar el rendimiento.

Si esto sucede, es posible que desee reemplazar la entrada categórica con características numéricas útiles relacionadas con las categorías: 
* por ejemplo, podría reemplazar la característica `ocean_proximity` con la distancia al océano 
* (de manera similar, un código de país podría reemplazarse con la población del país).

## Custom Transformers o Transformadores personalizados


## Referencias  

* Geron, Aurelien. 
* Crear Dataframe a partir de arreglos de Numpy: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

* Concatenación de series de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html  

* Codificación de variables categóricas con Scikit-Learn: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html