In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/Iris_mod.csv
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/housing.csv
%cd ..

# Preprocesamiento de datos
En el mundo real, los datos que obtengamos pueden ser err√≥neos porque estar√°n incompletos, duplicados o no se podr√°n usar tal cual, porque los algoritmos de *machine learning* usan **s√≥lo n√∫meros** üî¢.  

Veremos c√≥mo afrontar este tipo de situaciones con un nuevo dataset, el [Iris Dataset](https://www.kaggle.com/uciml/iris) de kaggle.

In [None]:
import pandas as pd

data_iris = pd.read_csv('./datasets/Iris_mod.csv')
data_iris.head()

Como puedes ver, tenemos un dataset con las medidas de largo y ancho del s√©palo y el p√©talo de una flor de iris, cuya especie se menciona en la √∫ltima columna.

Tambi√©n tenemos la columna "Id" pero no es necesaria, as√≠ que vamos a eliminarla con el m√©todo `drop`

In [None]:
data_iris.drop(columns=['Id'], inplace=True)

¬øCu√°ntas especies tenemos? usemos la funci√≥n `nunique` para contar los valores √∫nicos de la columna "Species"

In [None]:
data_iris['Species'].nunique()

Esto **ignora** los valores **nulos**, veamos cu√°ntos tenemos en total.

In [None]:
data_iris.isna().sum()

# Solucionando valores nulos
Tenemos exactamente tres valores nulos en cada columna. ¬øConcidencia? ~~no lo creo~~.  
En realidad modifiqu√© el dataset para prop√≥sitos educativos üòÑ y a√±ad√≠ una fila de nulos que podemos verla usando `tail`

In [None]:
data_iris.tail(2)

Estos aparecen como **NaN** siglas de *Not a Number* o **No es un N√∫mero**, para tratarlos podemos **eliminar las filas o columnas** que contengan alg√∫n valor nulo o no permitido üòµ.  
Otra opci√≥n es **reemplazarlos** con la **media** o la **moda** de toda su columna ü§î.

Antes de intentar cualquier soluci√≥n crearemos una **copia** de nuestro data_iris usando `copy` para preservar el original, si no usas copy s√≥lo tendr√°s una referencia al objeto original, como pasa con las listas en Python üêç.

In [None]:
df = data_iris.copy()

## Eliminar filas
Es recomendable cuando tenemos **muchos datos y pocos son nulos**, pues no perdemos demasiada informaci√≥n.

Usaremos el m√©todo `dropna` que recibe el par√°metro `axis` o eje, que corresponde con la dimensi√≥n, podemos utilizar`0` o `"index"` para el caso de las **filas**.
La funci√≥n eliminar√° cualquier fila que contenga alg√∫n valor nulo üòµ.

In [None]:
df = df.dropna(axis=0)
df.tail()

## Eliminar columnas
La usamos **si la columna no es importante**, o si **tenemos demasiados valores nulos**, pues no podr√≠amos recuperar informaci√≥n.

S√≥lo cambiamos`axis` a `1` o `'columns'` para el caso de las **columnas**.

In [None]:
df = data_iris.copy()

df = df.dropna('columns')
df.tail()

$\cdots$  
Recuerda siempre que **un s√≥lo nulo basta**  para eliminar **toda** la fila o columna üòâ

## Reemplazar con la media
La media es el promedio de la columna, por supuesto s√≥lo funciona con los valores num√©ricos üî¢.  
Debido a esto, exclu√≠mos la columna **Species** usando `iloc`.

In [None]:
# todas las filas, de la primera a la pen√∫ltima columna
df = data_iris.iloc[:, :-1]
df.tail(3)

sklearn tiene el objeto `SimpleImputer` para reemplazar valores, reemplazar√° los nulos por defecto.  
S√≥lo debemos indicarle la `strategy` o estrategia para reemplazar los valores, que ser√° `"mean"` en este caso. 

In [None]:
from sklearn.impute import SimpleImputer

df = data_iris.iloc[:, :-1]
imp = SimpleImputer(strategy="mean")

df_inputed_mean = imp.fit_transform(df)

# veamos la √∫ltima fila
df_inputed_mean[-1]

Podemos comprobar que sean los valores correctos usando el m√©todo `mean` sobre el *DataFrame*

In [None]:
df.mean()

## Reemplazar con la moda
La moda es el valor que m√°s se repite, por lo que podemos usar texto üî°.  
Usaremos tambi√©n `SimpleImputer` cambiando la `strategy` a `"most_frequent"`

In [None]:
df = data_iris.copy()

imp = SimpleImputer(strategy="most_frequent")

df_inputed_mode = imp.fit_transform(df)
df_inputed_mode[-1]

Y podemos comprobarlo con el m√©todo `mode`

In [None]:
df.mode()

Pandas calcul√≥ que los nulos son valores que se repiten, pero `SimpleImputer` tom√≥ los primeros valores no nulos.

# Valores no num√©ricos
Para tratarlos **es necesario codificarlos**, una de las primeras ideas es asignar valores en serie como 1, 2, 3,... a cada especie, pero esto **implica que hay un orden establecido** entre especies.
El modelo podr√≠a entender algo como 3 > 2 > 1, aprendiendo que cierta especie es mejor o peor que otra üòÖ.

En su lugar debemos indicar que son valores de diferente **categor√≠a** con un c√≥digo que indique algo como
> Es Iris setosa y no otra cosa

| # | Iris setosa | Otra cosa |
|---|-------------|-----------|
| 1 |   s√≠   |   no   |
| 2 |   s√≠   |   no   |
| 3 |   no   |   si   |

Tendremos **una columna por categor√≠a**, marcando 1 a la que pertenece y 0 a las dem√°s, esto se conoce como **One-hot encoding** y podemos obtenerla con el m√©todo `get_dummies` de pandas üêº

In [None]:
df_one_hot = pd.get_dummies(df)
df_one_hot.head()

Por defecto actuar√° con todos los valores con el *dtype* `object`, pero tambi√©n puedes tener un dataset con **categor√≠as en forma de n√∫meros**, como dec√≠amos antes 1, 2, 3, ...  
Aseg√∫rate de informarte sobre las columnas del dataset, podr√≠as encontrar esta informaci√≥n en la [fuente](https://www.kaggle.com/uciml/iris) de cada dataset üòâ.

Puedes verificar los `dtypes` de cada columna con ese atributo:

In [None]:
df.dtypes

Tambi√©n podemos usar `OneHotEncoder` de sklearn, pero s√≥lo enviaremos las columnas que queramos transformar y no admite que los datos tengan valores nulos.  
Por defecto retorna una [matriz dispersa](https://es.wikipedia.org/wiki/Matriz_dispersa) pero podemos cambiarlo cambiando el par√°metro `sparse` a falso.

In [None]:
from sklearn.preprocessing import OneHotEncoder

# s√≥lo la √∫ltima columna
df_species = df_inputed_mode[:, [-1]]

one_hot = OneHotEncoder(sparse=False)
df_one_hot = one_hot.fit_transform(df_species)
df_one_hot[:5]

Si tuvi√©ramos s√≥lo dos categor√≠as **no es necesario agregar dos columnas**, los valores 0 y 1 ya indican la **presencia o ausencia** de la feature üòÑ.

# Ejercicios
¬øQu√© otras estrategias pueden ser √∫tiles? prueba las que tiene `SimpleImputer` de sklearn 

In [None]:
# revisa la documentaci√≥n


Utiliza alguna estrategia con el dataset de casas, los datos nulos estaban en "total_bedrooms", eval√∫a qu√© tanto mejora el modelo utilizando s√≥lo esa feature y la variable objetivo "median_house_value"

In [None]:
# total_bedrooms es una cantidad


Con todo lo aprendido ya vamos dominando las bases del machine learning üòâ.  
Es m√°s, ahora la m√°quina puede aprender a **distinguir categor√≠as o clases** ü§Ø.

> Ten las med√≠das de s√©palo, p√©talo y dime ¬øes setosa u otra cosa?  

$\cdots$  
Responder√°, cuando aprenda [clasificaci√≥n](8_Clasificacion.ipynb).