# Preprocesamiento de datos
En el mundo real, los datos que obtengamos pueden ser err√≥neos porque estar√°n incompletos, duplicados o no se podr√°n usar como tal (machine learning usa s√≥lo **n√∫meros**)  

Veremos c√≥mo afrontar cada situaci√≥n con el dataset [Iris Dataset](https://www.kaggle.com/uciml/iris) de kaggle,  est√° en formato .csv cuyo nombre viene de *Comma Separated Values* o Valores Separados por Comas.

En realidad es s√≥lo texto plano que representa a una tabla. La primera fila tiene los nombres de columnas, separados por comas, y las filas restantes, los valores que corresponden, separados por comas.

Cargaremos el archivo usando el m√©todo `read_csv` librer√≠a `pandas` üêº  esto resultar√° en un objeto DataFrame, cuyo el m√©todo head nos permite ver las primeras filas de este.

In [None]:
import pandas as pd

dataframe = pd.read_csv('./datasets/Iris_mod.csv')
dataframe.head()

Como puedes ver, tenemos un dataset con las medidas de largo y ancho del s√©palo y el p√©talo de una flor de iris, cuya especie se menciona en la √∫ltima columna.

Tambi√©n tenemos la columna Id pero no es necesaria, podemos eliminarla con el m√©todo `drop` que recibe una lista de las columnas a eliminar.

In [None]:
dataframe = dataframe.drop(columns=['Id'])

¬øCu√°ntas especies tenemos? usemos la funci√≥n `nunique` para contar los valores √∫nicos de esa columna, podemos acceder a ella como en un diccionario.

In [None]:
dataframe['Species'].nunique()

Esto **ignora** los valores **nulos**, para ver cu√°ntos son usamos el m√©todo `isnull` que nos devuelve True o False si alg√∫n dato es **nulo**, veamos las primeras filas usando `head`

In [None]:
dataframe.isnull().head()

Pero ser√≠a m√°s util tener el total de nulos, para esto sumaremos cada columna pues cada True contar√° como 1 y cada False como 0

In [None]:
dataframe.isnull().sum()

## Valores nulos
Tenemos exactamente un valor nulo en cada columna ¬øConcidencia?  
No, en realidad modifiqu√© el dataset con prop√≥sitos educativos üòÑ a√±ad√≠ una fila de nulos que podemos verla usando `tail`

In [None]:
dataframe.tail(2)

Estos aparecen como **NaN** siglas de *Not a Number* o **No es un N√∫mero**, para tratarlos podemos **eliminar** las **filas** o **columnas** que contengan alg√∫n nulo o **reemplazarlos** con la **media** o la **moda** de su columna.

Antes de intentar cualquiera crearemos una **copia** de nuestro dataframe usando `copy` para preservar el original, si no usas copy s√≥lo tendr√°s una referencia al objeto original.

In [None]:
df = dataframe.copy()

### Eliminar filas
Es recomendable cuando tenemos muchos datos y pocos nulos, pues no perdemos demasiada informaci√≥n.

Usaremos el m√©todo `dropna` que recibe el par√°metro `axis` o eje, que corresponde con la dimensi√≥n, `0` o `'index'` en el caso de las **filas**.

In [None]:
df = df.dropna(axis=0)
df.tail()

### Eliminar columnas
La usamos si esta no es importante o tenemos muchos nulos, pues no pod√≠amos recuperar informaci√≥n.

S√≥lo cambiamos`axis` a `1` o `'columns'` para el caso de las **columnas**.

In [None]:
df = dataframe.copy()
df = df.dropna('columns')
df.tail()

$\cdots$  
Recuerda siempre que **un s√≥lo nulo basta**  para eliminar **toda** la fila o columna üòâ

### Reemplazar con la media
La media es el promedio de la columna, por supuesto s√≥lo funciona con los valores num√©ricos, por esto no seleccionaremos la columna **Species** usando `iloc` esto nos permite seleccionar por indices al estilo de numpy, y podemos usar slices.

In [None]:
# todas las filas, de la primera a la pen√∫ltima columna
df = dataframe.iloc[:, :-1]
df.tail(3)

sklearn tiene el objeto `SimpleImputer` para reemplazar valores, nulos por defecto, debemos indicarle la `strategy` o estrategia para reemplazar los valores. 

In [None]:
from sklearn.impute import SimpleImputer

df = dataframe.iloc[:, :-1]
imp = SimpleImputer(strategy='mean')

df_inputed_mean = imp.fit_transform(df)
df_inputed_mean[-1]

Podemos comprobar que sean los valores correctos usando el m√©todo `mean`

In [None]:
df.mean()

### Reemplazar con la moda
La moda es el valor que m√°s se repite, usaremos tambi√©n `SimpleImputer` cambiando la `strategy`

In [None]:
df = dataframe.copy()

imp = SimpleImputer(strategy='most_frequent')

df_inputed_mode = imp.fit_transform(df)
df_inputed_mode[-1]

Y podemos comprobarlo con `mode`

In [None]:
df.mode()

El dataset tiene 50 filas de las 3 especies, `SimpleImputer` s√≥lo tom√≥ la primera que encontr√≥

## Valores no num√©ricos
Para tratarlos es necesario codificarlos, podr√≠amos asignar 1, 2 o 3 a cada especie, pero esto implica que hay un patr√≥n u orden escondido, el modelo podr√≠a entender algo as√≠: 3 > 2 > 1.

En su lugar debemos indicar que son valores de diferente **categor√≠a** con un c√≥digo que indica algo como
> Iris setosa y no otra cosa

Tendremos **una columna por categor√≠a**, marcando 1 a la que pertenece y 0 a las dem√°s, esto se conoce como **One-hot encoding** y podemos obtenerla con el m√©todo `get_dummies` de pandas üêº

In [None]:
df_one_hot = pd.get_dummies(df)
df_one_hot.head()

Por defecto actuar√° con todos los valores con el "dtype" (data type) `object`, pero puedes tener un dataset con categor√≠as en forma de n√∫meros, asegurate de informarte sobre las features del dataset, podr√≠as encontrar la informaci√≥n en la [fuente](https://www.kaggle.com/uciml/iris) del dataset.

Puedes verificar los `dtypes` de cada columna con ese atributo:

In [None]:
df.dtypes

Tambi√©n podemos usar `OneHotEncoder` de sklearn, pero s√≥lo enviaremos las columnas que queramos transformar y no admite que los datos tengan valores nulos.  
Por defecto retorna una [matriz dispersa](https://es.wikipedia.org/wiki/Matriz_dispersa) pero podemos cambiarlo cambiando el par√°metro `sparse` a falso.

In [None]:
from sklearn.preprocessing import OneHotEncoder

# s√≥lo la √∫ltima columna
df_species = df_inputed_mode[:, [-1]]

one_hot = OneHotEncoder(sparse=False)
df_one_hot = one_hot.fit_transform(df_species)
df_one_hot[:5]

Si tuvi√©ramos s√≥lo 2 categor√≠as no es necesario agregar 2 columnas, 0 y 1 ya indican la presencia o no de la feature.

Con todo lo aprendido ya vamos dominando las bases del machine learning üòâ
Es m√°s, ahora la m√°quina puede aprender para **distinguir** categor√≠as o **clases**.

Ten las med√≠das de s√©palo, p√©talo y dime ¬øes setosa u otra cosa?  
$\cdots$

Responder√°, cuando aprenda [clasificaci√≥n](7_clasificacion.ipynb).