## Preprocesamiento de Datos

“El Preprocesamiento de Datos” / “La Preparación de
Datos” engloba a todas aquellas técnicas de análisis de
datos que permite mejorar la calidad de un conjunto de
datos de modo que las técnicas de extracción de
conocimiento/minería de datos puedan obtener mayor y
mejor información (mejor porcentaje de clasificación,
reglas con más completitud, etc.)

### Importando las bibliotecas básicas

El primer paso en todo programa Python de Machine Learning es el de importar las bibliotecas básicas imprescinibles para hacer nuestro trabajo.

Éstas son: pandas, numpy y matplotlib.pyplot. La sentencia Python para importarlas es import (al escribir esta sentencia el código debe quedar de color verde). 

Para ahorrarnos escribir letras al tipear (los programadores somos muuuuuy vagos) les ponemos un alias a las tres bibliotecas.

La sentencia Python para hacer eso es as que también se debe poner verde (y no de envidia). Los  alias fecuentemente usados son plt, pd y np.

In [2]:
# Importar las bibliotecas básicas de trabajo
# pandas (pd), numpy (np) y matplotlib.pyplot (plt)

# Comenzar código aquí (tres líneas)
                     # importamos la biblotecas pandas (pd) - Manejo de Datasets
                     # importamos la biblioteca numpy (np)  - Vectores y matrices
                     # importamos la biblioteca matplotlib.pyplot - Gráficos 
# Fin del código  

## Importando el dataset

El primer paso necesario para comenzar a preprocesar los datos es traernos el dataset con el que vamos a trabajar a memoria. Eso lo hacemos utilizando la biblioteca pandas. El método que tenemos que usar es read_csv. Como argumentos del método, debemos poner, entre comillas, el nombre de nuestro dataset incluyendo la ruta correspondiente. 
<br><i>(pd.read_csv ("../../datasets/Data.csv"))<i>

In [None]:
# Comenzar código aquí (una línea)
                     
# Fin del código  

### Resultado esperado

<img src="../../imagenes/dataset.jpg">

### Almacenamiento de los datos en una variable

En el paso anterior, leímos el dataset. Para poder trabajar con el mismo, debemos alojarlo en memoria. Para eso, debemos definir una variable en la que almacenar el objeto DataFrame resultante de la lectura de los datos

In [None]:
# Comenzar código aquí (una línea)
datos=None                     
# Fin del código  

### Mostrando los datos

Para mostrar los datos almacenados en la variable datos, podemos hacerlo simplemente tipeando datos. Sin embargo, si el dataset es muy grande, esto no es práctico. Solo deseamos obtener una muestra de los datos para chequear que el dateset se ha leído correctamente. Para hacer esto, debemos usar el método head de pandas.<br>

datos.head()

In [None]:
# Comenzar código aquí (una línea)
                    
# Fin del código  

## DESAFÍO: mostrar los últimos tres datos del dataset

### Resultado esperado

<img src="../../imagenes/head.jpg">

### Separando en nuestro DataFrame las variables independientes (X) y la dependiente (y)

Ahora, tomamos nuestro DataFrame, almacenado en la variable datos, y lo separamos en dos subdataframes. Uno, conteniendo las variables independientes, que son todas las columnas menos la última y otro, conteniendo la variable dependiente, que es la columna número 3. 

#### Primer paso: dividiendo el dataframe en subdataframes

Para seccionar nuestro dataframe debemos usar el método iloc. Entre corchetes, indicamos primero el número de filas que vamos a seleccionar (en este caso, con :, indicamos que seleccionaremos todas las filas) y luego, todas las columnas (en este caso, con ;-1, indicamos que seleccionaremos todas las columnnas menos una). Esto que acabamos de hacer se aplica a la variable independiente (X). Para la y, tomaremos también todas las filas y nos quedaremos solo con la columna 3.     

#### Segundo paso: transformando los dataframes en arrays de numpy

Para operar con los datos, debemos transformarlos en arrays de numpy. Esto lo hacemos con el método values.

#### Tercer paso: mostramos X e y

Esto simplemente lo hacemos tipeando los nombres de las variables <br>

X=datos.iloc[:,:-1].values <br>
y=datos.iloc[:,3].values   <br>
X,y

In [None]:
# Comenzar código aquí (tres líneas)
                            # separamos las variables independientes (X)
                            # separamos la variable dependiente (y) 
                            # mostramos X e y 
# Fin del código  

### Resultado esperado

<img src="../../imagenes/Xy.jpg">

### Tratamiento de los valores faltantes

¿Qué hacer cuando tenemos valores faltantes?


Una situación a la que se enfrenta frecuentemente cualquier científico de datos es el tratamiento de los valores perdidos. Los valores faltantes son aquellos que para una variable determinada no constan en algunas filas o patrones. El motivo por el cual se produce esto puede ir desde fallos en los instrumentos de medida hasta sujetos que no asisten a la entrevista o no contestan a determinadas preguntas.

Los 3 motivos principales por los que se suelen tratar los valores perdidos son: pueden introducir un sesgo considerable (una diferencia notable entre los datos observados y los no observados), hacen el análisis y el manejo de los datos más complicado y la pérdida de información que éstos producen.

No es tan importante la cantidad de valores faltantes como el patrón que éstos siguen. Puesto que si su distribución no fuese aleatoria a lo largo de todo el conjunto de datos la representatividad de la muestra sobre la que estaríamos trabajando se vería seriamente mermada. Por lo tanto, en función de la aleatoriedad de los valores perdidos se suele establecer la siguiente clasificación:

Missing At Random (MAR): ocurre cuando la ausencia de los datos podría depender de los valores observados.
Missing Not At Random (MNAR): si el ser un dato faltante depende del valor de los datos no observados.
Missing Completely At Random (MCAR): si el evento de que cierto valor sea faltante es independiente de las variables observadas y no observadas, y ocurre de forma completamente aleatoria. Se trata de un caso especial de MAR.
La principal ventaja de que los valores perdidos sean de tipo MCAR es que los datos no están sesgados. Ocurre de igual forma con los de tipo MAR.

Hay que tener especial cuidado con los valores perdidos de tipo MNAR, ya que los datos observados están sesgados. Destacar que este tipo de valores faltantes no se puede ignorar y debe ser tratado junto al experto.



### Técnicas para el tratamiento de valores faltantes

Existen multitud de procedimientos para aplicar cuando tenemos valores perdidos. Aunque básicamente existen dos aproximaciones posibles:

Eliminar muestras o variables que tienen datos faltantes.
Imputar los valores perdidos, es decir, sustituirlos por estimaciones.

Más info: https://conocemachinelearning.wordpress.com/2017/06/30/valoresfaltantes/

### Tratamiento de valores faltantes con sklearn

1) Del paquete sklearn.preprocessing importamos la clase Imputer<br>
2) Instanciamos un objeto imputer invocando al constructor de la clase
   Imputer.<br>
   Parámetros que le pasamos al constructor<br>
   missing_values = 'NaN'  trata los valores 'NaN' (Not a Number)<br>
   strategy = 'mean' reemplaza los valores 'NaN' por el promedio<br>
   axis=0 itera a lo largo de todas las filas (verticalmente)<br>
3) Una vez instanciado el objeto imputer de la clase Imputer, invocamos a su método fit<br>
   Como parámetros del método fit pasamos la las columnas 1 y 2 matriz X 
   (son las 2 columnas que tienen los valores 'NaN')<br>
4) Invocamos al método transform de imputer y le pasamos los mismos parámetros que en el punto 3)<br>
   Asignamos el resultado al mismo argumento que pasamos como parámetro.<br>
5) Mostramos la matriz X transformada.<br>
   
from sklearn.preprocessing import Imputer<br>
imputer = Imputer(missing_values = 'NaN', strategy = 'mean',axis=0)<br>
imputer.fit(X[:,1:3])<br>
X[:,1:3]=imputer.transform(X[:,1:3])<br>
X<br>



In [22]:
# Comenzar código aquí (cinco líneas)





# Fin del código  

### Resultado esperado

<img src="../../imagenes/Nan.jpg">

## Valores categóricos

<img src="../../imagenes/categorical_data.jpg">

## Valores categóricos

Introducción
Cuando trabajamos con estadísticas, es importante reconocer los diferentes tipos de datos: numéricos (discretos y continuos), categóricos y ordinales. Los datos no son más que observaciones del mundo en que vivimos, por tanto, los mismos pueden venir en diferentes formas, no solo numérica. Por ejemplo, si le preguntáramos a nuestros amigos ¿cuántas mascotas tienen? nos podrían responder: 0, 1, 2, 4, 3, 8; esta información por sí misma puede ser útil, pero para nuestro análisis de mascotas, nos podría servir también otro tipo de información, como por ejemplo el género de cada uno de nuestros amigos; de esta forma obtendríamos la siguiente información: hombre, mujer, mujer, mujer, hombre, mujer. Como vemos, podemos incluir a los datos dentro de tres categorías fundamentales: datos cuantitativos o numéricos, datos cualitativos o categóricos y datos ordinales.

Datos cuantitativos
Los datos cuantitativos son representados por números; estos números van a ser significativos si representan la medida o la cantidad observada de cierta característica. Dentro de esta categoría podemos encontrar por ejemplo: cantidades de dólares, cuentas, tamaños, número de empleados, y kilómetros por hora. Con los datos cuantitativos, se puede hacer todo tipo de tareas de procesamiento de datos numéricos, tales como sumarlos, calcular promedios, o medir su variabilidad. Asimismo, vamos a poder dividir a los datos cuantitativos en discretos y continuos, dependiendo de los valores potencialmente observables.

Los datos discretos solo van a poder asumir un valor de una lista de números específicos. Representan ítems que pueden ser contados; todos sus posibles valores pueden ser listados. Suele ser relativamente fácil trabajar con este tipo de dato.

Los datos continuos representan mediciones; sus posibles valores no pueden ser contados y sólo pueden ser descritos usando intervalos en la recta de los números reales. Por ejemplo, la cantidad de kilómetros recorridos no puede ser medida con exactitud, puede ser que hayamos recorrido 1.7 km o 1.6987 km; en cualquier medida que tomemos del mundo real, siempre pueden haber pequeñas o grandes variaciones. Generalmente, los datos continuos se suelen redondear a un número fijo de decimales para facilitar su manipulación.

Datos cualitativos
Si los datos nos dicen en cual de determinadas categorías no numéricas nuestros ítems van a caer, entonces estamos hablando de datos cualitativos o categóricos; ya que los mismos van a representar determinada cualidad que los ítems poseen. Dentro de esta categoría vamos a encontrar datos como: el sexo de una persona, el estado civil, la ciudad natal, o los tipos de películas que le gustan. Los datos categóricos pueden tomar valores numéricos (por ejemplo, "1" para indicar "masculino" y "2" para indicar "femenino"), pero esos números no tienen un sentido matemático.

Datos ordinales
Una categoría intermedia entre los dos tipos de datos anteriores, son los datos ordinales. En este tipo de datos, va a existir un orden significativo, vamos a poder clasificar un primero, segundo, tercero, etc. es decir, que podemos establecer un ranking para estos datos, el cual posiblemente luego tenga un rol importante en la etapa de análisis. Los datos se dividen en categorías, pero los números colocados en cada categoría tienen un significado. Por ejemplo, la calificación de un restaurante en una escala de 0 (bajo) a 5 (más alta) estrellas representa datos ordinales. Los datos ordinales son a menudo tratados como datos categóricos, en el sentido que se suelen agrupar y ordenar. Sin embargo, a diferencia de los datos categóricos, los números sí tienen un significado matemático.

https://relopezbriega.github.io/blog/2016/02/29/analisis-de-datos-categoricos-con-python/

## Análisis de datos categóricos con Python

Puesto que las variables cualitativas normalmente recogen aspectos de la presencia o no de
determinado atributo (ser hombre o mujer, tener estudios universitarios o no tenerlos, etc.…) se
utilizan variables construidas artificialmente, llamadas también ficticias o dummy, que
generalmente toman dos valores, 1 ó 0, según se dé o no cierta cualidad o atributo.
Habitualmente a la variable ficticia se le asigna el valor 1 en presencia de la cualidad y 0 en
caso contrario. Las variables que toman valores 1 y 0, también reciben el nombre de variables
dicotómicas o binarias. 

### Paso 1 codificar los países con LabelEncoder

1) Del paquete sklearn.preprocessing importar la clase LabelEncoder  <br>
2) Crear una variable labelencoder_X del tipo LabelEncoder <br>
3) Aplicar el método fit a la columna de la matriz correspondiente <br>
4) Aplicar el método transform a la columna de la matriz correspondiente <br>
5) Mostrar los datos transformados <br>


In [29]:
# Comenzar código aquí (cuatro líneas)




# Fin del código  

### Resultado esperado

<img src="../../imagenes/LabelEncoder.jpg">

## Uso de la clase OneHotEncoder para crear variables dummy

1) Del paquete sklearn.preprocessing importar la clase OneHotEncoder <br>
2) Crear la variable onehotencoder del tipo OneHotEncoder <br>
   Parámetro a pasar en el constructor: categorical_features = [0] - la columna a transformar <br>
3) Al objeto onehotencoder aplicarle el método fit_t transform <br>
   Parámetro a pasar en el método: la matriz X <br>
   Aplicar el método toarray para transformarlo en un array de numpy <br>
4) Mostrar los datos transformados <br>

from sklearn.preprocessing import OneHotEncoder <br>
onehotencoder = OneHotEncoder(categorical_features = [0])<br>
X=onehotencoder.fit_transform(X).toarray()<br>
X<br>

In [None]:
# Comenzar código aquí (cuatro líneas)




# Fin del código  

### Resultado esperado

<img src="../../imagenes/OneHotEncoderX.jpg">

## Tratamiento de los datos categóricos - Variable independiente (y)

1) Crear una variable labelencoder_y, instancia de la clase LabelEncoder
2) Aplicación del método fit_transform - argumento: y
3) Mostrar los datos transformados


In [None]:
# Comenzar código aquí (tres líneas)



# Fin del código 

### Resultado esperado

<img src="../../imagenes/OneHotEncodery.jpg">

## Conjuntos de entrenamiento y testing


<img src="../../imagenes/PartitionTwoSets.svg">

1) importar train_test_split del paquete sklearn.cross_validation<br>
2) dividir X e y en train y test usando el método train_test_split
   Parámetros a aplicar: X, y, test_size = 0.2, random_state = 0

In [None]:
# Comenzar código aquí (dos líneas)

X_train,X_test,y_train,y_test=None
# Fin del código 

## Feature Scaling

Dado que los datos de edad y salario mantienen una escala diferente y en las ecuaciones de la regresión o de algún otro método de clasificación y/o predicción, dada la distancia euclidiana entre dos puntos, el valor del salario podría hacer que la edad deje de ser representativa o importante para el análisis, lo mas conveniente es hacer una transformación de escalas, ya sea una estandarización o una normalización de los datos.

<img src="../../imagenes/Normalizacion.png">

1) Importar la clase StandardScaler del paquete sklearn.preprocessing <br>
2) Crear una instancia de la clase StandardScaler <br>
3) Aplicar el método fit_transform con parámetro X_train <br>
4) Aplicar el método transform con parámetro X_test <br>
5) Mostrar los datos transformados

In [None]:
# Comenzar código aquí (cinco líneas)

sc_X=None
X_train=None
X_test =None

# Fin del código  