# Data Preprocessing

## Importing the libraries

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.preprocessing import Imputer

## Importing the dataset 

In [3]:
dataset = pd.read_csv('../../data/Data.csv')

In [4]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


En cualquier dataset necesitamos hacer una distinción entre las variables independientes y las dependientes

En el dataset anterior,  las variables independientes son  `Country`, `Age` y `Salary`.
La variable/columna `Purchased`  es una variable dependiente 

Entonces, a partir del dataset anterior, creamos una matriz solo para referenciar las variables independientes: `Country`, `Age` y `Salary`, por lo que tomamos todas las columnas menos la de `Purchased`

In [5]:
X = dataset.iloc[:, :-1].values

In [6]:
# Es asi como la matriz de variables independientes `X` queda de esta forma:
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

Tambien a partir del conjunto de datos original representado por la variable `dataset` creamos un vector solo 
para la variable independiente `Purchased`

In [7]:
y = dataset.iloc[:, 3].values

In [8]:
y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

## Removiendo datos faltantes

Es muy común tener un conjunto de datos, en donde en algunas celdas o líneas o registros, existan datos faltantes 
tipo `NaN` como es el caso de nuestro conjunto de datos:

In [9]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [10]:
type(dataset['Age'])

pandas.core.series.Series

In [11]:
print(dataset['Age'][6])
print(dataset['Salary'][4])


nan
nan


** Que hacemos con estos valores faltantes? ** 

La primera idea es remover las líneas de las muestras o registros en donde hay datos faltantes, pero dependiendo del contexto esto puede ser peligroso porque puede contener información crucial. Es mejor pensar en otra idea.

Una alternativa de solucion mas comun es tomar la media de los valores de las columna en donde faltan los datos, en este caso `Age` y `Salary`

Para el caso de la columna `Age`

![alt text](https://cldup.com/WSQFnqNeuX-3000x3000.png "Llenando el espacio faltante con la media de los demas valores")

Para el caso de la columna `Salary`

![alt text](https://cldup.com/ThRBQavgo4-2000x2000.png "Llenando el espacio faltante con la media de los demas valores")


Otras estrategias son tomar la mediana de los valores restantes de la columna en donde falta un valor, O tomar el valor más frecuente, lo cual puede ser una buena idea dependiendo del contexto

Tomaremos la media de las columnas, reemplazaremos los datos que faltan aqui por la media de todos los valores en la columna `Age` de el dataset original


Utilizando `scikit-learn` a través de la clase [Imputer](# http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html
 "sklearn.preprocessing.Imputer"), que es una de las diferentes clases para preprocesamiento de datos se llenaran los datos faltantes del dataset:   

In [12]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [13]:
print(dataset['Age'][6])
print(dataset['Salary'][4])

nan
nan


La clase [Imputer](# http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html
 "sklearn.preprocessing.Imputer") tiene los siguientes parámetros:
 
 ![alt text](https://cldup.com/NkWAcChKsj-3000x3000.png "Imputer parameters")
 
 Utilizaremos como estrategia, llenar los datos faltantes con la media de los otros valores de la columna 
 en donde faltan datos.
 
 `axis` es el eje a lo largo del cual vamos a hacer la operación de `impute`, por defecto es igual a 0, lo que significa
 que dicha operación será a lo largo de las columnas

In [14]:
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)

Fijamos los valores transformando las columnas en donde hace falta datos con el metodo `fit()` le pasamos la matriz `X` formada a partir del dataset original dataset y el cual solo tiene las variables independientes de `Age` y `Salary` en donde se encuentras los valores vacios 





In [15]:
"""
Averiguamos cuales son los índices de las columnas con esta función
desarrollada aqui: https://stackoverflow.com/a/38489403/2773461
la cual usa el metodo searchsorted de numpy
"""
def column_index(df, query_cols):
    cols = df.columns.values
    sidx = np.argsort(cols)
    return sidx[np.searchsorted(cols,query_cols,sorter=sidx)]

In [16]:
column_index(dataset, ['Country', 'Age', 'Salary', 'Purchased'])

array([0, 1, 2, 3])

In [17]:
print(dataset.columns.get_values()[:])

['Country' 'Age' 'Salary' 'Purchased']


Como los valores faltantes estan en `Age` y `Salary` debemos capturar solo las columnas 1 y 2 que son las que corresponden a `Age` y `Salary`

Con slices, (`:`) le decimos `X[:, 1:3]` 

Capture todas las lineas de la matriz `X`  con los primeros `:` 
Tenemos que seleccionar las columnas 1 y 2 por ello con la instrucción `1:3` las abarcamos, ya que 
en python cuando se trabaja con slices, el límite superior es excluido.

Al poner 3 nos da la columna 2 que es `Salary` que es en donde hay otro dato faltante y de esta manera estamos
tomando los indices 0,1 y 2 con imputer


Recordemos que imputer lo tenemos asi:


In [18]:
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)

Fijamos los valores de las columnas en donde hacen falta datos

In [19]:
imputer = imputer.fit(X[:, 1:3])

Y ahora reemplazamos los datos faltantes en la matriz X descritos antes, por la media de los demas valores de dichas columnas en donde faltan datos

Seleccionamos las columnas en donde faltan datos, tomamos todas los valores (`:`) de las columnas cuyos indices son `1` y `2` y usamos el metodo `transform()` el cual reemplazara los datos faltantes por la media de la columna y le pasamos las columnas sobre las cuales actuar.

In [20]:
X[:, 1:3] = imputer.transform(X[:, 1:3])

In [21]:
# Ahora vemos que los valores faltantes que habían en nuestro dataset original
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [22]:
# Han sido completados con el promedio de los valores de la columna a la cual pertenecen 
print(X[:, 1:3])

[[44.0 72000.0]
 [27.0 48000.0]
 [30.0 54000.0]
 [38.0 61000.0]
 [40.0 63777.77777777778]
 [35.0 58000.0]
 [38.77777777777778 52000.0]
 [48.0 79000.0]
 [50.0 83000.0]
 [37.0 67000.0]]


Estos son los valores nulos en el dataset original

In [23]:
print(dataset['Age'][6])
print(dataset['Salary'][4])

nan
nan


Estos son los valores ya completados en la matriz X conformada y afectada por la clase Imputer de scikit-learn 

In [24]:
print(X[:, 1][6])

38.77777777777778


In [25]:
print(X[:, 2][4])


63777.77777777778


Pandas tambien tiene un metodo para llenar valores faltantes el cual es `fillna()` el cual tiene argumentos como el de `value`, para establecerle el valor que queremos poner en reemplazo de un dato faltante

El método [fillna](# https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html
 "pandas.DataFrame.fillna") tiene los siguientes parámetros:
 
 ![alt text](https://cldup.com/HAIXiyfYIT-3000x3000.png "fillna parameters")

Le decimos que llene los valores vacios de la columna `Age` con el promedio de los otros valores existentes en dicha columna

In [26]:
dataset['Age'].fillna(value=dataset['Age'].mean())

0    44.000000
1    27.000000
2    30.000000
3    38.000000
4    40.000000
5    35.000000
6    38.777778
7    48.000000
8    50.000000
9    37.000000
Name: Age, dtype: float64

Hacemos lo propio con `Salary` que llene sus valores vacios con el promedio de los otros valores existentes en dicha columna

In [27]:
dataset['Salary'].fillna(value=dataset['Salary'].mean())

0    72000.000000
1    48000.000000
2    54000.000000
3    61000.000000
4    63777.777778
5    58000.000000
6    52000.000000
7    79000.000000
8    83000.000000
9    67000.000000
Name: Salary, dtype: float64

In [28]:
print(X[:, 1:3])

[[44.0 72000.0]
 [27.0 48000.0]
 [30.0 54000.0]
 [38.0 61000.0]
 [40.0 63777.77777777778]
 [35.0 58000.0]
 [38.77777777777778 52000.0]
 [48.0 79000.0]
 [50.0 83000.0]
 [37.0 67000.0]]


## Codificando Variables categóricas

**¿Porque es necesario codificar las variables categóricas?**

Observemos nuestro dataset original y vemos que tenemos dos variables categóricas `Country` y `Purchased`
Son variables categoricas porque simplemente ellas contienen categorias:

* `Country` tiene tres categorias : France, Spain, Germany
* `Purchased` tiene dos categorias: Yes, No.






In [29]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


Dado que los modelos de aprendizaje automático se basan en ecuaciones matemáticas, puedes entender intuitivamente que causaría algún problema si mantenemos los valores de `Country` y `Purchased` como texto.

Porque solo queremos numeros en las ecuaciones asi que necesitamos codificar las variables categóricas. Eso es codificar el texto que tenemos como valores de `Country` y `Purchased` en números

Entonces, codificamos la variable independiente `Country` con la clase `LabelEncoder` [LabelEncoder](# http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder
 "sklearn.preprocessing.LabelEncoder")
 
 

In [30]:
# Encoding the Independent Variable
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
print(X[:, 0])

['France' 'Spain' 'Germany' 'Spain' 'Germany' 'France' 'Spain' 'France'
 'Germany' 'France']


In [31]:
# Creamos un objeto LabelEncoder
labelencoder_X = LabelEncoder()


In [32]:
# De la matriz X de variables independientes
print(X)


[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


Tomamos la columna 0- `Country` y usamos el metodo `fit_transform()` solo sobre esa primera columna de la matriz `X`, 
haciendo énfasis en todas sus líneas o registros


In [33]:
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

Si detallamos el resultado de la transformación, vemos que la salida contiene 10 valores de la primera columna Country 
de nuestra matriz `X`

In [34]:
print(X[:, 0])

[0 2 1 2 1 0 2 0 1 0]


In [35]:
# Aquí se han codificado los valores de la columna Country
print("VALORES DE COUNTRY CODIFICADOS" +'\n')
print(X, '\n')
print("DATASET ORIGINAL" +'\n')
print(dataset)

VALORES DE COUNTRY CODIFICADOS

[[0 44.0 72000.0]
 [2 27.0 48000.0]
 [1 30.0 54000.0]
 [2 38.0 61000.0]
 [1 40.0 63777.77777777778]
 [0 35.0 58000.0]
 [2 38.77777777777778 52000.0]
 [0 48.0 79000.0]
 [1 50.0 83000.0]
 [0 37.0 67000.0]] 

DATASET ORIGINAL

   Country   Age   Salary Purchased
0   France  44.0  72000.0        No
1    Spain  27.0  48000.0       Yes
2  Germany  30.0  54000.0        No
3    Spain  38.0  61000.0        No
4  Germany  40.0      NaN       Yes
5   France  35.0  58000.0       Yes
6    Spain   NaN  52000.0        No
7   France  48.0  79000.0       Yes
8  Germany  50.0  83000.0        No
9   France  37.0  67000.0       Yes


Entonces aqui hemos codificado la columna `Country`. Sin embargo, puede suceder algún problema.
El problema es que los modelos de aprendizaje se basan en ecuaciones y es bueno que hayamos 
reemplazado el texto por números para que podamos incluir los números en las ecuaciones, pero al interpretar números, tenemos la siguiente situación:

Dado que uno es 1 es `>` que 0 y 2 es `>` 1 las ecuaciones en el modelo pensaran que `Spain` tiene un valor mas 
alto que `Alemania` y `France`

Y que `Germany` tiene un valor mas alto que `France`, y este no es el caso.
**Estas son en realidad tres categorías y no hay un orden relacional entre las tres.** 

No se puede comparar diciendo que `Spain` es mas grande que `Germany` o que `Germany` es mas grande que `France`, esto no tiene  ningun sentido

Si tuviéramos, por ejemplo, el tamaño variable catalogado como pequeño, mediano y grande, entonces sí podríamos expresar órdenes entre los valores de esta variable porque grande es mayor que el mediano y el mediano es mayor que el pequeño 

Asi que para prevenir que las ecuaciones del aprendizaje automatico piensen que `Germany` es mas grande que `France` y `Spain` mas grande que `Germany` usaremos una variable que en el mundo de Ciencia de Datos es llamada **dummy variables**

Entendamos primero que es una variable Dummy, tomando como referencia esta respuesta https://discuss.analyticsvidhya.com/t/what-is-a-dummy-variable/18960

> Una variable dummy es una variable ficticia, artificial y es creada para representar un atributo con dos o mas categorías o niveles distintos

Como es el caso de nuestra columna `Country` en la matriz `X`

**¿Por qué son utilizadas las variables dummys?**

> En el análisis de regresiones, por ejemplo, se tratan todas las variables independientes (X) como numéricas
Las variables numéricas son variables de escala de intervalo o relación cuyos valores son directamente comparables.

> Por ejemplo: 

> '10 es el doble de 5 ', o' 3 menos 1 es igual a 2 '. 

> A menudo, sin embargo, es posible que se desee incluir un atributo o una variable de escala nominal como 'Marca del producto' o 'Tipo de defecto' en su estudio. 

> Supongamos que se tienen tres tipos de defectos, numerados como '1', '2' y '3'. En este caso, '3 menos 1' no significa nada ... no se puede restar el defecto 1 del defecto 3.

> Los números aquí se usan para indicar o identificar los niveles de 'Tipo de defecto' y no tienen un significado intrínseco propio. Las variables ficticias se crean en esta situación para 'engañar' correctamente al algoritmo de regresión analizando atributos de variables.


Entonces, para el contexto de nuestra variable categórica `Country`, como tenemos 3 paises `Spain, Germany, France` es decir tres categorías, esto significa que en lugar de tener una sola columna aquí `Country`, vamos a tener tres columnas, vamos a tener una cantidad de columnas igual a la cantidad de categorías

![alt text](https://cldup.com/4IZ1m2ZEH6-3000x3000.png "Dividing Country on categories values")


Cada columna correspondera a un pais France, Spain, Germany columns 
Y en cada columna va a haber uno o cero

Por ejemplo en la columna `France`, va a existir un 1 si el pais es France y 0 si el pais no es France


![alt text](https://cldup.com/gPt-CL4gaV-3000x3000.png "Dividing Country on categories values")


Entonces, vamos a contrastar la columna Country con cada categorización que se hiz de ella, se usará la clase llamada
`OneHotEncoder` - http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder 

Creamos un objeto OneHotEncoder con el atributo `categorical_features` que especifica que features son tratadas como categoricas, que en este caso el valor sera el arreglo de los elementos de la columna 0, que es `Country`

In [36]:
onehotencoder = OneHotEncoder(categorical_features = [0])

Aplicamos lo anterior a nuestra matriz `X` usando el metodo `fit_transform()` y solo tenemos que tomar la primera columna de X porque se le especificó antes a índice cero

In [37]:
X = onehotencoder.fit_transform(X).toarray()

In [38]:
X

array([[1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.40000000e+01,
        7.20000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 2.70000000e+01,
        4.80000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 3.00000000e+01,
        5.40000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.80000000e+01,
        6.10000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 4.00000000e+01,
        6.37777778e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.50000000e+01,
        5.80000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.87777778e+01,
        5.20000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.80000000e+01,
        7.90000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 5.00000000e+01,
        8.30000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.70000000e+01,
        6.70000000e+04]])

Como resultado miramos este dataset resultante 

![alt text](https://cldup.com/ucjZuzCUSd-3000x3000.png "")

Y lo comparamos con nuestro dataset original

In [39]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


Vemos que la primera columna `Country` (abajo) fue reemplazada por tres columnas (las `0,1,2` de la derecha) y aun tenemos las columnas de `Age` y `Salary`. 

Recordar que `Purchased` fue descartada porque es una variable dependiente

Observando los resultados basados en esta codificacion de la variable categorica `Country` en relacion con las nuevas columnas credas a partir de sus categorias de países ... 

![alt text](https://cldup.com/iL8I1rOMP3-3000x3000.png "Comparando resultados dataset original y el transformado categoricament")

Lo primero a identificar es: 

* La columna 0 es `France`  
* La columna 1 es `Germany`  
* La columna 2 es `Spain`

Sabemos que la primera línea que no tiene fila de salida es el país Francia (columna 0 verde)
 y dado que la primera observación o muestra es Francia, entonces eso significa que esta primera columna le corresponde a Francia entonces toma un valor de 1

La segunda entrada  es Alemania (rojo). , entonces esta va a ser 0 aquí porque la primera observación es Francia y no Alemania

Y  lo mismo para el caso de la tercera columna que es España (negro) cuya primera observación es Francia y no España entonces tambien se tiene un valor de 0

**Y asi es como se codifican variables dummy asegurándose de que los modelos de aprendizaje automático no atribuyan en orden a las variables categóricas **

No tendremos que usar el codificador para `Purchased`, solo necesitaremos utilizar el codificador de etiquetas `LabelEncoder`, ya que como la variable dependiente, el modelo de aprendizaje automático sabrá que 
es una categoría y que no hay un orden entre los dos.

Tomamos el vector de variables dependientes que es solo la ultima columna `Purchased`, es decir la tercera y usamos 
el `labelencoder` para crear un objeto de tipo `LabelEncoder` para `y`, dado que el anterior ya fue transformado para `X` 
https://cldup.com/LHn0g0Qu46.png


In [40]:
labelencoder_y = LabelEncoder()
y = labelencoder_X.fit_transform(y)

In [41]:
y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

Comparemos la columna Purchased del dataset origina, con y categorizada como variable dependiente

![alt text](https://cldup.com/LHn0g0Qu46.png "")


Es asi de esta manera como hemos creado nuestros `LabelEncoder` objects los cuales tienen la función de 
ajustar o fijar a `X` e `y` y los transformaran a `X` en una matriz independiente y a `y` en un vector de variable dependiente 

## Dividiendo el dataset en uno de entrenamiento y uno de pruebas

Tenemos un dataset de 10 muestras


In [42]:
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


Como en cualquier  modelo de ML lo dividiremos en dos separados conjuntos de datos, de entrenamiento y de pruebas

¿Por qué?

Bien. Nuestros modelos o algoritmos aprenderán de los datos para hacer predicciones u otros objetivos de aprendizaje 
automático, por lo que el modelo de aprendizaje automático deberá comprender algunas correlaciones que existen 
en nuestro conjunto de datos 

Si usmaos un solo conjunto de datos, estaríamos sobre entrenando al modelo o éste estaría aprendiendo demasiado
sobre unos datos en particular o sobre ciertas correlaciones nada mas
Aquí no es probable que el rendimiento sea el esperado. Es necesario que el modelo aprenda con diferentes datos
y por ende diferentes correlaciones

Es como cuando un estudiante aprende de memoria su lección, y entonces, cuando toma el exámen, podrá estar en problemas 
porque aprendió la lección demasiado de memoria y no logra realizar una conexión entre lo que ha aprendido y el examen 
Es lo mismo para machine learning

Nosotros construimos el modelo de ML sobre un dataset (el de entrenamiento), pero para probarlo será sobre uno nuevo 
el cual será ligeramente diferente del que construimos (el de pruebas)


El conjunto de datos de entrenamiento que es sobre el cual construimos el modelo.
El conjunto de datos de prueba es sobre el cual probamos el modelo y el que sea ligeramente diferente 
o tenga diferentes correlaciones del de entrenamiento, hace que los modelos de ML entiendan bien las correlaciones, 
y las extrapolen o apliquen a nuevos conjuntos y situaciones nuevas.

Esa es la idea de tener datos de prueba y datos de entrenamiento 
 


In [43]:
# Splitting the dataset into the Training set and Test set
#Importaremos la libreria de cross validation
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

Construimos nuestro dataset de pruebas, lo que haremos es crear las variables 
`X_train`, `X_test` `y_train`, `y_test`

Esto hara que exista un dataset de entrenamiento y de pruebas para las variables independientes `X` `Country`, `Age`, `Salary` y un dataset de entrenamiento y de pruebas para el vector de variable dependiente `y` `Purchased`

* `X_train` es la parte de entrenamiento de la matriz de caracteristicas de variables independientes
* `X_test` es la parte de pruebas de la matriz de caracteristicas de variables independientes

* `y_train` es la parte de entrenamiento de las variables dependientes que es asociada a `X_train`

Esto significa que tenemos los mismos índices para ámbos con las mismas observaciones o muestras

* `y_test`  es la parte de pruebas del vector de la variable dependiente asociado a `X_test`
y entonces y definiremos sus valores al mismo tiempo.


Utilizamos entonces la función [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html "sklearn.model_selection.train_test_split") para generar cada uno de los datasets de pruebas y de entrenamiento tanto para las variables independientes como la independiente.

Sus parámetros son:


* El primer parámetro debe ser un array, asi que le pasamos la variable `X` categorizada que contiene la primera columna de `X` es decir `Country` que es la matriz `X` de variables independientes.
Además incluye los daots de `Age` y `Salary`






In [44]:
X

array([[1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.40000000e+01,
        7.20000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 2.70000000e+01,
        4.80000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 3.00000000e+01,
        5.40000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.80000000e+01,
        6.10000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 4.00000000e+01,
        6.37777778e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.50000000e+01,
        5.80000000e+04],
       [0.00000000e+00, 0.00000000e+00, 1.00000000e+00, 3.87777778e+01,
        5.20000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 4.80000000e+01,
        7.90000000e+04],
       [0.00000000e+00, 1.00000000e+00, 0.00000000e+00, 5.00000000e+01,
        8.30000000e+04],
       [1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.70000000e+01,
        6.70000000e+04]])

* El segundo parámetro que le pasamos es `y` que es el vector variable independiente correspondiente a `Purchased` ya codificado como variable categórica también.

In [45]:
y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

Con `X` e `y` estamos colocando el dataset entero, ambos son arreglos

* El próximo parámetro `test_size` corresponde al tamaño del dataset de pruebas que queremos escoger.

Así por ejemplo, si colocamos `test_size=0.5` esto significa una división del 50%, lo que genera que 
la mitad de los datos va al conjunto de prueba y la otra mitad va al conjunto de entrenamiento.

Una buena elección para el tamaño de pruebas es generalmente `0.2` es decir el `20%`  o `0.25` 
o incluso 3%. En algunos casos raros tendremos el `4%` pero casi nunca el `0.5`

Escogemos el `2%` lo que significa que tendremos 10 muestras u observaciones. 

Entonces eso significa que **tendremos dos muestras en el conjunto de prueba y ocho muestras  en el conjunto de entrenamiento.** 

* El próximo parámetro es `train_size` es decir el tamaño del dataset de entrenamiento, pero como `test_size` mas `train_size` es igual a 1, no es necesario colocarlo, ya que sería redundante

* random_state es una semilla o fuente de datos para generación de valores aleatorios para los conjuntos de datos.



In [47]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)


Entonces, si miramos, tenemos:

- 8 muestras en `X_train` y 2 muestras en `X_test` que corresponden a las variables independientes de
`Country` (categorizadas), `Age` y `Salary` 

Y lo mismo para la salida:

- En `y_train` se tienen 8 muestras y 2 muestras en `y_test` que corresponde al vector de variable dependiente `Purchased`

Detallemos los 4 datasets de pruebas y entrenamiento

![alt text](https://cldup.com/xXiPoQDrJZ-3000x3000.png "Training and test datasets")


Y entonces, lo que sucede es que estamos construyendo nuestro modelo, estaableciendo algunas 
correlaciones entre las variables independientes y la variable dependiente aquí.

Y una vez que el modelo de ML entienda las correlaciones entre variables independientes
y la variable dependiente, nosotros probaremos si el modelo puede aplicar las correlaciones que ha entendido  basándose en el conjunto de entrenamiento y en el conjunto de prueba

Esto significa que miraremos si podemos predecir que este registro de indice cero de conjunto de pruebas `X_test` (rojo) no va a comprar el producto en y_test (naranja)

![alt text](https://cldup.com/ViVGGFOFrO-3000x3000.png "Training and test datasets")


Esto es capaz de predecirlo basado en lo que ha aprendido del conjunto de entrenamiento
Por lo tanto, cuanto mejor aprenda las correlaciones en el conjunto de entrenamiento, 
mejor será la predicción de los resultados en el conjunto de prueba.

Pero si se aprende demasiado de memoria las correlaciones de los conjuntos 
de entrenamiento, es decir como cuando uno se aprende de memoria y no entendiéndolos, 
entonces tendrá problemas para predecir lo que está sucediendo sobre el 
conjunto de pruebas, Porque se aprende por correlaciones difíciles, si no se
entendió muy bien la lógica y no podrá hacer buenas predicciones.


Esto es llamado overfitting o sobre entrenamiento

Lo realmente importante es entender que necesitamos tener dos diferentes datasets 

- Training set con el cual el modelo de ML aprende 
- Test set, sobre el cual probamos si el modelo de ML aprendió correctamente las correlaciones

Ahora conocemos como dividir nuestro dataset dentro de un conjunto de entrenamiento y de pruebas.
Esto debe hacerse e cualquier modelo ML en donde hay que probar el rendimiento de mi modelo, y se prueba con un conjunto separado de datos de pruebas




## Feature Scaling - Escalamiento de características

**¿Por qué necesitamos tener bajo una misma escala o espacio de dimensión las características o datos?**


Tenemos dos columnas: `Age` y `Salary` que contienen valores numéricos:

![alt text](https://cldup.com/GLoEjIVD-9-1200x1200.png "datasets")

Notemos que las variables no están en la misma escala porque ellas van de esta forma:

En la columna  `Age`: desde 27 a 50
En la columna `Salary`: desde 48k hasta 83k

Así que `Salary` and `Age` no tienen la misma escala, lo que cuasará algunos errores en nuestros modelos de ML.

**¿Por que esto?**

Es porque los modelos de ML se basan en lo que se llama la distancia euclidiana

![alt text](https://cldup.com/9_ZUuU8uj3-3000x3000.png "Distancia Euclidiana")

La distancia Euclidiana entre dos puntos de datos es la raiz cuadrada de la suma de las coordenadas al cuadrado 
Bien, actualmente con `Age` y `Salary` pasa lo mismo:
Tomemos a `Age` como la coordenada `X` y `Salary` como la coordenada `Y`

Y en el modelo en donde se ejecutan esas ecuaciones, se calculan algunas distancias euclidianas entre puntos de observación (por ejemplo, entre `Age` y `Salary`) en función de estas dos coordenadas




Además actualmente el salario tiene un muy buen amplio rango de valores porque va desde 0 hasta 100k, entonces la distancia Euclidiana será dominada por `Salary`, porque por ejemplo si tomamos dos muestras  por ejemplo las del indice 3 y 9: 

![alt text](https://cldup.com/Ilr6Ym57ZA-3000x3000.png "datasets")

La distancia Euclidiana calculará la diferencia entre este salario de la muestra 3 y el de la muestra 9. Vamos a calcularla:

![alt text](https://cldup.com/tnaoxqKDEp-3000x3000.png "datasets")

Y nos da la diferencia 31.000
Si elevamos este valor de 31.000 al cuadrado nos da 961000000

![alt text](https://cldup.com/zq853aOPIP-3000x3000.png "datasets")


Y ahora tomemos las mismas dos observaciones de las edades 

![alt text](https://cldup.com/_tW6TpWfpL-3000x3000.png "datasets")

Da una diferencia de 21 y saquemos su valor al cuadrado, que resulta 441

![alt text](https://cldup.com/jUbof_kuW3-3000x3000.png "datasets")

Y asi podemos claramente evidenciar como la diferencia cuadrada de salario (`961000000`) domina a la diferencia cuadrada de Edad (`441`)

Y esto es porque estas dos variables no están en la misma escala.
Entonces en mi modelo de ML o en sus ecuaciones será como que no existe porque estará dominado por la diferencia cuadrada del salario

Asi que esta es la razon por la cual necesitamos colocar las variables en la misma escala

Es decir que vamos a transformar estas dos variables y vamos a tener valores en el mismo rango.

Para que no tengamos este tipo de problema con un gran número aquí (en la diferencia cuadrada de salary `961000000`) que domina un número más pequeño aquí (en la diferencia cuadrada de edad `441`) para que eventualmente el número más pequeño no exista



Existen entonces dos formas de escalar mis datos. 

![alt text](https://cldup.com/Hdqaoytglb-3000x3000.png "datasets")

* Estandarización

Una forma muy común es la estandarización, la cual significa que para cada muestra y cada caracteristica, se retira el valor medio de todos los valores de la característica y lo divide por la desviación estándar

* Normalización

Que significa que resta la característica de observación `X` (muestra `X`) por el valor mínimo de todos los valores futuros y la divide por la diferencia entre el máximo de sus valores futuros y el mínimo de sus valores futuros

Esta es la técnica de máximos y mínimos que da como resultado tener nuestros datos en una escala o dimensión

 Lo principal clave aqui es entender que estamos colocando los mismos valores en el mismo rango y en la misma escala, asi que ninguna variable es dominada por la otra 


Miraremos como son transformadas las variables cómo van desde valores grandes y muy diferentes a valores pequeños e iguales.

¿Debemos ajustar y transformar las variables ficticias con las cuales representamos las categorias de `Country` y `Purchased`?

Como podemos ver las variables ficticias dummy nos permiten cambiar su formato

![alt text](https://cldup.com/91bZIvPCew-3000x3000.png "datasets")

Como se puede ver, las variables ficticias toman un valor de 0 a 1.
Entonces, ¿necesitamos escalarlas? Parece que ya están en escala, verdad?

Existen dos preguntas que podemos analizar aquí:

# 1. ¿Necesitamos ajustar y transformar las variables ficticias?

Como podemos ver las variables ficticias nos permiten cambiar su formato 
y estan con valores entre 0 y 1

Algunos dicen que no es necesario escalar estas variables ficticias. 
Otros dicen que si es necesario porque queremos precisión en las predicciones

Muchas veces, esta apreciación depende del contexto y también de que tanta interpretación
visual deseo mantener en mis modelos con respecto a apreciar sus datasets, esto en el sentido de que
si escalamos, esto sera bueno porque todas mis variables estarán en el mismo rango y esto mejora 
nuestras predicciones.

Pero ver los resultados de escalarlas, en el dataset con 0s y 1s nos obligará a retomar el dataset original
para interpretar que muestras pertenecen a que país como en este caso.

Por ello, cuando normalizamos es bueno tener en cuenta que los datasets originales (ya llenados los datos faltantes)
deben estar guardados para futuras referencias.

Así que, como queramos, el no escalar las variables ficticias no arruinará nuestro modelo porque de hecho estará en la misma escala  que las escalas futuras.

Aquí las variables que tomamos van entre - 1 y 1. Escalaremos esas demasiadas variables






In [52]:
from sklearn.preprocessing import StandardScaler

# Creamos un nuevo objeto de la clase StandardScaler()
# para escalar las variables independientes X
# Pero hasta ahora solo necesitaremos escalar las características de la matriz X
sc_X = StandardScaler()

Y ahora, de manera muy simple, ajustaremos y transformaremos directamente nuestro conjunto de entrenamiento `X_train` 
Vamos a transformar `X_train`, así que recalcularemos `X_train` porque queremos que sea de escala, y para hacerlo tomaremos nuestro objeto `sc_X` y luego llamaremos al método `fit_transform`

In [53]:
X_train = sc_X.fit_transform(X_train)

Es importante entender que cuando estamos aplicando nuestro objeto `StandardScaler` a nuestro conjunto de entrenamiento, es necesario hacer un ajuste al objeto de los conjuntos de entrenamiento y luego transformarlo y nos daremos cuenta que para el conjunto de pruebas no se realiza el mismo procedimiento porque aqui nosotros solo
transformaremos el conjunto de pruebas.

APLICAMOS el metodo `transform()` y no `fit_transform()` en el conjunto de pruebas
Para el conjunto de entrenamiento debemos ajustarlo y luego transformar el conjunto de entrenamiento

In [54]:
# Transformamos el conjunto de pruebas, no necesita ser ajustado
# con fit_transform porque ya esta ajustado al conjunto de entrenamiento
X_test = sc_X.transform(X_test)

Ahora vemos que en el dataset de entrenamiento X_train, todas las variables pertenecen al mismo rango, estan en la misma escala, se puede detallar que todas las variables estan entre -1 y 1

![alt text](https://cldup.com/37UgL3OhFj-1200x1200.png "datasets")

Esto es perfecto, pues mejorara mucho nuestros modelos de ML

Incluso, si algunas veces los modelos de ML no son basados en distancias Euclidianas aún asi es muy necesario hacer
Feature scaling porque el algoritmo convergerá mucho mas rapido 


Miramos `X_test`

![alt text](https://cldup.com/09mg_qLs8q-2000x2000.png "datasets")


También cuenta con una función a escala y debemos entender que las funciones que se escalan aquí `X_test` son las mismas que las que se obtienen en `X_train`, simplemente porque el objeto `Standard Scaler` fue ajustado a `X_train` mediante esta instrucción anterior

`X_train = sc_X.fit_transform(X_train)`

Esta es la razon por la cual es importante fijar el objeto `X_train` primero, asi que `X_train` y `X_test` son escalas sobre la misma base

## 2. ¿Necesirtamos aplicar escalamiento de caracteristicas al vector de la variable dependiente y? En este caso a y_train y a y_test


Asi es como vemos `y_train`

![alt text](https://cldup.com/qcNga7_gv0-3000x3000.png "datasets")

Es una variable categorica porque toma solo dos valors 
Y ahora la pregunta es ¿necesitamos aplicar funciones de escala aquí?

Por esta vez no es necesario, porque este es un problema de clasificación con una categoria llamada variable dependiente

Cuando se trabajen regresiones en donde la variable dependiente tomará un gran rango de valores, necesitaremos aplicar la escala de características a la variable dependiente `y` también


In [55]:
# sc_y = StandardScaler()
# y_train = sc_y.fit_transform(y_train)

Hemos hecho todos los pasos requeridos para el preprocesamiento de datos. 
los que hay que hacer para preparar cualquier dataset con el cual deseemos construir modelos de ML