# Introducción Machine Learning - Preprocesamiento de datos

## Importación de las bibliotecas

In [None]:
import numpy as np #arrays
import matplotlib.pyplot as plt #plot de gráficos
import pandas as pd #matriz de caracteristicas

## Importación del dataset

In [None]:
dataset = pd.read_csv('Datos.csv')
dataset
#¿Cuáles son las características? ¿Y la variable dependiente?

In [None]:
X = dataset.iloc[:, :-1].values #¿qué hace la función iloc en este caso?
y = dataset.iloc[:, -1].values

In [None]:
print(X)

In [None]:
print(y)

## ¿Qué hacemos con los datos que faltan?

Se puede observar que el salario del quinto registro y la edad de septimo registro faltan (NaN). 
Qúe opciones tenemos?

    1. Eliminar el datos (recomendable cuando tenemos muchos datos)
    2. Interpolar (p.ej. con la media de la columna)

In [None]:
from sklearn.impute import SimpleImputer #importamos la clase "SimpleImputer" del modulo 
#"impute" para poder completar los valores que faltan.

imputer = SimpleImputer(missing_values=np.nan, strategy='mean') # una instancia (objecto) 
#de la clase "SimpleImputer" -> #¿Con qué reemplazamos los valores "NaN"?

imputer.fit(X[:, 1:3]) #conectamos el objeto "imputer" a la matriz de caracteristicas X 
#mediante el metodo "fit" (aplicamos "fit") 
#¿A qué elementos lo aplicamos?

X[:, 1:3] = imputer.transform(X[:, 1:3]) #sobreescribimos los valores NaN de X[:, 1:3] 

In [None]:
print(X)
#¿Qué ha devuelto el comando anterior?

## Codificación (Encoding) de datos categóricos

Los ordenadores trabajan mejor con numeros. 
Podriamos codificar Alemania, España y Francia con "1, 2, 3", pero no es nada recomendable (el ordenador podria pensar que existe alguna relacion. Se recomienda hacerlo con el metodo "OneHotEncoder".

¿Qué hará en nuestro caso? Transforma 1 columna en 3 columnas (porque tenemos 3 variables).
Si tendriamos 5, tansformaría en 5 columnas. 
Este método crea vectores binarios para cada pais. P.ej. Francia tendría asignato el vector [1 , 0 0] , Espanya [0,1,0] y Alemania [0,0,1]. 

### Codificación (Encoding) de la variable independiente (X = matriz de caracteristicas)

In [None]:
#importacion de la clase "ColumnTransformer" del modulo "compose"
from sklearn.compose import ColumnTransformer  

#importacion de la clase "OneHotEncoder" del modulo "preprocesing"
from sklearn.preprocessing import OneHotEncoder 

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')

#creamos un objeto "ct", una instacia de la clase "column transformers". 
#1er argumento = el tipo de transformacion (encoder), que tipo de encoding (onehotencoding), y la columna donde queremos aplicarlo (0) 
#el 2do argumento = el resto de las columnas (por donde no pasa el encoder) las queremos guardar. Si no especificamos, solo guarda las columnas codificadas

X = np.array(ct.fit_transform(X))
#en este caso podemos aplicar el metodo fit_transform, para ahorrar seguir los 2 pasos (el de fit y luego transform)
# "X =" reemplazamos la matriz de caracteristicas inicial
#El np.array transforma el resultado en un array numpy que permita entrenar más rapidamente. 

In [None]:
print(X)

### Codificación (Encoding) de la variable dependiente (y)

In [None]:
from sklearn.preprocessing import LabelEncoder #importacion de la clase "LabelEncoder"

le = LabelEncoder() #objeto le. no debemos especificar ningun argumento,
#porque "y" es un array de dimension 1

y = le.fit_transform(y) # reemplazamos y por el objeto labelEncoder 
#(con el metodo fit_transform)

In [None]:
print(y)

## División del dataset en el conjunto de entrenamiento y el conjunto de prueba (Training set and Test set)

In [None]:
from sklearn.model_selection import train_test_split #ya existe una funcion implementada que hace la división del dataset

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)
#1. ¿Cúal es el ratio de división? 
#2. ¿qué parametros toma esta funccíon?

#Obs: random_state = para  utilizado para reproducir su problema de la misma manera cada
#vez que ejecutamos. 
#3. ¿si ejecutamos una vez más este codigo, obtenemos los mismos sets? y
#4. ¿y si cambiamos el valor de random_state a 5?

In [None]:
print(X_train)
#1. ¿qué informacion guarda X_train? 
#2. ¿a qué se refieren las primera 3 columnas?

In [None]:
print(X_test)

In [None]:
print(y_train)

In [None]:
print(y_test)
#observamos que se obtienen 4 matrices (sets): 
#"X-entrenamiento", "y_entrenamiento", "X-testing" e "y_testing"
#1. ¿por qué generamos estos sets?
#2. ¿qué informacion guardan X_test, y_train, y_test?

## Feature Scaling ("Escalado de características). 
Se aplica al set de training cuando hay mucha diferencia entre los valores y permite tener nuestras características en la misma escala (rango). 

En nuestro caso, no se aplicaran a las columnas que han resultado del OneHotEncoder
Existen dos metodos: 

- standardización: (x - xmedio) / std(x): en general, translada los valores entre -3 y +3. Funciona bien todo el tiempo (más recomendada).
- normalización: (x - xmin) / (xmax - xmin): translada los valores entre 0 y 1. Recomendada solo cuando tenemos distribucion normal en la mayoria de los features.


In [None]:
from sklearn.preprocessing import StandardScaler #clase StandardScaler, 
#!SOLO se hace standardización en X train y X_test!

sc = StandardScaler()
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:]) 
#¿por donde empezamos? ¿qué columnas reemplaza?
X_test[:, 3:] = sc.transform(X_test[:, 3:]) #aplicamos al input de la prediccion, 
#porque deben estar en la misma escala. 

#!IMPORTANTE No aplicamos nunca el fit al test set, se supone que el set de training 
#contiene datos ´no vistos´ por el modelo!

In [None]:
print(X_train)

In [None]:
print(X_test)
#2. ¿qué informacion se guarda en X_train y X_test?