# "Guía rápida de Machine Learning con Python"
> "Guía de referencia rápida de aprendizaje automático con Python"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [python, kaggle, ML]
- image: images/python.png
- hide: false
- search_exclude: true
- metadata_key1: metadata_value1
- metadata_key2: metadata_value2

> tip: Puedes ver este post en GitHub o ejecutarlo en Binder o Google Colab, pulsa el icono.

> Warning: Este post se irá actualizando conforme avancen mis conocimientos

Fuentes:<br>
[Cursos Machine Learning - Kaggle](https://www.kaggle.com/learn)<br>
[MOOC - Aprendizaje automático - UPV](https://www.youtube.com/playlist?list=PL6kQim6ljTJsmPM_v_b2p8p-GPQhtoekI) 


## Introducción

**Machine learning (aprendizaje automático)** es una parte de la Inteligencia Artificial.<br>
Consiste en un nuevo paradigma de desarrollo de software. En lugar de decir al ordenador qué debe hacer con los datos, el desarrollador proporciona datos para que el ordenador *'aprenda'* a realizar una tarea específica.<br>
Es una herramienta muy útil para realizar tareas complejas en las que el ser humano prevalecía sobre las máquinas hasta hace poco tiempo, como el reconocimiento de imagenes. Además, se adapta muy bien a entornos cambiantes al contrario que el software convencional.<br>
El un software altamente dependiente de datos.

En los últimos años, gracias a la recolección masiva de datos y al uso de GPUs (tarjetas gráficas) se ha avanzado mucho en el uso de **redes neuronales** artificiales, apareciendo una subcategoría llamada **Deep Learning (aprendizaje profundo)** que se basa en el uso de redes neuronales de múltiples capas. 

**Tareas**: objetivos a resolver
   - **Predictivas** (aprendizaje supervisado): 
      - Clasificación: se obtiene un valor categórico
      - Regresión: se obtiene una valor numérico
   - **Descriptivas** (aprendizaje no supervisado):
      - Clustering: encontrar grupos 
      - Analisis exploratorio: 
          - Reglas de asociación,dependencias funcionales (var. categóricas)     
          - Análisis de correlación, dispersión, multivariable (var. numéricas)

**Técnicas**: algoritmos/procedimientos usados. Ejemplos según tarea a realizar:

Técnica          | Clasificación | Regresión | Clustering | Análisis exploratorio
-----------------| ------------  | --------- | ---------- | ---------------------
Redes neuronales |   x           | x         | x          |  - 
Árboles de decisión |   x           | x         | x          |  - 
Regresión lineal |   -           | x         | -          |  -
Regresión logística |   x           | -         | -          |  -
K-Means |   x           | -         | x          |  -
A priori|   -          | -         | -         |  x
Análisis factorial|   -          | -         | -         |  x
Análisis multivariable|   -          | -         | -         |  x
K-NN (vecinos cercanos) |   x          | -         | x         |  -
Clasificadores bayesianos |   x          | x         | -        |  -

**Herramientas**: ayudan a utilizar las técnicas. 
   - **Lenguajes** más usados: 
      - Python + librerias (scikit-learn, ...)
      - R  
   - **Suites**: software más visual y adaptado
      - Open source: 
          - [Weka](http://old-www.cms.waikato.ac.nz/ml/weka/) 
          - [Rapid Miner](https://rapidminer.com/get-started/)
      - Comerciales: 
          - [IBM modeler](https://www.ibm.com/es-es/products/spss-modeler) 
          - [SAS Enterprise Miner](https://www.sas.com/es_ar/software/enterprise-miner.html)
          - [Oracle BI Data Miner](https://docs.oracle.com/database/121/DMCON/GUID-0B1D8B18-218B-46C6-92A1-2A499F961D49.htm#DMCON001)
   - **Nube**: 
      - [AzureML Microsoft](https://azure.microsoft.com/es-es/)
      - [Google Cloud](https://cloud.google.com/products/ai)
      - [Amazon AWS](https://aws.amazon.com/es/)
      - [BigML](https://bigml.com/)
      - ...


# Los pasos a seguir para obtener un software de aprendizaje automático son:

## 1 - Recoger los datos

## 2 - Preparar los datos

### 2.1 - Exploración de los datos
Importante leer la documentación de los datos y estudiarlos bien.

In [1]:
#collapse-output
import pandas as pd

datos = pd.read_csv(ruta_archivo) # cargar datos desde tabla en archivo csv
datos.describe()                  # imprime resumen de los datos
datos.columns                     # imprime lista de las columnas
datos.head()                      # imprime lista de las 5 primeras muestras de la tabla
datos.tail()                      # imprime lista de las 5 últimas muestras de la tabla

datos_filtrados = datos.dropna(axis=0) # elimina datos na (no available - no disponibles)

NameError: name 'ruta_archivo' is not defined

In [None]:
#collapse-output
X_full.dropna(axis=0, subset=['SalePrice'], inplace=True) # Eliminar filas sin datos destino, 

# elegir la columna que deseamos estimar en nuestro modelo
y = X_full.SalePrice

# elegir las columnas que se pasarán al modelo
# opción 1: quitar la columna destino
X_full.drop(['SalePrice'], axis=1, inplace=True)

# opción 2: elegir sólo algunas columnas
datos_features = ['Rooms', 'Bathroom','Lattitude', 'Longtitude'] 
X = datos[datos_features]

### 2.2- Tratamiento de valores que faltan

¿Por qué faltan los valores?
  - No existen -> no hacer nada, no tiene sentido intentar estimarlos
  - No han sido grabados -> se puede intentar estimarlos, basándonos en otros valores de la tabla
  
Revisar cada columna para averiguar cual es la mejor aproximación.

In [None]:
missing_val_count_by_column = X_train.isnull().sum() # Número de valores faltantes en cada columna de datos de entrenamiento 

print(missing_val_count_by_column[missing_val_count_by_column > 0])

# how many total missing values do we have?
total_cells = np.product(X_train.shape)
total_missing = missing_val_count_by_column.sum()

# percent of data that is missing
percent_missing = (total_missing/total_cells) * 100

#### 2.2.1 - Eliminar columna
Para el caso en falten la mayoría de datos de una variable. Sino se puede perder información importante.

In [None]:
cols_with_missing = [col for col in X_train.columns
                     if X_train[col].isnull().any()]       # recopilar columnas con valores que faltan

# eliminar columnas con valores que faltan
reduced_X_train = X_train.drop(cols_with_missing, axis=1)  
reduced_X_valid = X_valid.drop(cols_with_missing, axis=1)

In [None]:
reduced_X_train= X_train.dropna()  # Otra opción: elimina todas las columnas con datos no disponibles

#### 2.2.2 - Imputación
Rellenar los valores faltantes con otro valor, por ejemplo: la media.

In [None]:
from sklearn.impute import SimpleImputer

# Imputación
my_imputer = SimpleImputer(strategy='median')  # mean, median, most_frequent, constant

imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train), index=range(1, X_train.shape[0] + 1),
                          columns=range(1, X_train.shape[1] + 1))  
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid), index=range(1, X_valid.shape[0] + 1),
                          columns=range(1, X_valid.shape[1] + 1))  

# Imputación quitó los nombres de columnas, volver a ponerlos 
imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns

In [None]:
X_train.fillna(0)  # reemplazar con 0 los NA
X_train.fillna(method='bfill', axis=0).fillna(0) # reemplaza también los valores que vienen después en la misma columna

#### 2.2.3 - Extensión de Imputación
Añadiendo otra columna que informe si faltaba o no el valor.

In [None]:
X_train_plus = X_train.copy() # Hacer una copia para evitar cambiar los datos originales (al imputar) 
X_valid_plus = X_valid.copy()

# Hacer nuevas columnas que indiquen lo que se imputará. 
for col in cols_with_missing:
    X_train_plus[col + '_was_missing'] = X_train_plus[col].isnull()
    X_valid_plus[col + '_was_missing'] = X_valid_plus[col].isnull()

# Imputación
my_imputer = SimpleImputer()
imputed_X_train_plus = pd.DataFrame(my_imputer.fit_transform(X_train_plus))
imputed_X_valid_plus = pd.DataFrame(my_imputer.transform(X_valid_plus))

# Imputación quitó los nombres de columnas, volver a ponerlos 
imputed_X_train_plus.columns = X_train_plus.columns
imputed_X_valid_plus.columns = X_valid_plus.columns


### 2.3.- Variables categóricas
Toman un número limitado de valores. Necesitan ser preprocesados antes de usarlos en los modelos.

In [None]:
object_cols = [col for col in X_train.columns if X_train[col].dtype == "object"]
# para obtener lista de variables categóricas 

print(object_cols)

In [None]:
good_label_cols = [col for col in object_cols if   # Columnas que se pueden codificar con etiquetas de forma segura 
                   set(X_train[col]) == set(X_valid[col])]
        
# Columnas problemáticas que se eliminarán del conjunto de datos
bad_label_cols = list(set(object_cols)-set(good_label_cols))

# Aplicar codificador de etiquetas 
label_encoder = LabelEncoder()
for col in good_label_cols:
    label_X_train[col] = label_encoder.fit_transform(X_train[col])
    label_X_valid[col] = label_encoder.transform(X_valid[col])

In [None]:
object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols)) 
# Obtener el número de entradas únicas en cada columna con datos categóricos 
d = dict(zip(object_cols, object_nunique))

# Imprimirc el número de entradas únicas por columna, en orden ascendente 
sorted(d.items(), key=lambda x: x[1])

#### 2.3.1- Eliminar columna
Sólo es buena opción si la columna no tiene información útil.

In [None]:
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

#### 2.3.2- Codificación ordinal
Asigna un entero a cada valor único. Asume un orden en las categorías. Variables ordinales.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Hacer una copia para evitar cambiar los datos originales 
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

# Aplicar codificador ordinal a cada columna con datos categóricos 
ordinal_encoder = OrdinalEncoder()
label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

# De esta forma ha asigando valores aleatorios a las categorías. Asignar un orden puede mejorar el modelo.

#### 2.3.3- Codificación *One-Hot*
Crea una columna por cada valor único e indica la presencia o no de ese valor. No asume un orden en las categorías. Variables nominales. No funciona bien si hay muchas categorias. Usar si hay 15 como máximo.

* handle_unknown='ignore': para evitar errores cuando los datos de validación contienen clases que no están representadas en los datos de entrenamiento 
* sparse=False: asegura que las columnas codificadas se devuelvan como una matriz densa (en lugar de una matriz dispersa)

Suele ser la mejor aproximación.

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Columnas que se codificarán one-hot (como máximo 10 categorias)
low_cardinality_cols = [col for col in object_cols if X_train[col].nunique() < 10]

# Columnas que se eliminarán
high_cardinality_cols = list(set(object_cols)-set(low_cardinality_cols))


# Aplicar codificador one-hot a cada columna con datos categóricos
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[low_cardinality_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[low_cardinality_cols]))

# codificador one-hot elimina; ponerlo de nuevo 
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Eliminar columnas categóricas (se reemplazarán con codificación one-hot) 
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

#  añadir columnas codificadas one-hot a variables numéricas 
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)


In [None]:
from sklearn.preprocessing import OneHotEncoder


### 2.3- Codificaciones de caracteres 

In [None]:
import chardet
after = before.encode("utf-8", errors="replace")

Detectar codificación automáticamente

In [None]:
with open("../data.csv", 'rb') as rawdata:
    result = chardet.detect(rawdata.read(10000))  # en este caso lee 10.000 caracteres
    
print(result['encoding'])
datos = pd.read_csv("./data.csv", encoding=result['encoding']) # guardar en archivo

### 2.4- Escalado y normalizado

#### Escalado
Cambia el rango de los datos. Por ejemplo, pasar datos a un rango 0-1 o 0-100.

In [None]:
from mlxtend.preprocessing import minmax_scaling

scaled_data = minmax_scaling(original_data, columns=[0]) #  escalado entre 0 y 1

#### Normalizado
Cambia la forma del histograma para que sea una distribución normal (Gaussiana):
- Media = mediana = moda
- Forma de campana

In [None]:
from scipy import stats

# obtener el índice de todos los valores positivos (Box-Cox solo acepta valores positivos) 
index_of_positives = datos.pledged > 0

# get only positive pledges (using their indexes)
valores_positivos = datos.columnaA.loc[index_of_positives]

# normalizar con Box-Cox
norm_valores = pd.Series(stats.boxcox(valores_positivos)[0], 
                               name='columnaA', index=valores_positivos.index)


### 2.5- Fechas

In [None]:
import pandas as pd
import datetime

datos['nueva_columna'] = pd.to_datetime(datos['fecha'], format="%d/%m/%y",infer_datetime_format=True)
# infer_datetime_format=True : usar sólo cuando sea extrictamente necesario

In [None]:
dia_mes = datos['nueva_columna'].dt.day  # día del mes

# quitar los datos no disponibles  
dia_mes  = dia_mes .dropna()

# plot the day of the month
sns.distplot(dia_mes, kde=False, bins=31)

In [None]:
date_lengths = datos.Date.str.len()  # comprobar la longitud de los valores
date_lengths.value_counts()

indices = np.where([date_lengths == 24])[1]
print('Indices con datos corruptos:', indices)
datos.loc[indices]

### 2.6- Entradas de datos inconsistentes 

In [None]:
professors['Country'] = professors['Country'].str.lower() # convertir a minúsculas
professors['Country'] = professors['Country'].str.strip() # quitar espacios en blanco, al principio y fin

# coger los 10 más cercanos a south korea
countries = professors['Country'].unique()
matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

def replace_matches_in_column(df, column, string_to_match, min_ratio = 47):
    # lista de valores únicos
    strings = df[column].unique()
    
    # coger los 10 más cercanos a la cadena de entrada
    matches = fuzzywuzzy.process.extract(string_to_match, strings, 
                                         limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    # coger solo los que superan el límite
    close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio]

    # coger las filas que encajan en nuestra tabla
    rows_with_matches = df[column].isin(close_matches)

    # reemplace todas las filas con coincidencias cercanas con las coincidencias de entrada 
    df.loc[rows_with_matches, column] = string_to_match
    
    # avisar cuando acaba la función
    print("All done!")
    
replace_matches_in_column(df=professors, column='Country', string_to_match="south korea")
countries = professors['Country'].unique()

### 2.7- Ingeniería de datos
Modificar los datos para mejorar la resolución del problema.

Ventajas:
- Mejora del rendimiento en las predicciones
- Disminuye necesidad computacional y de datos
- Mejora la interpretabilidad de los resultados

#### 2.7.1- Información mutua (Mutual Information, MI)

Primero crear una métrica que mida la utilidad de cada característica con el objetivo, para luego escoger un conjunto menor con las características mas útiles.
Para ello podemos usar la métrica **Información mutua** que encuentra relaciones de cualquier tipo entre variables, no sólo lineales como el coeficiente de correlación. 
Mide el grado que una variable reduce la incertidumbre sobre el objetivo.

In [None]:
from sklearn.feature_selection import mutual_info_regression

def make_mi_scores(X, y, discrete_features):
    mi_scores = mutual_info_regression(X, y, discrete_features=discrete_features)
    mi_scores = pd.Series(mi_scores, name="MI Scores", index=X.columns)
    mi_scores = mi_scores.sort_values(ascending=False)
    return mi_scores

mi_scores = make_mi_scores(X, y, discrete_features)

In [None]:
def plot_mi_scores(scores):
    scores = scores.sort_values(ascending=True)
    width = np.arange(len(scores))
    ticks = list(scores.index)
    plt.barh(width, scores)
    plt.yticks(width, ticks)
    plt.title("Mutual Information Scores")


plt.figure(dpi=100, figsize=(8, 5))
plot_mi_scores(mi_scores)

#### 2.7.2- Creando nuevas características

Es importante:
- estudiar bien:
 - las características que tenemos
 - el dominio de conocimiento del problema
 - trabajos previos
- visualizar los datos
 

Observaciones:
- Los modelos lineales sólo aprenden sumas y diferencias de forma natural, pero no pueden aprender nada más complejo.
- Los modelos no suelen aprender ratios. Si se usan mejora el rendimiento.
- Modelos lineales y redes neuronales -> normalizar primero
- Los conteos son especialmente útiles en los árboles de decisión

##### 2.7.2.1- Transformaciones matemáticas

Ratios entre variables y totales
Cambio de rango y de forma: normalización

##### 2.7.2.2-  Conteos
Pasando a binario las variables (0 - ausencia, 1- presencia)

In [None]:
roadway_features = ["Amenity", "Bump", "Crossing", "GiveWay",
    "Junction", "NoExit", "Railway", "Roundabout", "Station", "Stop",
    "TrafficCalming", "TrafficSignal"]

# se crea una nueva variable con el conteo
accidents["RoadwayFeatures"] = accidents[roadway_features].sum(axis=1)
# se muestran los 10 primeros casos
accidents[roadway_features + ["RoadwayFeatures"]].head(10)

In [None]:
components = [ "Cement", "BlastFurnaceSlag", "FlyAsh", "Water",
               "Superplasticizer", "CoarseAggregate", "FineAggregate"]
# se crea una nueva variable con el conteo cuando es mayor que 0 (gt(0))
concrete["Components"] = concrete[components].gt(0).sum(axis=1)  
# se muestran los 10 primeros casos
concrete[components + ["Components"]].head(10)

##### 2.7.2.3-  Nuevas variables a partir de unión o separación de otras

In [None]:
customer[["Type", "Level"]] = (  # Crear dos nueva variables
    customer["ColumnaA"]         # de la variable ColumnaA
    .str                         # 
    .split(" ", expand=True)     # separando por " "
                                 # y expandiendo en columna separadas
)

In [None]:
datos["variable A+B"] = datos["variable A"] + "_" + datos["variable B"]

##### 2.7.2.4-  Transformaciones de grupos
Agregando información entre diferentes filas 

In [None]:
customer["AverageIncome"] = (
    customer.groupby("State")  # por cada 'State'
    ["Income"]                 # seleccionar 'Income'
    .transform("mean")         # y calcula la media (max, min, median, var, std, and count)
)

customer[["State", "Income", "AverageIncome"]].head(10)

In [None]:
customer["StateFreq"] = (      # para calcular la frecuencia
    customer.groupby("State")
    ["State"]
    .transform("count")
    / customer.State.count()
)

customer[["State", "StateFreq"]].head(10)



#### 2.7.3- Agrupación con K-medias

Es un algoritmo de aprendizaje no supervisado (datos no etiquetados).<br>
Herramienta para encontrar características en los datos.

Apicado a:
- una característica de valores reales -> discretización
- varias características de valores reales -> cuantización vectorial

El resultado es una variable categórica.
Mide la similitud en base a la distancia euclídea. Se colocan k centroides creando agrupaciones en cada uno.

![](images/kmeans.gif)

In [None]:
from sklearn.cluster import KMeans

X = df.copy()
y = X.pop("SalePrice")

features = ['LotArea', 'TotalBsmtSF', 'FirstFlrSF', 'SecondFlrSF','GrLivArea']

# Standardize
X_scaled = X.loc[:,features]
X_scaled = (X_scaled - X_scaled.mean(axis=0)) / X_scaled.std(axis=0)

# Fit the KMeans model to X_scaled and create the cluster labels
kmeans = KMeans(n_clusters=10,random_state=0,n_init=10)
X["Cluster"] =  kmeans.fit_predict(X_scaled)

In [None]:
sns.relplot(           
    x="Longitude", y="Latitude", hue="Cluster", data=X, height=6,
);

In [None]:
X["MedHouseVal"] = df["MedHouseVal"]
sns.catplot(x="MedHouseVal", y="Cluster", data=X, kind="boxen", height=6);

#### 2.7.4- Analisis de componentes principales (PCA)

Herramienta para encontrar relacciones en los datos y características más útiles.<br>
Normalizar los datos antes de usar PCA.
PCA nos dice la cantidad de variación de cada componente.


Modos de usarlo:
- como técnica descriptiva
- usando los componentes como características del modelo.

Cuando usarlo:
- reducción de dimensionalidad
- detección de anomalias
- reducción de ruido
- reduccir correlación

In [None]:
from sklearn.decomposition import PCA

# Estandarizar
X_scaled = (X - X.mean(axis=0)) / X.std(axis=0)

In [None]:
pca = PCA()
X_pca = pca.fit_transform(X_scaled)

# Convertir a tabla
component_names = [f"PC{i+1}" for i in range(X_pca.shape[1])]
X_pca = pd.DataFrame(X_pca, columns=component_names)

X_pca.head()

In [None]:
loadings = pd.DataFrame(
    pca.components_.T,  # transpose the matrix of loadings
    columns=component_names,  # so the columns are the principal components
    index=X.columns,  # and the rows are the original features
)
loadings

In [None]:
plot_variance(pca);# Look at explained variance

#### 2.7.5- Codificación del objetivo
Método para codificar categorías como números.

**Codificación por media** (puede ser codificación por probabidad,impacto...)

In [None]:
autos["make_encoded"] = autos.groupby("make")["price"].transform("mean")

autos[["make", "price", "make_encoded"]].head(10)

**Suavizado**


Cuando usarlo:
- Caracterítica con muchas categorias
- Caracterítica motivada por el dominio:cuando se sospecha la importancia a pesar de tener una métrica pobre

In [None]:
from category_encoders import MEstimateEncoder

# Create the encoder instance. Choose m to control noise.
encoder = MEstimateEncoder(cols=["Zipcode"], m=5.0)

# Fit the encoder on the encoding split.
encoder.fit(X_encode, y_encode)

# Encode the Zipcode column to create the final training data
X_train = encoder.transform(X_pretrain)


### Separar los datos para entrenar y validar

In [None]:
X = X_full.select_dtypes(exclude=['object']) # To keep things simple, we'll use only numerical predictors
X_test = X_test_full.select_dtypes(exclude=['object'])

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0) 

## 3- Seleccionar el modelo

In [None]:
from sklearn.tree import DecisionTreeRegressor  # RandomForestRegressor

modelo = DecisionTreeRegressor(random_state=1)    # escogemos el modelo Árbol de decisión


## 4- Entrenar el modelo

In [None]:
modelo.fit(train_X, train_y)                      # se entrena el modelo 

## 5- Evaluar el modelo

In [None]:
val_predicciones = modelo.predict(val_X)          # se hace predicción
mean_absolute_error(val_y, val_predicciones)      # se evalua el modelo

### Underfitting and Overfitting

   * *Underfitting*: no encuentra bien patrones relevantes, no predice bien
   * *Overfitting*:  se ajusta demasiado a los datos de entrenamiento, no generaliza bien

## 6- Ajustar los parámetros

## 7- Generar la predicciones

In [None]:
final_X_test = pd.DataFrame(final_imputer.transform(X_test))   # usar total de datos transformados

# Sacar las predicciones con los datos para test 
preds_test = model.predict(final_X_test)


# Guardar datos a archivo
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

## Otros puntos a tener en cuenta

### Pipelines (canalizaciones)
Para agrupar partes de código. Ventajas:
- Código limpio
- Menos errores
- Más fácil de llevar a producción
- Más opciones para validar el modelo

#### 1- Definir pasos del preprocesado

In [1]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# Preprocesamiento de datos numéricos 
numerical_transformer = SimpleImputer(strategy='constant')

# Preprocesamiento de datos categóricos
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Paquete de prepocesado
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

NameError: name 'numerical_cols' is not defined

#### 2- Definir modelo

In [2]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100, random_state=0)

#### 3- Crear y evaluar el preprocesado

In [None]:
from sklearn.metrics import mean_absolute_error

# Agrupar código de preprocesamiento y modelado en una canalización 
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', model)
                             ])

# Procesamiento previo de datos de entrenamiento, modelo de ajuste
my_pipeline.fit(X_train, y_train)

# Procesamiento previo de datos de validación, obtención de predicciones
preds = my_pipeline.predict(X_valid)

# Evaluar el modelo
score = mean_absolute_error(y_valid, preds)
print('MAE:', score)

### Validación cruzada (Cross-Validation)
Divide los datos en subconjuntos, realiza el entrenamiento y validación alternando los subconjuntos y calcula la media al final.
Para conjuntos de datos grandes es posible que no sea necesario. Si Cross-validation da resultados similares en cada subconjunto no es necesario hacerlo.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

my_pipeline = Pipeline(steps=[('preprocessor', SimpleImputer()),
                              ('model', RandomForestRegressor(n_estimators=50,
                                                              random_state=0))
                             ])

# Multiply by -1 since sklearn calculates *negative* MAE
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("MAE scores:\n", scores)

### Método XGBoost
Consiste en un ciclo donde se van añadiendo modelos reduciéndose el error paulatinamente.
<br> Usar con datos tabulados, no imagenes o video...

In [None]:
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error

my_model = XGBRegressor()
my_model.fit(X_train, y_train)

predictions = my_model.predict(X_valid)
print("Mean Absolute Error: " + str(mean_absolute_error(predictions, y_valid)))

**n_estimators** = nº ciclos = nº modelos a añadir. Suele  estar entre 100-1000 (depende mucho del ratio de aprendizaje).
<br>
- muy bajo -> underfitting
- muy alto -> overfitting

**early_stopping_rounds** encuentra automáticamente el valor óptimo de 'n_estimators'. 
Para el entrenamiento cuando el valor de validación deja de mejorar. Valor adecuado=5, para cuando lleva 5 ciclos empeorando la validación.

**learning_rate** = ratio de aprendizaje. Por defecto 0.1.  
Por lo general, es mejor nº alto de 'n_estimators' y  bajo de 'learning_rate'

**n_jobs** = para ejecución en paralelo de grandes conjuntos de datos = nº nucleos del ordenador

In [None]:
my_model = XGBRegressor(n_estimators=1000, learning_rate=0.05, n_jobs=4)
my_model.fit(X_train, y_train, 
             early_stopping_rounds=5, 
             eval_set=[(X_valid, y_valid)], 
             verbose=False)

### Data leakage (fuga de datos)


Ocurre cuando el conjunto de datos tiene información de la variable de destino.
Produce alta precisión en el entrenamiento, pero muy baja en la predicciones reales.

Tipos:
- **target leakage**: cuando se incluyen datos que tienen información posterior a lo que se desea predecir
- **train-test contamination**: ocurre cuando se mezclan los datos de entrenamiento y los de validación a la hora de entrenar el modelo. 