
# Programa Ingenia+ Data Science

<font size=5> 🚀 👩🏽‍💻 Machine Learning: Aprendizaje Supervisado 📣</font>

In [89]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.cm as cm

In [90]:
import os

In [91]:
os.getcwd()

'C:\\Users\\maugeaciar\\Desktop\\Data Science YPF'

Primero, vamos a leer los datos limpios y procesados. Nos quedamos sólo con una de las columnas de fuente de energía. Repetiremos el modelo para cada fuente de energía (Biodiesel, Biogas, Biomasa, Eólico, Hidro<=50 MW y Solar)

In [92]:
# Leemos nuevamente los datos de biodiesel
er_limpio_biodiesel = pd.read_csv('er_limpio_biodiesel.csv')
er_limpio_biodiesel.head()

Unnamed: 0.1,Unnamed: 0,anio,region,prov,mes,f_BIODIESEL
0,0,2011,5,0,1,1
1,1,2011,5,0,1,1
2,2,2011,8,3,1,0
3,3,2011,7,8,1,0
4,4,2011,3,9,1,0


Ahora tenemos que decidir que variable o variables vamos a predecir. Esto quiere decir que tenemos que elegir cual va a ser la variable que al predecirla conteste la pregunta que nos hicimos de los datos.

Lo que queremos saber es:

***1. ¿Cuánta energía eléctrica se generará a partir de la fuente de Biodiesel?




## 📈 Regresión

Este problema es un problema de regresión, porque queremos predecir una variable numérica continua

### Seleccion de target (y) y variables (X)

Lo primero que haremos, es seleccionar las variables o features que deseemos usar como variable independientes (aquellas que van a explicar mi predicción) y la variable a predecir.

Usaremos todas las variables menos aquellas que fueron usadas para calcular el puntaje final. Debemos también asegurarnos de no incluir las variables a predecir. Como variable a predecir usaremos el puntaje final.

In [138]:
# Elimino aquellas variables que no quiero incluir en el modelo y las guardo en x.
x = er_limpio_biodiesel.drop(['f_BIODIESEL'],axis=1)

In [139]:
x.head()

Unnamed: 0.1,Unnamed: 0,anio,region,prov,mes
0,0,2011,5,0,1
1,1,2011,5,0,1
2,2,2011,8,3,1
3,3,2011,7,8,1
4,4,2011,3,9,1


In [140]:
lista_atributos = x.columns

In [141]:
# Ahora selecciono las etiquetas y las guardo en y.
y = er_limpio_biodiesel['f_BIODIESEL']

In [142]:
x, y = np.array(x), np.array(y)

In [143]:
x

array([[    0,  2011,     5,     0,     1],
       [    1,  2011,     5,     0,     1],
       [    2,  2011,     8,     3,     1],
       ...,
       [15844,  2023,     5,     0,     6],
       [15845,  2023,     5,    17,     6],
       [15846,  2023,     4,     0,     6]], dtype=int64)

In [144]:
y[:10]

array([1, 1, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)

### Separando Train / Test

Ahora tenemos que separar el dataset en conjuntos de entrenamiento (X_train, y_train) y de testeo (X_test, y_test) usando la función train_test_split de scikit-learn.

¿Por qué separamos el dataset? Porque es necesario entrenar el modelo con un set de datos. El modelo no puede ver los datos de evaluación cuando se esta entrenando!

La forma en que se dividen los datos normalmente es 80% entrenamiento -20% evaluación)

In [145]:
# Importamos la librearia para separar el dataset.
from sklearn.model_selection import train_test_split

In [146]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,
                                                    random_state=42)

In [147]:
x.shape

(15847, 5)

In [148]:
X_train.shape

(12677, 5)

In [149]:
X_test.shape

(3170, 5)

### Regresión Lineal

In [150]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [151]:
# Tomamos los datos de prueba y entrenamiento
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [152]:
# Inicializar el modelo
regresor = LinearRegression()

In [153]:
# Entreno el modelo
regresor.fit(X_train, y_train)

In [155]:
# Realizo predicciones
y_pred = regresor.predict(x)


### Random Forest

Random Forest es un algoritmo de ensamble. Hay dos tecnicas para esto: Bagging y Boosting.
El objetivo de bagging es entrenar distintos modelos, donde cada uno vea distintas porciones del set de entrenamiento. Random Forest, además de aplicar Bagging, también selecciona features al azar, de esa manera descorrelaciona aún más los distintos modelos de árbol creados.

In [156]:
from sklearn.ensemble import RandomForestRegressor

In [158]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [164]:
# Inicializo el modelo
regresor = RandomForestRegressor(criterion='absolute_error', random_state=42)

In [166]:
# Entreno el modelo
regresor.fit(X_train, y_train)

In [167]:
#Parámetros del regresor
regresor.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'absolute_error',
 'max_depth': None,
 'max_features': 1.0,
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}

### Predicción en el conjunto de prueba

In [168]:
# Predigo los valores para el set de testeo
y_pred = regresor.predict(X_test)

### Evaluación del modelo según distintas métricas

In [170]:
# Calculo el error medio absoluto
mae = mean_absolute_error(y_test, y_pred)

In [171]:
# Calculo el error medio cuadrado
mse = mean_squared_error(y_test, y_pred)

In [172]:
#Calculo el coeficiente de determinación 
r2 = r2_score(y_test, y_pred)

In [173]:
#Comparo las métricas
print(f"Mean Squared Error: {mse}")
print(f"Mean Absolute Error: {mae}")
print(f"R^2: {r2}")

Mean Squared Error: 0.044585930599369085
Mean Absolute Error: 0.07911041009463722
R^2: 0.6015800597754994


### Support Vector Machine

Recordemos que el SVM es un algortimo que establece un hiperplano que separa los puntos maximizando el margen. A su vez, una de sus ventajas es la aplicación de Kernels que me permite ajustar mejor el modelo.


In [174]:
from sklearn.svm import SVR

In [175]:
# Inicializo el modelo
regresor_svr = SVR(C=1.0, epsilon=0.2)

In [176]:
# Entreno el modelo
regresor_svr.fit(X_train, y_train);

In [177]:
regresor_svr.get_params()

{'C': 1.0,
 'cache_size': 200,
 'coef0': 0.0,
 'degree': 3,
 'epsilon': 0.2,
 'gamma': 'scale',
 'kernel': 'rbf',
 'max_iter': -1,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

In [37]:
# Predigo los valores para el set de testeo
y_pred_svr = regresor_svr.predict(X_test)

In [39]:
# Calculo el error medio absoluto
mean_absolute_error(y_test, y_pred_svr)

0.27701910719335215

In [179]:
# Calculo el error porcentual medio promedio y uso np.maximun para que no me tome 0 para dividir dentro del conjunto y_test
error_percent = np.mean((np.abs(y_pred - y_test) / np.maximum(np.abs(y_test), 1)) * 100)
print(error_percent)



7.911041009463722


In [180]:
# Predigo los valores para el set de training
y_pred_train = regresor.predict(X_train)

In [181]:
mean_absolute_error(y_train, y_pred_train)

0.030545081643922067

### Obtenemos la importancia de cada feature usando feature_importances_.

In [182]:
for x, y in list(zip(lista_atributos,regresor.feature_importances_)):
    print(f'Atributo: {x}, Importancia: {y}')

Atributo: Unnamed: 0, Importancia: 0.4848837366216805
Atributo: anio, Importancia: 0.007331987124437333
Atributo: region, Importancia: 0.18075166887244265
Atributo: prov, Importancia: 0.3098325280938992
Atributo: mes, Importancia: 0.017200079287540374


In [183]:
np.mean(y_train)

0.12936814703794272

### Buscando el 'mejor' modelo (Regresión)

Usamos los errores para poder evaluar el desempeño de nuestro modelo. Primero creemos unas funciones que nos permitiran obtener los errores facilmente y graficar los resultados.

In [211]:
def graph_real_pred(y_test, y_pred_train, color):
    """
    Funcion que grafica los valores reales vs. predichos
    :param y_test: valores reales
    :param predictions: valores predichos
    :param color: color para el plot.

    :return: Scatterplot mostrando la relacion entre el valor real y el predicho
    """
    plt.scatter(y_test, y_pred_train, c=color, s=10)
    plt.gca().spines['top'].set_visible(False)
    plt.gca().spines['bottom'].set_visible(False)
    plt.gca().spines['left'].set_visible(False)
    plt.gca().spines['right'].set_visible(False)
    plt.xlabel('Real', size=15, labelpad=1)
    plt.ylabel('Predicted', size=15, labelpad=1)
    plt.show()

In [None]:
def feature_importance(model, feature_list):
    """
    Function that gets and plots the feature importance
    for the given model
    :param model: the model to evaluaate
    :param feature_list: a list of features contained in the model

    :returns a plot with feature importance
    """
    # Obtiene la lista de importancias
    importances = list(model.feature_importances_)
    # Junta los nombres de los atributos y las importancias
    feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(feature_list, importances)]
    # Ordena por orden de importancia
    feature_importances = sorted(feature_importances, key = lambda x: x[1], reverse = True)
    # Print la lista de importancias
    [print('Variable: {} Importance: {}'.format(*pair)) for pair in feature_importances];
    # Colores
    colors = cm.rainbow(np.linspace(0, 1, len(feature_list)))

    # Caracteristicas en orden de importancia
    characteristics = [x[0] for x in feature_importances]
    # Obtiene las importancias
    importances_plot = [x[1] for x in feature_importances]
    # Grafica un bar plot
    plt.bar(characteristics, importances_plot, color=colors)
    # Personalizamos el grafico
    plt.xticks(list(range(len(characteristics))), characteristics, rotation = 90)
    plt.gca().spines['top'].set_visible(False)
    plt.gca().spines['bottom'].set_visible(False)
    plt.gca().spines['left'].set_visible(False)
    plt.gca().spines['right'].set_visible(False)
    plt.gcf().subplots_adjust(bottom=0.3);

### Encontrar lso mejores hiperparámetros utilizando GridSearchCV

In [206]:
from sklearn.model_selection import GridSearchCV

In [207]:
# Valores para los parametros a optimizar
param_grid_rf = {
    'criterion': ['absolute_error'],
    'n_estimators': [70, 80, 90, 100, 120],
    'max_features': ['log2','sqrt'],
    'max_depth': [1, 3, 5, 10, 20, 50],
    'min_samples_leaf': [1, 3, 5, 10, 20, 50]
}

In [208]:
# Inicializamos un modelo
grid_regresor = RandomForestRegressor(random_state=42)

In [209]:
# Creamos la busqueda
rf_search = GridSearchCV(estimator=grid_regresor, param_grid=param_grid_rf,
                         cv=5, scoring='neg_mean_absolute_error', verbose=2, n_jobs=-1)

In [210]:
# Corremos el gridsearch con una validación usando 3 folds.
rf_search.fit(X_train, y_train)

Fitting 5 folds for each of 360 candidates, totalling 1800 fits


KeyboardInterrupt: 

¿Cuál es nuestro mejor estimador?

In [None]:
rf_search.best_estimator_

In [None]:
rf_search.best_params_

In [None]:
rf_search.best_score_

In [None]:
# Asignamos el mejor estimador a mejor_regresor
mejor_regresor = RandomForestRegressor(criterion='absolute_error', n_estimators=70, max_depth=10, max_features='log2', min_samples_leaf=10)

In [None]:
# Entrenamos el modelo
mejor_regresor.fit(X_train, y_train)

In [None]:
# Hacemos la prediccion para el test de evaluación
predicciones = mejor_regresor.predict(X_test)

In [None]:
# Error
evaluation(y_test, predicciones)

In [None]:
# Correlacion
graph_real_pred(y_test, predicciones, color='#E67E22')

In [None]:
# Importancia de cada feature
feature_importance(mejor_regresor, lista_atributos)