# Mentoría

## Introduccion al Aprendizaje Automático

### Introducción

En la siguiente notebook se presentará la consigna a seguir para el tercer práctico del proyecto, correspondiente a la materia Introducción al Aprendizaje Automático. El objetivo consiste en explorar la aplicación de diferentes métodos de aprendizaje supervisado aprendidos en el curso, a través de experimentos reproducibles, y evaluando a su vez la conveniencia de uno u otro, así como la selección de diferentes hiperparámetros a partir del cálculo de las métricas pertinentes.

En el caso de nuestro proyecto, nos enfrentamos originalmente a un problema de prediccion ----------------. Sin embargo, a los fines de este práctico, lo transformaremos en un problema de clasificación binario, adaptando las el feature objetivo del dataset. Además, será importante evaluar el desbalance de clases y qué decisiones tomaremos al respecto.

Para ello, comenzaremos con las importaciones pertinentes.


### Importaciones

In [4]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import sklearn as skl

from sklearn import preprocessing
from sklearn.utils import shuffle
from sklearn.linear_model import LogisticRegression, Perceptron, Ridge
from sklearn.metrics import accuracy_score, confusion_matrix, mean_squared_error, classification_report, roc_curve, auc
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import train_test_split, GridSearchCV

np.random.seed(0)  # Para mayor determinismo

In [5]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna para Introducción al Aprendizaje Automático

### I. Preprocesamiento

A los fines de realizar este práctico, se utilizará el dataset original.La división entre train y test será realizada en este mismo práctico. A continuación se detallan los pasos a seguir para el preprocesamiento de los datos.

1. Obtención del Dataset

Cargar el conjunto de entrenamiento original.

2. Aplicar Script de Curación

Inicialmente, luego de haber unido ambos datasets, con el objetivo de preparar los datos que alimentarán los modelos de aprendizaje automático (ML) propuestos, deberán aplicar el script de curación obtenido en el práctico anterior. En esta etapa, pueden adicionar los atributos que crean pertinentes a priori o que hayan encontrado interesantes por tener mayor correlación con la variable Target.

3. Dataset para Problema de Clasificación Binario

Si bien nuestro problema original implica predecir una variable Real, es decir una regresión, comenzaremos por tratarlo como un problema de clasificación binario, en donde nuestro objetivo será:

- 1 = Hay distribución de energía (Kw 3 fases > 100)
- 0 = No hay distribución de energía  (Kw 3 fases <= 100)

Es decir, queremos diferenciar los momentos en que hay cortes en la distribucion de energia de los que no hay. En base a esta definición, deben transformar el dataset para adaptarlo a un problema de clasifiación binario.
¿Cómo luce ahora el balance de clases? ¿Tomarán alguna decisión al respecto?

4. Normalización de Atributos

Es posible que sea necesario normalizar las features de nuestro dataset, dado que muchos de los algoritmos de clasificación supervisada lo requieren. ¿En qué casos tendrá que implementarse normalización?

Aplicar a los datasets la normalización de atributos que consideren adecuada.

5. Mezcla Aleatória y División en Train/Test

Finalmente, están en condiciones de dividir el dataset en Train y Test, utilizando para este último conjunto un 20% de los datos disponibles. Previo a esta división, es recomendable que mezclen los datos aleatoriamente. De este modo, deberán obtener cuatro conjuntos de datos, para cada uno de los datasets: X_train, X_test, y_train y y_test.


6. Division en Train/Test (opcional)

En muchos de los problemas de series temporales la variable objetivo está muy ligada al momento en la cual se la mide. Es por esto que se suele adoptar diferentes estrategias para la división de los dataset de de entrenamiento y test. 

La opción más frecuente es dividirlos en subconjuntos ordenados por el tiempo, de manera que el dataset de entrenamiento sea anterior al de test.

Prueben realizar esta división y ejecutar los mismos modelos para poder comparar resultados sobre las métricas obtenidas.

https://machinelearningmastery.com/backtest-machine-learning-models-time-series-forecasting/


A modo de ayuda, en esta notebook encontrarán una especie de template que sigue los pasos propuestos y que deberán ir completando.

Recuerden que la ciencia de datos es un proceso circular, continuo y no lineal. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Aplicación de Modelos de Clasificación

Una vez finalizada la etapa de preprocesamiento, se propone implementar diferentes modelos de clasificación para ambos datasets, utilizando la librería Scikit-Learn:

    Perceptron. Utilizar el método Stochastic Gradient Descent (Recuerden mezclar aleatoriamente los datos antes de cada iteración)
    K Nearest Neighbors ó K Vecinos Más Cercanos
    Regresión Logística. Utilizar el método Stochastic Gradient Descent (Recuerden mezclar aleatoriamente los datos antes de cada iteración)

Para cada uno de ellos, se pide responder las siguientes consignas:

    Utilizar dos features para graficar las clases y la frontera de decisión, siempre que sea posible.
    Agregar vector de Bias, cuando lo crean pertinente. Cuándo hace falta y cuándo no? Por qué?
    Obtener accuracy o exactitud.

De estos tres tipos de modelos, cuál creen que es el más adecuado para nuestro caso de aplicación?

Elegir el modelo que consideren que mejor aplica a nuestro problema. Para ello, recuerden que los pasos a seguir en la selección pueden esquematizarse como sigue:
1. Descripción de la Hipótesis

¿Cuál es nuestro problema? ¿Cómo se caracteriza? ¿Cuál es la hipótesis?
2. Selección de Regularizador

¿Utilizarán algún regularizador?¿Cuál?
3. Selección de Función de Costo

¿Cuál será la función de costo utilizada?
4. Justificación de las Selecciones

¿Por qué eligieron el modelo, el regularizador y la función de costo previas?

Finalmente, para el modelo selecionado:

    Utilizar el método Grid Search, o de búsqueda exahustiva, con cross-validation para profundizar en la búsqueda y selección de hiperparámetros.
    Calcular métricas sobre el conjunto de entrenamiento y de evaluación para los mejores parámetros obtenidos:
        Accuracy o exactitud
        Reporte de clasificación
        Confusion matrix o matriz de confusión (graficar como heatmap)
        Curva ROC y área bajo la curva (AUC).

## Entregables


El entregable de este práctico consiste en esta misma Notebook, pero con el preprocesamiento aplicado y los modelos implementados, agregando las explicaciones que crean pertinentes y las decisiones tomadas, en caso de corresponder.
