# Practico Mentoria - Aprendizaje Supervisado

Vamos a tratar de predecir el resultado de un partido para el equipo local, es decir, si el equipo local gana (**Win**), empata (**Draw**) o pierde (**Lose**).

---

### Importaciones

In [None]:
%load_ext autoreload
%autoreload 2

%matplotlib inline

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sp
import warnings

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

from utils import plot_confusion_matrix

In [None]:
warnings.filterwarnings('ignore')

sns.set_style("whitegrid")

In [None]:
# Seteamos una semilla para Reproducibilidad
np.random.seed(1)

---

### Carga del Dateset

In [None]:
data_df = pd.read_csv('./Datasets/football_data.csv')

print("Shape 'data_df'  = {}".format(data_df.shape))

In [None]:
data_df.head()

In [None]:
data_df.dtypes

### Obtemos el `input` y el `target` para los modelos

> Obtenemos el `target`

In [None]:
target_data = data_df.loc[:, 'label']

In [None]:
print("Shape 'target_data' = {}".format(target_data.shape))
display(target_data.head())
print('=' * 30)
display(target_data.dtypes)

In [None]:
target_data.unique()

In [None]:
# TODO: Plotear la distribucion de los targets

plt.figure(figsize=(10, 5))

target_count = target_data.value_counts()
display(target_count)
my_order = ["Win", "Lose", "Draw"]

sns.barplot(target_count.index, target_count.values, order=my_order)
plt.title('Distribucion de los Labels en el Dataset')
plt.xlabel('Tags')
plt.ylabel('Count')
plt.show()

> Obtenemos el `input_data`

In [None]:
input_data = data_df.drop('label', axis=1)

In [None]:
print("Shape 'input_data' = {}".format(input_data.shape))
display(input_data.head())
print('=' * 30)
display(input_data.dtypes)

> ### División de datos en conjuntos de Entrenamiento, Validacion y Test

La primer tarea consiste en dividir el conjunto de datos cargado en el apartado anterior en conjuntos de Entrenamiento (o _training_), Validacion (_validation_) y evaluación (o _test_).

Utilizar aproximadamente 70% de los datos para Entrenamiento, 20% para Validacion y el 10% para Evaluacion.

Links:
* https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# TODO

> ### Distribucion de los labels en los conjuntos de datos generados

Mostrar en un grafico, como se distribuyen los labels en los conjuntos de datos generados.

**Hint**: Usar graficos de barra (_bar plot_).

In [None]:
# TODO

> ### Modelo Baseline

Implementar un modelo Baseline usando, por ejemplo **Logistic Regression** sin ajuste de Hiperparametros.

Calcular la accuracy en los conjuntos de entrenamiento y validacion.

In [None]:
# TODO

> ### Seleccion de Clasificadores

Comparar la performance entre clasificadores:
* [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)
* [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html)
* [KNeighborsClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)
* [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

**Hint** para mejores resultados:
* Usar [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) y [Grid Search](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

> **Plotear los resultados en un grafico**

In [None]:
test_score_dict = {}

> ### 1. Random Forest

In [None]:
# TODO

> ### 2. Ada Boost

In [None]:
# TODO

> ### 3. K-Neighbors

In [None]:
# TODO

> ### 4. Logistic Regression

In [None]:
# TODO

> ### Matriz de Confusion

Plotear la matriz de confusion del mejor modelo sobre el conjunto de **Test**.

**Hint**: Usar la funcion `plot_confusion_matrix` del modulo `utils`.

In [None]:
# TODO

> ### Classification Report

Imprimir el `classification_report` y explicar lo que refleja este reporte.

In [None]:
# TODO

---

**Comunicación de Resultados**

Se pide que toda esta información no quede plasmada solamente en un Jupyter Notebook, sino que se diagrame una comunicación en formato textual o interactivo (Google Docs, PDF o Markdown por ejemplo).

La comunicación debe estar apuntada a un público técnico pero sin conocimiento del tema particular, como por ejemplo, sus compañeros de clase.