# Practico Mentoria - Introduccion al Aprendizaje Automatico

---

### Importaciones

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sp

from collections import OrderedDict
from IPython.display import display

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression, Perceptron, Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import accuracy_score, mean_squared_error, confusion_matrix
from sklearn import preprocessing

from ml.visualization import plot_confusion_matrix
from utils import balanced_accuracy_score

import warnings
warnings.filterwarnings('ignore')

In [None]:
sns.set_style("whitegrid")
sns.set_context('talk')

In [None]:
# Seteamos una semilla para Reproducibilidad
np.random.seed(1)

---

### Carga de los Datesets

In [None]:
player_df = pd.read_csv('./Datesets/football_player.csv')
team_df = pd.read_csv('./Datesets/football_team.csv')
match_df = pd.read_csv('./Datesets/football_match.csv')

print("Shape 'player_df' = {}".format(player_df.shape))
print("Shape 'team_df'   = {}".format(team_df.shape))
print("Shape 'match_df'  = {}".format(match_df.shape))

---

## **Regresion**

Vamos a predecir el `overall_rating` de un jugador

In [None]:
# Separamos el "target" del resto del dataset

X = player_df.loc[:, player_df.columns != 'overall_rating']
y = player_df['overall_rating']

In [None]:
player_df.dtypes

Seleccionamos un feature de los listados en la descripción que no sea categórico, por ejemplo `vision`

In [None]:
# TODO: modificar esta feature por algún otro (o una combinacion de estos) para ver como cambian los resultados
X = X[[
    'vision',
]]

> ### División de datos en conjuntos de entrenamiento y evaluación

La primer tarea consiste en dividir el conjunto de datos cargados en el apartado anterior en conjuntos de entrenamiento (o _training_) y evaluación (o _test_).

Utilizar aproximadamente 70% de los datos para entrenamiento y 30% para validación.

Links:
* https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# TODO

> ### Regresion Lineal

Link:
* https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
# TODO

Evaluamos el desempeño del clasificador utilizando la media del error cuadrado (MSE o Mean Squared Error) sobre el conjunto de datos de entrenamiento (`X_train`, `y_train`) y lo comparamos con el de validación (`X_val`, `y_test`).  
Mientras más cercano a cero mejor

In [None]:
print(
    "MSE para entrenamiento: {:.2f}"
    .format(mean_squared_error(y_train, model.predict(X_train)))
)
print(
    "MSE para validación   : {:.2f}"
    .format(mean_squared_error(y_test, model.predict(X_test)))
)

#### **Visualizacion**

**Warning**: Tener en cuenta que si son dos o mas features no se va a poder visualizar

In [None]:
plt.figure(figsize=(14, 5), dpi= 80, facecolor='w', edgecolor='k')

X_range_start = np.min(np.r_[X_train, X_test])
X_range_stop = np.max(np.r_[X_train, X_test])
y_range_start = np.min(np.r_[y_train, y_test])
y_range_stop = np.max(np.r_[y_train, y_test])
X_linspace = np.linspace(X_range_start, X_range_stop, 200).reshape(-1, 1)

# Conjunto de entrenamiento
plt.subplot(1, 2, 1)
plt.scatter(X_train, y_train, facecolor="dodgerblue", edgecolor="k", label="datos")
plt.plot(X_linspace, model.predict(X_linspace), color="tomato", label="modelo")
plt.ylim(y_range_start, y_range_stop)
plt.title("Conjunto de Entrenamiento")

# Conjunto de validación
plt.subplot(1, 2, 2)
plt.scatter(X_test, y_test, facecolor="dodgerblue", edgecolor="k", label="datos")
plt.plot(X_linspace, model.predict(X_linspace), color="tomato", label="modelo")
plt.ylim(y_range_start, y_range_stop)
plt.title("Conjunto de Validación")

plt.show()

> ### Regresión Polinomial

Link:
* https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

In [None]:
polynomial_degree = # TODO: Probar distintos grados del polinomio

poly_features = PolynomialFeatures(polynomial_degree)
poly_features.fit(X_train)
X_poly_train = poly_features.transform(X_train)
X_poly_test = poly_features.transform(X_test)

model = LinearRegression()
model.fit(X_poly_train, y_train)

print(
    "MSE para entrenamiento: {:.2f}"
    .format(mean_squared_error(y_train, model.predict(X_poly_train)))
)
print(
    "MSE para validación   : {:.2f}"
    .format(mean_squared_error(y_test, model.predict(X_poly_test)))
)

#### **Visualizacion**

**Warning**: Tener en cuenta que si son mas de dos features no se va a poder visualizar

In [None]:
plt.figure(figsize=(14, 5), dpi=80, facecolor='w', edgecolor='k')

X_range_start = np.min(np.r_[X_train, X_test])
X_range_stop = np.max(np.r_[X_train, X_test])
y_range_start = np.min(np.r_[y_train, y_test])
y_range_stop = np.max(np.r_[y_train, y_test])
X_linspace = np.linspace(X_range_start, X_range_stop, 200).reshape(-1, 1)
X_linspace_poly = poly_features.transform(X_linspace)

# Conjunto de entrenamiento
plt.subplot(1, 2, 1)
plt.scatter(X_train, y_train, facecolor="dodgerblue", edgecolor="k", label="datos")
plt.plot(X_linspace, model.predict(X_linspace_poly), color="tomato", label="modelo")
plt.ylim(y_range_start, y_range_stop)
plt.title("Conjunto de Entrenamiento")

# Conjunto de validación
plt.subplot(1, 2, 2)
plt.scatter(X_test, y_test, facecolor="dodgerblue", edgecolor="k", label="datos")
plt.plot(X_linspace, model.predict(X_linspace_poly), color="tomato", label="modelo")
plt.ylim(y_range_start, y_range_stop)
plt.title("Conjunto de Validación")

plt.show()

---

## **Clasificacion Multiclase**

Vamos a predecir el `attacking_work_rate` de un jugador

In [None]:
# Separamos el "target" del resto del dataset

X = player_df.loc[:, player_df.columns != 'attacking_work_rate']
y = player_df['attacking_work_rate']

In [None]:
# TODO: Codificar la variable categorica `attacking_work_rate` como una variable numerica

Seleccionamos un feature de los listados en la descripción que no sea categórico, por ejemplo `vision`

In [None]:
# TODO: modificar esta feature por algún otro (o una combinacion de estos) para ver como cambian los resultados
X = X[[
    'vision',
]]

> ### División de datos en conjuntos de entrenamiento y evaluación

La primer tarea consiste en dividir el conjunto de datos cargados en el apartado anterior en conjuntos de entrenamiento (o _training_) y evaluación (o _test_).

Utilizar aproximadamente 70% de los datos para entrenamiento y 30% para validación.

In [None]:
# TODO

In [None]:
penalty = # TODO: Tipo de regularización: l1 (valor absoluto), l2 (cuadrados).
alpha = # TODO: Parámetro de regularización. También denominado como parámetro `lambda`. Debe ser mayor que 0.

model = LogisticRegression(penalty=penalty, C=1./alpha, multi_class='ovr')
model.fit(X_train, y_train)

print("Accuracy para entrenamiento: {:.2f}".format(balanced_accuracy_score(y_train, model.predict(X_train))))
print("Accuracy para validación   : {:.2f}".format(balanced_accuracy_score(y_test, model.predict(X_test))))

#### **Matriz de Confusion**

In [None]:
plt.figure(figsize=(14, 10), dpi= 80, facecolor='w', edgecolor='k')

plt.subplot(2, 2, 1)
plot_confusion_matrix(
    confusion_matrix(y_train, model.predict(X_train)),
    classes=np.unique(y),
    title='Matriz de confusión para entrenamiento (sin normalizar)'
)

plt.subplot(2, 2, 3)
plot_confusion_matrix(
    confusion_matrix(y_train, model.predict(X_train)),
    classes=np.unique(y),
    normalize=True,
    title='Matriz de confusión para entrenamiento (normalizando)'
)

plt.subplot(2, 2, 2)
plot_confusion_matrix(
    confusion_matrix(y_test, model.predict(X_test)),
    classes=np.unique(y),
    title='Matriz de confusión para validación (sin normalizar)'
)

plt.subplot(2, 2, 4)
plot_confusion_matrix(
    confusion_matrix(y_test, model.predict(X_test)),
    classes=np.unique(y),
    normalize=True,
    title='Matriz de confusión para validación (normalizando)'
)

plt.show()

---

**Comunicación de Resultados**

Se pide que toda esta información no quede plasmada solamente en un Jupyter Notebook, sino que se diagrame una comunicación en formato textual o interactivo (Google Docs, PDF o Markdown por ejemplo).

La comunicación debe estar apuntada a un público técnico pero sin conocimiento del tema particular, como por ejemplo, sus compañeros de clase.