## Desafío - Máquinas de Soporte Vectorial 
- Para realizar este desafío debes haber estudiado previamente todo el material
  disponibilizado correspondiente a la unidad.
- Una vez terminado el desafío, comprime la carpeta  que contiene el desarrollo de los
  requerimientos solicitados y sube el .zip en el LMS.
- Desarrollo desafío:
  - El desafío se debe desarrollar de manera Individual
  - Para la realización del desafío necesitarás apoyarte del archivo Apoyo Desafío
  - Máquinas de Soporte Vectorial.
  
### Requerimientos
Para esta sesión trabajaremos con la base de datos sobre cáncer mamario de Wisconsin. El
objetivo es desarrollar un Clasificador mediante Máquinas de Soporte de Vectores que
predica de forma adecuada en base a una serie de atributos sobre la composición del
núcleo de una célula mamaria. Para más detalles técnicos asociados a la base de datos,
pueden hacer click en el link.

### Ejercicio 1: Preparar el ambiente de trabajo
- Importe todas las librerías a utilizar.
- Fije los parámetros de los gráficos con plt.Rcparams.
- Excluya las columnas id y Unnamed: 32 de la base de datos.
- Decodifique el vector objetivo diagnosis numérico para poder procesarlo
  posteriormente.

In [1]:
# Triada clasica y graficas seaborn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Modulos especializados de matplotlib
from matplotlib.gridspec import GridSpec

# Machine Learning
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler

from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score

# Tratamiento de warnings e importacion de funciones
import warnings
import lec5_graphs as afx

plt.style.use('seaborn-whitegrid')
plt.rcParams['figure.figsize'] = (6, 6)
warnings.filterwarnings('ignore')

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
df = pd.read_csv('Datasets/breast_cancer.csv').drop(columns = ['id', 'Unnamed: 32'])
df.head()

In [None]:
df.describe()

In [None]:
df['diagnosis'].value_counts()

In [None]:
df['diagnosis'].value_counts('%')

In [None]:
df['diagnosis'] = df['diagnosis'].replace(['B', 'M'],[1, -1])
df['diagnosis'].value_counts()

In [None]:
sns.countplot(x = df['diagnosis'])
plt.title(f'Distribución para variable objetivo: diagnosis')
plt.show()

### Ejercicio 2: Visualizando la distribución de los atributos
- Para cada uno de los atributos, grafique los histogramas condicional a cada clase del
  vector objetivo.
- Agregue las medias correspondientes y reporte a grandes rasgos cuáles son los
  atributos con una mayor similitud en la distribución.

In [None]:
plt.figure(figsize = (20, 20))

columnas = df.drop(columns = 'diagnosis').columns

plt.figure(figsize=(25,15))
for i, colname in enumerate(columnas):
        plt.subplot(6,5,i+1)
        plt.title(colname)
        unos = df[df['diagnosis'] == 1][colname]
        menos_unos = df[df['diagnosis'] == -1][colname]
        plt.hist(unos, label='1' , alpha=.6)
        plt.axvline(unos.mean(), ls='--', label='media de clase 1')
        plt.hist(menos_unos, label='-1', alpha=.6)
        plt.axvline(menos_unos.mean(), ls='--', label='media de clase -1', color='orange')
        plt.legend()

In [None]:
df.shape

### Ejercicio 3: Estimando el porcentaje de overlap en los atributos
- Parte de las virtudes de las Máquinas de Soporte Vectorial es la capacidad de lidiar
  con clases no separables mediante el proceso de kernelización. Resulta que un
  aspecto importante que muchas veces se obvia es medir la noseparabilidad de los
  atributos, condicional a cada clase del vector objetivo.
  
- El procedimiento para estimar el rango de noseparabilidad entre clases se
  implementa en Python de la siguiente manera

In [None]:
def histogram_overlap(df, attribute, target, perc=100):
        # get lower bound
        empirical_lower_bound = np.floor(df[attribute].min())
        # get upper bound
        empirical_upper_bound = np.ceil(df[attribute].max())
        # preserve histograms
        tmp_hist_holder = dict()
        # for each target class
        tar_values = df[target].unique()
        for unique_value in tar_values:
                # get histogram
                tmp, _ = np.histogram(
                        df[df[target] == unique_value][attribute],   # for a specific attribute
                        bins=perc,   # define percentage
                        range=[empirical_lower_bound, empirical_upper_bound]   # limit empirical range for comparison
)
        # append to dict
                tmp_hist_holder[f"h_{unique_value}"] = tmp
        get_minima = np.minimum(
                tmp_hist_holder[f"h_{tar_values[0]}"],
                tmp_hist_holder[f"h_{tar_values[1]}"]
        )
        intersection = np.true_divide(
                np.sum(get_minima),
                np.sum(tmp_hist_holder[f"h_{tar_values[0]}"])
        )
        return intersection

In [None]:
df_overlaping = pd.DataFrame([[colname, histogram_overlap(df, colname, 'diagnosis')] for colname in columnas], columns=['columna', 'overlap_coef']).sort_values(by='overlap_coef', ascending=False)
df_overlaping.head()

- La intersección devolverá el porcentaje de comunalidad entre ambas clases, donde
  mayores niveles indican una mayor comunalidad.
- Utilizando la función, generará un data frame donde almacenará el nombre del
  atributo y su porcentaje. Ordene este data frame de forma descendente y preserve.

### Ejercicio 4: Selección del modelo por GridSearchCV
- Entrene una serie de modelos SVC con los siguientes hiper parámetros:
  - C: [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000].
  - gamma: [0.0000001, 0.0001, 0.001, 0.01, 0.1, 1, 10].
  - Validaciones cruzadas: 10.
- Genere un heatmap en base a los puntajes estimados con GridSearchCV.

Tip: Vea cómo acceder a la llave mean_test_score en el diccionario cv_results_.

#### Digresión: Un par de elementos a considerar en la implementación de GridSearchCV.
Si trabajamos con sklearn.model_selection.GridSearchCV, tan solo haciendo la
división en dos muestras es suficiente, incorporando los conjuntos X_train y y_train a
nuestro objeto instanciado y preservando X_test e y_test como una muestra de validación
externa. Si tenemos un archivo de testing externo, se recomienda no hacer división.

- El objeto creado con sklearn.model_selection.GridSearchCV sigue la misma
  funcionalidad de cualquier método de estimación de scikit-learn, con los pasos
  de Instanciar y Entrenar. Este objeto tendrá muchos elementos a considerar:
  - sklearn.model_selection.GridSearchCV.cv_results_ devolverá un
    diccionario donde las llaves representarán distintas métricas y los valores
    representarán el desempeño de cada modelo.
  - split: Indicará la métrica específica en cada validación cruzada y
    combinación de hiper parámetros.
  - time: Indicará el tiempo de ejecución en cada modelo.
  - Por lo general trabajaremos con mean_test_score y mean_train_score que
    representa la media de CV para cada combinación de hiper parámetros.
  - sklearn.model_selection.GridSearchCV.best_estimator_ devuelve un
    modelo listo para entrenar con la mejor combinación de hiper parámetros.
  - sklearn.model_selection.GridSearchCV.best_score_ devuelve el
    desempeño promedio del modelo en el testing interno. Si es un problema de
    clasificación devolverá Accuracy, si es un problema de regresión devolverá
    MSE.
- Reporte en qué rango de cada hiper parámetro el modelo presenta un desempeño
  eficiente. Reporte la mejor combinación de hiper parámetros y el desempeño en la
  muestra de entrenamiento.

In [None]:
# Dividimos las muestras
X = df.drop(columns='diagnosis')
y = df['diagnosis']
X_train_pre, X_test_pre, y_train, y_test = train_test_split(X, y, test_size = .33, random_state = 15820)
scaler = StandardScaler().fit(X_train_pre)
X_train = scaler.transform(X_train_pre)
X_test = scaler.transform(X_test_pre)

In [None]:
modelo = SVC(kernel = 'rbf')

In [None]:
hiper_parametros = {'C':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000], 'gamma':[0.0000001, 0.0001, 0.001, 0.01, 0.1, 1, 10]}

In [None]:
grilla =  GridSearchCV(modelo, hiper_parametros, cv = 10, return_train_score = True)

In [None]:
grilla.fit(X_train, y_train)

In [None]:
grilla.best_score_

In [None]:
grilla.cv_results_['mean_test_score']

In [None]:
df_resultados = pd.DataFrame(grilla.cv_results_['mean_test_score'].reshape(len(grilla.param_grid['C']),len(grilla.param_grid['gamma'])))

In [None]:
df_resultados.columns = grilla.param_grid['gamma']
df_resultados.index = grilla.param_grid['C']

In [None]:
sns.heatmap(df_resultados, annot = True, cmap='Blues')
plt.xlabel('gamma', fontsize=15)
plt.ylabel('C', fontsize=15)

In [None]:
grilla.param_grid

In [None]:
def report_heatmaps(cv_trained):
        plt.figure(figsize=(10, 10))
        param1 = tuple(cv_trained.param_grid.keys())[0]
        param2 = tuple(cv_trained.param_grid.keys())[1]
        
        # Mejores parámetros subconjuntos para test
        plt.subplot(1, 2, 1)
        sns.heatmap(
        cv_trained.cv_results_['mean_test_score'].reshape(len(cv_trained.param_grid[param1]), len(cv_trained.param_grid[param2])),
        cmap='Blues',
        annot=True,
        xticklabels=cv_trained.param_grid[param2],
        yticklabels=cv_trained.param_grid[param1],
        cbar=False
        )
        
        plt.ylabel(param1)
        plt.xlabel(param2)
        plt.title('Test CV')
        
        # Mejores parámetros subconjuntos para train
        plt.subplot(1, 2, 2)
        sns.heatmap(
        cv_trained.cv_results_['mean_train_score'].reshape(len(cv_trained.param_grid[param1]), len(cv_trained.param_grid[param2])),
        cmap='Blues',
        annot=True,
        xticklabels=cv_trained.param_grid[param2],
        yticklabels=cv_trained.param_grid[param1],
        cbar=False
        )
        
        plt.ylabel(param1)
        plt.xlabel(param2)
        plt.title('Train CV')
        plt.tight_layout()

In [None]:
report_heatmaps(grilla)

In [None]:
print(f'''
Mejores hiper parametros: {grilla.best_params_}
Mejor puntaje: {grilla.best_score_}''')

### Ejercicio 5: Validación del modelo en el Test set sample
- Genere las predicciones del Test set sample en base a la mejor combinación de hiper
  parámetros. Genere un reporte con las métricas de desempeño clásicas para los
  modelos de clasificación. Comente en qué casos el modelo presenta un desempeño
  deficiente.

In [None]:
y_hat = grilla.best_estimator_.predict(X_test)

In [None]:
print(classification_report(y_test, y_hat))

### Ejercicio (opcional): Depuración de atributos
- Reentrene el modelo en función de los atributos que presenten un coeficiente de
  overlap menor a .45.
- Reporte el desempeño del modelo y comente sobre los nuevos hiper parámetros
  estimados, así como su desempeño en comparación al modelo del ejercicio 5.


In [None]:
type(grilla.best_score_)

In [None]:
df_overlaping.head()

In [None]:
for (label, content) in df_overlaping.iteritems():
    print('Nombre de la columna: ', label)
    print('Contenido de la columna: ', content.values)

In [None]:
df_menores = df[['compactness_worst', 'perimeter_se', 'radius_se', 'concavity_worst', 'area_se', 'radius_mean', 'concavity_mean',
'area_mean', 'perimeter_mean', 'concave points_worst', 'concave points_mean', 'radius_worst', 'perimeter_worst', 'area_worst']]
df_menores.head()

In [None]:
# Dividimos las muestras
X = df_menores
y = df['diagnosis']
X_train_pre, X_test_pre, y_train, y_test = train_test_split(X, y, test_size = .33, random_state = 15820)
scaler = StandardScaler().fit(X_train_pre)
X_train = scaler.transform(X_train_pre)
X_test = scaler.transform(X_test_pre)

In [None]:
modelo_menores = SVC(kernel = 'rbf')

In [None]:
hiper_parametros_menores = {'C':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000], 'gamma':[0.0000001, 0.0001, 0.001, 0.01, 0.1, 1, 10]}

In [None]:
grilla_menores =  GridSearchCV(modelo, hiper_parametros, cv = 10, return_train_score = True)

In [None]:
grilla_menores.fit(X_train, y_train)

In [None]:
grilla.best_score_

In [None]:
grilla_menores.cv_results_['mean_test_score']

In [None]:
df_resultados_menores = pd.DataFrame(grilla_menores.cv_results_['mean_test_score'].reshape(len(grilla_menores.param_grid['C']),len(grilla_menores.param_grid['gamma'])))

In [None]:
df_resultados_menores.columns = grilla.param_grid['gamma']
df_resultados_menores.index = grilla.param_grid['C']

In [None]:
sns.heatmap(df_resultados_menores, annot = True, cmap='Blues')
plt.xlabel('gamma', fontsize=15)
plt.ylabel('C', fontsize=15)

In [None]:
report_heatmaps(grilla_menores)

In [None]:
y_hat_menores = grilla_menores.best_estimator_.predict(X_test)

In [None]:
# Resultados del modelo con todas las variables
print(classification_report(y_test, y_hat))

In [None]:
# Resultados del modelo solo con variables con coeficiente overlap menor a .45
print(classification_report(y_test, y_hat_menores))