# Machine Learning Workshop
## Ejercicio - Breast Cancer Diagnosis
Dataset: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data<br>
Tarea: Preprocesamiento de un conjunto de datos de cancer de mama y entrenamiento de un modelo de Machine Learning para diagnosticar la enfermedad.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

# | remove max column restriction for printing DataFrames (default=20)
pd.options.display.max_columns = None 

In [None]:
dataset_path = '../Datasets/breast-cancer.csv'

### 1. Preprocessing

<b> 1a) </b> Lea el archivo CSV <i> breast-cancer.csv </i> con pandas y guárdelo en un DataFrame.

<b> 1b) </b> Hay columnas que no necesitamos para el entrenamiento del modelo?  Si es el caso, eliminalos (Hint: <code>DataFrame.drop()</code>)

<b> 1c) </b> La columna "diagnosis" indica si una persona tiene cancer ('M') o no ('B'). Vamos a usar esta columna como label para entrenar nuestro modelo. Pero para usar las funciones de scikit-learn, necesitamos convertirlo a una columna numerica, i.e. 'B' -> 0, 'M' -> 1. <br>(Hint: <code>df['diagnosis'] = df['diagnosis'].map(...)</code> https://pandas.pydata.org/pandas-docs/stable//reference/api/pandas.Series.map.html)

<b> 1d) </b> Calculando los contados de los dos clases 'B' & 'M' observamos que hay mas ejemplos de la clase 'B' (personas sanas) que de la clase 'M' (personas con cancer). Unos modelos de Machine Learning no funcionan bien si el training set es desbalanceado. Usa el siguiente codigo para balancear el dataset y trata de entenderlo.

In [None]:
# | calcular los contados de los dos clases
print(df['diagnosis'].value_counts())

In [None]:
# | shuffle
df = df.sample(frac=1)

# | class balancing
g = df.groupby('diagnosis')
df = g.apply(lambda x: x.sample(g.size().min())).reset_index(drop=True)

<b> 1e) </b> Divide el DataFrame en dos DataFrames nuevos <code>X, y</code>, donde <code>y</code> contiene los Labels (columna "diagnosis), y <code>X</code> las otras columnas (Features).

In [None]:
label_name = "diagnosis"


<b> 1f) </b> Aplica estandarización a los features (X). Recuerde: El objetivo de la estandarización es cambiar los valores de las columnas numéricas en el conjunto de datos a una escala común. (Hint: <code>df.mean(), df.std()</code>)<br>
\begin{equation*}
x = \frac{x-\mu}{\sigma}
\end{equation*}

<b> 1f) </b> Divide el dataset en un training set (70%) y un test set (30%). Puedes usar la funcion <code>train_test_split()</code> de scikit-learn o hacerlo de forma manual con Indexing https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html. <br>

Al fin deberias tener cuatro nuevos variables: <br>
- X_train : Training features
- y_train : Training labels
- X_test : Test features
- y_test : Test labels

In [None]:
from sklearn.model_selection import train_test_split


## 2. Machine Learning

### Training

<b> 2a) </b> Ahora los datos estan listos para entrenar nuestro primero modelo. Entrena un modelo Random Forest, usando la clase <code>RandomForestClassifier</code> de scikit-learn (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

In [None]:
from sklearn.ensemble import RandomForestClassifier


### Prediction & Evaluation

<b> 2b) </b> Usa <code>model.predict()</code> para calcular las predicciones en el test-set. Despues calcula el porcentaje de las predicciones correctas ("Accuracy"). (Hint: Puedes usar la funcion <code>accuracy_score</code> de scikit-learn https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html, o calcularlo de forma manual). Si te da un valor mayor a 90%, has hecho todo bien, si te da un valor menor revisa tu codigo o pregunta el mentor antes de seguir.

In [None]:
from sklearn.metrics import accuracy_score


<b> 2c) </b> Evalua tu modelo usando <code>cross_val_score(..., scoring='accuracy')</code> con 5 dataset splits (cv=5), y calcula la media y la desviacion estándar de los resultados (con numpy) (https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html). Defina una nueva variable de modelo e inicialícela con un nuevo RandomForestClassifier antes de usar <code>cross_val_score</code>, para no usar el mismo modelo que ya has entrenado!

In [None]:
from sklearn.model_selection import cross_val_score
import numpy as np


### Model Selection & Grid Search

<b> 2d) </b> Compara los modelos <code>RandomForestClassifier, KNeighborsClassifier, SVC</code>. Cual funciona mejor? Intenta entrenarlas con diferentes parametros y observa si mejoran los resultados.<br>
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html <br>
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html <br>
https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

Hint: En el siguiente encontrarás los parametros mas relevantes de estos modelos:

- RandomForestClassifier(): n_estimators, criterion, max_depth
- KNeighborsClassifier(): n_neighbors, weights, algorithm
- SVC(): C, kernel, degree, gamma

In [None]:
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier


<b> 2e) </b> Seguramente te has dado cuenta que hay muchos diferentes combinaciones posibles de parametros. Cambiarlos a mano cada vez que se entrena un nuevo modelo no es muy efectivo. Scikit-learn tiene una funcion que ayuda a accelerar este processo: <code>GridSearchCV</code> hace una búsqueda exhaustiva sobre los valores de parámetros especificados.
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

Hint:
Es importante no escoger demasiados parametros. Para cada combinacion de parametros se entrena un nuevo modelo, si lo corremos con milles de combinaciones diferentes, este proceso puede demorar mucho tiempo, dependiendo del modelo y del tamano del dataset.<br>

In [None]:
from sklearn.model_selection import GridSearchCV
