# Introducción al Machine Learning

En los últimos años, el aprendizaje automático se ha dado a conocer por sus grandes logros, un ejemplo de esto, es el tan conocido clasificador de *Spam*. Aunque el aprendizaje automático ha cogido mucha fuerza en los últimos años, muchos de los algoritmos ya existían desde hace mucho tiempo.

Algo muy común es creer que el aprendizaje automático es Inteligencia Artificial, si bien es una rama de la inteligencia artificial, y existe una retroalimentación constante entre ML e IA, no todas las aplicaciones de ML terminan en IA.

**¿Que es Machine Learning?**

El Machine Learning es la ciencia (y el arte) de programar ordenadores para que aprendan a partir de los datos. Algunas definiciones:

* El ML es el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados de manera explícita. (**Arthur Samuel, 1959**)
* Se dice que un programa de ordenador aprende de la experiencia **E**, con respecto a una tarea **T** y una medida de rendimiento **R**, si su rendimiento en **T**, medido por **R**, mejora con la experiencia **E**. (**Tom Mitchell, 1997**)

## Tipos de aprendizaje

* Aprendizaje supervisado
    * Clasificación.
        * Clasificación binaria.
        * Clasificación multiclase.
    * Regresión.

* Aprendizaje no supervisado.
    * Clustering.
    * Reducción de la dimensionalidad.
    * Detección de anomalías.

* Aprendizaje semi-supervisado
* Aprendizaje por refuerzo

### Aprendizaje supervisado

Los algoritmos de aprendizaje supervisado están diseñados para aprender mediante ejemplos con sus respectivas respuestas. Contamos con datos de entrada, en general de forma estructurada, es decir, tenemos muchas observaciones con columnas (variables) y dentro de esos datos, existe una variable que queremos predecir. Por ejemplo, dadas ciertas características de mediciones queremos predecir si una persona tiene diabetes o no.

El flujo sel aprendizaje supervisado es así:

* Tomamos nuestros datos y separamos en variables independientes (predictoras) ***X***, y en una variable ***y*** que queremos predecir (variable dependiente).
* Mostramos pares *(x, y)* a un algoritmo preparado para aprender de nuestros datos, de forma tal que crea un conjunto de reglas o asociaciones para, dada una entrada ***x***, predecir ***y***.
* Cuando el modelo está entranado, queremos que el modelo haga una predicción sobre datos no observados.

Cuando nuestra variable de interés es una categoría, significa que tenemos un problema de **clasificación**. Si nuestra variable de interés es una variable numérica continua, tenemos un problema de **regresión**.

#### Clasificación

La clasificación es una subcategoría del aprendizaje supervisado en la que el objetivo es predecir una variable objetivo categórica (discreta, valores no observados).

Hay dos tipos princpales de clasificaciones:

* **Clasificación binaria**: Es un tipo de clasificación en el que tan solo se pueden asignar dos clases diferentes (0 o 1). Por ejemplo, la detección de spam, en la que cada email es: spam -> en cuyo caso será etiquetado con un 1; o no lo es -> etiquetado con un 0.

* **Clasificación Multi-clase**: Se pueden asignar múltiples categorías a las observaciones. Como el reconocimiento de caracteres de escritura manual de números (las clases van de 0 a 9).

Una forma gráfica de ver la clasificación:

![imagen tomada de medium.com](https://miro.medium.com/proxy/1*fBjniQPOKigqxYSKEumXoA.png)

##### Árboles de decisión

Un árbol de decisión es una estructura compuesta de nodos, ramas y hojas. Dada una instancia nueva, ésta es clasificada recorriendo el árbol de decisión: en cada nodo, el árbol hace una pregunta a la instancia sobre algunos de sus atributos. Según la respuesta a esta pregunta, deriva a la instancia por alguna de sus ramas, donde puede ocurrir que aparezca otro nodo -otra pregunta- o que termine en una hoja. La hoja contiene la etiqueta que le corresponde a esa instancia, finalizando su recorrido en el árbol.

Suponga que se desea clasificar, con la menor cantidad de preguntas posibles, los siguientes cuatro animales: Águila (Hawk), Pingüino (Penguin), Delfín (Dolphin) y Oso (Bear). Tan solo haciendo tres preguntas, en dos niveles, es posible identificar a que animal corresponde. Observe el siguiente diagrama.

![imagen tomada del GitHub](https://github.com/stivenlopezg/Diplomado-Python/blob/master/imagenes/animals.png")

In [1]:
import warnings
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import make_column_transformer
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score

warnings.filterwarnings(action='ignore')

In [2]:
churn = pd.read_csv('../data/Churn_Modelling.csv', index_col=0, dtype={'CustomerId': object})
churn.sample(4)

Unnamed: 0_level_0,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
RowNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
4691,15681990,Palmerston,497,Germany,Male,24,6,111769.14,2,1,0,55859.27,0
707,15776231,Kent,626,Germany,Male,35,4,88109.81,1,1,1,32825.5,0
8874,15810839,Rogers,610,France,Male,34,0,103108.17,1,0,0,125646.82,0
3922,15743871,Nkemdirim,567,France,Male,59,3,0.0,2,1,0,25843.7,1


In [3]:
churn.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 1 to 10000
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CustomerId       10000 non-null  object 
 1   Surname          10000 non-null  object 
 2   CreditScore      10000 non-null  int64  
 3   Geography        10000 non-null  object 
 4   Gender           10000 non-null  object 
 5   Age              10000 non-null  int64  
 6   Tenure           10000 non-null  int64  
 7   Balance          10000 non-null  float64
 8   NumOfProducts    10000 non-null  int64  
 9   HasCrCard        10000 non-null  int64  
 10  IsActiveMember   10000 non-null  int64  
 11  EstimatedSalary  10000 non-null  float64
 12  Exited           10000 non-null  int64  
dtypes: float64(2), int64(7), object(4)
memory usage: 1.1+ MB


In [4]:
mapper = {0: 'No', 1: 'Si'}

for column in ['HasCrCard', 'IsActiveMember']:
    churn[column] = churn[column].map(mapper)

In [5]:
churn.describe()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,650.5288,38.9218,5.0128,76485.889288,1.5302,100090.239881,0.2037
std,96.653299,10.487806,2.892174,62397.405202,0.581654,57510.492818,0.402769
min,350.0,18.0,0.0,0.0,1.0,11.58,0.0
25%,584.0,32.0,3.0,0.0,1.0,51002.11,0.0
50%,652.0,37.0,5.0,97198.54,1.0,100193.915,0.0
75%,718.0,44.0,7.0,127644.24,2.0,149388.2475,0.0
max,850.0,92.0,10.0,250898.09,4.0,199992.48,1.0


In [6]:
churn.describe(exclude='number')

Unnamed: 0,CustomerId,Surname,Geography,Gender,HasCrCard,IsActiveMember
count,10000,10000,10000,10000,10000,10000
unique,10000,2932,3,2,2,2
top,15689201,Smith,France,Male,Si,Si
freq,1,32,5014,5457,7055,5151


In [7]:
churn['Exited'].value_counts(normalize=True)

0    0.7963
1    0.2037
Name: Exited, dtype: float64

In [8]:
exited = churn.pop('Exited')

train_data, test_data, train_label, test_label = train_test_split(churn, exited,
                                                                  test_size=0.3,
                                                                  random_state=42,
                                                                  stratify=exited)

In [9]:
numerical_features = ['CreditScore', 'Age', 'Tenure',
                      'Balance', 'NumOfProducts', 'EstimatedSalary']

categorical_features = ['Geography', 'Gender', 'HasCrCard', 'IsActiveMember']

preprocessor = make_column_transformer((StandardScaler(), numerical_features),
                                       (OneHotEncoder(handle_unknown='ignore',
                                                      sparse=False), categorical_features), remainder='drop')

dtree = make_pipeline(preprocessor, DecisionTreeClassifier(criterion='gini',
                                                           max_depth=4,
                                                           random_state=42))

dtree.fit(train_data, train_label)

print(f'La Exactitud en los datos de entrenamiento es: {dtree.score(train_data, train_label)}')

La Exactitud en los datos de entrenamiento es: 0.8495714285714285


##### Random Forest

El Random Forest es un método de ensamble, estos métodos unen diferentes tipos de algoritmos o el mismo algoritmo múltiples veces con el fin de crear un predictor más robusto.

El Random Forest es un ensamble de árboles de decisión en el cual en el entrenamiento se realiza usando bootstraping, y la decisión final se toma con el valor más frecuente (clasificación) o el promedio (regresión) de las predicciones de cada árbol.

![](http://www.globalsoftwaresupport.com/wp-content/uploads/2018/02/ggff5544hh.png)

In [10]:
random_forest = make_pipeline(preprocessor, RandomForestClassifier(n_estimators=100,
                                                                   max_depth=4,
                                                                   n_jobs=-1,
                                                                   random_state=42))
random_forest.fit(train_data, train_label)

print(f'La exactitud en los datos de entrenamiento es: {random_forest.score(train_data, train_label)}')

La exactitud en los datos de entrenamiento es: 0.836


#### ¿Cómo medimos el desempeño de nuestro modelo?

##### Matriz de confusión

La matriz de confusión de un problema de ***n*** clases, es una matriz **nxn** en la que las filas se nombran según las clases reales y las columnas, según las clases previstas por el modelo.

Sin embargo, hay otras formas de resumir una matriz de confusión.

* **Exactitud**, mide la fracción de muestras clasificadas correctamente:

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

* **Precision**, mide cuántas de las muestras predichas como positivas son realmente positivas:

$$\text{Precision} = \frac{TP}{TP + FP}$$

La precisión se utiliza como una métrica de rendimiento cuando el objetivo es limitar el número de falsos positivos.

* **Recall**, mide cuántas de las muestras positivas son capturadas por las predicciones positivas:

$$\text{Recall} = \frac{TP}{TP + FN}$$

El recall se utiliza como métrica de rendimiento cuando necesitamos identificar todas las muestras positivas; es decir, cuando es importante evitar falsos negativos.

* **Puntaje F**, es la media armónica entre *Precision* y *Recall*:

$$f = 2  \frac{\text{Precisión}*\text{Exhaustividad}}{\text{Precisión}+\text{Exhaustividad}}$$

In [11]:
class ModelEvaluation:
    def __init__(self, observed: pd.Series or list, predicted: pd.Series or list):
        self.observed = observed
        self.predicted = predicted
        self.metrics = None

    def generate_report(self):
        report = np.round(pd.DataFrame(classification_report(y_true=self.observed,
                                                            y_pred=self.predicted, output_dict=True)), 2).T
        return report

    def confusion_matrix(self, normalize: bool = True):
        if normalize:
            cm = np.round(pd.crosstab(index=self.observed, columns=self.predicted,
                                      rownames=['Observed'], colnames=['Predicted'], normalize='index'), 2)
        else:
            cm = np.round(pd.crosstab(index=self.observed, columns=self.predicted,
                                      rownames=['Observed'], colnames=['Predicted']), 2)
        return cm

    def calculate_metrics(self):
        self.metrics = {'accuracy': np.round(accuracy_score(y_true=self.observed, y_pred=self.predicted), 2),
            'precision': np.round(precision_score(y_true=self.observed, y_pred=self.predicted), 2),
            'recall': np.round(recall_score(y_true=self.observed, y_pred=self.predicted), 2),
            'f1': np.round(f1_score(y_true=self.observed, y_pred=self.predicted), 2)}
        return self.metrics

    def print_metrics(self):
        print(f'La exactitud es: {self.metrics["accuracy"]}')
        print(f'La precision es: {self.metrics["precision"]}')
        print(f'El recall es: {self.metrics["recall"]}')
        print(f'El puntaje F es: {self.metrics["f1"]}')

##### Búsqueda de los mejores hiperparametros

Para hallar los mejores hiperparametros podemos usar las clases ***GridSearchCV*** o ***RandomSearchCV***.

In [12]:
evaluation_dtree = ModelEvaluation(observed=test_label, predicted=dtree.predict(test_data))

evaluation_dtree.calculate_metrics()
evaluation_dtree.print_metrics()
evaluation_dtree.confusion_matrix(normalize=True)

La exactitud es: 0.86
La precision es: 0.74
El recall es: 0.44
El puntaje F es: 0.55


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.96,0.04
1,0.56,0.44


In [13]:
evaluation_rf = ModelEvaluation(observed=test_label, predicted=random_forest.predict(test_data))

evaluation_rf.calculate_metrics()
evaluation_rf.print_metrics()
evaluation_rf.confusion_matrix()

La exactitud es: 0.84
La precision es: 0.92
El recall es: 0.22
El puntaje F es: 0.36


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.99,0.01
1,0.78,0.22


### Búsqueda de los mejores hiperparametros

Para hallar los mejores hiperparametros podemos usar las clases ***GridSearchCV*** o ***RandomSearchCV***.

In [14]:
params = {
    'decisiontreeclassifier__criterion': ['gini', 'entropy'],
    'decisiontreeclassifier__max_depth': [3, 5],
    'decisiontreeclassifier__class_weight': [None, 'balanced']
}

dtree = make_pipeline(preprocessor, DecisionTreeClassifier(random_state=42))

dtree_cv = RandomizedSearchCV(estimator=dtree, param_distributions=params,
                              scoring='recall', n_jobs=-1, cv=2, random_state=42)

dtree_cv.fit(train_data, train_label)

RandomizedSearchCV(cv=2,
                   estimator=Pipeline(steps=[('columntransformer',
                                              ColumnTransformer(transformers=[('standardscaler',
                                                                               StandardScaler(),
                                                                               ['CreditScore',
                                                                                'Age',
                                                                                'Tenure',
                                                                                'Balance',
                                                                                'NumOfProducts',
                                                                                'EstimatedSalary']),
                                                                              ('onehotencoder',
                                                         

In [15]:
evaluation_dtree_cv = ModelEvaluation(observed=test_label, predicted=dtree_cv.predict(test_data))

evaluation_dtree_cv.calculate_metrics()
evaluation_dtree_cv.print_metrics()
evaluation_dtree_cv.confusion_matrix()

La exactitud es: 0.76
La precision es: 0.45
El recall es: 0.8
El puntaje F es: 0.57


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.75,0.25
1,0.2,0.8


In [16]:
params = {
    'decisiontreeclassifier__criterion': ['gini', 'entropy'],
    'decisiontreeclassifier__max_depth': [3, 5],
    'decisiontreeclassifier__class_weight': [None, 'balanced']
}

dtree = make_pipeline(preprocessor, DecisionTreeClassifier(random_state=42))

dtree_cv = GridSearchCV(estimator=dtree, param_grid=params,
                        scoring='recall', n_jobs=-1, cv=2)

dtree_cv.fit(train_data, train_label)

GridSearchCV(cv=2,
             estimator=Pipeline(steps=[('columntransformer',
                                        ColumnTransformer(transformers=[('standardscaler',
                                                                         StandardScaler(),
                                                                         ['CreditScore',
                                                                          'Age',
                                                                          'Tenure',
                                                                          'Balance',
                                                                          'NumOfProducts',
                                                                          'EstimatedSalary']),
                                                                        ('onehotencoder',
                                                                         OneHotEncoder(handle_unknown='ignore',
           

In [17]:
evaluation_dtree_cv = ModelEvaluation(observed=test_label, predicted=dtree_cv.predict(test_data))

evaluation_dtree_cv.calculate_metrics()
evaluation_dtree_cv.print_metrics()
evaluation_dtree_cv.confusion_matrix()

La exactitud es: 0.76
La precision es: 0.45
El recall es: 0.8
El puntaje F es: 0.57


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.75,0.25
1,0.2,0.8


In [18]:
dtree_cv.best_params_


{'decisiontreeclassifier__class_weight': 'balanced',
 'decisiontreeclassifier__criterion': 'entropy',
 'decisiontreeclassifier__max_depth': 5}