<a href="https://colab.research.google.com/github/jhonda18/Python3/blob/main/Clase_10_20210626.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción al Machine Learning

En los últimos años, el aprendizaje automático se ha dado a conocer por sus grandes logros, un ejemplo de esto, es el tan conocido clasificador de *Spam*. Aunque el aprendizaje automático ha cogido mucha fuerza en los últimos años, muchos de los algoritmos ya existían desde hace mucho tiempo.

Algo muy común es creer que el aprendizaje automático es Inteligencia Artificial, si bien es una rama de la inteligencia artificial, y existe una retroalimentación constante entre ML e IA, no todas las aplicaciones de ML terminan en IA.

**¿Que es Machine Learning?**

El Machine Learning es la ciencia (y el arte) de programar ordenadores para que aprendan a partir de los datos. Algunas definiciones:

* El ML es el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados de manera explícita. (**Arthur Samuel, 1959**)
* Se dice que un programa de ordenador aprende de la experiencia **E**, con respecto a una tarea **T** y una medida de rendimiento **R**, si su rendimiento en **T**, medido por **R**, mejora con la experiencia **E**. (**Tom Mitchell, 1997**)

## Tipos de aprendizaje

* Aprendizaje supervisado
    * Clasificación.
        * Clasificación binaria.
        * Clasificación multiclase.
    * Regresión.

* Aprendizaje no supervisado.
    * Clustering.
    * Reducción de la dimensionalidad.
    * Detección de anomalías.

* Aprendizaje semi-supervisado
* Aprendizaje por refuerzo

### Aprendizaje supervisado

Los algoritmos de aprendizaje supervisado están diseñados para aprender mediante ejemplos con sus respectivas respuestas. Contamos con datos de entrada, en general de forma estructurada, es decir, tenemos muchas observaciones con columnas (variables) y dentro de esos datos, existe una variable que queremos predecir. Por ejemplo, dadas ciertas características de mediciones queremos predecir si una persona tiene diabetes o no.

El flujo sel aprendizaje supervisado es así:

* Tomamos nuestros datos y separamos en variables independientes (predictoras) ***X***, y en una variable ***y*** que queremos predecir (variable dependiente).
* Mostramos pares *(x, y)* a un algoritmo preparado para aprender de nuestros datos, de forma tal que crea un conjunto de reglas o asociaciones para, dada una entrada ***x***, predecir ***y***.
* Cuando el modelo está entranado, queremos que el modelo haga una predicción sobre datos no observados.

Cuando nuestra variable de interés es una categoría, significa que tenemos un problema de **clasificación**. Si nuestra variable de interés es una variable numérica continua, tenemos un problema de **regresión**.

#### Clasificación

La clasificación es una subcategoría del aprendizaje supervisado en la que el objetivo es predecir una variable objetivo categórica (discreta, valores no observados).

Hay dos tipos princpales de clasificaciones:

* **Clasificación binaria**: Es un tipo de clasificación en el que tan solo se pueden asignar dos clases diferentes (0 o 1). Por ejemplo, la detección de spam, en la que cada email es: spam -> en cuyo caso será etiquetado con un 1; o no lo es -> etiquetado con un 0.

* **Clasificación Multi-clase**: Se pueden asignar múltiples categorías a las observaciones. Como el reconocimiento de caracteres de escritura manual de números (las clases van de 0 a 9).

Una forma gráfica de ver la clasificación:

![imagen tomada de medium.com](https://miro.medium.com/proxy/1*fBjniQPOKigqxYSKEumXoA.png)

##### Árboles de decisión

Un árbol de decisión es una estructura compuesta de nodos, ramas y hojas. Dada una instancia nueva, ésta es clasificada recorriendo el árbol de decisión: en cada nodo, el árbol hace una pregunta a la instancia sobre algunos de sus atributos. Según la respuesta a esta pregunta, deriva a la instancia por alguna de sus ramas, donde puede ocurrir que aparezca otro nodo -otra pregunta- o que termine en una hoja. La hoja contiene la etiqueta que le corresponde a esa instancia, finalizando su recorrido en el árbol.

Suponga que se desea clasificar, con la menor cantidad de preguntas posibles, los siguientes cuatro animales: Águila (Hawk), Pingüino (Penguin), Delfín (Dolphin) y Oso (Bear). Tan solo haciendo tres preguntas, en dos niveles, es posible identificar a que animal corresponde. Observe el siguiente diagrama.

![imagen tomada del GitHub](https://github.com/stivenlopezg/Modulo-Python-3/blob/master/imagenes/animals.png")



In [None]:
import joblib
import warnings
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder, RobustScaler
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score

pd.set_option('float_format', '{:.2f}'.format)
warnings.filterwarnings(action='ignore')

In [None]:
churn = pd.read_csv("https://raw.githubusercontent.com/stivenlopezg/Modulo-Python-3/master/data/churn-modeling.csv",
                    dtype={"CustomerId": "category"})
churn.head()

Unnamed: 0,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,15634602,Hargrave,619,France,Female,42,2,0.0,1,Yes,Yes,101348.88,1
1,15647311,Hill,608,Spain,Female,41,1,83807.86,1,No,Yes,112542.58,0
2,15619304,Onio,502,France,Female,42,8,159660.8,3,Yes,No,113931.57,1
3,15701354,Boni,699,France,Female,39,1,0.0,2,No,No,93826.63,0
4,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,Yes,Yes,79084.1,0


In [None]:
churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   CustomerId       10000 non-null  category
 1   Surname          10000 non-null  object  
 2   CreditScore      10000 non-null  int64   
 3   Geography        9980 non-null   object  
 4   Gender           10000 non-null  object  
 5   Age              10000 non-null  int64   
 6   Tenure           10000 non-null  int64   
 7   Balance          10000 non-null  float64 
 8   NumOfProducts    10000 non-null  int64   
 9   HasCrCard        10000 non-null  object  
 10  IsActiveMember   10000 non-null  object  
 11  EstimatedSalary  9988 non-null   float64 
 12  Exited           10000 non-null  int64   
dtypes: category(1), float64(2), int64(5), object(5)
memory usage: 1.3+ MB


In [None]:
churn.drop(labels=["Exited"], axis=1).describe()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,EstimatedSalary
count,10000.0,10000.0,10000.0,10000.0,10000.0,9988.0
mean,650.53,38.92,5.01,76485.89,1.53,100066.91
std,96.65,10.49,2.89,62397.41,0.58,57519.99
min,350.0,18.0,0.0,0.0,1.0,11.58
25%,584.0,32.0,3.0,0.0,1.0,50910.68
50%,652.0,37.0,5.0,97198.54,1.0,100185.24
75%,718.0,44.0,7.0,127644.24,2.0,149388.25
max,850.0,92.0,10.0,250898.09,4.0,199992.48


In [None]:
churn.describe(exclude="number")

Unnamed: 0,CustomerId,Surname,Geography,Gender,HasCrCard,IsActiveMember
count,10000,10000,9980,10000,10000,10000
unique,10000,2932,3,2,2,2
top,15815690,Smith,France,Male,Yes,Yes
freq,1,32,5008,5457,7055,5151


In [None]:
churn["Exited"].value_counts()

0    7963
1    2037
Name: Exited, dtype: int64

In [None]:
exited = churn.pop("Exited")

train_data, test_data, train_label, test_label = train_test_split(churn, exited,
                                                                  test_size=0.3,
                                                                  stratify=exited, random_state=42)

test_data, new_data, test_label, new_label = train_test_split(test_data, test_label,
                                                              test_size=0.3,
                                                              stratify=test_label, random_state=42)

print(f"El set de entrenamiento tiene {train_data.shape[0]} observaciones, y {train_data.shape[1]} variables.")
print(f"El set de prueba tiene {test_data.shape[0]} observaciones, y {test_data.shape[1]} variables.")

El set de entrenamiento tiene 7000 observaciones, y 12 variables.
El set de prueba tiene 2100 observaciones, y 12 variables.


In [None]:
numerical_features = churn.select_dtypes(include="number").columns.tolist()
numerical_features

['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']

In [None]:
categorical_features = [col for col in churn.select_dtypes(exclude="number") if col not in ["CustomerId", "Surname"]]
categorical_features

['Geography', 'Gender', 'HasCrCard', 'IsActiveMember']

In [None]:
preprocessor = ColumnTransformer(transformers=[("numeric_tr", make_pipeline(KNNImputer(), RobustScaler()), numerical_features),
                                               ("categoric_tr", make_pipeline(SimpleImputer(strategy="most_frequent"),
                                                                              OneHotEncoder(drop="first", sparse=False)), categorical_features)],
                                 remainder="drop")

In [None]:
dtree = Pipeline(steps=[("preprocessing", preprocessor),
                        ("dtree", DecisionTreeClassifier())]).fit(train_data, train_label)

print(f"La Exactitud en los datos de entrenamiento es: {dtree.score(train_data, train_label)}")

La Exactitud en los datos de entrenamiento es: 1.0



##### Random Forest

El Random Forest es un método de ensamble, estos métodos unen diferentes tipos de algoritmos o el mismo algoritmo múltiples veces con el fin de crear un predictor más robusto.

El Random Forest es un ensamble de árboles de decisión en el cual en el entrenamiento se realiza usando bootstraping, y la decisión final se toma con el valor más frecuente (clasificación) o el promedio (regresión) de las predicciones de cada árbol.

![](http://www.globalsoftwaresupport.com/wp-content/uploads/2018/02/ggff5544hh.png)



In [None]:
rf = make_pipeline(preprocessor, RandomForestClassifier(n_estimators=100, max_features="sqrt", random_state=42)).fit(train_data, train_label)

print(f"La Exactitud en los datos de entrenamiento es: {rf.score(train_data, train_label)}")

La Exactitud en los datos de entrenamiento es: 0.9998571428571429


#### ¿Cómo medimos el desempeño de nuestro modelo?

##### Matriz de confusión

La matriz de confusión de un problema de ***n*** clases, es una matriz **nxn** en la que las filas se nombran según las clases reales y las columnas, según las clases previstas por el modelo.

Sin embargo, hay otras formas de resumir una matriz de confusión.

* **Exactitud**, mide la fracción de muestras clasificadas correctamente:

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

* **Precision**, mide cuántas de las muestras predichas como positivas son realmente positivas:

$$\text{Precision} = \frac{TP}{TP + FP}$$

La precisión se utiliza como una métrica de rendimiento cuando el objetivo es limitar el número de falsos positivos.

* **Recall**, mide cuántas de las muestras positivas son capturadas por las predicciones positivas:

$$\text{Recall} = \frac{TP}{TP + FN}$$

El recall se utiliza como métrica de rendimiento cuando necesitamos identificar todas las muestras positivas; es decir, cuando es importante evitar falsos negativos.

* **Puntaje F**, es la media armónica entre *Precision* y *Recall*:

$$f = 2  \frac{\text{Precisión}*\text{Recall}}{\text{Precisión}+\text{Recall}}$$



In [None]:
class ClassificationEvaluator:
  def __init__(self, observed: pd.Series or list, predicted: pd.Series or list):
    self.observed = observed
    self.predicted = predicted
    self.metrics = None

  def calculate_metrics(self):
    self.metrics = {
        "accuracy": np.round(accuracy_score(y_true=self.observed, y_pred=self.predicted), 2),
        "precision": np.round(precision_score(y_true=self.observed, y_pred=self.predicted), 2),
        "recall": np.round(recall_score(y_true=self.observed, y_pred=self.predicted), 2),
        "f1": np.round(f1_score(y_true=self.observed, y_pred=self.predicted), 2)
    }
    return self
  
  def print_metrics(self):
    print(f"La exactitud es: {self.metrics['accuracy']}")
    print(f"La precision es: {self.metrics['precision']}")
    print(f"La recall es: {self.metrics['recall']}")
    print(f"El f1 score es: {self.metrics['f1']}")

  def confusion_matrix(self, **kwargs):
    cm = np.round(pd.crosstab(index=self.observed, columns=self.predicted,
                              rownames=["Observed"], colnames=["Predicted"], **kwargs), 2)
    return cm

In [None]:
dtree_evaluator = ClassificationEvaluator(observed=test_label, predicted=dtree.predict(test_data))
dtree_evaluator.calculate_metrics()
dtree_evaluator.print_metrics()
dtree_evaluator.confusion_matrix(normalize="index")

La exactitud es: 0.79
La precision es: 0.5
La recall es: 0.49
El f1 score es: 0.49


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.87,0.13
1,0.51,0.49


In [None]:
rf_evaluator = ClassificationEvaluator(observed=test_label, predicted=rf.predict(test_data))
rf_evaluator.calculate_metrics()
rf_evaluator.print_metrics()
rf_evaluator.confusion_matrix(normalize="index")

La exactitud es: 0.87
La precision es: 0.79
La recall es: 0.48
El f1 score es: 0.6


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.97,0.03
1,0.52,0.48


### Búsqueda de los mejores hiperparametros

Para hallar los mejores hiperparametros podemos usar las clases ***GridSearchCV*** o ***RandomSearchCV***.


[Bibliografia](https://docs.google.com/document/d/1UuaJROqeiIAcazFaoMZSZDNYutguPOksjTIMNM_QIMc/edit)

In [None]:
help(RandomForestClassifier)

Help on class RandomForestClassifier in module sklearn.ensemble._forest:

class RandomForestClassifier(ForestClassifier)
 |  RandomForestClassifier(n_estimators=100, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)
 |  
 |  A random forest classifier.
 |  
 |  A random forest is a meta estimator that fits a number of decision tree
 |  classifiers on various sub-samples of the dataset and uses averaging to
 |  improve the predictive accuracy and control over-fitting.
 |  The sub-sample size is always the same as the original
 |  input sample size but the samples are drawn with replacement if
 |  `bootstrap=True` (default).
 |  
 |  Read more in the :ref:`User Guide <forest>`.
 |  
 |  Parameters


In [None]:
params = {
    "randomforestclassifier__n_estimators": [50, 100, 150],
    "randomforestclassifier__max_depth": [3, 5, 7],
    "randomforestclassifier__max_features": ["sqrt", "log2"],
    "randomforestclassifier__criterion": ["gini", "entropy"],
    "randomforestclassifier__class_weight": [None, "balanced"]
}

rf = make_pipeline(preprocessor, RandomForestClassifier(n_estimators=100, max_features="sqrt", random_state=42))

rf_cv = GridSearchCV(estimator=rf, param_grid=params, scoring="recall", cv=3, n_jobs=-1).fit(train_data, train_label)

# RandomizedSearchCV(estimator=rf, param_distributions=params, n_iter=10, cv=3, n_jobs=-1, scoring="recall")

In [None]:
print(f"El recall es: {rf_cv.best_score_}")

El recall es: 0.7054931446262716


In [None]:
rf_cv.best_params_

{'randomforestclassifier__class_weight': 'balanced',
 'randomforestclassifier__criterion': 'gini',
 'randomforestclassifier__max_depth': 3,
 'randomforestclassifier__max_features': 'sqrt',
 'randomforestclassifier__n_estimators': 50}

In [None]:
pd.DataFrame(data=rf_cv.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_randomforestclassifier__class_weight,param_randomforestclassifier__criterion,param_randomforestclassifier__max_depth,param_randomforestclassifier__max_features,param_randomforestclassifier__n_estimators,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,0.29,0.01,0.03,0.00,,gini,3,sqrt,50,"{'randomforestclassifier__class_weight': None,...",0.09,0.11,0.10,0.10,0.01,69
1,0.53,0.02,0.05,0.00,,gini,3,sqrt,100,"{'randomforestclassifier__class_weight': None,...",0.11,0.13,0.12,0.12,0.01,65
2,0.76,0.01,0.07,0.00,,gini,3,sqrt,150,"{'randomforestclassifier__class_weight': None,...",0.11,0.14,0.13,0.13,0.01,61
3,0.30,0.01,0.04,0.00,,gini,3,log2,50,"{'randomforestclassifier__class_weight': None,...",0.09,0.11,0.10,0.10,0.01,69
4,0.53,0.01,0.05,0.00,,gini,3,log2,100,"{'randomforestclassifier__class_weight': None,...",0.11,0.13,0.12,0.12,0.01,65
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67,0.95,0.01,0.06,0.00,balanced,entropy,7,sqrt,100,{'randomforestclassifier__class_weight': 'bala...,0.65,0.72,0.68,0.68,0.03,29
68,1.41,0.02,0.08,0.00,balanced,entropy,7,sqrt,150,{'randomforestclassifier__class_weight': 'bala...,0.66,0.72,0.69,0.69,0.03,25
69,0.52,0.01,0.04,0.00,balanced,entropy,7,log2,50,{'randomforestclassifier__class_weight': 'bala...,0.65,0.72,0.68,0.69,0.03,27
70,0.96,0.01,0.06,0.00,balanced,entropy,7,log2,100,{'randomforestclassifier__class_weight': 'bala...,0.65,0.72,0.68,0.68,0.03,29


In [None]:
model = rf_cv.best_estimator_

In [None]:
evaluation = ClassificationEvaluator(observed=test_label, predicted=model.predict(test_data))
evaluation.calculate_metrics()
evaluation.print_metrics()
evaluation.confusion_matrix()

La exactitud es: 0.8
La precision es: 0.51
La recall es: 0.75
El f1 score es: 0.61


Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1370,302
1,108,320


In [None]:
evaluation.confusion_matrix(normalize="index")

Predicted,0,1
Observed,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.82,0.18
1,0.25,0.75
