# Introducción al Machine Learning

En los últimos años, el aprendizaje automático se ha dado a conocer por sus grandes logros, un ejemplo de esto, es el tan conocido clasificador de *Spam*. Aunque el aprendizaje automático ha cogido mucha fuerza en los últimos años, muchos de los algoritmos ya existían desde hace mucho tiempo.

Algo muy común es creer que el aprendizaje automático es Inteligencia Artificial, si bien es una rama de la inteligencia artificial, y existe una retroalimentación constante entre ML e IA, no todas las aplicaciones de ML terminan en IA.

**¿Que es Machine Learning?**

El Machine Learning es la ciencia (y el arte) de programar ordenadores para que aprendan a partir de los datos. Algunas definiciones:

* El ML es el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados de manera explícita. (**Arthur Samuel, 1959**)
* Se dice que un programa de ordenador aprende de la experiencia E, con respecto a una tarea T y una medida de rendimiento R, si su rendimiento en T, medido por R, mejora con la experiencia E. (**Tom Mitchell, 1997**)

## Tipos de aprendizaje

* Aprendizaje supervisado
    * Clasificación.
        * Clasificación binaria.
        * Clasificación multiclase.
    * Regresión.

* Aprendizaje no supervisado.
    * Clustering.
    * Reducción de la dimensionalidad.
    * Detección de anomalías.

* Aprendizaje semi-supervisado
* Aprendizaje por refuerzo

### Aprendizaje supervisado

Los algoritmos de aprendizaje supervisado están diseñados para aprender mediante ejemplos con sus respectivas respuestas. Contamos con datos de entrada, en general de forma estructurada, es decir, tenemos muchas observaciones con columnas (variables) y dentro de esos datos, existe una variable que queremos predecir. Por ejemplo, dadas ciertas características de mediciones queremos predecir si una persona tiene diabetes o no.

El flujo sel aprendizaje supervisado es así:

* Tomamos nuestros datos y separamos en variables independientes (predictoras) ***X***, y en una variable ***y*** que queremos predecir (variable dependiente).
* Mostramos pares *(x, y)* a un algoritmo preparado para aprender de nuestros datos, de forma tal que crea un conjunto de reglas o asociaciones para, dada una entrada ***x***, predecir ***y***.
* Cuando el modelo está entranado, queremos que el modelo haga una predicción sobre datos no observados.

Cuando nuestra variable de interés es una categoría, significa que tenemos un problema de **clasificación**. Si nuestra variable de interés es una variable numérica continua, tenemos un problema de **regresión**.

#### Clasificación

La clasificación es una subcategoría del aprendizaje supervisado en la que el objetivo es predecir una variable objetivo categórica (discreta, valores no observados).

Hay dos tipos princpales de clasificaciones:

* **Clasificación binaria**: Es un tipo de clasificación en el que tan solo se pueden asignar dos clases diferentes (0 o 1). Por ejemplo, la detección de spam, en la que cada email es: spam -> en cuyo caso será etiquetado con un 1; o no lo es -> etiquetado con un 0.

* **Clasificación Multi-clase**: Se pueden asignar múltiples categorías a las observaciones. Como el reconocimiento de caracteres de escritura manual de números (las clases van de 0 a 9).

Una forma gráfica de ver la clasificación:

![imagen tomada de medium.com](https://miro.medium.com/proxy/1*fBjniQPOKigqxYSKEumXoA.png)

##### Árboles de decisión

Un árbol de decisión es una estructura compuesta de nodos, ramas y hojas. Dada una instancia nueva, ésta es clasificada recorriendo el árbol de decisión: en cada nodo, el árbol hace una pregunta a la instancia sobre algunos de sus atributos. Según la respuesta a esta pregunta, deriva a la instancia por alguna de sus ramas, donde puede ocurrir que aparezca otro nodo -otra pregunta- o que termine en una hoja. La hoja contiene la etiqueta que le corresponde a esa instancia, finalizando su recorrido en el árbol.

Suponga que se desea clasificar, con la menor cantidad de preguntas posibles, los siguientes cuatro animales: Águila (Hawk), Pingüino (Penguin), Delfín (Dolphin) y Oso (Bear). Tan solo haciendo tres preguntas, en dos niveles, es posible identificar a que animal corresponde. Observe el siguiente diagrama.

![imagen tomada del GitHub](https://github.com/stivenlopezg/Modulo-Python-3/blob/master/imagenes/animals.png")

In [None]:
import joblib
import warnings
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score

pd.set_option('float_format', '{:.2f}'.format)
warnings.filterwarnings(action='ignore')

##### Random Forest

El Random Forest es un método de ensamble, estos métodos unen diferentes tipos de algoritmos o el mismo algoritmo múltiples veces con el fin de crear un predictor más robusto.

El Random Forest es un ensamble de árboles de decisión en el cual en el entrenamiento se realiza usando bootstraping, y la decisión final se toma con el valor más frecuente (clasificación) o el promedio (regresión) de las predicciones de cada árbol.

![](http://www.globalsoftwaresupport.com/wp-content/uploads/2018/02/ggff5544hh.png)


#### ¿Cómo medimos el desempeño de nuestro modelo?

##### Matriz de confusión

La matriz de confusión de un problema de ***n*** clases, es una matriz **nxn** en la que las filas se nombran según las clases reales y las columnas, según las clases previstas por el modelo.

Sin embargo, hay otras formas de resumir una matriz de confusión.

* **Exactitud**, mide la fracción de muestras clasificadas correctamente:

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

* **Precision**, mide cuántas de las muestras predichas como positivas son realmente positivas:

$$\text{Precision} = \frac{TP}{TP + FP}$$

La precisión se utiliza como una métrica de rendimiento cuando el objetivo es limitar el número de falsos positivos.

* **Recall**, mide cuántas de las muestras positivas son capturadas por las predicciones positivas:

$$\text{Recall} = \frac{TP}{TP + FN}$$

El recall se utiliza como métrica de rendimiento cuando necesitamos identificar todas las muestras positivas; es decir, cuando es importante evitar falsos negativos.

* **Puntaje F**, es la media armónica entre *Precision* y *Recall*:

$$f = 2  \frac{\text{Precisión}*\text{Recall}}{\text{Precisión}+\text{Recall}}$$

### Búsqueda de los mejores hiperparametros

Para hallar los mejores hiperparametros podemos usar las clases ***GridSearchCV*** o ***RandomSearchCV***.