# Machine Learning (Aprendizaje Automático)

# sklearn
`scikit-learn` (anteriormente `scikits.learn`) es una librería de software libre para aprendizaje automático. Cuenta con varios algoritmos de clasificación, regresión y análisis de grupos entre los cuales están máquinas de soporte vectorial, arboles de decisión, Gradient boosting, K-means y DBSCAN. Está diseñada para interoperar con las bibliotecas numéricas y científicas NumPy y SciPy.

Usaremos bases de datos de https://www.kaggle.com/
## Regresión lineal

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#Importamos la base de datos
dataset = pd.read_csv('DataBases/Notas.csv')
#Vemos que forma tiene
dataset.shape

In [None]:
#Ahora vemos la primera parte
dataset.head()

In [None]:
fig1, ax1 = plt.subplots(figsize=(10, 6))
ax1.set(xlabel="Horas",ylabel="Nota porcentual")
dataset.plot(x='Horas', y='Notas', style='o', ax = ax1)
plt.show()

Ahora tenemos una idea sobre los detalles estadísticos de nuestros datos. El siguiente paso es dividir los datos en "caracteristicas" (atributos, variables) y "resultados" (etiquetas). En el conjunto de datos solo tenemos dos columnas. Queremos predecir la puntuación porcentual en función de las horas estudiadas. Por lo tanto, nuestro conjunto de atributos consistirá en la columna "Horas" y la etiqueta será la columna "Puntuación".

In [None]:
#Separamos caracteristicas de resultados
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 1].values

Ahora que tenemos nuestros atributos y etiquetas, el siguiente paso es dividir estos datos en conjuntos de prueba y entrenamiento. Se puede hacer esto usando el método `train_test_split()` que viene dentro de `scikit-Learn`

In [None]:
# Divido el 80% de los datos en el conjunto de entrenamiento, y el 20% de los datos en el conjunto de prueba. 
# La variable test_size es donde realmente especificamos la proporción del conjunto de prueba.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### Entrenando el algoritmo
Con Scikit-Learn es simple implementar modelos de regresión lineal, ya que todo lo que realmente necesita hacer es importar la clase `LinearRegression`, instanciarla y llamar al método `fit()` junto con nuestros datos de entrenamiento. 

La regresión lineal básicamente encuentra el mejor valor para la intersección y la pendiente, lo que da como resultado una línea que se ajusta mejor a los datos.

In [None]:
# Importo LinearRegression
from sklearn.linear_model import LinearRegression
# Instancio
regressor = LinearRegression()
# LLamo al metodo fit y le paso los datos de entrenamiento
regressor.fit(X_train, y_train)
# Ahora miro el intercepto y la pendiente de la linea
print(f"b = {regressor.intercept_:.3f}, m = {regressor.coef_[0]:.3f}")

Esto significa que por cada unidad de cambio en las horas estudiadas, el cambio en la puntuación es de aproximadamente 9,91%. O en palabras más simples, si un estudiante estudia una hora más de lo que estudió anteriormente para un examen, puede esperar lograr un aumento del 9,91% en la puntuación obtenida anteriormente.

### Haciendo predicciones
Ahora que entrenamos el algoritmo, es hora de hacer algunas predicciones. Para hacerlo, usaremos los datos de prueba y veremos con qué precisión se predice la puntuación porcentual. 

In [None]:
fig2, ax2 = plt.subplots(figsize=(10, 6))
ax2.set(xlabel="Horas",ylabel="Nota porcentual")
dataset.plot(x='Horas', y='Notas', style='o', ax = ax2)
ax2.plot(X_test, regressor.predict(X_test),label=r'$h_{\theta}(x)$' )
plt.show()

In [None]:
#Y_pred es una matriz de numpy que contiene todos los valores predichos para los valores de entrada en la serie X_test.
y_pred = regressor.predict (X_test)
df = pd.DataFrame({'Real': y_test, 'Predicha': y_pred})
df

### Evaluación del algoritmo
El último paso es evaluar el rendimiento del algoritmo. Este paso es particularmente importante para comparar qué tan bien funcionan los diferentes algoritmos en un conjunto de datos en particular. Para los algoritmos de regresión, se utilizan comúnmente tres métricas de evaluación:

- El error absoluto medio (MAE) es la media del valor absoluto de los errores. Se calcula como:

$$\frac{1}{n}\sum_{i=1}^n|y_{real}-y_{pred}|$$

- El error cuadrático medio (MSE) es la media de los errores cuadráticos y se calcula como:

$$\frac{1}{n}\sum_{i=1}^n|y_{real}-y_{pred}|^2$$

- El error cuadrático medio (RMSE) es la raíz cuadrada de la media de los errores cuadráticos:

$$\sqrt{\frac{1}{n}\sum_{i=1}^n|y_{real}-y_{pred}|^2}$$

Lo bueno es que no tenemos que realizar estos cálculos manualmente. `scikit-Learn` viene con funciones predefinidas que pueden usarse para calcular estos valores por nosotros.

In [None]:
from sklearn import metrics
print(f"MAE : {metrics.mean_absolute_error(y_test, y_pred):.4f}")
print(f'MSE : {metrics.mean_squared_error(y_test, y_pred):.3f}')
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(y_test, y_pred)):.4f}')

## Regresión lineal a múltiples variables

Casi todos los problemas del mundo real que se van a encontrar tendrán más de dos variables. La regresión lineal que involucra múltiples variables se denomina "regresión lineal múltiple". Los pasos para realizar la regresión lineal múltiple son casi iguales a los de la regresión lineal simple. La diferencia radica en la evaluación. Puede usarlo para averiguar qué factor tiene el mayor impacto en el resultado previsto y cómo se relacionan las diferentes variables entre sí.

__Ejemplo:__ Utilizaremos regresión lineal múltiple para predecir el consumo de gasolina (en millones de galones) en 48 estados de EE. UU. Con base en los impuestos a la gasolina (en centavos), el ingreso per cápita (dólares), las carreteras pavimentadas (en millas) y la proporción de población que tiene licencia de conducir.

Base de datos: _Helmut Spaeth, Mathematical Algorithms for Linear Regression, Academic Press, 1991, ISBN 0-12-656460-4._

In [None]:
#Importamos la base de datos
dataset1 = pd.read_csv('DataBases/ConsumoGasolina.csv')
#Vemos que forma tiene
print(dataset1.shape)
#Y vemos la primera parte
dataset1.head()

Cambiamos los nombres de las columnas a español. Luego vemos los detalles estadísticos del conjunto de datos, usando el comando `describe()`. 

In [None]:
NewNames = ["Impuestos_gasolina", "Ingresos_medios", "Carreteras_pavimentadas", "Poblacion_con_licencia(%)", "Consumo_gasolina"]
dataset1.set_axis(NewNames,axis=1,inplace=True)
dataset1.describe()

El siguiente paso es dividir los datos en caracteristicas y etiquetas como hicimos anteriormente, pero a diferencia del ejemplo anterior, usaremos nombres de columna para crear un conjunto de atributos y una etiqueta. Luego entrenamos el algoritmo de manera similar.

In [None]:
# Atributos y Etiqueta
X1 = dataset1[['Impuestos_gasolina', 'Ingresos_medios', 'Carreteras_pavimentadas', 'Poblacion_con_licencia(%)']]
y1 = dataset1['Consumo_gasolina']
#Dividimos los datos en entrenamiento y testeo
from sklearn.model_selection import train_test_split
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.2, random_state=0)
#Entrenamos el algoritmo
from sklearn.linear_model import LinearRegression
regressor1 = LinearRegression()
regressor1.fit(X1_train, y1_train)

En caso de regresión lineal multivariable, el modelo de regresión tiene que encontrar los coeficientes más óptimos para todos los atributos. Para ver qué coeficientes ha elegido nuestro modelo de regresión, usamos `coef_`

In [None]:
coeff_df = pd.DataFrame(regressor1.coef_, X1.columns, columns=['Coeficientes'])
coeff_df

Esto significa que por un aumento unitario en "Impuestos a la gasolina", hay una disminución de 40.016 millones de galones en el consumo de ésta. De manera similar, un aumento unitario en la proporción de la población con licencia de conducir resulta en un aumento de 1.341 miles de millones de galones de consumo de gasolina. Podemos ver que  los "Ingresos medios" y las "Carreteras pavimentadas" tienen muy poco efecto en el consumo de gasolina.

Miremos que tan buenas predicciones hace este modelo

In [None]:
y1_pred = regressor1.predict(X1_test)
df1 = pd.DataFrame({'Real': y1_test, 'Predicha': y1_pred})
df1

In [None]:
from sklearn import metrics
print(f"MAE : {metrics.mean_absolute_error(y1_test, y1_pred):.4f}")
print(f'MSE : {metrics.mean_squared_error(y1_test, y1_pred):.3f}')
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(y1_test, y1_pred)):.4f}')

## Regresión logística

Vamos a usar `scikit-learn` para construir el modelo de predicción de la diabetes gestacional, usando una base de datos.

Primero cargamos el conjunto de datos usando `pandas`, como anteriormente. Cambiamos las columnas a español y luego dividimos las columnas dadas en dos tipos de variables dependientes (destino, etiqueta) y variables independientes (características).

In [None]:
#Importamos la base de datos
dataset2 = pd.read_csv('DataBases/diabetes.csv')
#Vemos que forma tiene
print(dataset2.shape)
#Y vemos la primera parte
dataset2.head()

In [None]:
NewCol=["Semanas_Embarazo", "Glucosa", "Presion_sanguinea", "Espesor_Piel", "Insulina", "IMC", "Funcion_Pedigri_Diabetes", "Edad", "Resultado"]
dataset2.set_axis(NewCol,axis=1,inplace=True)
dataset2.head()

In [None]:
#Divido la base de datos en variables y respuestas
Caracteristicas = ["Semanas_Embarazo", "Glucosa", "Presion_sanguinea", "Espesor_Piel", "Insulina", "IMC", "Funcion_Pedigri_Diabetes", "Edad"]
X2 = dataset2[Caracteristicas]
y2 = dataset2.Resultado

Como se hizo anteriormente, y para comprender el rendimiento del modelo, se divide el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba. Usando la función `train_test_split()`. Aquí, el conjunto de datos se divide en dos partes, el 75% de los datos se utilizarán para el entrenamiento de modelos y el 25% para las pruebas de modelos.

__Nota:__ `random_state` es para seleccionar registros al azar.

In [None]:
# dividir X2 e y2 en conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X2_train,X2_test,y2_train,y2_test=train_test_split(X2,y2,test_size=0.25,random_state=0)

Como con la regreción lineal, primero, importo el módulo Regresión logística y cree un objeto clasificador de Regresión logística utilizando la función `LogisticRegression()`. Luego, ajusto el modelo en el conjunto de entrenamiento usando `fit()` y realice la predicción en el conjunto de prueba usando `predict()`.

In [None]:
# importo la clase LogisticRegression
from sklearn.linear_model import LogisticRegression

# instancio el objeto, cambio la cantidad maxima de iteraciones, pues no alcanza a converger con las que tiene por defecto
logreg = LogisticRegression(max_iter=100000)

# Entreno el modelo con los datos
logreg.fit(X2_train,y2_train)

#Hago las predicciones con los datos de prueba
y2_pred=logreg.predict(X2_test)

Para evaluar el desempeño de un modelo de clasificación se usa una matriz de confusión. Lo fundamental de una matriz de confusión es el número de predicciones correctas e incorrectas que se resumen por clases.

In [None]:
# importo la clase metrics
from sklearn import metrics
cnf_matrix = metrics.confusion_matrix(y2_test, y2_pred)
cnf_matrix

Se puede ver la matriz de confusión en forma de objeto de numpy. La dimensión de esta matriz es $2 \times 2$ ya que este modelo es una clasificación binaria (Tiene dos clases 0 y 1). Los valores diagonales representan predicciones precisas, mientras que los elementos no diagonales son predicciones inexactas. En la salida, 117 y 36 son predicciones reales, y 26 y 13 son predicciones incorrectas.

__Nota:__ errores de Tipo I y Tipo II. Estos términos, que no son exclusivos de los problemas de clasificación en el aprendizaje automático, también son extremadamente importantes cuando se trata de pruebas de hipótesis estadísticas.

- _Error tipo I:_ falso positivo (rechazo de una verdadera hipótesis nula)

- _Error de tipo II:_ falso negativo (no rechazo de una hipótesis nula falsa)

<!-- begin figure -->
<div id=""></div>
<img src="Fig/MatrizDeConf.png" width=600>
<p></p>
<!-- end figure -->

Se puede visualizar la matriz de confusión mediante un mapa de calor. Visualicemos los resultados del modelo en usando la matriz de confusión con matplotlib y seaborn.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Nombres de las clases
class_names=[0,1] 
fig, ax = plt.subplots()
tick_marks = np.arange(len(class_names))
plt.xticks(tick_marks, class_names)
plt.yticks(tick_marks, class_names)
# Mapa de calor
sns.heatmap(pd.DataFrame(cnf_matrix), annot=True, cmap="YlGnBu" ,fmt='g')
ax.xaxis.set_label_position("top")
plt.tight_layout()

plt.ylabel('Real')
plt.xlabel('Predicho')

Tambien podemos usar métricas de evaluación de la matriz de confusión. Evaluemos el modelo utilizando exactitud, precisión, recall y F1.

__Exactitud:__ Generalmente se calcula como $\frac{N_{Correctos}}{N_{Total}}$, pero cuando se trata de problemas de clasificación, intentamos predecir un resultado binario. ¿Es un fraude o no? ¿Esta persona incumplirá con su préstamo o no? Etc. Entonces, lo que nos importa, además de esta proporción general, son las predicciones numéricas que se clasificaron falsamente como positivas y como negativas. 

$$E = \frac{N_{TP}+N_{TN}}{N_{Total}}$$


__Precisión:__ Cuando un modelo hace una predicción, con qué frecuencia es correcta, o porcentage de relevancia del resultado. 

$$P = \frac{N_{TP}}{N_{Total}}$$

__Recall:__  Número de verdaderos positivos sobre resultados predichos (verdaderos positivos mas falsos negativos). Porcentaje de resultados relevantes que están clasificados correctamente por el modelo que está ejecutando.

$$R = TPR = \frac{N_{TP}}{N_{TP}+N_{FN}}$$

__F1:__ Tiene en cuenta tanto la precisión como el recall para, en última instancia, medir la precisión del modelo. La diferencia entre esta métrica y la precisiónes que los falsos positivos y los falsos negativos pueden ser absolutamente cruciales para el estudio, mientras que los verdaderos negativos a menudo son menos importantes para cualquier problema que esté tratando de resolver. La puntuación F1 intenta tener esto en cuenta, dando más peso a los falsos negativos y falsos positivos sin dejar que un gran número de verdaderos negativos influya en su puntuación.

$$F1= 2\frac{P\times R}{P + R}$$



In [None]:
print("Exactitud:",metrics.accuracy_score(y2_test, y2_pred))
print("Precision:",metrics.precision_score(y2_test, y2_pred))
print("Recall   :",metrics.recall_score(y2_test, y2_pred))
print("F1       :",metrics.f1_score(y2_test, y2_pred))
#Tambien se puede hacer con classification_report
print(metrics.classification_report(y2_test, y2_pred))

Una tasa de clasificación del 80%, es considerada como buena exactitud. Cuando el modelo de regresión logística predijo que los pacientes van a padecer diabetes, los pacientes tienen el 73% del tiempo. Si hay pacientes que tienen diabetes en el conjunto de prueba, el modelo de regresión logística puede identificarlo el 58% de las veces.

### Curva ROC
La Receiver Operating Characteristic (ROC) es un gráfico de la tasa de verdaderos positivos frente a la tasa de falsos positivos. Muestra la compensación entre sensibilidad y especificidad.
- La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente positivos; e.g. proporción de enfermos correctamente identificados. Es decir, la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos.
- La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente negativos; e.g. proporción de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos.

La curva AUC - ROC es una medida de rendimiento para los problemas de clasificación. ROC es una curva de probabilidad y AUC representa el grado o medida de separabilidad. Indica cuánto es capaz el modelo de distinguir entre clases. Cuanto mayor sea el AUC, mejor será el modelo para predecir 0 clases como 0 y 1 clases como 1. 
La curva ROC se traza con True Positive Rate (TPR) (recall o sensitividad) contra el False Positive Rate (FPR) (1- especificidad) donde TPR está en el eje y y FPR está en el eje x.

$$FPR = \frac{N_{FP}}{N_{TN}+N_{FP}}$$

In [None]:
#predict_proba da la probabilidad de que dado un valor el resultado sea 0 o 1 (depende de la clasificacion)
#Tomo la segunda columna (probabilidad de 1)
y_pred_proba = logreg.predict_proba(X2_test)[::,1]
# Calculo la curva roc
fpr, tpr, _ = metrics.roc_curve(y2_test,  y_pred_proba)
# Calculo la puntuacion roc
auc = metrics.roc_auc_score(y2_test, y_pred_proba)
#Grafico
fig3, ax3 = plt.subplots(figsize=(10, 6))
ax3.plot(fpr,tpr,label="Datos, auc="+str(f"{auc:.2f}"))
ax3.set(xlabel='FPR',ylabel='TPR')
ax3.legend(loc=4)
plt.show()


La puntuación AUC para el caso es 0,86. La puntuación AUC igual a 1 representa un clasificador perfecto y 0,5 representa un clasificador que no dice nada.