# Módulo 1: Análisis de datos en el ecosistema Python

### Sesión (12)

**28/11/2022**

# 1. Aprendizaje de máquina (automático):   **Machine Learning**

El **aprendizaje automático** es una rama de la **inteligencia artificial** basada en el concepto de que las máquinas pueden aprender de datos, detectar patrones y tomar decisiones casi sin la intervención humana. El **machine learning** es un método de tratamiento y análisis de datos que **automatiza** la creación de **modelos analíticos**. 

![machine-learning-types.jpg](attachment:machine-learning-types.jpg)

## 1.1  Aprendizaje supervisado

Este algoritmo consta de una **variable objetivo** (variable dependiente) que se va a predecir a partir de un conjunto dado de **predictores** (variables independientes). 

Usando este conjunto de variables, generamos una función que asigna entradas a salidas. El proceso de aprendizaje de este tipo de algoritmos continúa hasta que el modelo alcanza un nivel deseado de precisión tanto en los datos de entrenamiento (training) como en los conjuntos de datos de prueba (test). 

![regression-vs-classification-in-machine-learning.png](attachment:regression-vs-classification-in-machine-learning.png)

* ### Clasificación:
    * el output tiene **etiquetas** predefinidas con valores **discretos** 
    * Usamos clasificación cuando la variable objetivo es **categórica** (grupos y clases)
    * ***tipos de algoritmo de clasificación:***
        * Logistic Regression (variables binarias)
        * Decision Tree (árbol de decisión) 
        * Random Forest (conjunto de árboles de decisión)
        * Naive Bayes Clasificador 
        * SVM (Support Vector Machines)
        * ANN (Artificial Neural Networks)
* ### Regresión: 
    * Usamos regresión cuando la variable output es un valor **numérico continuo**. 
    * ***tipos de alrgotimo de regresión:***
        * Regresión Lineal ( simple con una variable independiente o múltiple con varios output)
        * Polinomial
        * Ridge, Lasso, ElasticNet (cuando las variables independientes están altamente correlacionadas)
        * Decision Tree Regression
        * Random Forest Regression
        * Neural Network Regression
      

## 1.2. Aprendizaje no supervisado

En este tipo de algoritmos, no tenemos **ningún objetivo o variable de resultado** para predecir/estimar. Se suele utilizar para **agrupar** la población en diferentes grupos, por ejemplo para segmentar a los clientes en diferentes grupos para una intervención específica.

![Examples-of-Supervised-Learning-Linear-Regression-and-Unsupervised-Learning_W640.jpg](attachment:Examples-of-Supervised-Learning-Linear-Regression-and-Unsupervised-Learning_W640.jpg)

## 1.3. Aprendizaje por refuerzo

Con este algoritmo, la máquina está entrenada para tomar decisiones específicas. Funciona de esta manera: la máquina está expuesta a un **entorno** en el que **entrena a sí misma** continuamente usando **prueba y error**. Esta máquina aprende de la experiencia pasada e intenta capturar el mejor conocimiento posible para las decisiones más precisas.

![aprendizaje-por-refuerzo-automatico-machine-learning-inteligencia-artificial.png](attachment:aprendizaje-por-refuerzo-automatico-machine-learning-inteligencia-artificial.png)

## 1.4. Flujo del proceso modelado

Los procesos que se realizan para desarrollar un modelo con las técnicas de machine learning tienen un **ciclo de vida** que describe las fases principales por las que normalmente psasn los proyectos de **Data Science** o análisis de datos:
 * **1. Definición del problema**
     * Visión de negocio
     * Análisis preliminar
 * **2. Obtención de datos**
     * Fuentes de datos
     * Conexiones y consultas a bases de datos
 * **3. Preparación y tratamiento de datos**
     * Campos vacios (valores perdidos)
     * Campos inválidos (valores negativos, fuera del rango permitido...)
     * Outliers (valores atípicos)
     * Datos catégoricos (campos no numéricos)
     * Datos multiescalas (normalización y estandarización de datos)
 * **4. Dividir los conjuntos de datos**
     * Datos de entrenamiento (Training)
     * Datos de prueba (Test)
 * **5. Constuir el modelo**
     * Seleccionar el algoritmo adecuado
     * Ajustar el modelo
     * Optimizar los hiper-parametros
 * **6. Análisis de errores y reentrenamineto**
 * **7. Productivizar e integrar el modelo en el sistema**
 * **8. Monitorizar, mantener y mejorar el proceso**

![Process-Flow2.png](attachment:Process-Flow2.png)

---

# 2. Clasificación

En el aprendizaje supervisado, los algoritmos de clasificación se usan cuando el resultado es una **etiqueta discreta**.
Un ejemplo muy común de algoritmos de clasificación sería un **detector de humo/incendios** o por ejemplo el **detector de correo no deseado (spam)** del correo electrónico. Partimos de dos únicas etiquetas: **spam o no spam**.  
¿Cómo consigue en este último caso categorizarlo? Seguramente en base a una serie de parámetros como: remitente, destinatario, símbolos y lenguaje utilizado en el asunto, etc.

Cuando queda definida esta función, el algoritmo de clasificación es capaz de asignarle la etiqueta correcta a los datos no vistos previamente. A este tipo de metodología cuando se trata de dos grupos, se le conoce como **clasificación binaria**.

![image.png](attachment:image.png)

Paso previo a aplicar un método de clasificación, es la **partición del conjunto de datos** en dos conjuntos de datos más pequeños que serán utilizadas con los siguientes fines: **entrenamiento** y **test**. 

El subconjunto de datos de **entrenamiento** se utiliza para **estimar los parámetros del modelo** y el subconjunto de datos de **test** se emplea para **comprobar el rendimiento** y el comportamiento del modelo ajustado. Cada registro de la base de datos debe de aparecer en uno de los dos subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza frecuentemente un procedimiento de muestreo aletarorio al igual que los problemas de *regresión*. 

Como resultado de aplicar un método de clasificación, **se pueden cometer dos tipo de errores**, en el caso de una variable binaria que toma valores 0 y 1, habrá ceros que se clasifiquen incorrectamente como unos (***falsos positivos***) y unos que se clasifiquen incorrectamente como ceros (***falsos negativos***).

A partir de este recuento se puede construir el siguiente cuadro de clasificación:

![image.png](attachment:image.png)

Donde  $P_{11}$ y $P_{22}$ corresponderán a **predicciones correctas** (valores 0 bien predichos en el primer caso y valores 1 bien predichos en el segundo caso), mientras que  $P_{12}$ y $P_{21}$ corresponderán a **predicciones erróneas** (valores 1 mal predichos en el primer caso y valores 0 mal predichos en el segundo caso). 

A partir de estos valores se pueden definir las metricas del rendimiento de un clasificador que se detallarán más adelante.

## 2.1 Modelo clasificación usando Regresión logística (logit regression)

La regresión logística es un modelo que utiliza una **función logística** para modelar una variable dependiente. La principal aplicación de la regresión logística es la creación de **modelos de clasificación binaria**. La regresión logística se utiliza para describir datos y explicar la relación entre **una variable dependiente** y **una o más variables independientes**.

Se llama **regresión logística simple** cuando solo hay una variable independiente y **regresión logística múltiple** cuando hay más de una. Dependiendo del contexto, a la variable modelada se le conoce como:
* variable dependiente
* variable respuesta (response)
* variable salida (output)
* variable objetivo (target)

y a las variables independientes como:

* regresores
* predictores
* atributos o características (features)

![image.png](attachment:image.png)

## Ejemplo clasificación usando Regresión Logística - [Fisher’s Iris dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set)

![image.png](attachment:image.png)

* El conjunto de datos de flores de Iris  es un conjunto de datos multivariante introducido por el estadístico y biólogo británico **Ronald Fisher** 
* El conjunto de datos consta de **50 muestras** de cada una de **las tres especies de Iris**:
    * Iris **setosa**
    * Iris **virginica** 
    * Iris **versicolor**
* Se midieron cuatro características de cada muestra:
    * el **largo** de los **sépalos**, en centímetros.
    * el **ancho** de los **sépalos**, en centímetros. 
    * el **largo** de los **pétalos**, en centímetros.
    * el **ancho** de los **pétalos**, en centímetros.
* Basado en la combinación de estas cuatro características, Fisher desarrolló un modelo discriminante lineal para **distinguir las especies** entre sí.    

### **Análisis preliminar (descriptivo):** Importar y pre-procesar los datos para el modelo

In [None]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

Importamos los datos del ejemplo Fisher’s Iris data set

In [None]:
from sklearn.datasets import load_iris

# Construimos un dataframe con los datos medidos 
dataset = pd.DataFrame(load_iris()["data"],columns=load_iris()["feature_names"])

# Añadimos la especie como etiqueta
dataset["label"] = load_iris()["target_names"][load_iris()["target"]]

dataset

In [None]:
# La información útil sobre los datos guardados en formato DataFrame
dataset.info()

In [None]:
# Extraer las estadísticas principales de los datos numéricos
dataset.describe()

Para hacernos una idea de como están distribuidos los datos podemos visualizarlos usando **Pairplot** como ya vimos en las sesiónes anteriores. *Pairplot* representa sobre todo **la relación entre los pares de variables del dataset**, además de la distribución de cada variable.

In [None]:
sns.pairplot(dataset, hue="label", height=3)
plt.show()

### Tratamiento y filtrado de datos

In [None]:
# Conteo de valores perdidos/faltantes  
dataset.isna().sum()

### Filtrar Outliers (valores atípicos)

Uno de los métodos para identificar los outliers es analizar la **distancia intercuartil** representada en un diagrama de cajas (**boxplot**).

![1_2c21SkzJMf3frPXPAR_gZA.png](attachment:1_2c21SkzJMf3frPXPAR_gZA.png)

In [None]:
# Graficar la distribución y los valores demostrados en el diagrama de caja
fig, axes = plt.subplots(2, 2, figsize=(16,9))
sns.boxplot(y="petal width (cm)", x= "label", data=dataset,  orient='v' , ax=axes[0, 0])
sns.boxplot(y="petal length (cm)", x= "label", data=dataset,  orient='v' , ax=axes[0, 1])
sns.boxplot(y="sepal width (cm)", x= "label", data=dataset,  orient='v' , ax=axes[1, 0])
sns.boxplot(y="sepal length (cm)", x= "label", data=dataset,  orient='v' , ax=axes[1, 1])
plt.show()

Se ve que por ejemplo para la especie *virginica* existen distintos valores atípicos. Analizamos los outliers para el largo de los sépalos en esta especie:

In [None]:
# Filtrar el dataset para quedarnos solamente con los datos de la especie "virginica"
dataset_vir = dataset[dataset['label']=="virginica"]

# Visualizar los valores del largo del sépalo y su diagrama de cajas
fig, axes = plt.subplots(2,1)
sns.swarmplot(x=dataset_vir['sepal length (cm)'], ax=axes[0])
sns.boxplot(x=dataset_vir['sepal length (cm)'], ax=axes[1])
plt.show()

In [None]:
# Filtrar los valores atípicos para la especie "virginica" basada en el rango intercuartil
Q1 = dataset_vir['sepal length (cm)'].quantile(0.25)
Q3 = dataset_vir['sepal length (cm)'].quantile(0.75)

# IQR es el rango intercuartil 
IQR = Q3 - Q1    

# Limites permitidos para los datos del largo del sépalo
lim_inf = Q1 - 1.5 * IQR
lim_sup = Q3 + 1.5 *IQR

# Crear la máscara
filtro_oulier = (dataset_vir['sepal length (cm)'] < lim_inf) | (dataset_vir['sepal length (cm)'] > lim_sup)

# Filtramos el dataset aplicando la máscara
dataset_vir[filtro_oulier] 

In [None]:
# Podemos identificar los outliers por sus índices 
dataset_vir[filtro_oulier].index

In [None]:
# Quitar los outliers del dataset
outliers_ind = dataset_vir.loc[filtro_oulier].index
dataset_filt = dataset.drop(index=outliers_ind).reset_index(drop=True)
dataset_filt

Procedemos a tratar los datos numéricos del dataset:

In [None]:
# Quedarnos solamente con las columnas numéricas
dataset_num = dataset_filt.drop("label", axis=1)
dataset_num

### Normalizar los datos 
Por normalizar nos referimos a **poner los datos en una escala similar** como de `[0,1]`, que es un caso especial de la escalación llamado **“min-max”**, o por ejemplo homogeneizar las variables eliminando la media y escalando a la varianza de unidad como en el método ***StandardScaler***:

![normalizar.png](attachment:normalizar.png)

In [None]:
# importar los objetos necesarios de la librería sklearn
from sklearn.preprocessing import StandardScaler

# declarar el tipo de escalamiento y aplicarlo al conjunto de datos
escalado = StandardScaler().fit(dataset_num)
dataset_normal = escalado.transform(dataset_num)

In [None]:
# El dataset original sigue como antes
dataset_num

In [None]:
# Datos normalizados
print(type(dataset_normal))
print(dataset_normal.shape)
print(dataset_normal.ndim)

dataset_normal

In [None]:
# Lo convertimos en un DataFrame, añadiendole sus etiquetas
df_normal = pd.DataFrame(dataset_normal, columns=dataset_num.columns)
print(type(df_normal))
df_normal

In [None]:
# Verificar las características de los valores estandarizados
display(dataset.describe().round(4))
display(df_normal.describe().round(4))

Como se puede observar al estandarizar los datos se centralizan para todas las variables

In [None]:
# Graficar la distribución de los valores originales
sns.violinplot(data=dataset, orient='v')
plt.show()

In [None]:
# Graficar la distribución de los valores estandarizados
sns.violinplot(data=df_normal,  orient='v')
plt.show()

In [None]:
# Visualizar la normalización para el largo de pétalo
plt.plot(dataset_num['petal length (cm)'], color = 'green')
plt.plot(df_normal['petal length (cm)'], color = 'red')
plt.title('petal length (cm)')
plt.legend(['Datos originales', 'Datos normalizados (StandardScaler)'])
plt.show()

In [None]:
# Visualizar las medidas de pétalo para los dos dataframes
fig, axes = plt.subplots(1,2, figsize=(16,7))

sns.scatterplot(x=dataset_num['petal width (cm)'], y=dataset_num['petal length (cm)'], hue=dataset['label'], ax=axes[0])
axes[0].set_title("Datos originales")

sns.scatterplot(x=df_normal['petal width (cm)'], y=df_normal['petal length (cm)'], hue=dataset['label'], ax=axes[1])
axes[1].set_title("Datos normalizados (MinMaxScaler)")

plt.show()

Se puede apreciar que **se mantienen las relaciones y las proporciones entre las variables**, aunque el rango y la escala se haya cambiado al normalizar los datos.

### **Planteamiento del problema**: Clasificar las especies de las flores iris

Queremos que nuestro modelo **prediga / clasifique** las especies de iris como: **virginica, setosa o versicolor**, en función de algunas de las características en el dataset.

In [None]:
sns.pairplot(dataset_filt, hue="label",height=3)
plt.show()

Para hacernos una idea de **la relación de cada característica/variable con cada especie**, usamos un **diagrama de dispersión** (*scatter plot*) que puede pintar y mostrar estas relaciones con este código de colores:
- El largo del sépalo será azul
- El ancho del sépalo será verde
- El largo del pétalo será rojo
- El ancho del pétalo será negro

In [None]:
# Relación de cada característica con cada especie.
plt.figure(figsize=(10,6))
plt.xlabel('Variables')
plt.ylabel('Especies')

# Eje vertical como la especie de las flores iris
pltY = dataset_filt['label']

pltX = dataset_filt['sepal length (cm)']
sns.scatterplot(x=pltX, y=pltY, color='blue', label='sepal length (cm)')

pltX = dataset_filt['sepal width (cm)']
sns.scatterplot(x=pltX, y=pltY, color='green', label='sepal width (cm)')

pltX = dataset_filt['petal length (cm)']
sns.scatterplot(x=pltX, y=pltY, color='red', label='petal length (cm)')

pltX = dataset_filt['petal width (cm)']
sns.scatterplot(x=pltX, y=pltY, color='black', label='petal width (cm)')

plt.legend(prop={'size':9})
plt.show()

### **Paso 1.**  Obtención y preparación de datos

Comenzamos a preparar el conjunto de datos para crear el modelo, almacenando las variables (columnas/características) que miden **los tamaños del pétalo** en una variable llamada "***X***" ya que es evidente que son medidas muy distintivas y actuan como factores diferenciadores en este dataset. Almacenamos la especie de las flores (variable respuesta/target) en otra variable llamada "***y***".

In [None]:
### Preparar el conjunto de datos del modelo

# Variables independientes (features) que son las medidas del pétalo
X = df_normal[['petal length (cm)', 'petal width (cm)']]

# Variable dependiente (target) que son las etiquetas almacenadas en la última columna 
y = dataset_filt['label']

In [None]:
print(X)
print("\n")
print(y)

### **Paso 2.**  Dividir el dataset en Training y Test set

In [None]:
# Separar los conjuntos de datos de entrenamiento (Training) y de prueba (Test) para las variables de entrada y salida
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=88)

In [None]:
# "test_size" representa la proporción del conjunto de datos a incluir en la división de Test
print(X_train.shape[0])
print(X_test.shape[0])
X_train.shape[0] + X_test.shape[0]

### **Paso 3.** Cargar y elegir el modelo de regresión logística

In [None]:
# Importar el módulo que corresponde al algoritmo
from sklearn.linear_model import LogisticRegression

# Asignar el algoritmo que vamos a aplicar 
log_r = LogisticRegression(random_state=100)

### **Paso 4.** Entrenar el modelo de regresión logística con los datos de entrenamiento

In [None]:
# Entrenar el modelo
log_r.fit(X_train, y_train)

Ahora que el modelo está entrenado, sacamos las predicciones, analizamos los resultados y obtenemos algunas métricas del modelo basadas en el conjunto de datos de prueba. Según las métricas, podremos observar si el modelo clasificó correctamente todas las especies.

### **Paso 5.** Obtener las predicciones 

In [None]:
# Calcular las predicciones con el conjunto de prueba
y_pred = log_r.predict(X_test)

In [None]:
# Imprimir la salida del modelo (las especies predichas)
print(y_pred)

In [None]:
# Creamos un DataFrame con los datos de test y las predicciones
df_test = pd.concat([X_test, y_test], axis='columns')
df_test['predict'] = y_pred
df_test

In [None]:
# Añadimos una columna indicando el si ha acertado la predicción o no
df_test['compare'] = df_test.apply(lambda x: True if x['label']==x['predict'] else False, axis='columns')
df_test

In [None]:
# Identificamos los fallos del modelo en el conjunto de prueba
df_test[df_test['compare']==False]

Cuando estamos trabajando con un array, una serie o una columna de Pandas DataFrame y queremos filtrarlos necesitaremos aplicar operaciones lógicas por elementos. [Python’s Bitwise Operators](https://wiki.python.org/moin/BitwiseOperators) funcionan como operadores booleanos, pero se aplican por elementos: `<<, >>, &, |, ~, and ^ `

In [None]:
df_test[~df_test['compare']]

In [None]:
# La ratio de los aciertos
28/30

### **Paso 6.** Evaluación del modelo a través de sus métricas

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

Existen otra serie de metricas para calificar los modelos de clasificación que se detallan a continuación. Algunas de estas medidas se resumen en un informe llamado **classification_report**.

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

disp = ConfusionMatrixDisplay(confusion_matrix=confusion_matrix(y_test, y_pred),
                               display_labels=log_r.classes_)
disp.plot()

plt.show()

## 2.2 Métodos de evaluación para modelos de clasificación

Las **principales métricas de clasificación** usadas en Machine Learning:
* Matriz de confusión o error
* Precisión
* Recall o sensibilidad o TPR (Tasa positiva real)
* Especificidad o TNR (Tasa negativa real)
* F1-Score
* Área bajo la curva de funcionamiento del receptor (ROC) (AUC)
* Pérdida logarítmica
* Cohen’s Kappa

### 2.2.1 Matriz confusión (Confusion Matrix)

La matriz de confusión o Error Matrix es una tabla que describe el rendimiento de un modelo de clasificación en los datos de prueba. Se llama “matriz de confusión” porque hace que sea fácil detectar dónde el sistema está confundiendo dos clases.

En términos prácticos nos permite **ver qué tipos de aciertos y errores está teniendo nuestro modelo** a la hora de pasar por el conjunto de datos de prueba.

* True Positives (**TP**): cuando la clase real del punto de datos era <ins>1 (Verdadero)</ins> y la predicha es también <ins>1 (Verdadero)</ins>
* Verdaderos Negativos (**TN**): cuando la clase real del punto de datos fue <ins>0 (Falso)</ins> y el pronosticado también es <ins>0 (Falso)</ins>.
* False Positives (**FP**): cuando la clase real del punto de datos era <ins>0 (Falso)</ins> y el pronosticado es <ins>1 (Verdadero)</ins>.
* False Negatives (**FN**): Cuando la clase real del punto de datos era <ins>1 (Verdadero)</ins> y el valor predicho es <ins>0 (Falso)</ins>.

![image.png](attachment:image.png)

El escenario ideal sería que el modelo nos de 0 False Positives y 0 False Negatives. Para calcular la matriz de confusión podemos utilizar la función ``confusion_matrix`` de *sklearn*.

### 2.2.2 Accuracy 

Es el porcentaje total de **aciertos** o los elementos clasificados correctamente.

![image.png](attachment:image.png)

Es la medida **más directa** de la calidad de los clasificadores. Se trata de un valor **entre 0 y 1**. Cuanto más alto, mejor será el modelo de clasificación.

**Desventaja**:

Esta medida no tiene en cuenta la clase que corresponde a las prediddiones acertadas. Por lo tanto, **Accuracy es una buena medida cuando las clases de variables de destino en los datos están casi equilibradas**.

### 2.2.3 Recall, Sensibilidad o TPR (True Positive Rate)

Es el número de elementos identificados correctamente como positivos del total de positivos verdaderos.

![image.png](attachment:image.png)


### 2.2.4 Precisión
Es el número de elementos identificados correctamente como positivo de un total de elementos identificados como positivos.

![image.png](attachment:image.png)

### Precisión VS recall

Está claro que recall nos da información sobre el rendimiento de un clasificador con respecto a falsos negativos (cuántos fallaron), mientras que la precisión nos proporciona información sobre su rendimiento con respecto a los falsos positivos (cuántos capturados).

Básicamente, si queremos enfocarnos más en minimizar los falsos negativos, deseamos que nuestro recuerdo sea lo más cercano posible al 100% sin que la precisión es muy mala y si queremos enfocarnos en minimizar los falsos positivos, entonces nuestro enfoque debe orientarse a hacer que la Precisión sea lo más cercana posible al 100%.

### 2.2.5 Especificidad o TNR (True Negative Rate)

Es el número de ítems correctamente identificados como negativos fuera del total de negativos.

![image.png](attachment:image.png)

### 2.2.6 Puntuación F1 (F1-score)

El valor F1 se utiliza para **combinar las medidas de precision y recall** en un sólo valor. Esto es práctico porque hace más fácil el poder comparar el rendimiento combinado del modelo entre varias soluciones.

F1 se calcula haciendo la **media armónica entre la precisión y la sensibilidad**:

![image.png](attachment:image.png)

El valor F1 asume que nos importa de igual forma la precisión y el recall. 

### 2.2.7 Área bajo la curva ROC

### Curva ROC (Receiver Operating Characteristic)

Una curva ROC (curva de característica operativa del recepto) es un gráfico que muestra el rendimiento de un modelo de clasificación en todos los umbrales de clasificación. Esta curva representa dos parámetros:
* Tasa de verdaderos positivos:  $ VP/(VP+FN)$
* Tasa de falsos positivos:   $ FP/(VN+FP)$

La fracción de verdaderos positivos se conoce como **sensibilidad**, sería la probabilidad de clasificar correctamente a un individuo cuyo estado real sea definido como positivo. 

La **especificidad** es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea clasificado como negativo. Esto es igual a restar uno de la fracción de falsos positivos.

La curva ROC también es conocida como la representación de sensibilidad frente a (1-especificidad). 

Cada umbral de clasificacióin (valor a partir del cual decidimos que un caso es un positivo) hace que se pinte un punto diferente en la curva ROC. El mejor método posible de predicción se situaría en un punto en la esquina superior izquierda, o coordenada (0,1) del espacio ROC, representando un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). 

![image.png](attachment:image.png)

Una clasificación totalmente aleatoria daría un punto a lo largo de la línea diagonal, que se llama también línea de no-discriminación.

En definitiva, se considera un **modelo inútil**, cuando la curva ROC recorre la diagonal positiva del gráfico. Y se considera **un test perfecto** cuando la curva ROC recorre los bordes izquierdo y superior del gráfico. 

La curva ROC permite comparar modelos a través del área bajo su curva.

![image.png](attachment:image.png)

### AUC- Área bajo la curva ROC
AUC significa "área bajo la curva ROC". Esto significa que el AUC mide toda el área bidimensional por debajo de la curva ROC completa de (0,0) a (1,1).

El AUC proporciona una medición agregada del rendimiento en todos los umbrales de clasificación posibles. Una forma de interpretar el AUC es como la probabilidad de que el modelo clasifique un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio. 


---

## [Wine recognition dataset](https://archive.ics.uci.edu/ml/datasets/Wine)

Estos datos son el resultado de un análisis químico de vinos cultivados en una región de *Italia* pero derivados de tres variedades diferentes. El análisis determinó las cantidades de 13 ingredientes que se encuentran en cada uno de los tres tipos de vinos.

Los atributos que se han podido medir en el laboratorio son: 
1) alcohol
2) ácido málico
3) Ceniza
4) Alcalinidad de la ceniza
5) magnesio
6) fenoles totales
7) Flavonoides
8) Fenoles no flavonoides
9) proantocianinas
10) Intensidad de color
11) tonalidad
12) OD280/OD315 de vinos diluidos
13) prolina

Vamos a descargar este conjunto de datos con el objetivo de poder clasificar un vino en base a sus características: 

In [None]:
from sklearn.datasets import load_wine

# Construimos un dataframe con los datos medidos 
dataset_vino = pd.DataFrame(load_wine()["data"], columns=load_wine()["feature_names"])

# Añadimos la especie como etiqueta
dataset_vino["label"] = load_wine()["target_names"][load_wine()["target"]]

dataset_vino

In [None]:
# información del DataFrame resultante
dataset_vino.info()

In [None]:
# Comprobar la existencia de valores nulos/perdidos
dataset_vino.isna().sum()

In [None]:
# Las principales características del conjunto de datos
dataset_vino.describe()

In [None]:
# Graficar la distribución de los valores originales
plt.figure(figsize=(20,6))
sns.boxplot(data=dataset_vino,  orient='v')
plt.show()

In [None]:
# Filtrar los datos numéricos
df_vino_num = dataset_vino.drop("label", axis='columns')
df_vino_num

Procedemos a estandarizar el contenido de las variables del dataset:

In [None]:
# importar los objetos necesarios de la librería sklearn
from sklearn.preprocessing import StandardScaler

# declarar el tipo de escalamiento y aplicarlo al conjunto de datos
escalado_v = StandardScaler().fit(df_vino_num)
dataset_vino_normal = escalado_v.transform(df_vino_num)
dataset_vino_normal

In [None]:
# Lo convertimos en un DataFrame, añadiendole sus etiquetas
df_vino_normal = pd.DataFrame(dataset_vino_normal, columns=df_vino_num.columns)
print(type(df_vino_normal))
df_vino_normal

In [None]:
# Graficar la distribución de los valores estandarizados
plt.figure(figsize=(20,6))
sns.boxplot(data=df_vino_normal,  orient='v')
plt.show()

### **Planteamiento del problema**: Identificar los vinos que son de ***clase_2*** 

In [None]:
# Definimos una variable binaria según el planteamiento del problema
df_vino_normal['etiqueta'] = dataset_vino['label'].apply(lambda x: 1 if x=="class_2" else 0)
df_vino_normal

In [None]:
# Estudiamos las relaciones entre las variables del dataset
sns.pairplot(df_vino_normal, hue="etiqueta", height=3)
plt.show()

In [None]:
df_vino_normal.columns

In [None]:
# Elegimoa un conjunto de variables a utilizar en el clasificador
listado_var_input=[df_vino_normal.columns[11], df_vino_normal.columns[12]]
listado_var_input

In [None]:
### Preparar el conjunto de datos del modelo

# Variables independientes (features) que son las medidas del pétalo
X_vino = df_vino_normal[listado_var_input]

# Variable dependiente (target) que son las etiquetas almacenadas en la última columna 
y_vino = df_vino_normal['etiqueta']

In [None]:
print(X_vino)
print("\n")
print(y_vino)

In [None]:
# Separar los conjuntos de datos de entrenamiento (Training) y de prueba (Test) para las variables de entrada y salida
from sklearn.model_selection import train_test_split
X_train_v, X_test_v, y_train_v, y_test_v = train_test_split(X_vino, y_vino, test_size=0.25, random_state=88)

In [None]:
# Importar el módulo que corresponde al algoritmo
from sklearn.linear_model import LogisticRegression

# Asignar el algoritmo que vamos a aplicar 
log_r_vino = LogisticRegression(random_state=100)

# Entrenar el modelo
log_r_vino.fit(X_train_v, y_train_v)

# Calcular las predicciones con el conjunto de prueba
y_pred_v = log_r_vino.predict(X_test_v)

In [None]:
# Imprimir la salida del modelo (las especies predichas)
print(y_pred_v)

In [None]:
# Creamos un DataFrame con los datos de test y las predicciones
df_test_v = pd.concat([X_test_v, y_test_v], axis='columns')
df_test_v['predict'] = y_pred_v
df_test_v

In [None]:
# Filtramos el conjunto de test para encontrar los errores cometidos por el modelo de clasificación
df_test_v.loc[df_test_v['etiqueta']!=df_test_v['predict']]

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test_v, y_pred_v)

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test_v, y_pred_v))

In [None]:
# Sacar la matriz de confusión
from sklearn.metrics import confusion_matrix, accuracy_score
confusion_matrix(y_test_v, y_pred_v)


In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
matriz_conf = confusion_matrix(y_test_v, y_pred_v)
graf_mat_conf = ConfusionMatrixDisplay(confusion_matrix=matriz_conf,
                              display_labels=log_r_vino.classes_)
graf_mat_conf.plot()
plt.show()

In [None]:
# Calcular el área bajo la curva de funcionamiento del receptor
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test_v, y_pred_v)

In [None]:
# Graficar la curva ROC
from sklearn.metrics import RocCurveDisplay

RocCurveDisplay.from_predictions(y_test_v, y_pred_v)

plt.show()

---

### **`Ejercicio 12`**

Vamos a realizar un estudio para crear varios clasificadores tipo *Logit* según el planteamiento que sea ha definido anteriormente:

**`12.1`** Construye como el último ejercicio de la sesión, modelos de clasificación con solamente **dos variables de entrada** dentro de todo el conjunto de características presentes en el dataset. Evalúa cada modelo en base a su ***accuracy*** y encuentra el mejor clasificador (poniendo `random_state=100`)
   
**`12.2`** Realiza el ejercicio del punto anterior, esta vez eligiendo el mejor modelo en base a `f1-score` del `macro avg`.  

**`12.3`** Consulta todas las metricas y visualiza las gráficas que muestran el rendimiento de los modelos resultantes y explica si se puede elegir a alguno como un buen clasificador de vinos de `clase_2`.