<h1 align="center">Analítica de datos para la toma de decisiones empresariales</h1>
<h1 align="center">Ejercicio: Feature Selection - Diabetes Indios Pima</h1>
<h1 align="center">Centro de Educación Continua</h1>
<h1 align="center">EAFIT</h1>
<h1 align="center">2023</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|![Gmail](https://img.shields.io/badge/Gmail-D14836?style=plastic&logo=gmail&logoColor=white)|<carlosalvarezh@gmail.com>|![Outlook](https://img.shields.io/badge/Microsoft_Outlook-0078D4?style=plastic&logo=microsoft-outlook&logoColor=white)|<calvar52@eafit.edu.co>|
|-:|:-|--:|:--|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/Curso_CEC_EAFIT/blob/main/C02_Modelos_Prediccion_Pronostico.ipynb)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

## Introducción

Como científico de datos que trabaja con Python, es crucial entender la importancia de la selección de características al construir un modelo de aprendizaje automático. En problemas de ciencia de datos en la vida real, es casi raro que todas las variables en el conjunto de datos sean útiles para construir un modelo. Agregar variables redundantes reduce la capacidad de generalización del modelo y también puede disminuir la precisión general de un clasificador. Además, agregar más variables a un modelo aumenta la complejidad general del mismo.

Según la [Ley de la Parsimonia de la 'Navaja de Occam'](https://en.wikipedia.org/wiki/Occam%27s_razor), la mejor explicación de un problema es aquella que implica el menor número posible de suposiciones. Por lo tanto, la selección de características se convierte en una parte indispensable en la construcción de modelos de aprendizaje automático.


### Objetivos de Aprendizaje

- Comprender la importancia de la selección de características.
<p>&nbsp;</p>

- Familiarizarse con diferentes técnicas de selección de características.
<p>&nbsp;</p>

- Aplicar técnicas de selección de características en la práctica y evaluar el rendimiento.

### Selección de características en el aprendizaje automático

El objetivo de las técnicas de selección de características en el aprendizaje automático es encontrar el mejor conjunto de características que permita construir modelos optimizados de los fenómenos estudiados.

Las técnicas de selección de características en el aprendizaje automático se pueden clasificar ampliamente en las siguientes categorías:

- ***[Técnicas Supervisadas](https://en.wikipedia.org/wiki/Supervised_learning):*** Estas técnicas se pueden utilizar para datos etiquetados y para identificar las características relevantes que aumentan la eficiencia de modelos supervisados como la clasificación y la regresión. Por ejemplo, [regresión lineal](https://en.wikipedia.org/wiki/Linear_regression), [árbol de decisión](https://en.wikipedia.org/wiki/Decision_tree), [Máquinas de Vectores de Soporte](https://en.wikipedia.org/wiki/Support_vector_machine), etc.
<p>&nbsp;</p>

- ***[Técnicas No Supervisadas](https://en.wikipedia.org/wiki/Unsupervised_learning):*** Estas técnicas se pueden utilizar para datos no etiquetados. Por ejemplo, [Agrupamiento K-Means](https://en.wikipedia.org/wiki/K-means_clustering), [Análisis de Componentes Principales](https://en.wikipedia.org/wiki/Principal_component_analysis), [Agrupamiento Jerárquico](https://en.wikipedia.org/wiki/Hierarchical_clustering), etc.

Desde un punto de vista taxonómico, estas técnicas se clasifican en métodos de [filtro](https://en.wikipedia.org/wiki/Feature_selection#Filter_method), [envoltura](https://en.wikipedia.org/wiki/Feature_selection#Wrapper_method), [embebidos](https://en.wikipedia.org/wiki/Feature_selection#Embedded_method) y métodos híbridos.

Ahora, discutamos en detalle algunas de estas populares técnicas de selección de características en el aprendizaje automático.

## Análisis Exploratorio de los Datos

### Entendiendo el conjunto de datos: Diabetes de los Indios Pima

Pongámonos primero en contexto: El Conjunto de Datos de [Diabetes de los Indios Pima](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) implica predecir el inicio de la diabetes en un plazo de $5$ años en los Indios Pima dados detalles médicos.

Es un problema de [clasificación binaria](https://en.wikipedia.org/wiki/Binary_classification) ($2$ clases). El número de observaciones para cada clase no está equilibrado. Hay $768$ observaciones con $8$ variables de entrada y $1$ variable de salida. Se cree que los valores faltantes están codificados con valores cero. Los nombres de las variables son los siguientes:

Tenemos una variable objetivo:

- `Outcome`: $1$ (tiene diabetes) y $0$ (no tiene diabetes) ($Y$)

Contamos con 8 variables explicativas (todas numéricas) que son:

- `Pregnancies`: Número de veces que está embarazada. ($X_1$)

- `Glucose`: Prueba de tolerancia a la glucosa oral: OGTT (concentración de glucosa en plasma de dos horas después de 75 g de glucosa anhidra en mg/dl) ($X_2$)

- `BloodPressure`: Presión arterial diastólica en mmHg ($X_3$)

- `SkinThickness`: Grosor del pliegue cutáneo del tríceps (en mm) ($X_4$)

- `Insulin`: 2 h de insulina sérica en U/ml ($X_5$)

- `BMI`: índice de masa corporal, IMC, en kg/m2 ($X_6$)

- `DiabetesPedigreeFunction`: Función que representa la probabilidad de que padezcan la enfermedad extrapolando la historia de sus antepasados. ($X_7$)

- `AGE`: Edad en años. ($X_8$)


### Cargue de los datos

Carguemos el conjunto de datos y realicemos una breve exploración del dataset para tener un mejor entendimiento del problema a desarrollar.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_selection import mutual_info_classif
import missingno as msno

import warnings 
warnings.filterwarnings('ignore')

In [None]:
# Cargue de datos
df = pd.read_csv("Data/diabetes2.csv")

Damos una rápida inspección visual de los datos, tanto en las primeras como en las últimas entradas:

In [None]:
df.head(10)

In [None]:
df.tail(10)

Se observa que hay algunos valores `NaN`. Ahora miremos la información general del conjunto de datos

In [None]:
df.info()

Efectivamente todas las columnas de las características cuentan con algunos datos faltantes. Vamos a chequear

In [None]:
df.isnull().sum()

Veamos un resumen de las estadísticas descriptivas de cada una de las columnas numéricas del dataset

In [None]:
df.describe()

Observemos que los valores mínimos en las columnas `Glucose`, `BloodPressure`, `SkinThickness`, `Insulin` y `BMI` es de $0$, lo que no es posible. Dichos valores de $0$ representan valores faltanes, por lo que hay qué reemplazarlos por `NaN`

In [None]:
cols = ['Glucose','BloodPressure','SkinThickness','Insulin','BMI']
df[cols] = df[cols].replace({'0':np.nan, 0:np.nan})

volvamos a ver el resumen del dataset

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isnull().sum()

Visualicemos el número de valores faltantes empleando un diagrama de barras

In [None]:
pip install missingno #ejecutar únicamente la primera vez para su instalación

In [None]:
msno.bar(df)

Se observa que la variable `Insulin` contiene la mayor cantidad de datos faltantes, seguida por la variable `SkinThickness`.

Ahora exploremos cómo se correlacionan las diferentes variables entre sí:

In [None]:
corr = df.corr()
sns.heatmap(corr, annot=True, square=True)
plt.yticks(rotation=0)
plt.show()

Del gráfico de correlación podemos extraer la siguiente información

***Correlaciones positivas:***

- `Glucose` e `Insulin` ($0.59$): Niveles más altos de insulina corresponden a niveles más altos de glucosa en sangre.
- `Age` y `Pregnancies` ($0.54$): Las mujeres mayores tienden a tener más embarazos.
- `Glucose` y `Outcome` ($0.48$): Las mujeres con niveles más altos de glucosa tienen más probabilidad de tener diabetes.
- `SkinThickness` y `BMI` ($0.63$): Las mujeres con valores más altos de grosor del pliegue cutáneo tienden a tener un *IMC* más alto, lo que a menudo indica sobrepeso u obesidad.

***Correlación negativa:***

- `DiabetesPedigreeFunction` y `Pregnancies`: $-0.031$

En general, un coeficiente de correlación por encima de $0.7$ entre dos características sugiere multicolinealidad. Sin embargo, en estos datos, no hay tales correlaciones altas, lo que indica que la multicolinealidad no es una preocupación.


Ahora, vamos a agrupar los datos por la variable `Outcome`

In [None]:
df.groupby('Outcome').mean().round(2)

De estos resultados resaltemos:

- Las mujeres diabéticas tienden a tener un mayor número de embarazos, niveles más altos de glucosa, presión arterial, grosor de la piel, insulina, IMC y función del pedigrí de la diabetes que aquellas que no son diabéticas y también es probable que sean mayores.
<p>&nbsp;</p>

- Ambos grupos tienen un *IMC* mucho más alto que el rango normal $(18.5$ a $25)$, lo que indica obesidad.
<p>&nbsp;</p>

- Las mujeres que tienen diabetes tienen más probabilidades de tener antecedentes ancestrales de diabetes.
<p>&nbsp;</p>

- Las mujeres con diabetes tienen un promedio de insulina superior al rango normal ($16$ a $166 muU/ml$), mientras que los que no tienen diabetes tienen niveles de insulina promedio en el rango normal.
<p>&nbsp;</p>

- Ambos grupos tienen un promedio de glucosa superior al rango normal ($\leq 100 mg/dL$). Podría indicar que algunas mujeres no diabéticas tienen riesgo de tener diabetes en el futuro, especialmente aquellas con niveles más altos de insulina.

Ahora, veamos una representación gráfica de los mismos resultados empleando un gráfico de líneas.

In [None]:
df.groupby('Outcome').mean().T.plot(figsize=(12,4))

El gráfico de líneas nos ayuda a visualizar lo mismo, que el valor medio de cada característica es mayor para las mujeres diabéticas que para las no diabéticas.

Ahora, grafiquemos los datos empleando diagrama de barras

In [None]:
#relation between each feature and the outcome variable by barplot.
plt.figure(figsize = (20,10))
for i,col in enumerate(set(df.columns) - {'Outcome'}):
    plt.subplot(2,4,i+1)
    sns.barplot(data = df, x = 'Outcome',y = col,)
    plt.xlabel('Outcome', fontsize = 15)
    plt.xticks(fontsize = 10)
    plt.ylabel(col, fontsize = 15)
    plt.yticks(fontsize = 10)

Veamos cómo es su representación empleando diagramas de caja

In [None]:
plt.figure(figsize = (20,20))
for i,col in enumerate(set(df.columns) - {'Outcome'}):
    plt.subplot(4, 4, i + 1)
    sns.boxplot(data = df,x = 'Outcome', y = col )
    plt.xlabel('Outcome', fontsize = 15)
    plt.xticks(fontsize = 10)

Solo para asegurarnos de que los datos no estén desequilibrados, trazamos el gráfico de recuento para la variable de salida.

In [None]:
sns.countplot(x = 'Outcome', data = df)

In [None]:
#Let us first analyze the distribution of the target variable

labels = ['Non-Diabetic','Datiabetic']
MAP = {}
for e, i in enumerate(df['Outcome'].unique()):
    MAP[i] = labels[e]
#MAP={0:'Not-Survived',1:'Survived'}
df1 = df.copy()
df1['Outcome'] = df1['Outcome'].map(MAP)
explode = np.zeros(len(labels))
explode[-1] = 0.1
print('\033[1mOutcome Variable Distribution'.center(55))
plt.pie(df1['Outcome'].value_counts(), labels=df1['Outcome'].value_counts().index, counterclock = False, shadow = True, 
        explode = explode, autopct = '%1.1f%%', radius = 1, startangle = 0)
plt.show()

### Análisis Univariado

In [None]:
df.info()

Ahora tenemos que imputar los valores faltantes, pero para eso primero veamos el tipo de distribuciones de nuestros datos para decidir cómo podemos imputarlos.

El método de imputación debe decidirse después de considerar la distribución de los datos: *distribución normal* o *distribución sesgada* (ya sea a la derecha o a la izquierda).

In [None]:
plt.figure(figsize = (20, 25))
for i, col in enumerate(set(df.columns) - {'Outcome'}):
    plt.subplot(6, 4, i + 1)
    sns.histplot(df[col], kde = True)  # Utiliza histplot con kde=True para trazar la distribución y la estimación de densidad.
    plt.xlabel(col, fontsize=15)
    plt.xticks(fontsize=15)

plt.show()


La distribución de las variables `BloodPressure`, `SkinThickness` y `BMI` es normal, mientras que para todas las demás características está sesgada. Por lo tanto, para estos, podemos reemplazar los valores faltantes por la media y, para el resto, por la mediana. 

(***NOTA:*** Recuerde que esto es solo una idea. Las decisiones deberán ser enmarcadas en el contexto del tipo de problema que se está desarrollando)

In [None]:
df.info()

In [None]:
df1=df.copy(deep = True)

#for column in df1[['BloodPressure', 'SkinThickness', 'BMI']]: # corregir
for column in df1[['BloodPressure', 'BMI']]:
    df1[column] = df1[column].fillna(df1[column].mean())

for column in df1[['Pregnancies','Glucose','DiabetesPedigreeFunction','Age']]:
    df1[column] = df1[column].fillna(df1[column].mean())
    #df1[column] = df1[column].fillna(df1[column].median()) #corregir

Veamos el antes y el después de esta operación

In [None]:
df.info()

In [None]:
df1.info()

Dado que el grosor de la piel y la insulina tienen un gran número de valores faltantes, por lo que utilizamos [`KNNImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html) para estas características, ya que el uso de media/mediana genera muchos valores atípicos en los datos.

In [None]:
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors = 5, weights='distance', metric = 'nan_euclidean',)
imputed_data = imputer.fit_transform(df1) 
df2 = pd.DataFrame(imputed_data)
df2.columns = df1.columns

Veamos cómo quedó el `df2`resultante

In [None]:
df2.info()

ahora revisemos los estadísticos tanto del `df` original como el final, `df2`.

In [None]:
df.describe()

In [None]:
df2.describe()

Realicemos diagramas de caja para comprobar si hay valores atípicos (después de completar los valores faltantes)

In [None]:
plt.figure(figsize = (15,8))
for i,col in enumerate(set(df2.columns) - {'Outcome'}):
    plt.subplot(2, 4, i+1)
    sns.boxplot(data = df2,x = col)
    plt.xlabel(col, fontsize = 15)
    plt.xticks(fontsize = 10)

La distribución de edades está muy sesgada, lo que significa que la mayoría de las mujeres eran jóvenes.

Además, vemos valores atípicos para cada característica. Los valores atípicos son valores dentro de un conjunto de datos que varían mucho de los demás, es decir, son mucho más grandes o significativamente más pequeños. Tenemos que eliminar/reemplazar los valores atípicos para obtener una mayor precisión.

In [None]:
def detect_outliers(df2):
    outliers = pd.DataFrame(columns=["Feature", "No.of Outliers", "Handled?"])
    for col in list(set(df2.select_dtypes(include=np.number).columns) - {'Outcome'}):
        q1 = df2[col].quantile(0.25)
        q3 = df2[col].quantile(0.75)
        iqr = q3 - q1
        low = q1 - (1.5 * iqr)
        high = q3 + (1.5 * iqr)
        n = df2.loc[(df2[col] < low) | (df2[col] > high)].shape[0]

        df2.loc[(df2[col] < low), col] = low
        df2.loc[(df2[col] > high), col] = high

        #handled = df2[col].all() < high
        handled = all(df2[col] < high)
        outliers = pd.concat([outliers, pd.DataFrame({'Feature': [col], "No.of Outliers": [n], "Handled?": [handled]})])

    outliers['Handled?'] = outliers['Handled?'].astype(bool)

    return outliers

detect_outliers(df2)


Ahora, dado que se reemplaza cada valor atípico, se realizan diagramas de caja para cada característica después de tratar los valores atípicos.

In [None]:
plt.figure(figsize = (15,8))
for i,col in enumerate(set(df2.columns) - {'Outcome'}):
    plt.subplot(2,4,i+1)
    sns.boxplot(data = df2, x = col)
    plt.xlabel(col, fontsize = 15)
    plt.xticks(fontsize = 10)

Por lo tanto, los datos ahora están libres de valores atípicos.

### Análisis bivariado

El [análisis bivariado](https://en.wikipedia.org/wiki/Bivariate_analysis) es el estudio de la relación entre dos variables en un conjunto de datos. En otras palabras, implica analizar cómo dos variables diferentes están relacionadas o se comportan juntas. Esto se logra al examinar la asociación, correlación o dependencia entre estas dos variables y puede ayudarnos a comprender mejor cómo una variable afecta o se relaciona con la otra.

El análisis bivariado es fundamental para explorar patrones, identificar tendencias y descubrir posibles relaciones en los datos. Puede involucrar la visualización de datos, como gráficos de dispersión o tablas de contingencia, así como la realización de pruebas estadísticas para determinar si existe una relación significativa entre las dos variables.

Un gráfico de pares nos permite visualizar las relaciones entre dos variables así como ver la distribución de cada variable.

In [None]:
sns.pairplot(data = df2, kind = 'scatter')

De las gráficas observamos:

- Existe una alta relación lineal entre el grosor de la piel y el IMC (también tuvieron la correlación más alta).
<p>&nbsp;</p>

- Los niveles de insulina y glucosa muestran una alta relación lineal (lo cual también quedó claro en la matriz de correlación)
<p>&nbsp;</p>

Ahora, para ver la relación entre dos variables con respecto a la tercera variable, `Outcome`, utilizamos el parámetro `hue`.

In [None]:
sns.pairplot(data = df2, hue = 'Outcome')

del diagrama de pares se observa:

- Las mujeres diabéticas tienden a tener un valor más alto para cada característica, es decir, tienen más edad, son más obesas y tienen más números de embarazos, niveles altos de PA, glucosa e insulina.
<p>&nbsp;</p>

- Además, si vemos los gráficos de niveles de glucosa con otras características, vemos que los niveles más altos de glucosa son un factor clave para la diabetes, independientemente de los otros factores, es decir, si la mujer tiene niveles de glucosa más altos, es más probable que tenga diabetes.

Otra gráfica usada para este tipo de análisis es la llamada *joint plot*, y consta de tres gráficos en uno. El centro contiene la relación bivariada entre las variables $x$ e $y$. Los gráficos superior y derecho muestran la distribución univariada de las variables, respectivamente.

In [None]:
sns.jointplot(x = 'Glucose', y = 'Insulin', data = df2)

Muestra la relación lineal entre la glucosa y la insulina, también sus distribuciones univariadas, ambas están sesgadas hacia la derecha.

Ahora, hacemos el gráfico conjunto con respecto a la variable `Outcome` con la ayuda del parámetro `hue`.

In [None]:
sns.jointplot(x = 'BMI', y = 'SkinThickness', data = df2, hue = 'Outcome')

Muestra la relación lineal entre el IMC y el grosor de la piel del tríceps.

Es probable que las mujeres diabéticas sean más obesas y tengan un mayor grosor de la piel del tríceps, además de sus distribuciones univariadas, lo que muestra que ambas características tienen una distribución sesgada.

## Selección de características

### Características más importantes

Podemos comprobar la importancia de cada característica utilizando el algoritmo de [Extra Tree Regresor](https://en.wikipedia.org/wiki/Random_forest).

In [None]:
from sklearn.ensemble import ExtraTreesRegressor

# Crear el modelo
model = ExtraTreesRegressor()

# Supongamos que 'df2' contiene tus datos
x = df2.drop("Outcome", axis=1)
y = df2["Outcome"]

# Ajustar el modelo a tus datos
model.fit(x, y)

# Imprimir las características de importancia
print(model.feature_importances_)


Los resultados obtenidos representan las características de importancia del modelo `ExtraTreesRegressor` para predecir la variable objetivo `Outcome`. Cada valor en la lista corresponde a una característica específica del conjunto de datos. Estos valores de importancia son numéricos y reflejan la contribución relativa de cada característica para hacer predicciones precisas.

Presentamos algunas observaciones generales sobre los resultados:

- ***Las características de importancia suman 1:*** La suma de todos los valores de importancia es igual a $1$, lo que significa que representan la proporción de la importancia total distribuida entre las características. Esto es útil para entender cuánto contribuye cada característica en relación con las demás.
<p>&nbsp;</p>

- ***Características más importantes:*** Las características con valores de importancia más altos son aquellas que tienen un mayor impacto en las predicciones del modelo. En este caso, las características con los valores más altos son la segunda característica (`Glucose`), la sexta característica (`BMI`), la quinta característica, `Insulin` y la octava característica (`Age`).

Ahora, realicemos una visualización emplenado un diagrama de barras:

In [None]:
#visualizing by bar graph
feature_imp = pd.DataFrame({'Value': model.feature_importances_, 'Feature': x.columns})
plt.figure(figsize = (5, 5))
sns.barplot(x = 'Value', y = 'Feature', data = feature_imp.sort_values(by = 'Value', ascending = False))
plt.title('Features importances')
plt.show()

Se corrobora lo indicado en el anterior resultado.

### Análisis de Componentes Principales (PCA)

El [Análisis de Componentes Principales](https://en.wikipedia.org/wiki/Principal_component_analysis) (*PCA*) es un método de reducción de dimensionalidad que convierte un conjunto de variables correlacionadas en un conjunto de variables no correlacionadas, llamadas componentes principales, al tiempo que reduce la dimensionalidad del conjunto de datos.

Los *Componentes Principales* (*PC*) son [combinaciones lineales](https://en.wikipedia.org/wiki/Linear_combination) de las características originales del conjunto de datos que se crean de manera que capturen la máxima variabilidad en los datos. En el contexto del *Análisis de Componentes Principales* (*PCA*), los *PC* se ordenan en función de cuánta variabilidad explican.

- ***PC1 (Primer Componente Principal):*** Representa la dirección en la cual los datos tienen la mayor variabilidad. Es la componente principal más importante y explica la mayor proporción de la variabilidad total en los datos. El *PC1* está compuesto por combinaciones de las características originales que tienen las mayores cargas. Las cargas indican la contribución de cada característica a *PC1*. Si una característica tiene una alta carga positiva en *PC1*, significa que esta característica está fuertemente asociada con *PC1*. Se puede interpretar a *PC1* como una combinación específica de características que influyen significativamente en la variabilidad de los datos.
<p>&nbsp;</p>

- ***PC2 (Segundo Componente Principal):*** Es la segunda componente principal más importante y explica la variabilidad adicional que no se captura en *PC1*. Aunque es menos importante que *PC1*, sigue siendo relevante. El *PC2* está compuesto por combinaciones de las características originales que tienen las segundas mayores cargas en términos de su influencia en la variabilidad de los datos. Se puede interpretar a *PC2* como una combinación específica de características que contribuyen a la variabilidad que no está capturada por *PC1*.

Así sucesivamente. 

En cuanto a la interpretación de estos componentes en el contexto de los datos, podemos considerar lo siguiente:

- ***PC1*** puede representar una combinación de características que tienen un impacto significativo en la diabetes o en la predicción de resultados.
<p>&nbsp;</p>

- ***PC2*** podría capturar patrones adicionales relacionados con la diabetes que no se explican completamente por *PC1*.
<p>&nbsp;</p>

- ***PC3*** y ***PC4*** pueden revelar patrones aún más sutiles o específicos en los datos.

La elección de cuántos de estos componentes principales retener depende de los objetivos analíticos y de cuánta variabilidad se está dispuesto a sacrificar para reducir la dimensionalidad de los datos. Por lo general, se seleccionan suficientes componentes principales para retener una alta proporción de la variabilidad total, pero esto puede variar según el caso de uso específico.

In [None]:
#scaling is required before applying pca
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

scaler = StandardScaler()
scaled_data = scaler.fit_transform(x)
scaled_data = pd.DataFrame(scaled_data)
scaled_data
pca = PCA(n_components = 4)
principalComponents = pca.fit_transform(scaled_data)
principalDf = pd.DataFrame(data = principalComponents, columns = ['PC1', 'PC2','PC3','PC4'])
print('Explained variation per principal component: {}'.format(pca.explained_variance_ratio_))

El resultado obtenido muestra la variación explicada por cada uno de los primeros cuatro componentes principales (*PC*) después de aplicar el *análisis de componentes principales* (*PCA*) a los datos escalados. Cada valor en la lista representa la proporción de variación total en los datos que es explicada por el correspondiente componente principal. Aquí hay un análisis de estos resultados:

- El *PC1* explica el $32.52\%$ de la variación total en los datos. Esto indica que el *PC1* captura una cantidad significativa de información de las características originales y es la componente principal más importante.
<p>&nbsp;</p>

- El *PC2* explica el $18.03\%$ de la variación total. El *PC2* captura información adicional, pero en menor medida que *PC1*. Aunque es menos importante que *PC1*, aún es una contribución significativa.
<p>&nbsp;</p>

- El *PC3* explica el $14.60\%$ de la variación total. El *PC3* agrega información adicional, pero con una contribución menor en comparación con *PC1* y *PC2*.
<p>&nbsp;</p>

- El *PC4* explica el $11.96\%$ de la variación total. El *PC4* es la componente principal que explica la menor cantidad de variación, pero aún puede ser relevante dependiendo de los objetivos de reducción de dimensionalidad.

Estos resultados  indican cuánta información se retiene al representar los datos en un espacio de menor dimensión utilizando *PCA*. En este caso, los primeros cuatro componentes principales explican aproximadamente el $77.11\%$ ($32.52\% + 18.03\% + 14.60\% + 11.96\%$) de la variación total en los datos. Esta información es útil para tomar decisiones sobre cuántos componentes principales seleccionar para reducir la dimensionalidad de los datos mientras se conserva la mayor cantidad posible de información.

## Clasificación

Una vez seleccionadas las características principales, vamos a aplicar el modelo a los datos.

### División Train - Test

Para modelar, primero tenemos que dividir nuestros datos en conjuntos de datos de entrenamiento y prueba, para ello, se empleará la función [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) del módulo `scikit-learn`. Se indica que el $20\%$ de los datos se reservarán para el conjunto de prueba (`test`), mientras que el $80\%$ se utilizará para el conjunto de entrenamiento (`train`). `random_state=0` establece una semilla aleatoria para garantizar que la división sea reproducible.

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

### Búsqueda

Se empleará el concepto de [Búsqueda de Cuadrícula con Validación Cruzada](https://en.wikipedia.org/wiki/Hyperparameter_optimization) ([`GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)) para la sintonización de hiperparámetros en el aprendizaje automático. Grid Search CV es una técnica utilizada para encontrar la mejor combinación de hiperparámetros para un modelo de aprendizaje automático al buscar sistemáticamente a través de un conjunto predefinido de hiperparámetros y evaluar el rendimiento del modelo mediante validación cruzada.

A continuación se importan diferentes tipos de algoritmos de aprendizaje automático para problemas de clasificación. Dependiendo del conjunto de datos y del problema que se esté abordando, se pueden probar diferentes modelos y técnicas para encontrar el que mejor se adapte a las necesidades.

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import GradientBoostingClassifier

In [None]:
model_params={
    "decision_tree":{
        'model':DecisionTreeClassifier(random_state=0),
        'params':{
              'max_features': ['sqrt', 'log2'],
              'max_depth':[3,4,5,6],
              'criterion':['gini', 'entropy', 'log_loss']
        }
    },
     "random_forest":{
        'model': RandomForestClassifier(),
        'params':{
            'n_estimators': [10,50,100], 
            'max_features': ['sqrt', 'log2'],
            'max_depth':[3,4,5,6],
            'criterion':['gini', 'entropy', 'log_loss']
        }
    }
}

scores_scaled = []
for mn,mp in model_params.items(): 
    clf = GridSearchCV(mp['model'], mp['params'], cv = 5, return_train_score = False)
    clf.fit(x_train,y_train)
    scores_scaled.append({'model':mn, 'best score':clf.best_score_,'best params': clf.best_params_})

df3 = pd.DataFrame(scores_scaled, columns = ['model','best score','best params'])
df3.sort_values(by=['best score'], ascending=False)
pd.set_option('display.max_colwidth', None)

Veamos los resultados alcanzados

In [None]:
df3

De estos, el modelo `random_forest` ofrece la mayor precisión, con un $76.4\%$.

Ahora verificamos la precisión de otros modelos, que deben aplicarse a los datos escalados. Para esto, primero divida los datos escalados en particiones de entrenamiento y prueba.

In [None]:
# Splitting the dataset into the Training set and Test set for scaled data
from sklearn.model_selection import train_test_split
x_train1, x_test1, y_train1, y_test1 = train_test_split(scaled_data, y, test_size = 0.2, random_state=0)

Se aplicarán tres modelos de aprendizaje automático: *Support Vector Machine* (*SVM*), *Regresión Logística* y *Gradient Boosting*, y se utilizarán datos escalados para mejorar la precisión de los modelos. Es decir, antes de entrenar y evaluar estos modelos, los datos se someterán a un proceso de escalado, como se hizo previamente con los otros modelos.

El proceso de escalado asegura que todas las variables tengan una influencia equitativa en los modelos, lo que puede llevar a una mejor precisión en las predicciones. Los modelos de *SVM* y *Regresión Logística*, en particular, pueden verse afectados por la magnitud de las variables, por lo que es común escalar los datos antes de usarlos con estos algoritmos. El modelo de *aumento de gradiente* (*Gradient Boosting*) también puede beneficiarse de datos escalados para un mejor rendimiento.

Esta es una práctica recomendada en el aprendizaje automático al utilizar datos escalados para estos modelos, lo que debería resultar en una mayor precisión en las predicciones.

In [None]:
model_params2={
 "svm":{
 'model': SVC(random_state=0),
 'params':{
 'C': [0.1, 1, 10, 100, 1000], 
 'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
 'kernel': ['rbf','linear']
 }
 },
 'logistic_regression':{
 'model': LogisticRegression(),
 'params':{'penalty':[ 'l2', 'elasticnet'], 
 'solver':['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],
 'C': [1,5,10]
 }
 },
"gradient_boosting":{
 'model': GradientBoostingClassifier(),
 'params':{
 'max_depth':[3,4,5],
 'n_estimators':[5,10,50,100],
 'criterion':['friedman_mse', 'squared_error', 'mse']
 }
 
 }
}
scores_scaled2 = []

for mn,mp in model_params2.items():
    clf2 = GridSearchCV(mp['model'], mp['params'], cv = 5, return_train_score = False)
    clf2.fit(x_train1,y_train1)
    scores_scaled2.append({'model':mn, 'best score':clf2.best_score_, 'best params': clf2.best_params_})

df4 = pd.DataFrame(scores_scaled2, columns = ['model','best score','best params'])
df4.sort_values(by = ['best score'], ascending = False)

In [None]:
df4

### Entrenamiento

Dado que el bosque aleatorio obtuvo la mayor precisión en los datos de entrenamiento ($76,4\%$) de los 5 algoritmos, elegiremos el modelo `Random Forest` para nuestros datos.

In [None]:
from sklearn.metrics import accuracy_score

model_final = RandomForestClassifier(criterion ='gini', max_depth = 4, max_features = 'log2', n_estimators = 100)
model_final.fit(x_train, y_train)
y_pred1 = model_final.predict(x_test)
print('Accuracy of model for testing data is ',accuracy_score(y_test,y_pred1))

¡Eso suena muy bien! Una precisión del $77,92\%$ en los datos de prueba indica que el modelo de clasificación *Random Forest* que se ha entrenado es capaz de predecir correctamente la etiqueta de clase en aproximadamente el $77,92\%$ de las muestras de prueba. En otras palabras, el modelo es bastante efectivo en la clasificación de los datos de prueba.

### Rendimiento

Sin embargo, hay qué recordar que la precisión no es la única métrica importante a considerar al evaluar un modelo de clasificación. Dependiendo de la aplicación y de la distribución de clases en los datos, puede ser útil examinar otras métricas como la *recall*, la *precisión*, la *F1-score*, la *matriz de confusión*, etc., para obtener una imagen más completa del rendimiento del modelo. 

Vamos a emplear la matriz de confusión y el mapa de calor para visualizarla:

In [None]:
from sklearn.metrics import confusion_matrix

sns.heatmap(pd.DataFrame(confusion_matrix(y_test,y_pred1)), annot = True)
plt.show()

La matriz de confusión muestra cómo se clasificaron las muestras en el conjunto de prueba.

- ***Verdaderos positivos (TP):*** Son los casos en los que el modelo predijo correctamente la clase positiva (en este caso, diabetes): $25$
<p>&nbsp;</p>

- ***Verdaderos negativos (TN):*** Son los casos en los que el modelo predijo correctamente la clase negativa (en este caso, no diabetes): $95$
<p>&nbsp;</p>

- ***Falsos positivos (FP):*** Son los casos en los que el modelo predijo incorrectamente la clase positiva cuando en realidad era negativa. Es decir, el modelo hizo una predicción de diabetes cuando no había diabetes: $12$
<p>&nbsp;</p>

- ***Falsos negativos (FN):*** Son los casos en los que el modelo predijo incorrectamente la clase negativa cuando en realidad era positiva. Es decir, el modelo hizo una predicción de no diabetes cuando había diabetes: 22

Estos valores son esenciales para calcular métricas de evaluación como *precisión*, *exhaustividad* y *F1-score*. Estas métricas  dan una idea del rendimiento general del modelo en la clasificación de casos positivos y negativos.

### Validación

Por último, realicemos una validación cruzada para encontrar la precisión media. En particular, se calculará la puntuación de validación cruzada para el modelo final utilizando 5 divisiones (folds) diferentes del conjunto de datos. La precisión promedio dará una idea de qué tan bien se desempeña el modelo en datos no vistos y puede ser una métrica útil para evaluar su rendimiento.

Los "5 folds" en la validación cruzada se refieren a una técnica en la que se divide el conjunto de datos en 5 partes aproximadamente iguales o "folds". El propósito principal de esta técnica es evaluar el rendimiento de un modelo de manera más robusta y precisa, especialmente cuando se dispone de un conjunto de datos limitado.

El proceso de validación cruzada de 5 folds se realiza de la siguiente manera:

1. El conjunto de datos se divide en 5 partes (folds) de aproximadamente igual tamaño.
<p>&nbsp;</p>

2. El modelo se entrena y se evalúa 5 veces, cada vez utilizando una combinación diferente de 4 de los 5 folds como datos de entrenamiento y el fold restante como datos de prueba.
<p>&nbsp;</p>

3. Se calcula una métrica de evaluación (como la precisión) para cada una de las 5 iteraciones.
<p>&nbsp;</p>

4. Finalmente, se calcula la puntuación promedio y posiblemente otras estadísticas (como la desviación estándar) de las métricas obtenidas en las 5 iteraciones.

Esta técnica permite obtener una estimación más robusta del rendimiento del modelo, ya que evalúa el modelo en diferentes subconjuntos de datos. Ayuda a detectar si el modelo está sobreajustado (overfitting) o subajustado (underfitting) y proporciona una idea más precisa de cómo podría funcionar en datos no vistos.

En resumen, los "5 folds" en la validación cruzada son 5 divisiones del conjunto de datos que se utilizan para entrenar y evaluar repetidamente un modelo, lo que ayuda a obtener una evaluación más confiable del rendimiento del modelo.

In [None]:
from sklearn.model_selection import cross_val_score

score = cross_val_score(model_final, x, y, cv = 5)
accuracy_rate = []
accuracy_rate.append(score.mean())
print('Average accuracy of the final model is ',accuracy_rate)

# Conclusiones

La conclusión del proceso para los datos de Diabetes en indios Pima podría ser la siguiente:

- Hemos realizado un análisis exhaustivo de los datos de Diabetes en indios Pima, que incluyó la exploración de datos, la limpieza de datos, la visualización de datos y la construcción de un modelo de clasificación utilizando el algoritmo de Bosque Aleatorio (Random Forest).
<p>&nbsp;</p>

- Después de aplicar la validación cruzada de 5 folds a nuestro modelo de Bosque Aleatorio, obtuvimos una precisión promedio del $75\%$. Esto indica que nuestro modelo tiene un rendimiento razonable al predecir la presencia o ausencia de diabetes en función de las características de los pacientes.
<p>&nbsp;</p>

- Sin embargo, es importante destacar que la precisión del modelo no es la única métrica a considerar. Para un problema de clasificación de diabetes, también es crucial evaluar la sensibilidad (la capacidad del modelo para detectar casos positivos de diabetes) y la especificidad (la capacidad del modelo para detectar casos negativos de diabetes) en función de los objetivos clínicos y las implicaciones de salud.

En resumen, hemos construido un modelo de clasificación de diabetes que muestra un rendimiento decente en términos de precisión promedio. Este modelo puede ser útil como una herramienta de apoyo para la detección temprana de diabetes en pacientes indios Pima, pero es importante considerar otras métricas y realizar una evaluación más completa antes de su implementación clínica.