# üìä An√°lisis de Datos con Pandas, Numpy y Matplotlib
Este notebook contiene ejercicios pr√°cticos para aprender a manejar datos, realizar an√°lisis estad√≠stico y visualizar informaci√≥n usando Python.

üí° **Objetivo**: Comprender las herramientas fundamentales para el an√°lisis de datos en ciencia de datos mediante ejemplos pr√°cticos.

---

# üìä Consideraciones sobre las Variables del Dataset

Este dataset que veremos hoy contiene informaci√≥n de pacientes con caracter√≠sticas m√©dicas que pueden influir en la **predicci√≥n de diabetes**. A continuaci√≥n, se describen cada una de las variables, su importancia y consideraciones a tomar en cuenta para su an√°lisis.

---

## üîπ **1. Pregnancies (N√∫mero de Embarazos)**
- **Descripci√≥n:** Indica la cantidad de veces que una paciente ha estado embarazada.
- **Tipo de dato:** **Num√©rico entero** (0, 1, 2, ‚Ä¶).
- **Consideraciones:**
  - Solo aplica a **mujeres**, por lo que en un dataset mixto podr√≠a ser irrelevante.
  - Un mayor n√∫mero de embarazos puede estar asociado con un mayor riesgo de diabetes gestacional.

---

## üîπ **2. Glucose (Glucosa en sangre)**
- **Descripci√≥n:** Nivel de glucosa en plasma (mg/dL) tras una prueba de tolerancia a la glucosa en ayuno.
- **Tipo de dato:** **Num√©rico continuo**.
- **Consideraciones:**
  - Es una de las **variables m√°s relevantes** para detectar diabetes.
  - Valores altos (>125 mg/dL) pueden indicar **diabetes o prediabetes**.
  - Si hay valores de **0 o extremadamente bajos**, podr√≠an representar **datos faltantes**.

---

## üîπ **3. BloodPressure (Presi√≥n Arterial)**
- **Descripci√≥n:** Medici√≥n de la presi√≥n arterial diast√≥lica (mmHg).
- **Tipo de dato:** **Num√©rico continuo**.
- **Consideraciones:**
  - Valores **muy bajos** (cercanos a 0) pueden representar datos faltantes o errores.
  - La **hipertensi√≥n** es un factor de riesgo com√∫n en la diabetes tipo 2.

---

## üîπ **4. SkinThickness (Grosor del Pliegue Cut√°neo)**
- **Descripci√≥n:** Grosor de los pliegues cut√°neos en el tr√≠ceps (mm), usado como estimaci√≥n de la grasa corporal.
- **Tipo de dato:** **Num√©rico continuo**.
- **Consideraciones:**
  - Puede ayudar a estimar la **obesidad**, que es un factor de riesgo para la diabetes.
  - Valores **cercanos a 0** podr√≠an ser datos faltantes.

---

## üîπ **5. Insulin (Nivel de Insulina en Sangre)**
- **Descripci√≥n:** Cantidad de insulina en suero despu√©s de una prueba de tolerancia a la glucosa (mu U/ml).
- **Tipo de dato:** **Num√©rico continuo**.
- **Consideraciones:**
  - Es clave para entender la **resistencia a la insulina**.
  - Valores **muy bajos o iguales a 0** pueden indicar que faltan datos.
  - La insulina anormal puede indicar **diabetes tipo 1 o tipo 2**.

---

## üîπ **6. BMI (√çndice de Masa Corporal - IMC)**
- **Descripci√≥n:** Relaci√≥n entre peso y altura, calculado como:
  
  $$
  IMC = \frac{\text{Peso (kg)}}{\text{Altura (m)}^2}
  $$

- **Tipo de dato:** **Num√©rico continuo**.
- **Consideraciones:**
  - Un **IMC alto (>30)** es un fuerte predictor de diabetes tipo 2.
  - Si hay valores **cercanos a 0 o irreales**, podr√≠an ser datos err√≥neos.

---

## üîπ **7. DiabetesPedigreeFunction (Historial Familiar de Diabetes)**
- **Descripci√≥n:** Mide la **probabilidad gen√©tica** de desarrollar diabetes basada en antecedentes familiares.
- **Tipo de dato:** **Num√©rico continuo** (valor entre 0 y 2.5 aprox.).
- **Consideraciones:**
  - Un **valor alto** indica mayor **riesgo hereditario** de diabetes.
  - Un **valor bajo** sugiere menor riesgo pero no excluye la posibilidad de desarrollar la enfermedad.

---

## üîπ **8. Age (Edad)**
- **Descripci√≥n:** Edad del paciente en a√±os.
- **Tipo de dato:** **Num√©rico entero**.
- **Consideraciones:**
  - **Personas mayores tienen un mayor riesgo** de desarrollar diabetes.
  - Si hay valores **muy bajos (menores de 10 a√±os)** pueden ser **errores en los datos**.
  - Se puede agrupar en **rangos de edad** para analizar tendencias.

---

## üéØ **Consideraciones Generales para el An√°lisis**
‚úî **Revisar si hay valores nulos o inusuales (como 0 en glucosa o presi√≥n arterial).**  
‚úî **Identificar outliers que puedan afectar la interpretaci√≥n (por ejemplo, valores de insulina extremadamente altos o bajos).**  
‚úî **Estandarizar unidades y escalas antes de aplicar modelos para hacer predicciones**  
‚úî **Usar histogramas y mapas de calor para detectar correlaciones y anomal√≠as.**  

üìä **Este dataset es ideal para an√°lisis de predicci√≥n de diabetes y machine learning, pero requiere preprocesamiento adecuado para evitar sesgos.** üöÄ


## üìÇ Bloque 1: Carga y Exploraci√≥n de Datos
En este bloque, aprenderemos a cargar datos desde un archivo CSV utilizando `pandas` y exploraremos su contenido.

**Conceptos clave:**
- Lectura de archivos con `pandas`.
- Exploraci√≥n de las primeras filas con `.head()`.
- Identificaci√≥n de valores nulos con `.info()`.
- Estad√≠sticas b√°sicas con `.describe()`.

In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv("diabetes2.csv")

# Mostrar las primeras 10 filas
df.head(10)

In [None]:
# Mostrar informaci√≥n sobre el DataFrame
df.info()

In [None]:
# Mostrar estad√≠sticas descriptivas del DataFrame
df.describe()

# üìä Interpretaci√≥n de ejemplo: Desviaci√≥n Est√°ndar de Glucosa: 31.95 mg/dL

La **desviaci√≥n est√°ndar (œÉ)** mide la **variabilidad** de los valores de glucosa con respecto a su **media**. En este caso, la desviaci√≥n est√°ndar de **31.95 mg/dL** indica cu√°nto se **dispersan los niveles de glucosa** en la poblaci√≥n analizada.

---

## üîπ ¬øQu√© significa este valor?
1Ô∏è‚É£ **Una desviaci√≥n est√°ndar de 31.95 mg/dL significa que, en promedio, los valores de glucosa se alejan 31.95 unidades de la media.**  
   - Si la **media de glucosa** en el dataset es, por ejemplo, **120 mg/dL**, entonces la mayor√≠a de los datos estar√°n **entre 88.05 mg/dL y 151.95 mg/dL** (restando la desviaci√≥n para 88, sumandola para 151).  

2Ô∏è‚É£ **Indica que hay una variabilidad considerable en los valores de glucosa.**  
   - No todos los pacientes tienen niveles de glucosa cercanos a la media.  
   - Existen algunos valores **muy altos o muy bajos** que pueden estar generando esta dispersi√≥n.  

---

In [None]:
# Contar valores nulos en cada columna
df.isnull().sum()

In [None]:
# Obtener el n√∫mero de filas y columnas
df.shape

# ¬øSer√° suficiente saber que no tiene nulos para decir que los datos nos sirven? 
La respuesta es no. Muchas ocasiones las personas que toman los datos dejan vac√≠as ciertas columnas o les ponen valores como 0. Exploremos entonces la opci√≥n de que tengan 0.
Para esto usaremos 2 librer√≠as que se utilizar√°n mucho en el curso

- **`matplotlib.pyplot (plt)`** es una librer√≠a de visualizaci√≥n en Python que permite crear gr√°ficos est√°ticos, animados e interactivos, como l√≠neas, barras e histogramas.  
- **`seaborn (sns)`** es una librer√≠a basada en `matplotlib` que facilita la creaci√≥n de gr√°ficos estad√≠sticos con estilos mejorados y soporte para visualizaci√≥n de datos categ√≥ricos y correlaciones.  

In [None]:
(df==0).head(15)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
# Visualizaci√≥n de zeros
plt.figure(figsize=(18,12))
plt.title("Visualizing Zeros")
sns.heatmap(df==0, cbar=False, cmap='Blues', yticklabels=False);

- Si una persona tiene cero insulina, es diab√©tica, ya que sus c√©lulas no pueden transportar la glucosa desde el torrente sangu√≠neo hacia el interior de las c√©lulas. Sin embargo, en nuestro conjunto de datos, no todos los ceros en la columna Insulin corresponden a un Outcome de 1 (indicando diabetes). Esto sugiere que muchos ceros en la columna Insulin son en realidad valores incorrectos.
- Glucosa tiene algunos zeros random.
- Adem√°s, parece que hay muchas filas que tienen ceros en las tres columnas: Blood Pressure, Skin Thickness e Insulin. Esto podr√≠a indicar que al momento de capturar los datos o de tomar las medidas, se omiti√≥ esa informaci√≥n, lo que dificulta el an√°lisis. 

In [94]:
# Filtramos el DataFrame 'diabetes' para eliminar filas que contengan valores 0 en las columnas 'Glucose', 'BloodPressure' y 'BMI'.
# Usamos .loc[] para seleccionar solo las filas que cumplen con la condici√≥n.
# axis=1 indica que la evaluaci√≥n se debe hacer por fila.
# All se utiliza para verificar si todas las condiciones en la fila son verdaderas, podr√≠a usarse any que ser√≠a para indicar que al menos una condici√≥n es verdadera

diabetes_cleaned = df.loc[
    (df[['Glucose', 'BloodPressure', 'BMI']] != 0).all(axis=1)
]


In [None]:
# Ejemplo usando axis 0
(df[['Glucose', 'BloodPressure', 'BMI']] != 0).all(axis=0)

In [None]:
# ejemplo sin evaluar la fila completa
(df[['Glucose', 'BloodPressure', 'BMI']] != 1)

In [None]:
# axis=1 indica que la evaluaci√≥n se debe hacer por fila. Y el all, para evaluar que todas las condiciones se cumplanm
(df[['Glucose', 'BloodPressure', 'BMI']] != 0).all(axis=1)

### Reemplazar los zeros en Skin Thickness por el promedio de la columna

In [None]:
# Visualizar el promedio
promedio_skinthickness = diabetes_cleaned['SkinThickness'].mean()
promedio_skinthickness

In [None]:
# Visualizar los indices de SkinThickness que tienen valor 0
diabetes_cleaned.loc[diabetes_cleaned['SkinThickness'] == 0, 'SkinThickness'].head(20)

In [None]:
# reemplazar los indices de SkinThickness que tienen valor 0 por el promedio de la columna
diabetes_cleaned.loc[diabetes_cleaned['SkinThickness'] == 0, 'SkinThickness'] = promedio_skinthickness

In [None]:
# Visualizar los indices de SkinThickness que tienen valor 0
diabetes_cleaned.loc[diabetes_cleaned['SkinThickness'] == 0, 'SkinThickness'].head(20)

## üìä Bloque 2: Estad√≠stica Descriptiva
En este bloque, exploraremos estad√≠sticas b√°sicas usando `numpy` y `pandas`.

**Conceptos clave:**
- C√°lculo de media, mediana y moda.
- Identificaci√≥n de valores at√≠picos con desviaci√≥n est√°ndar.
- C√°lculo de correlaciones entre variables.

In [None]:
import numpy as np

# Calcular la media y mediana de la glucosa
media_glucosa = np.mean(df['Glucose'])
mediana_glucosa = np.median(df['Glucose'])

print(f"Media de Glucosa: {media_glucosa}")
print(f"Mediana de Glucosa: {mediana_glucosa}")

In [None]:
# Calcular la desviaci√≥n est√°ndar de la glucosa
std_glucosa = np.std(df['Glucose'])
print(f"Desviaci√≥n Est√°ndar de Glucosa: {std_glucosa}")

## üîó Recursos adicionales
- [Pandas Documentation](https://pandas.pydata.org/docs/)
- [NumPy Documentation](https://numpy.org/doc/)
- [Matplotlib Documentation](https://matplotlib.org/stable/contents.html)

## üìä Bloque 3: Gr√°ficos de Barras
Los gr√°ficos de barras permiten comparar valores entre distintas categor√≠as.

**Principios b√°sicos:**
- Utilizar etiquetas claras en los ejes.
- Definir colores que permitan diferenciar categor√≠as.
- Incluir un t√≠tulo descriptivo.

In [None]:
import matplotlib.pyplot as plt

# Contar el n√∫mero de casos de diabetes y no diabetes
conteo_outcome = df['Outcome'].value_counts()
conteo_outcome

In [None]:
# Crear el gr√°fico de barras
plt.figure(figsize=(6,4))
plt.bar(['No Diabetes', 'Diabetes'], conteo_outcome, color=['blue', 'red'])
plt.xlabel('Condici√≥n')
plt.ylabel('N√∫mero de Casos')
plt.title('Distribuci√≥n de Casos de Diabetes')
plt.show()

# Ejemplo contar el n√∫mero total de personas con diferente cantidad de embarazos

In [None]:
# Contar la cantidad de registros por n√∫mero de embarazos
conteo_embarazos = df['Pregnancies'].value_counts()
pd.DataFrame(conteo_embarazos)

In [None]:
# N√∫mero de embarazos
conteo_embarazos.index

In [None]:
# Cantidad de personas con ese n√∫mero de embarazos
conteo_embarazos.values

### ‚úèÔ∏è Actividad: Crear un Gr√°fico de Barras
Crea un gr√°fico de barras que muestre la cantidad de personas por n√∫mero de embarazos (`Pregnancies`).
- El tama√±o de la figura debe ser 8 x 5
- El plot debe ser de tipo bara e incluir los n√∫meros de Embarazos en la x y la cantidad de personas en la Y
- Debe tener etiqueta en x
- Debe tener etiqueta en y
- Debe tener el titulo 'Distribuci√≥n de Embarazos en el Dataset'
- Debes incluir una sentencia que lo muestre
- Debes hacer que el gr√°fico tenga color purpura

In [None]:
# Crear el gr√°fico de barras


## üìä Bloque 4: Gr√°ficos de Columnas
Los gr√°ficos de columnas son similares a los de barras, pero con orientaci√≥n vertical.

**Principios b√°sicos:**
- Mantener la alineaci√≥n correcta de las etiquetas.
- No sobrecargar con demasiadas columnas.
- Usar colores que resalten las diferencias.

### Ejemplo agrupar y sacar promedios

In [None]:
df.groupby('Outcome').mean()

### Obtener el promedio solo del BMI (Indice de masa corporal)

In [None]:
df.groupby('Outcome')['BMI'].mean()

In [None]:
# Crear un gr√°fico de columnas para visualizar el IMC promedio por condici√≥n de diabetes
df.groupby('Outcome')['BMI'].mean().plot(kind='bar', color=['blue', 'red'], figsize=(6,4))
plt.xlabel('Condici√≥n')
plt.ylabel('IMC Promedio')
plt.title('IMC Promedio por Condici√≥n de Diabetes')
plt.show()

## üîé Interpretaci√≥n del IMC seg√∫n la OMS
$$
IMC = \frac{\text{Peso (kg)}}{\text{Altura (m)}^2}
$$

| IMC (kg/m¬≤)  | Clasificaci√≥n |
|--------------|--------------|
| < 18.5       | Bajo peso    |
| 18.5 - 24.9  | Peso normal  |
| 25 - 29.9    | Sobrepeso    |
| 30 - 34.9    | Obesidad I   |
| 35 - 39.9    | Obesidad II  |
| ‚â• 40         | Obesidad III |

---


## üìä Bloque 5: Gr√°ficos de Dispersi√≥n
Los gr√°ficos de dispersi√≥n permiten analizar la relaci√≥n entre dos variables num√©ricas.

**Principios b√°sicos:**
- Representar cada punto de manera clara.
- Usar colores para diferenciar categor√≠as.
- Interpretar patrones en la distribuci√≥n.

In [None]:
# Crear un gr√°fico de dispersi√≥n entre Glucosa y Edad
plt.figure(figsize=(7,5))
plt.scatter(df['Age'], df['Glucose'], alpha=0.5, color='green')
plt.xlabel('Edad')
plt.ylabel('Glucosa')
plt.title('Relaci√≥n entre Edad y Glucosa')
plt.show()

# üìä An√°lisis del Gr√°fico de Dispersi√≥n: Relaci√≥n entre Edad y Glucosa

Este gr√°fico representa la relaci√≥n entre la **edad** y los niveles de **glucosa** en la poblaci√≥n analizada.

---

## üîπ ¬øQu√© es un gr√°fico de dispersi√≥n?
Un **gr√°fico de dispersi√≥n** se utiliza para visualizar la relaci√≥n entre dos variables num√©ricas. Cada punto representa una observaci√≥n individual en el dataset.

**Principios clave:**
- **Patr√≥n ascendente** ‚Üí Indica una correlaci√≥n positiva.
- **Patr√≥n descendente** ‚Üí Indica una correlaci√≥n negativa.
- **Distribuci√≥n dispersa sin forma clara** ‚Üí Indica una correlaci√≥n baja o inexistente.

---

## üîç **An√°lisis del gr√°fico**
### 1Ô∏è‚É£ **Distribuci√≥n de los datos**
- La mayor√≠a de los puntos se concentran en edades **entre 20 y 50 a√±os** con valores de glucosa **entre 75 y 125 mg/dL**.
- A medida que la edad avanza, los valores de glucosa parecen dispersarse m√°s.

### 2Ô∏è‚É£ **¬øExiste una correlaci√≥n clara?**
- Este gr√°fico **no muestra una tendencia lineal clara**. Por lo que un gr√°fico de lineas ser√≠a m√°s √∫til.
- Esto sugiere que la relaci√≥n entre edad y glucosa **no es fuerte ni directa**.
- Sin embargo, se observa que algunos valores extremos de glucosa se presentan con mayor frecuencia en edades avanzadas (Ejemplo 40).

### 3Ô∏è‚É£ **Posibles interpretaciones**
- **Personas m√°s j√≥venes (20-40 a√±os)** tienden a tener glucosa m√°s estable.
- **Personas mayores (>50 a√±os)** presentan una mayor variabilidad en los niveles de glucosa.
- Esto puede deberse a **factores de salud individuales**, como la presencia de diabetes o h√°bitos de vida.

---

## üìä Bloque 6: Gr√°ficos de L√≠neas
Los gr√°ficos de l√≠neas se usan para representar tendencias en datos continuos.

**Principios b√°sicos:**
- √ötil para visualizar cambios en el tiempo.
- Suavizar l√≠neas cuando sea necesario.
- Evitar el uso en variables categ√≥ricas.

In [None]:
# Ordenar datos por edad y graficar la media de glucosa
df_sorted = df.groupby('Age')['Glucose'].mean()

# Crear el gr√°fico de l√≠neas
plt.figure(figsize=(8,5))
plt.plot(df_sorted.index, df_sorted.values, marker='o', linestyle='-', color='blue')
plt.xlabel('Edad')
plt.ylabel('Media de Glucosa')
plt.title('Glucosa Promedio por Edad')
plt.grid()
plt.show()

# üìà Interpretaci√≥n del Gr√°fico: Glucosa Promedio por Edad

Este gr√°fico de l√≠neas muestra la **relaci√≥n entre la edad y la media de glucosa** en la poblaci√≥n analizada.

---

## üîé **Observaciones Clave**
### 1Ô∏è‚É£ **Tendencia General (Crecimiento Inicial)**
- A medida que la edad aumenta de **20 a 50 a√±os**, la **media de glucosa tiende a aumentar**.
- Esto sugiere que los niveles de glucosa son **relativamente m√°s bajos en personas j√≥venes** y aumentan con la edad.

### 2Ô∏è‚É£ **Mayor Variabilidad despu√©s de los 50 a√±os**
- Despu√©s de los **50 a√±os**, la glucosa promedio presenta **altibajos m√°s pronunciados**, lo que indica una **mayor variabilidad** en los niveles de glucosa en esta poblaci√≥n.
- Esto podr√≠a deberse a que **algunas personas mayores tienen diabetes**, mientras que otras mantienen niveles m√°s normales.

### 3Ô∏è‚É£ **Picos y Ca√≠das Extremos**
- Se observan picos altos alrededor de los **50-60 a√±os**, donde la glucosa promedio supera los **160 mg/dL**, indicando que algunos grupos dentro de esa edad podr√≠an tener un mayor riesgo de diabetes.
- Tambi√©n hay **ca√≠das bruscas**, lo que podr√≠a deberse a **muestras m√°s peque√±as en ciertos grupos de edad**, causando fluctuaciones m√°s dr√°sticas.

### 4Ô∏è‚É£ **Disminuci√≥n y Fluctuaciones en la Vejez**
- Entre los **60 y 80 a√±os**, la glucosa sigue siendo variable, pero con valores m√°s dispersos.
- Esto podr√≠a reflejar que algunas personas con diabetes ya est√°n en tratamiento, mientras que otras tienen niveles descontrolados.

---


# ‚úèÔ∏è Actividad: An√°lisis del Gr√°fico de Glucosa Promedio por Edad

## üìå Objetivo:
Analizar el comportamiento de la glucosa en distintas edades y responder preguntas clave para interpretar los datos.

---

## üîç **Instrucciones**
1. Observa detenidamente el gr√°fico **"Glucosa Promedio por Edad"**.
2. Reflexiona sobre las variaciones en los valores y la relaci√≥n entre la edad y la glucosa.
3. **Responde las siguientes preguntas en la celda de Markdown debajo del c√≥digo.**

---

## üìä **Preguntas de An√°lisis** üìù **Responde aqu√≠**
(Escribe tus respuestas en esta celda de Markdown)

1Ô∏è‚É£ ¬øPor qu√© crees que la glucosa aumenta con la edad? ¬øQu√© factores biol√≥gicos o de estilo de vida podr√≠an influir?  

2Ô∏è‚É£ ¬øPor qu√© la variabilidad en los niveles de glucosa es mayor despu√©s de los 50 a√±os? ¬øQu√© puede estar afectando estos cambios?  

3Ô∏è‚É£ ¬øC√≥mo interpretar√≠as los picos m√°s altos en los valores de glucosa? ¬øA qu√© grupo de personas podr√≠a representar?  

4Ô∏è‚É£ ¬øCu√°les son las posibles causas de las ca√≠das bruscas en la glucosa a edades avanzadas?  

5Ô∏è‚É£ ¬øQu√© recomendaciones har√≠as para la prevenci√≥n de la diabetes bas√°ndote en este an√°lisis?  

---

# üî• Bloque 7: Mapa de Calor con Seaborn
Los mapas de calor permiten visualizar matrices de correlaci√≥n o valores num√©ricos en una escala de colores.

**Principios b√°sicos:**
- Usar una escala de colores adecuada.
- Incluir etiquetas para facilitar la interpretaci√≥n.
- Evitar el uso excesivo en datasets muy grandes.

In [115]:
# Cargar el dataset de nuevo para evitar errores
df = pd.read_csv("diabetes2.csv")

In [116]:
# %pip install seaborn

In [None]:
import seaborn as sns
# Calcular la matriz de correlaci√≥n
correlacion = df.corr()

# Crear el mapa de calor
plt.figure(figsize=(10,6))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Mapa de Calor de la Matriz de Correlaci√≥n')
plt.show()

# üìä Interpretaci√≥n del Mapa de Calor de Correlaciones

El mapa de calor representa la **matriz de correlaci√≥n** entre las variables del dataset. 

## üîπ ¬øC√≥mo interpretar los valores?
- **Valores cercanos a 1 (rojo oscuro)** ‚Üí **Correlaci√≥n positiva fuerte**  
  - Cuando una variable aumenta, la otra tambi√©n lo hace.
- **Valores cercanos a -1 (azul oscuro)** ‚Üí **Correlaci√≥n negativa fuerte**  
  - Cuando una variable aumenta, la otra disminuye.
- **Valores cercanos a 0 (azul claro)** ‚Üí **Correlaci√≥n d√©bil o inexistente**  
  - No hay una relaci√≥n clara entre las variables.

---

## üîé **Observaciones clave:**

### 1Ô∏è‚É£ **Glucosa vs. Outcome (0.47)**
- Existe una **correlaci√≥n moderada positiva** entre los niveles de **glucosa** y la **presencia de diabetes**.
- **Conclusi√≥n:** A medida que **aumenta la glucosa**, tambi√©n **aumenta la probabilidad de ser diagnosticado con diabetes**.

### 2Ô∏è‚É£ **Edad vs. Outcome (0.24)**
- Hay una **correlaci√≥n positiva d√©bil**, lo que sugiere que la diabetes es **m√°s frecuente en personas mayores**, aunque la relaci√≥n no es muy fuerte.

### 3Ô∏è‚É£ **BMI (√çndice de Masa Corporal) vs. Outcome (0.29)**
- Existe una **correlaci√≥n positiva moderada**, lo que implica que **a mayor √≠ndice de masa corporal (BMI), mayor es la probabilidad de tener diabetes**.

### 4Ô∏è‚É£ **Edad vs. N√∫mero de Embarazos (0.54)**
- Hay una **correlaci√≥n positiva fuerte** entre la **edad** y el **n√∫mero de embarazos**.
- **Explicaci√≥n:** Esto es esperable, ya que las mujeres mayores han tenido **m√°s tiempo** para embarazarse.

### 5Ô∏è‚É£ **Glucosa vs. Insulina (0.33)**
- Existe una **correlaci√≥n moderada** entre la **glucosa** y la **insulina**, lo que puede estar relacionado con la respuesta del cuerpo a los niveles de az√∫car en sangre.

### 6Ô∏è‚É£ **Relaciones D√©biles (valores cercanos a 0)**
- Variables como **SkinThickness (Grosor de la Piel)** tienen **una correlaci√≥n muy baja con la diabetes (0.07)**.
- Otras correlaciones bajas incluyen **BloodPressure (0.07)** e **Insulin (0.13)**, lo que indica que **no son buenos predictores de la enfermedad**.

---

Las dem√°s variables podr√≠an contribuir, pero con menor impacto en el diagn√≥stico.  

---

üí° **¬øQu√© sigue?**  
Si queremos predecir la diabetes, podemos probar modelos de Machine Learning priorizando las variables m√°s importantes y descartando aquellas con correlaciones d√©biles. üöÄ


# ‚úèÔ∏è Actividad: An√°lisis del Mapa de Calor

## üìå Objetivo:
Analizar la matriz de correlaci√≥n y responder preguntas clave sobre las variables m√°s relevantes en la predicci√≥n de la diabetes.

---

## üîç **Instrucciones**
1. Ejecuta el c√≥digo que genera el **Mapa de Calor** en el dataset `diabetes2.csv`.
2. Observa los valores de correlaci√≥n entre las variables.
3. **Responde las siguientes preguntas en la celda de Markdown debajo del c√≥digo.**

---

## üìä **Preguntas de An√°lisis** üìù **Responde aqu√≠**
(Escribe tus respuestas en esta celda de Markdown)
1Ô∏è‚É£ ¬øCu√°l es la variable que tiene la correlaci√≥n m√°s alta con la **diabetes (`Outcome`)**? ¬øQu√© significa esto en t√©rminos pr√°cticos?  

2Ô∏è‚É£ ¬øC√≥mo afecta la edad a la diabetes seg√∫n la matriz de correlaci√≥n? ¬øCrees que es un factor importante en la predicci√≥n de la enfermedad?  

3Ô∏è‚É£ ¬øQu√© puedes concluir sobre la relaci√≥n entre **BMI (√çndice de Masa Corporal)** y la diabetes?  

4Ô∏è‚É£ ¬øHay alguna variable en la matriz que **NO parezca ser un buen predictor** de la diabetes? Justifica tu respuesta.  

5Ô∏è‚É£ Si estuvieras dise√±ando un modelo de Machine Learning para predecir la diabetes, ¬øqu√© **tres variables seleccionar√≠as** como las m√°s importantes? Explica tu elecci√≥n.  

---

## üìä Bloque 9: Visualizaci√≥n de Histogramas
Los histogramas permiten visualizar la **distribuci√≥n de los datos** y entender la variabilidad de cada variable en el dataset.

**Principios clave:**
- Utilizar un n√∫mero adecuado de **bins** (intervalos) para representar los datos sin perder informaci√≥n.
- Incluir una **l√≠nea de densidad (`kde=True`)** para facilitar la interpretaci√≥n.
- Excluir variables categ√≥ricas (`Outcome` e `InsulinKnown`) para que los histogramas sean adecuados.
- Usar un **gr√°fico de conteo (`countplot`)** para visualizar variables categ√≥ricas como `InsulinKnown`.

In [None]:
# Filtrar las columnas que no deben incluirse en los histogramas
columns_to_plot = [col for col in diabetes_cleaned.columns if col not in ['Outcome', 'InsulinKnown']]

# N√∫mero de columnas para la visualizaci√≥n de histogramas
num_cols = 2

# Calcular el n√∫mero de filas necesarias
num_rows = (len(columns_to_plot) + num_cols) // num_cols

plt.figure(figsize=(16, num_rows * 6))  # Ajustar el tama√±o para acomodar los gr√°ficos

# Generar histogramas para cada columna
for i, column in enumerate(columns_to_plot):
    plt.subplot(num_rows, num_cols, i + 1)
    sns.histplot(data=diabetes_cleaned, x=column, kde=True, bins=20)
    plt.title(f'Distribution of {column}')
    sns.despine()


plt.tight_layout()  # Ajustar el dise√±o de los subgr√°ficos
plt.show()

# üìä Interpretaci√≥n de los Histogramas de Variables del Dataset

Los histogramas muestran la **distribuci√≥n de los datos** en las variables del dataset, permitiendo identificar su comportamiento y patrones clave.

---

## üîç **An√°lisis de las Variables**
### 1Ô∏è‚É£ **Pregnancies (N√∫mero de Embarazos)**
- Distribuci√≥n **sesgada a la derecha** (asim√©trica positiva).
- La mayor√≠a de las mujeres han tenido pocos embarazos (0-2), pero hay algunas con m√°s de 10.
- Este sesgo es esperado, ya que los embarazos m√∫ltiples son menos comunes.

#### üìä ¬øPor qu√© la distribuci√≥n de "Pregnancies" est√° sesgada a la derecha?

Cuando hablamos de **sesgo en una distribuci√≥n**, nos referimos a **la direcci√≥n de la cola de la distribuci√≥n**, **no** a d√≥nde vemos m√°s datos en el gr√°fico.

---

#### üîç **Regla para interpretar el sesgo de una distribuci√≥n**
- **Sesgo a la derecha (positivo):**  
  - La **cola de la distribuci√≥n** se extiende hacia valores **altos** (derecha del eje X).  
  - La mayor√≠a de los datos est√°n concentrados en valores bajos, pero algunos valores m√°s grandes (outliers) crean una cola larga hacia la derecha.  
  - **Ejemplo:** Ingresos de una poblaci√≥n (pocos ricos con salarios muy altos crean la cola a la derecha).

- **Sesgo a la izquierda (negativo):**  
  - La **cola de la distribuci√≥n** se extiende hacia valores **bajos** (izquierda del eje X).  
  - La mayor√≠a de los datos est√°n en valores altos, pero algunos valores peque√±os crean una cola larga hacia la izquierda.  
  - **Ejemplo:** Edad de jubilaci√≥n (casi todos se jubilan alrededor de 60-65 a√±os, pero hay algunos casos tempranos creando la cola izquierda).

- **Distribuci√≥n Normal (Sin Sesgo)**
  - Tambi√©n llamada **distribuci√≥n gaussiana** o **campana de Gauss**.
  - La **media, mediana y moda** est√°n alineadas en el centro.
  - La gr√°fica es **sim√©trica**, es decir, la cantidad de datos a la izquierda y derecha de la media es similar.
  - **Ejemplo:** Altura de las personas en una poblaci√≥n.

---

### 2Ô∏è‚É£ **Glucose (Glucosa)**
- Distribuci√≥n **similar a una normal** pero con ligera asimetr√≠a hacia la derecha.
- Hay m√°s casos en el rango de **90-130 mg/dL**, pero algunos valores extremos superan los **180 mg/dL**, lo que puede indicar posibles casos de diabetes.
- La presencia de valores altos sugiere que algunas personas tienen **hiperglucemia**.

### 3Ô∏è‚É£ **BloodPressure (Presi√≥n Arterial)**
- Distribuci√≥n aproximadamente **normal**.
- Se observa un rango central entre **60-90 mmHg**, lo cual es esperable en la poblaci√≥n general.
- Pocos valores extremos, lo que indica que la mayor√≠a de los pacientes tienen presi√≥n arterial dentro del rango t√≠pico.

### 4Ô∏è‚É£ **SkinThickness (Grosor del Pliegue Cut√°neo)**
- Distribuci√≥n **sesgada a la derecha**.
- La mayor√≠a de los valores est√°n por debajo de **40 mm**, pero hay algunos valores at√≠picos mayores a **60 mm**.
- Puede haber valores faltantes o errores en el dataset.

### 5Ô∏è‚É£ **Insulin (Insulina en Sangre)**
- Distribuci√≥n **muy sesgada a la derecha** con una gran cantidad de valores en 0.
- Indica que muchas personas tienen niveles bajos de insulina o que existen datos faltantes en la columna.
- Este sesgo sugiere que se deber√≠a tratar la variable antes de su uso en modelos de Machine Learning.

### 6Ô∏è‚É£ **BMI (√çndice de Masa Corporal)**
- Distribuci√≥n **aproximadamente normal**, pero con ligera asimetr√≠a hacia la derecha.
- Valores entre **20 y 40** son los m√°s comunes.
- Algunos valores altos (>50) podr√≠an ser outliers.

### 7Ô∏è‚É£ **DiabetesPedigreeFunction (Historial Familiar de Diabetes)**
- Distribuci√≥n **sesgada a la derecha**.
- La mayor√≠a de las personas tienen un puntaje de **riesgo gen√©tico** bajo (0.0 - 0.5), pero algunos presentan valores altos (>1.5), lo que sugiere mayor predisposici√≥n a la diabetes.

### 8Ô∏è‚É£ **Age (Edad)**
- Distribuci√≥n **sesgada a la derecha**.
- Mayor concentraci√≥n de pacientes entre **20 y 40 a√±os**, con menor cantidad de pacientes mayores de 60.
- Esto podr√≠a indicar que el dataset tiene m√°s personas j√≥venes y de mediana edad, y menos adultos mayores.

---

# ‚úèÔ∏è Actividad: An√°lisis de Histogramas y Distribuci√≥n de Datos

## üìå Objetivo:
Analizar la distribuci√≥n de las variables en el dataset y reflexionar sobre su impacto en el an√°lisis de datos.

---

## üîç **Instrucciones**
1. Observa detenidamente los histogramas de cada variable.
2. Analiza su forma y distribuciones (asim√©tricas, normales, con valores at√≠picos, etc.).
3. **Responde las siguientes preguntas en esta celda de Markdown**

---

## üìä **Preguntas de An√°lisis**
1Ô∏è‚É£ ¬øQu√© variables muestran una distribuci√≥n aproximadamente normal?  
2Ô∏è‚É£ ¬øCu√°les tienen una distribuci√≥n sesgada a la derecha? ¬øQu√© significa esto en t√©rminos de datos?  
3Ô∏è‚É£ ¬øC√≥mo interpretar√≠as la gran cantidad de valores en 0 en la variable `Insulin`?  
4Ô∏è‚É£ ¬øCu√°l es la variable con mayor dispersi√≥n en los datos? ¬øC√≥mo podr√≠amos manejar esta variabilidad en un an√°lisis predictivo?  
5Ô∏è‚É£ ¬øQu√© conclusiones puedes obtener sobre la relaci√≥n entre la edad y la prevalencia de diabetes, bas√°ndote en el histograma de `Age`?  

---


## üéÅ BONUS: Visualizaci√≥n de Outliers con Boxplots
Los **boxplots** (diagramas de caja) son una herramienta √∫til para visualizar la distribuci√≥n de los datos y detectar **outliers** (valores at√≠picos).

**Principios clave:**
- El **cuadro central** representa el **rango intercuartil (IQR)**, donde se encuentra el 50% de los datos.
- La **l√≠nea dentro del cuadro** representa la **mediana**.
- Los **bigotes** indican la dispersi√≥n normal de los datos.
- Los **puntos fuera de los bigotes** son **outliers** (valores at√≠picos).

In [None]:
# Select numerical columns
numerical_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'BMI',
       'DiabetesPedigreeFunction', 'Age']
# Crear un gr√°fico de subplots de 4x2 con tama√±o de figura 18x22 pulgadas
fig, ax = plt.subplots(4, 2, figsize=(18, 22))

# Aplanar el array de ejes para facilitar la iteraci√≥n
ax = ax.flatten()

# Iterar sobre las columnas num√©ricas y crear un boxplot para cada una
for idx, column in enumerate(numerical_columns):
    sns.boxplot(ax=ax[idx], x=diabetes_cleaned[column])
    ax[idx].set_title(column)

# Eliminar el subplot vac√≠o (octavo gr√°fico no usado)
fig.delaxes(ax[-1])

# Ajustar dise√±o para evitar superposici√≥n
plt.tight_layout()

# Mostrar el gr√°fico
plt.show()

### ‚úèÔ∏è Actividad BONUS: An√°lisis de Outliers con Boxplots
Ejecuta el c√≥digo anterior para visualizar los boxplots de las variables en el dataset `diabetes_cleaned`. Luego, responde las siguientes preguntas:

1Ô∏è‚É£ ¬øQu√© variable tiene m√°s **outliers**? ¬øPor qu√© crees que sucede esto?

2Ô∏è‚É£ ¬øC√≥mo interpretar√≠as los outliers en la variable `Insulin`? ¬øDeber√≠an ser eliminados o tratados de otra manera?

3Ô∏è‚É£ ¬øQu√© variables muestran una distribuci√≥n m√°s sim√©trica sin valores at√≠picos?

4Ô∏è‚É£ Si estuvieras preparando este dataset para un modelo de Machine Learning, ¬øqu√© har√≠as con los outliers?

üí° **Escribe tus respuestas en la celda siguiente y justifica con base en los gr√°ficos generados.**

### Bonus x2 Solucionar exportaci√≥n de html

In [121]:
#%pip install nbconvert
#%pip install pandoc