# **PROYECTO DATA SCIENCE**


---



**"Predicción de diabetes"**

**Docente:** Jorge Ruiz

**Autor:** Eduardo Landler

**Comisión:** 77735

# **ABSTRACT:**

La diabetes constituye uno de los principales problemas de salud pública a nivel mundial, con un crecimiento sostenido en su prevalencia durante las últimas décadas. Se trata de una enfermedad metabólica caracterizada por niveles elevados de glucosa en sangre, y su diagnóstico temprano resulta clave para evitar enfermedades cardiovasculares, accidentes cerebrovasculares, problemas oculares, renales o neurológicas.

El presente trabajo tiene como objetivo realizar un análisis exploratorio de un conjunto de datos que contiene información clínica y demográfica de 100.000 pacientes, con el fin de identificar los factores más relevantes asociados al desarrollo de diabetes. El dataset incluye variables como edad, género, índice de masa corporal (BMI), presión arterial, historial de tabaquismo, nivel de hemoglobina glicosilada (HbA1c) y nivel de glucosa en sangre. Se hará la descripción de dichas variables y se presentarán las categorías de cada una de ellas.

A partir de este análisis se busca responder preguntas que permitan comprender mejor cómo se relacionan estas variables entre sí y con la aparición de la enfermedad. El estudio permitirá además evaluar la consistencia y distribución de los datos, detectar posibles valores nulos y atípicos y, ademas, generar visualizaciones que muestren patrones o tendencias.

Esta primera entrega del proyecto se centra exclusivamente en la exploración y diagnóstico del dataset, estableciendo una base para la etapa de modelado predictivo. Los resultados esperados incluyen la identificación de variables con mayor poder explicativo sobre la presencia de diabetes y la obtención de conclusiones preliminares que orienten el desarrollo de modelos de predicción en etapas posteriores.


# **PREGUNTAS / HIPóTESIS:**

**PREGUNTAS:**

**Pregunta 1 – Perfil metabólico y diagnóstico**

¿Los pacientes con diagnóstico de diabetes presentan un perfil metabólico distinto al de los pacientes sin diabetes, en función de HbA1c, glucosa en sangre y BMI?

**Pregunta 2 – Edad y riesgo de diabetes**

¿Cómo se relaciona la edad de los pacientes con la presencia de diabetes?
¿Se observa que los pacientes diabéticos son, en promedio, de mayor edad que los no diabéticos?

**Pregunta 3 – Factores cardiovasculares asociados**

¿La presencia de hipertensión y/o enfermedad cardíaca se asocia a una mayor proporción de pacientes con diagnóstico de diabetes?

**Pregunta 4 – Conductas de tabaquismo y diabetes**

¿Existen diferencias en la prevalencia de diabetes según las categorías de historial de tabaquismo (smoking_history) registradas en el dataset?

**HIPóTESIS:**

**Hipótesis 1: Perfiles metabólicos**

Los pacientes con diagnóstico de diabetes (diabetes = 1) presentan valores promedio de HbA1c significativamente más altos que los pacientes sin diabetes (diabetes = 0).

Los pacientes con diagnóstico de diabetes presentan valores promedio de glucosa en sangre (blood_glucose_level) significativamente más altos que los no diabéticos.

El BMI promedio es mayor en el grupo de pacientes con diabetes que en el grupo sin diabetes.

**Hipótesis 2: Edades**

La edad promedio de los pacientes con diagnóstico de diabetes es mayor que la edad promedio de los pacientes sin diagnóstico de diabetes.

**Hipótesis 3: Factores cardiovasculares**

La proporción de pacientes con hipertensión (hypertension = 1) es mayor entre los pacientes diabéticos que entre los no diabéticos.

La proporción de pacientes con enfermedad cardíaca (heart_disease = 1) es mayor entre los pacientes diabéticos que entre los no diabéticos.

**Hipótesis 4: Tabaquismo**

Ciertas categorías del historial de tabaquismo (por ejemplo, “current” o “former”) presentan una mayor proporción de pacientes diabéticos que otras categorías (por ejemplo, “never”).


In [None]:
# Carga de librerias
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# Seteo parametros globales
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)


In [None]:
# CArga del dataset desde disco local
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
    print(f'Se cargó el archivo: {fn}')
file_name = list(uploaded.keys())[0]
df = pd.read_csv(file_name)
df.head(10)


# **DESCRIPCIÓN DATASET:**

El Diabetes Prediction Dataset es un conjunto de datos clínicos y demográficos diseñado para analizar y predecir la probabilidad de que un paciente tenga diabetes.

Cada registro corresponde a un paciente e incluye variables tanto médicas como de estilo de vida.

**Variables del dataset:**


***gender***

Género del paciente (Male, Female, Other)

Categórica

In [None]:
# Distribución de pacientes por género
gender_counts = df['gender'].value_counts()
plt.figure(figsize=(5,5))
plt.pie(gender_counts,
        labels=gender_counts.index,
        autopct='%1.1f%%',
        startangle=90,
        colors=['pink', 'skyblue', 'gray'])
plt.title('Distribución de pacientes por género')
plt.show()


***age***

Edad del paciente (en años)

Numérica

In [None]:
# Distribución por Edad
plt.figure(figsize=(8,5))
sns.histplot(df['age'], bins=40, kde=True)
plt.title('Distribución por edad de los pacientes')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


***hypertension***

Indica si el paciente tiene hipertensión (1 = Sí, 0 = No)

Binaria

***heart_disease***

Indica si el paciente tiene enfermedad cardíaca (1 = Sí, 0 = No)

Binaria

***smoking_history***

Historial de tabaquismo (never, former, current, ever, not current, No Info)

Categórica

In [None]:
risk_factors = {
    'Hipertensión (Sí)': df['hypertension'].sum(),
    'Enfermedad cardíaca (Sí)': df['heart_disease'].sum(),
    'Fumadores actuales o previos': df[df['smoking_history'].isin(['current', 'former', 'ever'])].shape[0]
}
risk_series = pd.Series(risk_factors).sort_values()
plt.figure(figsize=(8,4))
sns.barplot(x=risk_series.values, y=risk_series.index, palette='Set1')
plt.title('Distribución de factores de riesgo en la población')
plt.xlabel('Cantidad de pacientes')
plt.ylabel('')
plt.show()


***bmi***

Índice de masa corporal (peso/altura²)

Numérica

In [None]:
plt.figure(figsize=(8,5))
sns.histplot(df['bmi'], bins=40, kde=True)
plt.title('Distribución del índice de masa corporal (BMI)')
plt.xlabel('BMI')
plt.ylabel('Frecuencia')
plt.show()


***HbA1c_level***

Nivel promedio de glucosa en sangre en los últimos 3 meses (hemoglobina glicosilada)

Numérica


***blood_glucose_level***

Nivel actual de glucosa en sangre (mg/dL)

Numérica

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14,5))

sns.histplot(df['HbA1c_level'], bins=30, kde=True, color='blue', ax=axes[0])
axes[0].set_title('Distribución del nivel de HbA1c')
axes[0].set_xlabel('HbA1c_level')

sns.histplot(df['blood_glucose_level'], bins=30, kde=True, color='red', ax=axes[1])
axes[1].set_title('Distribución del nivel de glucosa en sangre')
axes[1].set_xlabel('blood_glucose_level')

plt.tight_layout()
plt.show()


***diabetes***

Diagnóstico de diabetes (1 = diabético, 0 = no diabético)

Binaria (variable objetivo)

In [None]:
# Dimensiones del dataset
print("Dimensiones del dataset (filas, columnas):", df.shape)
# Información general
print("\nInformación general del dataset:")
print(df.info())
# Valores nulos por columna
print("\nValores nulos por columna:")
print(df.isnull().sum())
# Resumen estadístico
print("\nResumen estadístico:")
df.describe()


In [None]:
# Muestra dataset
df = pd.read_csv("diabetes_prediction_dataset_LANDLER.csv")
df.head(10)


In [None]:
# Cuentas de la variable central
target_counts = df["diabetes"].value_counts()
target_percent = df["diabetes"].value_counts(normalize=True) * 100

print("Cantidad de registros por clase:")
print(target_counts)

print("\nPorcentaje por clase:")
print(target_percent)

fig, ax = plt.subplots(figsize=(4, 4))
colores = ['blue', 'red']
ax.bar(target_counts.index.astype(str), target_counts.values,
       color=colores)
ax.set_xlabel("Diabetes (0 = No, 1 = Sí)")
ax.set_ylabel("Cantidad de registros")
ax.set_title("Distribución de la variable central")
plt.show()


In [None]:
# Posibles valores atípicos
num_cols = ['age', 'bmi', 'HbA1c_level', 'blood_glucose_level']
plt.figure(figsize=(15, 10))
df[num_cols].boxplot()
plt.title('Posibles valores atípicos')
plt.show()



In [None]:
for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower) | (df[col] > upper)][col]
    print(f'{col}: {len(outliers)} valores atípicos detectados')


No se detectaron valores nulos en el dataset.

Las variables presentan tipos de datos adecuados (numéricos y categóricos).

Se identificaron algunos valores atípicos en BMI y glucosa, lo cual es razonable en casos con pacientes sobre los cuales se hacen diagnósticos de diabetes.

# **VISUALIZACIONES VINCULADAS A LAS PREGUNTAS / HIPÓTESIS:**

**Perfil metabólico:**

Analisis si los pacientes diagnosticados con diabetes presentan valores más altos en BMI, HbA1c_level y blood_glucose_level.

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

sns.boxplot(x='diabetes', y='bmi', hue='diabetes', data=df, palette='Set1', ax=axes[0], legend=False)
axes[0].set_title('BMI según diagnóstico de diabetes')
axes[0].set_xlabel('Diabetes (0 = No, 1 = Sí)')
axes[0].set_ylabel('BMI')

sns.boxplot(x='diabetes', y='HbA1c_level', hue='diabetes', data=df, palette='Set1', ax=axes[1], legend=False)
axes[1].set_title('HbA1c según diagnóstico de diabetes')
axes[1].set_xlabel('Diabetes (0 = No, 1 = Sí)')
axes[1].set_ylabel('HbA1c_level')

sns.boxplot(x='diabetes', y='blood_glucose_level', hue='diabetes', data=df, palette='Set1', ax=axes[2], legend=False)
axes[2].set_title('Glucosa en sangre según diagnóstico de diabetes')
axes[2].set_xlabel('Diabetes (0 = No, 1 = Sí)')
axes[2].set_ylabel('blood_glucose_level')

plt.suptitle('Perfil metabólico comparado entre pacientes diabéticos y no diabéticos', fontsize=14, y=1.05)
plt.tight_layout()
plt.show()


Se puede ver en los gráficos una clara diferencia entre los dos grupos.

En el grupo de pacientes diabéticos se observan valores mas elevados de HbA1c y glucosa en sangre.

Los valores de BMI son levemenet superiores en el grupo.

**Edad y diagnóstico de diabetes**

Identificación si la edad está relacionada con una mayor probabilidad de desarrollar diabetes.

In [None]:
# Segmentación por edades con y sin diabetes
plt.figure(figsize=(8,5))
colores = ['blue', 'red']
sns.histplot(data=df, x='age', hue='diabetes', bins=40, kde=True,
             palette=colores, element='step')
plt.title('Distribución de edades por diagnóstico de diabetes')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
# Distribución de edad según diagnóstico de diabetes
plt.figure(figsize=(12,6))
colores = ['blue', 'red']
sns.boxplot(x='diabetes', y='age', hue='diabetes', data=df,
            palette=colores , legend=False)
plt.title('Distribución de edad según diagnóstico de diabetes')
plt.xlabel('Diabetes (0 = No, 1 = Sí)')
plt.ylabel('Edad')
plt.show()



El histograma revela una concentración de casos positivos a partir de los 45 años. Es un indicador de la mayor prevalencia de diabetes en población adulta media y mayor.

La edad promedio de los pacientes con diabetes es significativamente mayor que la del grupo sin diagnóstico.


**Factores cardiovasculares asociados:**

Evaluación de la relación de la hipertensión y enfermedades carídacas con mayor riesgo de tener diabetes.

In [None]:
hypertension_diabetes = df.groupby('hypertension')['diabetes'].mean() * 100
plt.figure(figsize=(5,5))
plt.pie(hypertension_diabetes, labels=['Sin hipertensión', 'Con hipertensión'],
        autopct='%1.1f%%', startangle=90, colors=['deepskyblue', 'tomato'])
plt.title('Porcentaje de pacientes con diabetes - Hipertensión')
plt.show()


In [None]:
heart_diabetes = df.groupby('heart_disease')['diabetes'].mean() * 100
plt.figure(figsize=(5,5))
plt.pie(heart_diabetes, labels=['Sin enfermedad cardíaca', 'Con enfermedad cardíaca'],
        autopct='%1.1f%%', startangle=90, colors=['lightskyblue', 'salmon'])
plt.title('Porcentaje de pacientes con diabetes - Enfermedad cardíaca')
plt.show()


Se observa una mayor proporción de pacientes con diabetes entre aquellos que presentan hipertensión o enfermedad cardíaca.

**Conductas de tabaquismo y diabetes:**

Analizar si el tabaquismo está asociado con la diabetes.

In [None]:
# Cuenta de historal de tabaquismo
plt.figure(figsize=(9,5))
colores= ['deepskyblue', 'tomato']
sns.countplot(x='smoking_history', hue='diabetes', data=df,
              order=df['smoking_history'].value_counts().index,
              palette=colores)
plt.title('Historial de tabaquismo y diagnóstico de diabetes')
plt.xlabel('Historial de tabaquismo')
plt.ylabel('Cantidad de pacientes')
plt.xticks(rotation=30)
plt.legend(title='Diabetes', labels=['No', 'Sí'])
plt.show()


No se observa una diferencia entre quienes fuman y quienes no lo hacen, se podría ver una influencia menor del tabaquismo con la diabetes.

# CONCLUSIONES DEL ANÁLISIS

El análisis gráfico permitió examinar la relación entre las variables clínicas y demográficas del conjunto de datos y la presencia de diabetes. En general, los resultados obtenidos muestran patrones que están en línea con la literatura médica y respaldan las hipótesis planteadas.

En primer lugar, el **perfil metabólico** de los pacientes diabéticos se diferencia claramente del de los no diabéticos, con valores significativamente más altos de **HbA1c** y **glucosa en sangre**, y un **índice de masa corporal (BMI)** levemente superior. Estas observaciones respaldan las preguntas / hipótesis preliminares del proyecto, y confirman la importancia de los indicadores metabólicos en el diagnóstico y monitoreo de la enfermedad.

En cuanto a la **edad**, se observa una tendencia creciente en la proporción de casos positivos a partir de los 45 años, lo que respalda la hipótesis sobre la relación entre envejecimiento y riesgo de diabetes. La distribución de edades indica que la enfermedad se concentra principalmente en población adulta media y mayor.

Por otro lado, los **factores cardiovasculares**, como la **hipertensión** y la **enfermedad cardíaca**, muestran una asociación positiva con la diabetes, lo que coincide con los hallazgos clínicos que vinculan estas condiciones como la diabetes. Las proporciones y gráficos de torta refuerzan visualmente esta relación.

Finalmente, el análisis del **historial de tabaquismo** no muestra una evidancia definitiva.


