##### <span style="color:#e74c3c;">üîß 1. Configuraci√≥n e Importaci√≥n de Librer√≠as

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
from scipy.stats import levene, shapiro, f_oneway, f, kruskal, rankdata, chi2, chi2_contingency
import warnings
warnings.filterwarnings('ignore')
df = pd.read_csv('./Diabetes_and_LifeStyle_Dataset .csv')

### <span style="color:#3498db;"> ¬øExisten diferencias significativas en el riesgo promedio de diabetes entre los tres grupo de g√©neros: hombre, mujer y otro?

**Objetivo del an√°lisis**

El objetivo de este an√°lisis es determinar si existen diferencias estad√≠sticamente significativas en el riesgo de diabetes entre los distintos grupos de g√©nero presentes en la muestra (hombre, mujer y otro). Identificar posibles diferencias asociadas al g√©nero resulta relevante para orientar estrategias de prevenci√≥n, detecci√≥n temprana y dise√±o de pol√≠ticas de salud p√∫blica enfocadas en poblaciones espec√≠ficas. Para ello utilizaremos el m[etodo de Kruskal-Wallis.]

**Justificaci√≥n del uso de la prueba de Kruskal‚ÄìWallis**

La prueba de Kruskal‚ÄìWallis es un m√©todo no param√©trico utilizado para comparar grupos independientes cuando no se cumplen los supuestos de normalidad o homogeneidad de varianzas requeridos por pruebas param√©tricas como el ANOVA.

En este estudio, el uso de esta prueba est√° justificado por las siguientes razones:

1. La variable dependiente, riesgo de diabetes (diabetes_risk_score), es una medida continua que puede presentar asimetr√≠a o valores at√≠picos.

2. La variable independiente, g√©nero, es categ√≥rica con tres grupos independientes.

3. No existe una distribuci√≥n normal del riesgo de diabetes dentro de cada grupo.

4. La prueba de Kruskal‚ÄìWallis es robusta frente a distribuciones no normales y tama√±os de muestra desiguales.

Por estas razones, esta prueba constituye una herramienta estad√≠stica adecuada y confiable para evaluar diferencias entre los grupos de g√©nero en este contexto.

**Hip√≥tesis estad√≠sticas**

Hip√≥tesis nula (H‚ÇÄ): Las distribuciones del riesgo de diabetes son iguales para los tres grupos de g√©neros.

Hip√≥tesis alternativa (H‚ÇÅ): Al menos uno de los grupos presenta una distribuci√≥n diferente.

Comprobacion de que no se cumple la normalidad utilizando el metodo Shapiro-Wilk

In [3]:
# Grupos
groups = ['Male', 'Female', 'Other']

# Revisar normalidad con Shapiro-Wilk
normality_results = {}

for g in groups:
    data = df[df['gender'] == g]['diabetes_risk_score'].dropna()
    stat, p = shapiro(data)
    normality_results[g] = (stat, p)

for g, (stat, p) in normality_results.items():
    if p < 0.05:
        print(f"El grupo {g} no cumple normalidad")
    else:
        print(f"El grupo {g} cumple normalidad")

El grupo Male no cumple normalidad
El grupo Female no cumple normalidad
El grupo Other no cumple normalidad


In [None]:
# Definici√≥n de los grupos independientes
data_groups = [df[df['gender'] == g]['diabetes_risk_score'].dropna() for g in groups]

for g, data in zip(groups, data_groups):
    print(f"{g}: n = {len(data)}")

# Combinaci√≥n de todas las observaciones
all_data = np.concatenate(data_groups)
# Asignaci√≥n de rangos
ranks = rankdata(all_data) 

# Redistribuci√≥n de rangos por grupo
start = 0
ranked_groups = []
for i, data in enumerate(data_groups):
    n = len(data)
    ranked_groups.append(ranks[start:start+n])
    start += n

for g, r in zip(groups, ranked_groups):
    print(f"Suma de rangos para {g}:", np.sum(r))


#calcular estad√≠stico H de Kruskal-Wallis
# F√≥rmula:
#
#            12
# H = ----------------- * Œ£ (R_i¬≤ / n_i) ‚àí 3(N + 1)
#        N (N + 1)
# donde:
# - k   = n√∫mero de grupos
# - n_i = tama√±o del grupo i
# - R_i = suma de rangos del grupo i
# - N   = tama√±o total de la muestra
#
# Bajo la hip√≥tesis nula, H sigue aproximadamente una
# distribuci√≥n chi-cuadrado con (k ‚àí 1) grados de libertad.

print("\nC√°lculo del estad√≠stico H de Kruskal-Wallis:")
k = len(groups)
n_i = [len(g) for g in data_groups]
N = sum(n_i)
R_i = [np.sum(r) for r in ranked_groups]

H = (12/(N*(N+1))) * sum(R_i[i]**2 / n_i[i] for i in range(k)) - 3*(N+1)
print(f"\nEstad√≠stico H = {H:.4f}")


Male: n = 46460
Female: n = 48873
Other: n = 1964
Suma de rangos para Male: 2261529067.0
Suma de rangos para Female: 2376645876.5
Suma de rangos para Other: 95226809.5

C√°lculo del estad√≠stico H de Kruskal-Wallis:

Estad√≠stico H = 0.1366


Determinacion de region de confianza:

Distribuci√≥n de referencia: œá¬≤ con k-1 grados de libertad.

Grados de libertad: df = k - 1 = 2

Nivel de significancia: Œ± = 0.05

In [17]:
df_ = k-1
chi2_crit = chi2.ppf(0.95, df_)
print(f"Regi√≥n de rechazo: H > {chi2_crit:.4f}")
print("Si H > œá¬≤ cr√≠tico ‚Üí Rechazamos H‚ÇÄ.")
print("Si H ‚â§ œá¬≤ cr√≠tico ‚Üí No rechazamos H‚ÇÄ.")

Regi√≥n de rechazo: H > 5.9915
Si H > œá¬≤ cr√≠tico ‚Üí Rechazamos H‚ÇÄ.
Si H ‚â§ œá¬≤ cr√≠tico ‚Üí No rechazamos H‚ÇÄ.


Dado que el valor del estad√≠stico H es considerablemente menor que el valor cr√≠tico de la distribuci√≥n chi-cuadrado, no se rechaza la hip√≥tesis nula.
##### Conclusi√≥n del an√°lisis

Los resultados del an√°lisis indican que no existen diferencias estad√≠sticamente significativas en el riesgo de diabetes entre los distintos grupos de g√©nero en la muestra analizada, al nivel de significancia del 5%. Esto sugiere que, dentro de este conjunto de datos, el g√©nero no parece ser un factor determinante en la variaci√≥n del riesgo promedio de diabetes.

### <span style="color:#3498db;"> ¬øEl tabaquismo influye en la etapa de la diabetes?

**Objetivo del an√°lisis:** 

El objetivo de esta prueba es evaluar si existe una asociaci√≥n estad√≠sticamente significativa entre la etapa de la diabetes y el estado de tabaquismo. Determinar esta relaci√≥n es fundamental para comprender el impacto del tabaquismo en la progresi√≥n de la diabetes y para orientar intervenciones preventivas y cl√≠nicas.

**Justificaci√≥n del uso de la prueba Chi-cuadrado de independencia:**

La prueba Chi-cuadrado de independencia se utiliza para evaluar si existe una relaci√≥n estad√≠sticamente significativa entre dos variables categ√≥ricas. En el presente estudio, esta prueba resulta metodol√≥gicamente adecuada debido a las caracter√≠sticas de las variables analizadas y al objetivo planteado.

En primer lugar, ambas variables de inter√©s (la etapa de la diabetes y el estado de tabaquismo) son variables cualitativas categ√≥ricas, lo cual cumple con el requisito fundamental para la aplicaci√≥n de esta prueba. La etapa de la diabetes clasifica a los individuos seg√∫n el grado de progresi√≥n de la enfermedad, mientras que el tabaquismo categoriza el h√°bito de consumo de tabaco.

En segundo lugar, el objetivo del an√°lisis no es comparar medias ni distribuciones, sino evaluar la existencia de una asociaci√≥n o dependencia entre las dos variables. La prueba Chi-cuadrado permite contrastar las frecuencias observadas con las frecuencias esperadas bajo el supuesto de independencia, lo que la convierte en una herramienta adecuada para responder a esta pregunta de investigaci√≥n.

Asimismo, la prueba asume la independencia de las observaciones, condici√≥n que se cumple al tratarse de registros individuales correspondientes a distintos sujetos. Adem√°s, se verifica el cumplimiento del supuesto de frecuencias esperadas m√≠nimas, garantizando la validez de la aproximaci√≥n de la distribuci√≥n chi-cuadrado.

**Hip√≥tesis Estadistica**

Hip√≥tesis nula (H‚ÇÄ): Las variables son independientes (no hay asociaci√≥n)

Hip√≥tesis alternativa (H‚ÇÅ): Hay asociaci√≥n entre las variables


In [None]:
# Tabla de contingencia: diabetes_stage vs smoking_status
# La tabla de contingencia resume el n√∫mero de individuos
# en cada combinaci√≥n de categor√≠as:
# - Filas: etapa de la diabetes
# - Columnas: estado de tabaquismo

contingency_table = pd.crosstab(df['diabetes_stage'], df['smoking_status'])
print(contingency_table)

#  C√°lculo del estad√≠stico Chi-cuadrado
# La funci√≥n chi2_contingency() calcula:
# - œá¬≤: estad√≠stico de prueba
# - p-value: probabilidad asociada
# - dof: grados de libertad
# - expected: frecuencias esperadas bajo H‚ÇÄ
chi2_stat, p_val, dof, expected = chi2_contingency(contingency_table)
print(f"\nChi2 = {chi2_stat:.3f}, p = {p_val:.4f}, dof = {dof}")

# Conclusi√≥n
if p_val < 0.05:
    print("Conclusi√≥n: Hay asociaci√≥n significativa entre las variables")
else:
    print("Conclusi√≥n: No hay evidencia de asociaci√≥n significativa")

smoking_status  Current  Former  Never
diabetes_stage                        
Gestational          57      49    161
No Diabetes        1574    1546   4617
Pre-Diabetes       6237    6191  18585
Type 1               19      25     73
Type 2            11704   11677  34782

Chi2 = 2.105, p = 0.9776, dof = 8
Conclusi√≥n: No hay evidencia de asociaci√≥n significativa


**Conclusi√≥n del an√°lisis**
Con base en los resultados de la prueba Chi-cuadrado de independencia, no se encontr√≥ evidencia estad√≠sticamente significativa de asociaci√≥n entre la etapa de la diabetes y el estado de tabaquismo, al nivel de significancia Œ± = 0.05. En consecuencia, no se rechaza la hip√≥tesis nula, lo que indica que, en la muestra analizada, ambas variables se comportan de manera independiente.

### <span style="color:#3498db;"> ¬øExisten diferencias significativas en el √≠ndice de masa corporal promedio entre las distintas etapas de la diabetes?

**Objetivo del An√°lisis:**
Este an√°lisis busca determinar si el IMC var√≠a sistem√°ticamente a medida que cambia la etapa de la diabetes, lo que permitir√≠a identificar si el peso corporal constituye un factor diferenciador en la progresi√≥n de la enfermedad. Los resultados obtenidos aportan evidencia emp√≠rica relevante para comprender el papel del IMC en el contexto de la diabetes y para orientar decisiones cl√≠nicas y estrategias de prevenci√≥n basadas en el control del peso y otros factores de riesgo metab√≥lico.

**Justificaci√≥n del uso de la prueba ANOVA:**

La prueba ANOVA de una v√≠a se utiliza para comparar las medias de una variable continua entre tres o m√°s grupos independientes definidos por una variable categ√≥rica.

En este estudio, el uso de ANOVA est√° justificado porque:

1. La variable dependiente, √≠ndice de masa corporal (BMI), es cuantitativa continua.

2. La variable independiente, etapa de diabetes (diabetes_stage), es categ√≥rica con m√∫ltiples niveles.

3. El objetivo del an√°lisis es comparar medias, no asociaciones ni distribuciones.

4. Se eval√∫a el cumplimiento de los supuestos de normalidad y homogeneidad de varianzas, garantizando la validez del m√©todo.

Por estas razones, el ANOVA de una v√≠a es el procedimiento estad√≠stico m√°s adecuado para responder a la pregunta planteada.

**Hip√≥tesis Estad√≠stica**

H‚ÇÄ: Las medias de IMC son iguales entre todas las etapas de diabetes.

H‚ÇÅ: Al menos una etapa tiene un IMC promedio diferente.


##### Verificaci√≥n de los supuestos:

In [7]:
levels = df["diabetes_stage"].dropna().unique()
data_groups = [df[df["diabetes_stage"] == level]['bmi'].dropna() for level in levels]
    
    
print("Normalidad (Shapiro-Wilk) por grupo:")
normality_results = []
for level, data in zip(levels, data_groups):
    if len(data) > 200:
        data_sample = data.sample(200, random_state=42)
    else:
        data_sample = data
    stat, p = shapiro(data_sample)
    result = 'Normal' if p >= 0.05 else 'No normal'
    normality_results.append(result)
    print(f"  {level}: W={stat:.3f}, p={p:.4f} -> {result}")

# Homogeneidad de varianzas (Levene)
stat_levene, p_levene = levene(*data_groups)
hom_var_result = 'Varianzas homog√©neas' if p_levene >= 0.05 else 'Varianzas diferentes'

print(f"\nHomogeneidad de varianzas (Levene): W={stat_levene:.3f}, p={p_levene:.4f} -> {hom_var_result}")


Normalidad (Shapiro-Wilk) por grupo:
  Type 2: W=0.996, p=0.9035 -> Normal
  No Diabetes: W=0.991, p=0.2120 -> Normal
  Pre-Diabetes: W=0.994, p=0.6584 -> Normal
  Gestational: W=0.992, p=0.3020 -> Normal
  Type 1: W=0.986, p=0.2541 -> Normal

Homogeneidad de varianzas (Levene): W=1.005, p=0.4035 -> Varianzas homog√©neas


In [9]:
#  ANOVA
f_stat, p_val = f_oneway(*data_groups)

#  Regi√≥n de rechazo
k = len(levels)        # numero de grupos
N = sum([len(g) for g in data_groups])  # tamano total de la muestra
df1 = k - 1
df2 = N - k
F_crit = f.ppf(0.95, df1, df2)

# Conclusi√≥n
conclusion = "Rechazamos H‚ÇÄ ‚Üí Al menos un grupo tiene media diferente" if p_val < 0.05 \
                else "No se rechaza H‚ÇÄ ‚Üí No hay diferencias significativas entre grupos"

# Resumen descriptivo por grupo
summary = []
for level, data in zip(levels, data_groups):
    summary.append({
        'diabetes_stage': level,
        'n': len(data),
        'mean': data.mean(),
        'std': data.std(),
        'median': data.median(),
        'min': data.min(),
        'max': data.max()
    })
summary_df = pd.DataFrame(summary)

print(f"F = {f_stat:.3f}, p = {p_val:.4f}")
print(f"Regi√≥n de rechazo: F > {F_crit:.3f}")
print(f"Conclusi√≥n: {conclusion}")
print("\nResumen descriptivo por grupo:")
print(summary_df)


F = 295.576, p = 0.0000
Regi√≥n de rechazo: F > 2.372
Conclusi√≥n: Rechazamos H‚ÇÄ ‚Üí Al menos un grupo tiene media diferente

Resumen descriptivo por grupo:
  diabetes_stage      n       mean       std  median   min   max
0         Type 2  58163  25.902251  3.579610    25.9  15.0  39.2
1    No Diabetes   7737  24.627065  3.550143    24.6  15.0  38.4
2   Pre-Diabetes  31013  25.331867  3.545686    25.3  15.0  39.0
3    Gestational    267  25.007116  3.652477    24.8  17.0  36.1
4         Type 1    117  24.661538  3.711767    24.6  17.4  33.5


**Conclusiones**

Los resultados del an√°lisis de varianza (ANOVA) indican que existen diferencias estad√≠sticamente significativas en el √≠ndice de masa corporal promedio entre las distintas etapas de la diabetes (F = 295.576, p < 0.0001). Esto significa que al menos una etapa de diabetes presenta un IMC promedio diferente de las dem√°s.

### <span style="color:#3498db;"> ¬øExiste una diferencia estad√≠sticamente significativa en la presi√≥n arterial sist√≥lica entre individuos diagnosticados con diabetes y aquellos sin diagn√≥stico?

**Objetivo del An√°lisis:**

Este an√°lisis permite determinar si la condici√≥n de diabetes se asocia con cambios en la presi√≥n sist√≥lica, lo cual es relevante para identificar riesgos cardiovasculares y orientar estrategias de prevenci√≥n y manejo cl√≠nico en la poblaci√≥n.

**Justificaci√≥n del uso de la prueba t**

La prueba t de Student para muestras independientes es el m√©todo adecuado cuando:

1. La variable dependiente es continua (systolic_bp).

2. La variable independiente es binaria o dicot√≥mica (diagnosed_diabetes: 0 = no, 1 = s√≠).

3. El objetivo es comparar medias entre dos grupos independientes.

Se verifica adem√°s el cumplimiento de los supuestos de normalidad y homogeneidad de varianzas para garantizar la validez de la prueba.

**Hip√≥tesis Estad√≠stica**

H‚ÇÄ (nula): La presi√≥n sist√≥lica media es igual en personas con y sin diagn√≥stico de diabetes.

H‚ÇÅ (alternativa): La presi√≥n sist√≥lica media es diferente entre ambos grupos.


##### Verificaci√≥n de supuestos

In [11]:

alpha = 0.05

g0 = df.loc[df['diagnosed_diabetes']==0, 'systolic_bp'].dropna()
g1 = df.loc[df['diagnosed_diabetes']==1, 'systolic_bp'].dropna()
    
if len(g0) < 50 or len(g1) < 50:
      raise ValueError("No hay suficientes observaciones en alguno de los grupos")
    
g0_sample = g0.sample(50, replace=False)
g1_sample = g1.sample(50, replace=False)
    

# Normalidad
sh_g0 = stats.shapiro(g0_sample)
sh_g1 = stats.shapiro(g1_sample)

print(f"Normalidad No Diabetes: p = {sh_g0.pvalue:.4f} ‚Üí",
      "SE CUMPLE" if sh_g0.pvalue > alpha else "NO SE CUMPLE")

print(f"Normalidad Diabetes: p = {sh_g1.pvalue:.4f} ‚Üí",
      "SE CUMPLE" if sh_g1.pvalue > alpha else "NO SE CUMPLE")

# Homogeneidad de varianzas
lev = stats.levene(g0_sample, g1_sample)
print(f"Homogeneidad de varianzas (Levene): p = {lev.pvalue:.4f} ‚Üí",
      "SE CUMPLE" if lev.pvalue > alpha else "NO SE CUMPLE")

Normalidad No Diabetes: p = 0.2465 ‚Üí SE CUMPLE
Normalidad Diabetes: p = 0.0772 ‚Üí SE CUMPLE
Homogeneidad de varianzas (Levene): p = 0.0650 ‚Üí SE CUMPLE


##### Aplicaci√≥n del m√©todo

In [12]:
# Nivel de significancia para la prueba
alpha = 0.05

ttest_sys = stats.ttest_ind(g1_sample, g0_sample, equal_var=False)
# La funci√≥n devuelve un objeto con:
# - ttest_sys.statistic: el valor del estad√≠stico t
# - ttest_sys.pvalue: el valor p asociado a ese estad√≠stico

print(f"t = {ttest_sys.statistic:.3f}")
print(f"p = {ttest_sys.pvalue:.4f}")

if ttest_sys.pvalue < alpha:
    print("Conclusi√≥n estad√≠stica: Se RECHAZA la hip√≥tesis nula.")
    print("Existe una diferencia estad√≠sticamente significativa entre los grupos.")
else:
    print("Conclusi√≥n estad√≠stica: NO se rechaza la hip√≥tesis nula.")
    print("No se encontraron diferencias estad√≠sticamente significativas entre los grupos.")

t = 0.520
p = 0.6044
Conclusi√≥n estad√≠stica: NO se rechaza la hip√≥tesis nula.
No se encontraron diferencias estad√≠sticamente significativas entre los grupos.


**Conclusi√≥n del An√°lisis**
La presi√≥n sist√≥lica promedio no difiere entre los grupos, indicando que la diabetes, por s√≠ sola, no necesariamente se asocia con cambios en la presi√≥n arterial sist√≥lica en la poblaci√≥n analizada.

Esto sugiere que otros factores (edad, IMC, estilo de vida, medicaci√≥n) podr√≠an tener un impacto mayor sobre la presi√≥n arterial que el diagn√≥stico de diabetes por s√≠ mismo.

Aun as√≠, la prevenci√≥n cardiovascular sigue siendo esencial para todos los pacientes, independientemente de su diagn√≥stico de diabetes.