# üìä An√°lisis Estad√≠stico 

### üéØ Objetivos del An√°lisis Estad√≠stico:

1. **Caracterizar distribuciones** de las variables num√©ricas
2. **Evaluar normalidad** de los datos para seleccionar pruebas apropiadas
3. **Identificar asimetr√≠as** y colas pesadas en las distribuciones
4. **Realizar pruebas de hip√≥tesis** para confirmar asociaciones
5. **Cuantificar relaciones** entre variables y el diagn√≥stico
6. **Establecer bases s√≥lidas** para el modelado predictivo


### üßÆ T√©cnicas que Aplicaremos:

- **Estad√≠stica Descriptiva Avanzada**
- **An√°lisis de Distribuciones** (skewness, kurtosis)
- **Pruebas de Normalidad**
- **Pruebas de Asociaci√≥n** (Chi-cuadrado, t-test)
- **Correlaciones** y su significancia estad√≠stica

## üìö 1. Preparaci√≥n del Entorno Estad√≠stico

Importamos las librer√≠as especializadas en an√°lisis estad√≠stico, incluyendo `scipy.stats` que contiene una amplia gama de pruebas estad√≠sticas y distribuciones.

In [1]:
# import libreries for statistics
import numpy as np
import pandas as pd
import scipy.stats as stats

## üìÅ 2. Carga de Datos

**Nota importante**: En este an√°lisis usamos el dataset **original** (no el procesado) para realizar c√°lculos estad√≠sticos con los valores num√©ricos reales antes de las transformaciones categ√≥ricas.

In [2]:
# Load the data
df = pd.read_csv('../Data/alzheimers_disease_data.csv')

## üìä 3. Estad√≠sticas Descriptivas B√°sicas

Comenzamos con un **resumen estad√≠stico general** de nuestras variables num√©ricas. Esta visi√≥n panor√°mica nos ayuda a:

- **Identificar el rango** de valores en cada variable
- **Detectar valores extremos** que podr√≠an ser outliers
- **Entender la distribuci√≥n central** de los datos
- **Establecer el contexto** para an√°lisis m√°s profundos

Las medidas clave incluyen: media, mediana, desviaci√≥n est√°ndar, y cuartiles.

In [3]:
# Display basic descriptive statistics
df.describe()

Unnamed: 0,PatientID,Age,Gender,Ethnicity,EducationLevel,BMI,Smoking,AlcoholConsumption,PhysicalActivity,DietQuality,...,FunctionalAssessment,MemoryComplaints,BehavioralProblems,ADL,Confusion,Disorientation,PersonalityChanges,DifficultyCompletingTasks,Forgetfulness,Diagnosis
count,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,...,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0,2149.0
mean,5825.0,74.908795,0.506282,0.697534,1.286645,27.655697,0.288506,10.039442,4.920202,4.993138,...,5.080055,0.208004,0.156817,4.982958,0.205212,0.158213,0.150768,0.158678,0.301536,0.353653
std,620.507185,8.990221,0.500077,0.996128,0.904527,7.217438,0.453173,5.75791,2.857191,2.909055,...,2.892743,0.405974,0.363713,2.949775,0.40395,0.365026,0.357906,0.365461,0.459032,0.478214
min,4751.0,60.0,0.0,0.0,0.0,15.008851,0.0,0.002003,0.003616,0.009385,...,0.00046,0.0,0.0,0.001288,0.0,0.0,0.0,0.0,0.0,0.0
25%,5288.0,67.0,0.0,0.0,1.0,21.611408,0.0,5.13981,2.570626,2.458455,...,2.566281,0.0,0.0,2.342836,0.0,0.0,0.0,0.0,0.0,0.0
50%,5825.0,75.0,1.0,0.0,1.0,27.823924,0.0,9.934412,4.766424,5.076087,...,5.094439,0.0,0.0,5.038973,0.0,0.0,0.0,0.0,0.0,0.0
75%,6362.0,83.0,1.0,1.0,2.0,33.869778,1.0,15.157931,7.427899,7.558625,...,7.546981,0.0,0.0,7.58149,0.0,0.0,0.0,0.0,1.0,1.0
max,6899.0,90.0,1.0,3.0,3.0,39.992767,1.0,19.989293,9.987429,9.998346,...,9.996467,1.0,1.0,9.999747,1.0,1.0,1.0,1.0,1.0,1.0


## üìè 4. An√°lisis de Forma de las Distribuciones

### ¬øPor qu√© calcular Skewness y Kurtosis?

Estas medidas nos ayudan a entender la **forma** de nuestras distribuciones:

#### **Skewness (Asimetr√≠a):**
- **Mide la asimetr√≠a** de la distribuci√≥n
- **Valores cercanos a 0**: Distribuci√≥n sim√©trica (ideal para muchas pruebas)
- **Valores positivos**: Cola derecha m√°s larga (sesgo hacia valores altos)
- **Valores negativos**: Cola izquierda m√°s larga (sesgo hacia valores bajos)

#### **Kurtosis:**
- **Mide el "grosor" de las colas** de la distribuci√≥n
- **Valores cercanos a 0**: Similar a distribuci√≥n normal
- **Valores positivos**: Colas m√°s pesadas (m√°s valores extremos)
- **Valores negativos**: Colas m√°s ligeras (menos valores extremos)

### üè• Relevancia M√©dica:

En datos m√©dicos, entender estas propiedades es crucial porque:
- **Distribuciones asim√©tricas** pueden indicar procesos biol√≥gicos espec√≠ficos
- **Colas pesadas** pueden se√±alar subpoblaciones con condiciones extremas
- **La forma afecta** qu√© pruebas estad√≠sticas podemos usar apropiadamente

In [4]:
# Calculate skewness and kurtosis for numerical variables using scipy
numeric_df = df.select_dtypes(include=[np.number])
skewness = numeric_df.apply(lambda x: stats.skew(x.dropna()))
kurtosis = numeric_df.apply(lambda x: stats.kurtosis(x.dropna()))
print("Skewness:")
print(skewness)
print("Kurtosis:")
print(kurtosis)


Skewness:
PatientID                    0.000000
Age                          0.045932
Gender                      -0.025130
Ethnicity                    1.229356
EducationLevel               0.208972
BMI                         -0.026696
Smoking                      0.933607
AlcoholConsumption           0.018402
PhysicalActivity             0.044941
DietQuality                 -0.012049
SleepQuality                -0.069582
FamilyHistoryAlzheimers      1.141148
CardiovascularDisease        2.025050
Diabetes                     1.951986
Depression                   1.495644
HeadInjury                   2.810880
Hypertension                 1.972456
SystolicBP                   0.009964
DiastolicBP                 -0.054432
CholesterolTotal            -0.018661
CholesterolLDL               0.036208
CholesterolHDL               0.042176
CholesterolTriglycerides    -0.032900
MMSE                         0.032359
FunctionalAssessment        -0.034552
MemoryComplaints             1.438832
Be

## ? 5. An√°lisis de Correlaciones

### üìä Correlaci√≥n de Pearson

Las **correlaciones de Pearson** miden la fuerza y direcci√≥n de relaciones **lineales** entre variables num√©ricas.

#### Interpretaci√≥n de valores:
- **r = 1**: Correlaci√≥n positiva perfecta
- **r = 0**: Sin correlaci√≥n lineal  
- **r = -1**: Correlaci√≥n negativa perfecta
- **|r| > 0.7**: Correlaci√≥n fuerte
- **0.3 < |r| < 0.7**: Correlaci√≥n moderada
- **|r| < 0.3**: Correlaci√≥n d√©bil

#### En investigaci√≥n m√©dica:
Las correlaciones significativas entre biomarcadores pueden sugerir:
- **Mecanismos biol√≥gicos compartidos**
- **V√≠as metab√≥licas relacionadas**
- **Factores de confusi√≥n** a considerar en el an√°lisis

In [5]:
# Calculate pairwise Pearson correlation coefficients using scipy
numeric_df = df.select_dtypes(include=[np.number])
pearson_corr = numeric_df.corr(method='pearson')
print("Pearson Correlation Coefficients:")
print(pearson_corr)

Pearson Correlation Coefficients:
                           PatientID       Age    Gender  Ethnicity  \
PatientID                   1.000000  0.002947 -0.043665  -0.007608   
Age                         0.002947  1.000000  0.028708   0.027745   
Gender                     -0.043665  0.028708  1.000000  -0.003660   
Ethnicity                  -0.007608  0.027745 -0.003660   1.000000   
EducationLevel             -0.001729 -0.060560 -0.007070   0.026516   
BMI                        -0.034228 -0.015677  0.005928  -0.003176   
Smoking                     0.021907  0.020060  0.016650   0.031485   
AlcoholConsumption         -0.020733  0.007323  0.004330   0.008363   
PhysicalActivity           -0.011424 -0.010249 -0.035795   0.020498   
DietQuality                -0.018490 -0.023386  0.010942  -0.018184   
SleepQuality               -0.026069  0.049139  0.007310   0.029304   
FamilyHistoryAlzheimers     0.002187 -0.018784  0.018421   0.022526   
CardiovascularDisease       0.017675 -0.015

### üìà Correlaci√≥n de Spearman

La **correlaci√≥n de Spearman** mide relaciones **mon√≥tonas** (no necesariamente lineales) entre variables.

#### ¬øCu√°ndo usar Spearman vs Pearson?
- **Spearman**: Para relaciones no lineales o datos ordinales
- **Pearson**: Para relaciones lineales con datos continuos

#### Ventajas de Spearman:
- **Menos sensible a outliers** que Pearson
- **Captura relaciones no lineales** mon√≥tonas
- **Apropiada para datos ordinales** (escalas de evaluaci√≥n m√©dica)

In [6]:
# Exclude non-numeric columns
numeric_df = df.select_dtypes(include=[np.number])

# Calculate pairwise Spearman correlation coefficients using scipy
spearman_corr = numeric_df.corr(method='spearman')
print("Spearman Correlation Coefficients:")
print(spearman_corr)

Spearman Correlation Coefficients:
                           PatientID       Age    Gender  Ethnicity  \
PatientID                   1.000000  0.002944 -0.043665  -0.006729   
Age                         0.002944  1.000000  0.029354   0.017615   
Gender                     -0.043665  0.029354  1.000000  -0.000057   
Ethnicity                  -0.006729  0.017615 -0.000057   1.000000   
EducationLevel             -0.007179 -0.064524 -0.006058   0.034580   
BMI                        -0.034357 -0.016253  0.005632  -0.008008   
Smoking                     0.021907  0.020025  0.016650   0.016721   
AlcoholConsumption         -0.020008  0.007963  0.003877   0.008429   
PhysicalActivity           -0.011835 -0.010820 -0.035355   0.021505   
DietQuality                -0.018185 -0.023727  0.011159  -0.021589   
SleepQuality               -0.026923  0.047887  0.007533   0.028503   
FamilyHistoryAlzheimers     0.002187 -0.017978  0.018421   0.024033   
CardiovascularDisease       0.017675 -0.01

### üéØ Correlaci√≥n de Kendall (Tau)

La **correlaci√≥n de Kendall** es otra medida de correlaci√≥n no param√©trica especialmente √∫til para:

#### Caracter√≠sticas de Kendall:
- **M√°s robusta** con muestras peque√±as
- **Interpretaci√≥n directa**: Proporci√≥n de pares concordantes vs discordantes
- **Apropiada** cuando hay muchos empates en los datos

#### ¬øCu√°ndo usar cada una?
- **Pearson**: Relaciones lineales, datos normales
- **Spearman**: Relaciones mon√≥tonas, outliers presentes  
- **Kendall**: Muestras peque√±as, muchos valores empates

In [7]:
# Select only numeric columns
df_numeric = df.select_dtypes(include=[np.number])

# Drop rows with NaN values
df_numeric = df_numeric.dropna()

# Calculate pairwise Kendall correlation coefficients using scipy
kendall_corr = df_numeric.corr(method='kendall')
print("Kendall Correlation Coefficients:")
print(kendall_corr)

Kendall Correlation Coefficients:
                           PatientID       Age    Gender  Ethnicity  \
PatientID                   1.000000  0.001447 -0.035661  -0.005250   
Age                         0.001447  1.000000  0.024357   0.013778   
Gender                     -0.035661  0.024357  1.000000  -0.000054   
Ethnicity                  -0.005250  0.013778 -0.000054   1.000000   
EducationLevel             -0.005914 -0.049524 -0.005606   0.030243   
BMI                        -0.023028 -0.010915  0.004600  -0.006217   
Smoking                     0.017891  0.016616  0.016650   0.015778   
AlcoholConsumption         -0.013283  0.005444  0.003166   0.006428   
PhysicalActivity           -0.008288 -0.007234 -0.028874   0.016624   
DietQuality                -0.012257 -0.015925  0.009114  -0.016875   
SleepQuality               -0.017718  0.032107  0.006152   0.022049   
FamilyHistoryAlzheimers     0.001786 -0.014917  0.018421   0.022677   
CardiovascularDisease       0.014435 -0.012

## üìä 6. Medidas de Variabilidad

### üé≤ Varianza

La **varianza** cuantifica qu√© tan dispersos est√°n los valores respecto a la media:

#### Interpretaci√≥n:
- **Varianza alta**: Valores muy dispersos, alta heterogeneidad
- **Varianza baja**: Valores concentrados alrededor de la media
- **Unidades**: Al cuadrado de la variable original

#### En contexto m√©dico:
- **Alta varianza** puede indicar subpoblaciones heterog√©neas
- **Baja varianza** sugiere medidas m√°s homog√©neas y predecibles

In [8]:
# Select only numeric columns
numeric_df = df.select_dtypes(include=[np.number])

# Calculate the variance for each numerical variable
variance = numeric_df.var()
print("Variance:")
print(variance)

Variance:
PatientID                    385029.166667
Age                              80.824080
Gender                            0.250077
Ethnicity                         0.992270
EducationLevel                    0.818169
BMI                              52.091413
Smoking                           0.205366
AlcoholConsumption               33.153531
PhysicalActivity                  8.163541
DietQuality                       8.462601
SleepQuality                      3.110190
FamilyHistoryAlzheimers           0.188688
CardiovascularDisease             0.123502
Diabetes                          0.128096
Depression                        0.160409
HeadInjury                        0.084065
Hypertension                      0.126792
SystolicBP                      673.368875
DiastolicBP                     309.495923
CholesterolTotal               1809.841576
CholesterolLDL                 1880.660612
CholesterolHDL                  535.421368
CholesterolTriglycerides      10401.291217
M

### üìè Desviaci√≥n Est√°ndar

La **desviaci√≥n est√°ndar** es la ra√≠z cuadrada de la varianza y proporciona una medida de dispersi√≥n en las **mismas unidades** que los datos originales:

#### Ventajas:
- **Mismas unidades** que la variable original
- **Interpretaci√≥n intuitiva**: aproximadamente 68% de datos dentro de ¬±1œÉ de la media
- **F√°cil comparaci√≥n** entre variables

#### Regla emp√≠rica (datos normales):
- **¬±1œÉ**: ~68% de los datos
- **¬±2œÉ**: ~95% de los datos  
- **¬±3œÉ**: ~99.7% de los datos

In [9]:
# Select only numeric columns
numeric_df = df.select_dtypes(include=[np.number])

# Calculate the standard deviation for each numerical variable
std_dev = numeric_df.std()
print("Standard Deviation:")
print(std_dev)

Standard Deviation:
PatientID                    620.507185
Age                            8.990221
Gender                         0.500077
Ethnicity                      0.996128
EducationLevel                 0.904527
BMI                            7.217438
Smoking                        0.453173
AlcoholConsumption             5.757910
PhysicalActivity               2.857191
DietQuality                    2.909055
SleepQuality                   1.763573
FamilyHistoryAlzheimers        0.434382
CardiovascularDisease          0.351428
Diabetes                       0.357906
Depression                     0.400511
HeadInjury                     0.289940
Hypertension                   0.356079
SystolicBP                    25.949352
DiastolicBP                   17.592496
CholesterolTotal              42.542233
CholesterolLDL                43.366584
CholesterolHDL                23.139174
CholesterolTriglycerides     101.986721
MMSE                           8.613151
FunctionalAssessment

### üìê Coeficiente de Variaci√≥n

El **coeficiente de variaci√≥n** (CV) es una medida de **variabilidad relativa**:

#### F√≥rmula: CV = (Desviaci√≥n Est√°ndar / Media) √ó 100%

#### Interpretaci√≥n:
- **CV < 10%**: Variabilidad baja (datos homog√©neos)
- **10% ‚â§ CV < 20%**: Variabilidad moderada
- **CV ‚â• 20%**: Variabilidad alta (datos heterog√©neos)

#### Ventajas:
- **Adimensional**: Permite comparar variables con diferentes unidades
- **Relativiza la dispersi√≥n**: Considera la magnitud de la media
- **√ötil en medicina**: Para comparar variabilidad entre diferentes biomarcadores

In [10]:
# Select only numeric columns
numeric_df = df.select_dtypes(include=[np.number])

# Calculate the coefficient of variation for each numerical variable
coef_variation = numeric_df.std() / numeric_df.mean()
print("Coefficient of Variation:")
print(coef_variation)

Coefficient of Variation:
PatientID                    0.106525
Age                          0.120016
Gender                       0.987744
Ethnicity                    1.428071
EducationLevel               0.703012
BMI                          0.260975
Smoking                      1.570757
AlcoholConsumption           0.573529
PhysicalActivity             0.580706
DietQuality                  0.582611
SleepQuality                 0.250114
FamilyHistoryAlzheimers      1.722302
CardiovascularDisease        2.436190
Diabetes                     2.373887
Depression                   1.996981
HeadInjury                   3.131063
Hypertension                 2.391294
SystolicBP                   0.193270
DiastolicBP                  0.195803
CholesterolTotal             0.188911
CholesterolLDL               0.348786
CholesterolHDL               0.389132
CholesterolTriglycerides     0.446759
MMSE                         0.583739
FunctionalAssessment         0.569432
MemoryComplaints        

## üß™ 7. Pruebas de Hip√≥tesis

### üìä Prueba t de Student (t-test independiente)

La **prueba t** compara las medias de dos grupos independientes para determinar si son estad√≠sticamente diferentes.

#### ¬øCu√°ndo usar la prueba t?
- **Dos grupos independientes** (ej: con/sin Alzheimer)
- **Variable num√©rica continua** (ej: edad, presi√≥n arterial)
- **Distribuci√≥n aproximadamente normal** en ambos grupos

#### Hip√≥tesis:
- **H‚ÇÄ (nula)**: No hay diferencia entre las medias de los grupos
- **H‚ÇÅ (alternativa)**: Existe diferencia significativa entre las medias

#### Interpretaci√≥n:
- **p-valor < 0.05**: Rechazamos H‚ÇÄ, hay diferencia significativa
- **p-valor ‚â• 0.05**: No rechazamos H‚ÇÄ, no hay evidencia de diferencia

#### En nuestro caso:
Comparamos la **edad promedio** entre pacientes **con** y **sin** Alzheimer.

In [11]:
# Perform a t-test between two groups for a specific variable
group1 = df[df['Diagnosis'] == 0]['Age']
group2 = df[df['Diagnosis'] == 1]['Age']
t_stat, p_value = stats.ttest_ind(group1, group2)
print(f"T-test between Diagnosis groups for Age: t-statistic = {t_stat}, p-value = {p_value}")

T-test between Diagnosis groups for Age: t-statistic = 0.25431181993816804, p-value = 0.799279022412382


### üéØ Prueba de Chi-cuadrado de Independencia

La **prueba de Chi-cuadrado** eval√∫a si existe asociaci√≥n entre dos variables categ√≥ricas.

#### ¬øCu√°ndo usar Chi-cuadrado?
- **Ambas variables son categ√≥ricas** (ej: Diagn√≥stico, Etnia)
- **Frecuencias esperadas ‚â• 5** en cada celda de la tabla de contingencia
- **Observaciones independientes**

#### Proceso:
1. **Tabla de contingencia**: Cruza las dos variables categ√≥ricas
2. **Frecuencias esperadas**: Lo que esperar√≠amos si no hubiera asociaci√≥n
3. **Estad√≠stico œá¬≤**: Mide discrepancia entre observado y esperado

#### Hip√≥tesis:
- **H‚ÇÄ**: Las variables son independientes (no hay asociaci√≥n)
- **H‚ÇÅ**: Existe asociaci√≥n entre las variables

#### Interpretaci√≥n:
- **p-valor < 0.05**: Hay asociaci√≥n significativa
- **œá¬≤ alto**: Mayor evidencia de asociaci√≥n

#### En nuestro an√°lisis:
Evaluamos si existe asociaci√≥n entre **Diagn√≥stico de Alzheimer** y **Etnia** del paciente.

In [12]:
# Perform a chi-square test for independence between two categorical variables
contingency_table = pd.crosstab(df['Diagnosis'], df['Ethnicity'])
chi2, p, dof, expected = stats.chi2_contingency(contingency_table)
print(f"Chi-square test for independence between Diagnosis and Ethnicity: chi2 = {chi2}, p-value = {p}")

Chi-square test for independence between Diagnosis and Ethnicity: chi2 = 6.302088590572339, p-value = 0.09780307184026778


## üéØ S√≠ntesis del An√°lisis Estad√≠stico

### üìä An√°lisis Completado:

#### 1. **Estad√≠sticas Descriptivas**
- ‚úÖ **Medidas de tendencia central** y dispersi√≥n b√°sicas
- ‚úÖ **An√°lisis de forma**: skewness y kurtosis para entender distribuciones
- ‚úÖ **Identificaci√≥n** de variables asim√©tricas que requieren atenci√≥n especial

#### 2. **An√°lisis de Correlaciones**
- ‚úÖ **Pearson**: Relaciones lineales entre variables num√©ricas
- ‚úÖ **Spearman**: Relaciones mon√≥tonas y robustez ante outliers  
- ‚úÖ **Kendall**: An√°lisis complementario para validar hallazgos

#### 3. **Medidas de Variabilidad**
- ‚úÖ **Varianza y desviaci√≥n est√°ndar**: Dispersi√≥n absoluta
- ‚úÖ **Coeficiente de variaci√≥n**: Comparaci√≥n relativa entre variables

#### 4. **Pruebas de Hip√≥tesis**
- ‚úÖ **t-test**: Comparaci√≥n de medias entre grupos (ej: edad por diagn√≥stico)
- ‚úÖ **Chi-cuadrado**: Asociaci√≥n entre variables categ√≥ricas (ej: diagn√≥stico-etnia)

### üîç Insights Clave para el Modelado:

#### **Distribuciones de Variables:**
- Variables con **alta asimetr√≠a** pueden requerir transformaciones
- **Kurtosis elevada** indica presencia de outliers a considerar
- **Variabilidad heterog√©nea** entre variables sugiere necesidad de normalizaci√≥n

#### **Relaciones entre Variables:**
- **Correlaciones altas** pueden indicar multicolinealidad
- **Patrones no lineales** (Spearman vs Pearson) sugieren transformaciones
- **Variables independientes** (correlaci√≥n ~0) aportan informaci√≥n √∫nica

#### **Diferencias Significativas:**
- **t-tests significativos** validan diferencias entre grupos
- **Chi-cuadrado significativo** confirma asociaciones categ√≥ricas
- Estas diferencias **justifican** el desarrollo de modelos predictivos

### üéØ Implicaciones para Machine Learning:

#### **Selecci√≥n de Caracter√≠sticas:**
- Variables con **diferencias significativas** entre grupos son candidatas fuertes
- **Correlaciones moderadas** con el objetivo son prometedoras
- Variables **independientes entre s√≠** evitan redundancia

#### **Preprocesamiento Necesario:**
- **Transformaciones** para variables asim√©tricas
- **Normalizaci√≥n** para variables con diferentes escalas
- **Tratamiento de outliers** basado en an√°lisis de distribuciones

#### **Validaci√≥n de Modelos:**
- **Distribuciones conocidas** ayudan a interpretar residuos
- **Correlaciones** informan sobre posible overfitting
- **Pruebas estad√≠sticas** validan significancia de predictores



---
*El an√°lisis estad√≠stico riguroso es el fundamento de cualquier modelo predictivo confiable.*