# An√†lisi Explorat√≤ria de Dades (EDA) - Dataset de Dem√®ncia

Aquest notebook cont√© l'an√†lisi explorat√≤ria del dataset de dem√®ncia, seguint les tasques especificades:

1. C√†rrega i inspecci√≥ inicial
2. Distribuci√≥ de la variable objectiu
3. Estad√≠stiques univariants
4. Visualitzacions
5. Valors an√≤mals o absents
6. An√†lisi bivariada i correlacions
7. Resum de descobertes

In [None]:
# Importaci√≥ de llibreries necess√†ries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings

warnings.filterwarnings('ignore')

# Configuraci√≥ de visualitzacions
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configuraci√≥ per mostrar totes les columnes
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

## 1. C√†rrega i Inspecci√≥ Inicial

Carreguem el dataset i examinem la seva estructura b√†sica.

In [None]:
# C√†rrega del dataset
# NOTA: Ajusta el path segons la ubicaci√≥ del teu dataset
df = pd.read_csv('../data/dementia_dataset.csv')

print("Dataset carregat correctament!")
print(f"Dimensions del dataset: {df.shape[0]} files √ó {df.shape[1]} columnes")

In [None]:
# Primeres files del dataset
print("Primeres 5 files del dataset:")
df.head()

In [None]:
# Informaci√≥ general del dataset
print("Informaci√≥ general del dataset:")
df.info()

In [None]:
# Tipus de dades per columna
print("\nTipus de dades:")
print(df.dtypes)

In [None]:
# Noms de les columnes
print("\nColumnes del dataset:")
print(df.columns.tolist())

## 2. Distribuci√≥ de la Variable Objectiu

Analitzem la distribuci√≥ de casos amb i sense dem√®ncia per entendre l'equilibri de classes.

In [None]:
# Assumim que la variable objectiu es diu 'dementia' o similar
# Ajusta el nom de la columna segons el teu dataset
target_col = 'dementia'  # Canvia aix√≤ si √©s necessari

# Recompte de casos
print("Distribuci√≥ de la variable objectiu:")
print("="*50)
target_counts = df[target_col].value_counts()
print(target_counts)
print("\nPercentatges:")
target_percentages = df[target_col].value_counts(normalize=True) * 100
print(target_percentages.round(2))

In [None]:
# Visualitzaci√≥ de la distribuci√≥
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√†fic de barres
target_counts.plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥ de Casos: Dem√®ncia vs No Dem√®ncia', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Classe', fontsize=12)
axes[0].set_ylabel('Nombre de casos', fontsize=12)
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=0)

# Afegir valors sobre les barres
for i, v in enumerate(target_counts):
    axes[0].text(i, v + 5, str(v), ha='center', va='bottom', fontweight='bold')

# Gr√†fic de past√≠s
colors = ['#2ecc71', '#e74c3c']
axes[1].pie(target_counts, labels=target_counts.index, autopct='%1.1f%%', 
            startangle=90, colors=colors, textprops={'fontsize': 12, 'fontweight': 'bold'})
axes[1].set_title('Proporci√≥ de Classes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

# C√†lcul del desequilibri de classes
imbalance_ratio = target_counts.max() / target_counts.min()
print(f"\nR√†tio de desequilibri de classes: {imbalance_ratio:.2f}:1")
if imbalance_ratio > 1.5:
    print("‚ö†Ô∏è ATENCI√ì: El dataset presenta desequilibri de classes. Considera t√®cniques de balanceig.")
else:
    print("‚úì El dataset est√† relativament equilibrat.")

## 3. Estad√≠stiques Univariants

Analitzem les caracter√≠stiques individuals de cada variable.

In [None]:
# Separar variables num√®riques i categ√≤riques
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"Variables num√®riques ({len(numeric_cols)}): {numeric_cols}")
print(f"\nVariables categ√≤riques ({len(categorical_cols)}): {categorical_cols}")

### 3.1 Estad√≠stiques de Variables Num√®riques

In [None]:
# Estad√≠stiques descriptives per variables num√®riques
print("Estad√≠stiques descriptives de variables num√®riques:")
print("="*80)
df[numeric_cols].describe().round(2)

In [None]:
# Estad√≠stiques addicionals (asimetria i curtosi)
print("\nAsimetria (Skewness) i Curtosi (Kurtosis):")
print("="*80)
stats_df = pd.DataFrame({
    'Asimetria': df[numeric_cols].skew(),
    'Curtosi': df[numeric_cols].kurtosis()
}).round(2)
print(stats_df)

### 3.2 Freq√º√®ncies de Variables Categ√≤riques

In [None]:
# Freq√º√®ncies per cada variable categ√≤rica
for col in categorical_cols:
    print(f"\nDistribuci√≥ de '{col}':")
    print("="*50)
    freq_table = pd.DataFrame({
        'Freq√º√®ncia': df[col].value_counts(),
        'Percentatge': df[col].value_counts(normalize=True) * 100
    }).round(2)
    print(freq_table)
    print()

## 4. Visualitzacions

Creem visualitzacions per entendre millor les distribucions i difer√®ncies entre grups.

### 4.1 Histogrames de Variables Num√®riques

In [None]:
# Histogrames per totes les variables num√®riques
n_cols = 3
n_rows = (len(numeric_cols) + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4))
axes = axes.flatten() if n_rows > 1 else [axes]

for idx, col in enumerate(numeric_cols):
    axes[idx].hist(df[col].dropna(), bins=30, edgecolor='black', alpha=0.7)
    axes[idx].set_title(f'Distribuci√≥ de {col}', fontweight='bold')
    axes[idx].set_xlabel(col)
    axes[idx].set_ylabel('Freq√º√®ncia')
    axes[idx].grid(True, alpha=0.3)

# Amagar eixos sobrants
for idx in range(len(numeric_cols), len(axes)):
    axes[idx].axis('off')

plt.tight_layout()
plt.show()

### 4.2 Box Plots per Grup (Dem√®ncia vs No Dem√®ncia)

In [None]:
# Box plots comparatius
# Excloure la variable objectiu de les variables num√®riques
numeric_features = [col for col in numeric_cols if col != target_col]

n_cols = 3
n_rows = (len(numeric_features) + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4))
axes = axes.flatten() if n_rows > 1 else [axes]

for idx, col in enumerate(numeric_features):
    sns.boxplot(data=df, x=target_col, y=col, ax=axes[idx], palette='Set2')
    axes[idx].set_title(f'{col} per Grup', fontweight='bold')
    axes[idx].set_xlabel('Dem√®ncia')
    axes[idx].set_ylabel(col)
    axes[idx].grid(True, alpha=0.3)

# Amagar eixos sobrants
for idx in range(len(numeric_features), len(axes)):
    axes[idx].axis('off')

plt.tight_layout()
plt.show()

### 4.3 Violin Plots per Variables Clau

In [None]:
# Violin plots per variables clau (ajusta segons el teu dataset)
# Exemple amb variables t√≠piques d'un dataset de dem√®ncia
key_vars = ['age', 'MMSE', 'brain_volume']  # Ajusta aquests noms segons el teu dataset

# Filtrar nom√©s les variables que existeixen
key_vars_available = [var for var in key_vars if var in df.columns]

if key_vars_available:
    fig, axes = plt.subplots(1, len(key_vars_available), figsize=(6*len(key_vars_available), 5))
    if len(key_vars_available) == 1:
        axes = [axes]
    
    for idx, var in enumerate(key_vars_available):
        sns.violinplot(data=df, x=target_col, y=var, ax=axes[idx], palette='muted')
        axes[idx].set_title(f'Distribuci√≥ de {var} per Grup', fontweight='bold', fontsize=12)
        axes[idx].set_xlabel('Dem√®ncia', fontsize=11)
        axes[idx].set_ylabel(var, fontsize=11)
    
    plt.tight_layout()
    plt.show()
else:
    print("Les variables clau especificades no es troben al dataset. Ajusta 'key_vars'.")

### 4.4 Scatter Plots (Relacions entre Variables)

In [None]:
# Scatter plots per parelles de variables rellevants
# Exemple: edat vs MMSE, edat vs volum cerebral, etc.
scatter_pairs = [
    ('age', 'MMSE'),
    ('age', 'brain_volume'),
    ('MMSE', 'brain_volume')
]  # Ajusta segons el teu dataset

# Filtrar parelles que existeixen
valid_pairs = [(x, y) for x, y in scatter_pairs if x in df.columns and y in df.columns]

if valid_pairs:
    n_pairs = len(valid_pairs)
    fig, axes = plt.subplots(1, n_pairs, figsize=(6*n_pairs, 5))
    if n_pairs == 1:
        axes = [axes]
    
    for idx, (x_var, y_var) in enumerate(valid_pairs):
        for group in df[target_col].unique():
            mask = df[target_col] == group
            axes[idx].scatter(df.loc[mask, x_var], df.loc[mask, y_var], 
                            label=f'{target_col}={group}', alpha=0.6, s=50)
        
        axes[idx].set_xlabel(x_var, fontsize=11)
        axes[idx].set_ylabel(y_var, fontsize=11)
        axes[idx].set_title(f'{x_var} vs {y_var}', fontweight='bold', fontsize=12)
        axes[idx].legend()
        axes[idx].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("Les parelles de variables especificades no es troben al dataset. Ajusta 'scatter_pairs'.")

### 4.5 Gr√†fics de Barres per Variables Categ√≤riques

In [None]:
# Gr√†fics de barres per variables categ√≤riques segmentades per dem√®ncia
for col in categorical_cols:
    if col != target_col:
        plt.figure(figsize=(10, 5))
        
        # Crear taula de conting√®ncia
        ct = pd.crosstab(df[col], df[target_col], normalize='index') * 100
        
        ct.plot(kind='bar', stacked=False, color=['#2ecc71', '#e74c3c'])
        plt.title(f'Distribuci√≥ de {col} per Grup de Dem√®ncia', fontweight='bold', fontsize=13)
        plt.xlabel(col, fontsize=11)
        plt.ylabel('Percentatge (%)', fontsize=11)
        plt.legend(title=target_col)
        plt.xticks(rotation=45)
        plt.grid(True, alpha=0.3, axis='y')
        plt.tight_layout()
        plt.show()

## 5. Valors An√≤mals o Absents

Identifiquem i analitzem valors nuls i outliers.

### 5.1 Valors Nuls

In [None]:
# An√†lisi de valors nuls
print("An√†lisi de Valors Nuls:")
print("="*80)

missing_data = pd.DataFrame({
    'Nombre de Nuls': df.isnull().sum(),
    'Percentatge (%)': (df.isnull().sum() / len(df)) * 100
}).sort_values(by='Nombre de Nuls', ascending=False)

print(missing_data[missing_data['Nombre de Nuls'] > 0])

if missing_data['Nombre de Nuls'].sum() == 0:
    print("\n‚úì No hi ha valors nuls al dataset!")
else:
    print(f"\n‚ö†Ô∏è Total de valors nuls: {missing_data['Nombre de Nuls'].sum()}")

In [None]:
# Visualitzaci√≥ de valors nuls
if missing_data['Nombre de Nuls'].sum() > 0:
    plt.figure(figsize=(12, 6))
    missing_cols = missing_data[missing_data['Nombre de Nuls'] > 0]
    
    plt.barh(missing_cols.index, missing_cols['Percentatge (%)'], color='coral')
    plt.xlabel('Percentatge de Valors Nuls (%)', fontsize=12)
    plt.ylabel('Variables', fontsize=12)
    plt.title('Percentatge de Valors Nuls per Variable', fontweight='bold', fontsize=14)
    plt.grid(True, alpha=0.3, axis='x')
    
    for i, v in enumerate(missing_cols['Percentatge (%)']):
        plt.text(v + 0.5, i, f'{v:.1f}%', va='center')
    
    plt.tight_layout()
    plt.show()

### 5.2 Detecci√≥ d'Outliers (M√®tode IQR)

In [None]:
# Detecci√≥ d'outliers utilitzant el m√®tode IQR (Interquartile Range)
def detect_outliers_iqr(data, column):
    """
    Detecta outliers utilitzant el m√®tode IQR.
    Outliers s√≥n valors fora del rang [Q1 - 1.5*IQR, Q3 + 1.5*IQR]
    """
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    
    return outliers, lower_bound, upper_bound

print("Detecci√≥ d'Outliers (M√®tode IQR):")
print("="*80)

outlier_summary = []

for col in numeric_features:
    outliers, lower, upper = detect_outliers_iqr(df, col)
    n_outliers = len(outliers)
    pct_outliers = (n_outliers / len(df)) * 100
    
    outlier_summary.append({
        'Variable': col,
        'Nombre Outliers': n_outliers,
        'Percentatge (%)': round(pct_outliers, 2),
        'L√≠mit Inferior': round(lower, 2),
        'L√≠mit Superior': round(upper, 2)
    })

outlier_df = pd.DataFrame(outlier_summary)
print(outlier_df)

total_outliers = outlier_df['Nombre Outliers'].sum()
print(f"\nTotal d'outliers detectats: {total_outliers}")

In [None]:
# Visualitzaci√≥ d'outliers amb box plots
n_cols = 3
n_rows = (len(numeric_features) + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4))
axes = axes.flatten() if n_rows > 1 else [axes]

for idx, col in enumerate(numeric_features):
    axes[idx].boxplot(df[col].dropna(), vert=True, patch_artist=True,
                     boxprops=dict(facecolor='lightblue', alpha=0.7),
                     medianprops=dict(color='red', linewidth=2))
    axes[idx].set_title(f'Box Plot: {col}', fontweight='bold')
    axes[idx].set_ylabel(col)
    axes[idx].grid(True, alpha=0.3, axis='y')

# Amagar eixos sobrants
for idx in range(len(numeric_features), len(axes)):
    axes[idx].axis('off')

plt.tight_layout()
plt.show()

### 5.3 Propostes d'Acci√≥ per Valors An√≤mals

In [None]:
print("Propostes d'Acci√≥:")
print("="*80)

# Per valors nuls
if missing_data['Nombre de Nuls'].sum() > 0:
    print("\nüìå VALORS NULS:")
    for col in missing_data[missing_data['Nombre de Nuls'] > 0].index:
        pct = missing_data.loc[col, 'Percentatge (%)']
        if pct < 5:
            print(f"  - {col}: Eliminar files ({pct:.1f}% de dades perdudes)")
        elif pct < 30:
            if col in numeric_cols:
                print(f"  - {col}: Imputar amb mediana o mitjana ({pct:.1f}% de dades perdudes)")
            else:
                print(f"  - {col}: Imputar amb moda o categoria 'Unknown' ({pct:.1f}% de dades perdudes)")
        else:
            print(f"  - {col}: Considerar eliminar la variable ({pct:.1f}% de dades perdudes)")

# Per outliers
if total_outliers > 0:
    print("\nüìå OUTLIERS:")
    for _, row in outlier_df[outlier_df['Nombre Outliers'] > 0].iterrows():
        col = row['Variable']
        pct = row['Percentatge (%)']
        if pct < 1:
            print(f"  - {col}: Revisar manualment i considerar eliminaci√≥ ({pct:.1f}%)")
        elif pct < 5:
            print(f"  - {col}: Aplicar transformaci√≥ (log, sqrt) o winsoritzaci√≥ ({pct:.1f}%)")
        else:
            print(f"  - {col}: Poden ser valors leg√≠tims, revisar context cl√≠nic ({pct:.1f}%)")

if missing_data['Nombre de Nuls'].sum() == 0 and total_outliers == 0:
    print("\n‚úì No s'han detectat problemes significatius amb valors nuls o outliers.")

## 6. An√†lisi Bivariada i Correlacions

Examinem les relacions entre variables i amb la variable objectiu.

### 6.1 Matriu de Correlaci√≥

In [None]:
# Calcular matriu de correlaci√≥
correlation_matrix = df[numeric_cols].corr()

# Visualitzaci√≥ de la matriu de correlaci√≥
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriu de Correlaci√≥ de Variables Num√®riques', fontweight='bold', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

### 6.2 Correlacions amb la Variable Objectiu

In [None]:
# Correlacions amb la variable objectiu
if target_col in numeric_cols:
    target_correlations = correlation_matrix[target_col].drop(target_col).sort_values(ascending=False)
    
    print("Correlacions amb la Variable Objectiu:")
    print("="*80)
    print(target_correlations)
    
    # Visualitzaci√≥
    plt.figure(figsize=(10, 6))
    colors = ['green' if x > 0 else 'red' for x in target_correlations]
    target_correlations.plot(kind='barh', color=colors, edgecolor='black')
    plt.title(f'Correlaci√≥ de Variables amb {target_col}', fontweight='bold', fontsize=14)
    plt.xlabel('Coeficient de Correlaci√≥', fontsize=12)
    plt.ylabel('Variables', fontsize=12)
    plt.axvline(x=0, color='black', linestyle='--', linewidth=0.8)
    plt.grid(True, alpha=0.3, axis='x')
    plt.tight_layout()
    plt.show()
    
    # Identificar correlacions fortes
    strong_corr = target_correlations[abs(target_correlations) > 0.5]
    if len(strong_corr) > 0:
        print("\nüìå Variables amb correlaci√≥ FORTA (|r| > 0.5):")
        for var, corr in strong_corr.items():
            print(f"  - {var}: {corr:.3f}")
    else:
        print("\n‚ö†Ô∏è No s'han trobat correlacions fortes amb la variable objectiu.")
else:
    print(f"La variable objectiu '{target_col}' no √©s num√®rica. Utilitzarem altres m√®todes d'an√†lisi.")

### 6.3 Detecci√≥ de Multicolinealitat

In [None]:
# Identificar parelles de variables amb alta correlaci√≥ (possibles redund√†ncies)
print("Detecci√≥ de Multicolinealitat:")
print("="*80)

# Crear una m√†scara per la meitat superior de la matriu
upper_triangle = np.triu(np.ones_like(correlation_matrix, dtype=bool), k=1)

# Trobar parelles amb correlaci√≥ alta
high_corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        if abs(correlation_matrix.iloc[i, j]) > 0.7:  # Llindar de 0.7
            high_corr_pairs.append({
                'Variable 1': correlation_matrix.columns[i],
                'Variable 2': correlation_matrix.columns[j],
                'Correlaci√≥': round(correlation_matrix.iloc[i, j], 3)
            })

if high_corr_pairs:
    high_corr_df = pd.DataFrame(high_corr_pairs).sort_values(by='Correlaci√≥', 
                                                              key=abs, ascending=False)
    print("\n‚ö†Ô∏è Parelles de variables amb ALTA correlaci√≥ (|r| > 0.7):")
    print(high_corr_df.to_string(index=False))
    print("\nüí° Recomanaci√≥: Considerar eliminar una de les variables de cada parella per evitar redund√†ncia.")
else:
    print("\n‚úì No s'ha detectat multicolinealitat significativa entre variables.")

### 6.4 An√†lisi de Variables Categ√≤riques vs Objectiu

In [None]:
# Test de Chi-quadrat per variables categ√≤riques
from scipy.stats import chi2_contingency

print("An√†lisi d'Associaci√≥: Variables Categ√≤riques vs Variable Objectiu")
print("="*80)

chi2_results = []

for col in categorical_cols:
    if col != target_col:
        # Crear taula de conting√®ncia
        contingency_table = pd.crosstab(df[col], df[target_col])
        
        # Test de Chi-quadrat
        chi2, p_value, dof, expected = chi2_contingency(contingency_table)
        
        chi2_results.append({
            'Variable': col,
            'Chi-quadrat': round(chi2, 3),
            'p-valor': round(p_value, 4),
            'Significativa': 'S√≠' if p_value < 0.05 else 'No'
        })

if chi2_results:
    chi2_df = pd.DataFrame(chi2_results).sort_values(by='p-valor')
    print(chi2_df.to_string(index=False))
    
    significant_vars = chi2_df[chi2_df['Significativa'] == 'S√≠']
    if len(significant_vars) > 0:
        print(f"\nüìå {len(significant_vars)} variable(s) categ√≤rica(es) mostren associaci√≥ significativa amb {target_col} (p < 0.05)")
    else:
        print(f"\n‚ö†Ô∏è Cap variable categ√≤rica mostra associaci√≥ significativa amb {target_col}")
else:
    print("No hi ha variables categ√≤riques per analitzar (a part de la variable objectiu).")

### 6.5 Comparaci√≥ de Mitjanes entre Grups (T-test)

In [None]:
# T-test per comparar mitjanes entre grups
from scipy.stats import ttest_ind

print("Comparaci√≥ de Mitjanes entre Grups (T-test):")
print("="*80)

# Assumim que la variable objectiu √©s bin√†ria
groups = df[target_col].unique()

if len(groups) == 2:
    group1_data = df[df[target_col] == groups[0]]
    group2_data = df[df[target_col] == groups[1]]
    
    ttest_results = []
    
    for col in numeric_features:
        # Eliminar valors nuls
        g1 = group1_data[col].dropna()
        g2 = group2_data[col].dropna()
        
        if len(g1) > 0 and len(g2) > 0:
            t_stat, p_value = ttest_ind(g1, g2)
            
            ttest_results.append({
                'Variable': col,
                f'Mitjana Grup {groups[0]}': round(g1.mean(), 2),
                f'Mitjana Grup {groups[1]}': round(g2.mean(), 2),
                'Difer√®ncia': round(g2.mean() - g1.mean(), 2),
                't-statistic': round(t_stat, 3),
                'p-valor': round(p_value, 4),
                'Significativa': 'S√≠' if p_value < 0.05 else 'No'
            })
    
    if ttest_results:
        ttest_df = pd.DataFrame(ttest_results).sort_values(by='p-valor')
        print(ttest_df.to_string(index=False))
        
        significant_diffs = ttest_df[ttest_df['Significativa'] == 'S√≠']
        if len(significant_diffs) > 0:
            print(f"\nüìå {len(significant_diffs)} variable(s) mostren difer√®ncies significatives entre grups (p < 0.05)")
        else:
            print("\n‚ö†Ô∏è Cap variable mostra difer√®ncies significatives entre grups")
else:
    print(f"La variable objectiu t√© {len(groups)} categories. T-test nom√©s √©s aplicable per 2 grups.")

## 7. Resum de Descobertes

Sintetitzem les conclusions clau de l'an√†lisi explorat√≤ria.

In [None]:
print("="*80)
print("RESUM DE DESCOBERTES CLAU")
print("="*80)

discoveries = []

# 1. Equilibri de classes
if 'imbalance_ratio' in locals():
    if imbalance_ratio > 2:
        discoveries.append(
            f"1Ô∏è‚É£ DESEQUILIBRI DE CLASSES: El dataset presenta un desequilibri significatiu "
            f"({imbalance_ratio:.1f}:1). Caldr√† aplicar t√®cniques de balanceig (SMOTE, undersampling, etc.) "
            f"o utilitzar m√®triques adequades (F1-score, AUC-ROC) en lloc d'accuracy."
        )
    else:
        discoveries.append(
            f"1Ô∏è‚É£ EQUILIBRI DE CLASSES: El dataset est√† relativament equilibrat ({imbalance_ratio:.1f}:1), "
            f"la qual cosa facilita l'entrenament de models."
        )

# 2. Valors nuls i qualitat de dades
total_missing = missing_data['Nombre de Nuls'].sum()
if total_missing > 0:
    pct_missing = (total_missing / (len(df) * len(df.columns))) * 100
    discoveries.append(
        f"2Ô∏è‚É£ QUALITAT DE DADES: S'han detectat {total_missing} valors nuls ({pct_missing:.1f}% del dataset). "
        f"Les variables m√©s afectades s√≥n: {', '.join(missing_data[missing_data['Nombre de Nuls'] > 0].head(3).index.tolist())}. "
        f"Es recomana imputaci√≥ o eliminaci√≥ segons el percentatge de dades perdudes."
    )
else:
    discoveries.append(
        "2Ô∏è‚É£ QUALITAT DE DADES: El dataset no cont√© valors nuls, la qual cosa indica una bona qualitat de dades."
    )

# 3. Outliers
if 'total_outliers' in locals() and total_outliers > 0:
    pct_outliers = (total_outliers / len(df)) * 100
    top_outlier_vars = outlier_df.nlargest(3, 'Nombre Outliers')['Variable'].tolist()
    discoveries.append(
        f"3Ô∏è‚É£ OUTLIERS: S'han detectat {total_outliers} outliers ({pct_outliers:.1f}% de les observacions). "
        f"Les variables amb m√©s outliers s√≥n: {', '.join(top_outlier_vars)}. "
        f"Cal revisar si s√≥n errors o valors leg√≠tims abans d'aplicar transformacions."
    )
else:
    discoveries.append(
        "3Ô∏è‚É£ OUTLIERS: No s'han detectat outliers significatius utilitzant el m√®tode IQR."
    )

# 4. Correlacions i relacions
if target_col in numeric_cols and 'strong_corr' in locals():
    if len(strong_corr) > 0:
        top_corr_var = strong_corr.abs().idxmax()
        top_corr_val = strong_corr[top_corr_var]
        discoveries.append(
            f"4Ô∏è‚É£ PREDICTORS RELLEVANTS: S'han identificat {len(strong_corr)} variable(s) amb correlaci√≥ forta "
            f"amb la variable objectiu. La m√©s rellevant √©s '{top_corr_var}' (r={top_corr_val:.3f}). "
            f"Aquestes variables seran clau per al modelatge predictiu."
        )
    else:
        discoveries.append(
            "4Ô∏è‚É£ PREDICTORS RELLEVANTS: No s'han trobat correlacions lineals fortes amb la variable objectiu. "
            "Pot ser necessari explorar relacions no lineals o interaccions entre variables."
        )

# 5. Multicolinealitat
if 'high_corr_pairs' in locals() and len(high_corr_pairs) > 0:
    discoveries.append(
        f"5Ô∏è‚É£ MULTICOLINEALITAT: S'han detectat {len(high_corr_pairs)} parella(es) de variables amb alta correlaci√≥. "
        f"Es recomana eliminar variables redundants per millorar la interpretabilitat del model i evitar problemes "
        f"en models lineals."
    )
else:
    discoveries.append(
        "5Ô∏è‚É£ MULTICOLINEALITAT: No s'ha detectat multicolinealitat significativa entre predictors."
    )

# Imprimir descobertes
for discovery in discoveries:
    print(f"\n{discovery}")
    print("-" * 80)

print("\n" + "="*80)
print("CONCLUSIONS I RECOMANACIONS PER AL MODELATGE")
print("="*80)
print("""
Basant-nos en l'an√†lisi explorat√≤ria realitzada, es recomana:

üìã PREPROCESSAMENT:
   ‚Ä¢ Tractar valors nuls mitjan√ßant imputaci√≥ o eliminaci√≥ segons el cas
   ‚Ä¢ Revisar i tractar outliers (transformacions, winsoritzaci√≥ o eliminaci√≥)
   ‚Ä¢ Normalitzar/estandarditzar variables num√®riques si cal
   ‚Ä¢ Codificar variables categ√≤riques (one-hot encoding, label encoding)

üéØ SELECCI√ì DE CARACTER√çSTIQUES:
   ‚Ä¢ Prioritzar variables amb correlaci√≥ forta amb la variable objectiu
   ‚Ä¢ Eliminar variables redundants (alta multicolinealitat)
   ‚Ä¢ Considerar enginyeria de caracter√≠stiques (interaccions, transformacions)

‚öñÔ∏è BALANCEIG DE CLASSES (si cal):
   ‚Ä¢ Aplicar SMOTE, ADASYN o altres t√®cniques de sobremuestreig
   ‚Ä¢ Considerar submuestreig de la classe majorit√†ria
   ‚Ä¢ Utilitzar pesos de classe en l'entrenament del model

üìä VALIDACI√ì I M√àTRIQUES:
   ‚Ä¢ Utilitzar validaci√≥ creuada estratificada
   ‚Ä¢ Prioritzar m√®triques adequades: F1-score, AUC-ROC, Precision-Recall
   ‚Ä¢ Analitzar matriu de confusi√≥ per entendre errors del model
""")
print("="*80)

## Conclusi√≥

Aquest notebook ha completat una an√†lisi explorat√≤ria exhaustiva del dataset de dem√®ncia, cobrint:

‚úÖ C√†rrega i inspecci√≥ inicial del dataset  
‚úÖ An√†lisi de la distribuci√≥ de la variable objectiu  
‚úÖ Estad√≠stiques descriptives univariants  
‚úÖ Visualitzacions comprehensives (histogrames, box plots, scatter plots)  
‚úÖ Detecci√≥ i an√†lisi de valors nuls i outliers  
‚úÖ An√†lisi bivariada i correlacions  
‚úÖ S√≠ntesi de descobertes clau i recomanacions  

Els resultats d'aquesta EDA proporcionen una base s√≤lida per a les seg√ºents fases del projecte:
- Preprocessament de dades
- Enginyeria de caracter√≠stiques
- Selecci√≥ de models
- Entrenament i validaci√≥

---

**Pr√≤xims passos suggerits:**
1. Implementar el pipeline de preprocessament basat en les descobertes
2. Crear noves caracter√≠stiques rellevants
3. Experimentar amb diferents algoritmes de machine learning
4. Optimitzar hiperpar√†metres dels models seleccionats
5. Avaluar i comparar el rendiment dels models