<a href="https://colab.research.google.com/github/DecentralandManiaks/Programa-que-calcula-la-variabilitat-en-un-sistema-de-dades-multifactorial/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [12]:
# ===========================
# TDR – Regressió multifactorial (OLS)
# Dependent: Nota mitjana
# Predictors: hores_esport, tipus_esport (multi), intensitat, antiguitat, son, alimentació,
#             edat, gènere, institut (centre), curs (nivell educatiu)
# Resultats: coeficients (β), p-values, IC95%, R² i R² ajustat
# ===========================

import pandas as pd
import numpy as np
import re, unicodedata
import statsmodels.api as sm
from pathlib import Path

# -------- 0) CONFIG --------
# Canvia el camí si cal:
CSV_PATH = Path("Descarga - Dades numericament.csv")   # <-- posa aquí el teu fitxer

# Si la teva columna de nota mitjana té un nom diferent, afegeix-lo aquí com a clau de cerca:
DEPENDENT_KEYS = ['mitjana notes', 'mitjana', 'nota mitjana']

# Claus per detectar cada predictor (no cal tocar si vens del mateix formulari)
KEYS = {
    'hores':       ['quantes hores d\'esport', 'hores esport', 'hores setmanals'],
    'tipus':       ['tipus d\'activitat fisica predominant'],
    'intensitat':  ['intensitat habitual'],
    'antiguitat':  ['quant de temps fa que practiques'],
    'son':         ['quantes hores dorms'],
    'alimentacio': ['habits d\'alimentacio', 'alimentacio'],
    'edat':        ['edat'],
    'genere':      ['genere', 'sexe'],
    'centre':      ['centre educatiu'],
    'curs':        ['nivell educatiu'],
}

# -------- 1) LLEGIR FITXER --------
df = pd.read_csv(CSV_PATH, encoding="utf-8")

# -------- 2) NORMALITZAR NOMS PER DETECTAR COLUMNES (no altera df original) --------
def norm(s):
    s2 = unicodedata.normalize('NFKD', str(s)).encode('ascii','ignore').decode('ascii')
    s2 = re.sub(r'[^a-zA-Z0-9]+','_',s2).strip('_').lower()
    return s2

dfn = df.copy()
norm_map = {c: norm(c) for c in df.columns}
inv_norm = {v:k for k,v in norm_map.items()}
dfn.columns = [norm_map[c] for c in df.columns]

def find_col(keys_list):
    """Troba la primera columna que contingui qualsevol substring de keys_list (ja normalitzades)."""
    keys_list = [norm(k) for k in keys_list]
    for c in dfn.columns:
        if any(k in c for k in keys_list):
            return c
    return None

col_dep   = find_col(DEPENDENT_KEYS)
col_hores = find_col(KEYS['hores'])
col_tipus = find_col(KEYS['tipus'])
col_int   = find_col(KEYS['intensitat'])
col_ant   = find_col(KEYS['antiguitat'])
col_son   = find_col(KEYS['son'])
col_alim  = find_col(KEYS['alimentacio'])
col_edat  = find_col(KEYS['edat'])
col_gen   = find_col(KEYS['genere'])
col_cent  = find_col(KEYS['centre'])
col_curs  = find_col(KEYS['curs'])

# -------- 3) BUILD DATAFRAME DE TREBALL --------
work = pd.DataFrame()

# Dependent: Mitjana notes -> numèric (coma europea)
if col_dep:
    work['nota_mitjana_3'] = pd.to_numeric(
        dfn[col_dep].astype(str).str.replace(",", ".", regex=False),
        errors='coerce'
    )
else:
    raise ValueError("No s'ha trobat la columna de 'Mitjana notes'. Afegeix el nom a DEPENDENT_KEYS.")

# Helper conversió a número tolerant (extreu dígits i punt)
def to_num(s):
    return pd.to_numeric(
        s.astype(str).str.replace(",", ".", regex=False).str.extract(r'([-+]?\d*\.?\d+)')[0],
        errors='coerce'
    )

# Hores d'esport (rang codificat com 0,1,2,... o text)
if col_hores:
    tmp = to_num(dfn[col_hores])
    # si la majoria són numèrics, fem servir num; si no, dummifiquem després
    work['hores_esport'] = tmp if tmp.notna().mean()>0.5 else dfn[col_hores].astype(str)

# Intensitat (1–3 o text)
if col_int:
    t = to_num(dfn[col_int])
    work['intensitat'] = t if t.notna().mean()>0.5 else dfn[col_int].astype(str)

# Antiguitat (quant de temps fa que practica)
if col_ant:
    t = to_num(dfn[col_ant])
    work['antiguitat_esport'] = t if t.notna().mean()>0.5 else dfn[col_ant].astype(str)

# Son (hores) – num
if col_son:
    work['son_hores'] = to_num(dfn[col_son])

# Alimentació (Likert o text)
if col_alim:
    t = to_num(dfn[col_alim])
    work['alimentacio'] = t if t.notna().mean()>0.5 else dfn[col_alim].astype(str)

# Edat – num
if col_edat:
    work['edat'] = to_num(dfn[col_edat])

# Gènere – intentem mapejar a 0/1; si no, dummies després
if col_gen:
    s = dfn[col_gen].astype(str).str.strip().str.lower()
    mapping = {'noi':0,'home':0,'masculi':0,'masculino':0,'m':0,
               'noia':1,'dona':1,'femeni':1,'femenino':1,'f':1}
    gen = s.map(mapping)
    work['genere'] = gen if gen.notna().mean()>0.5 else dfn[col_gen].astype(str)

# Centre i curs – sempre categòriques (dummifiquem)
if col_cent: work['centre'] = dfn[col_cent].astype(str)
if col_curs: work['curs']   = dfn[col_curs].astype(str)

# Tipus d'activitat física (multi: "1;2;4") -> dummies tipus_1, tipus_2...
if col_tipus:
    tip = dfn[col_tipus].astype(str).str.replace(",", ";", regex=False)
    tip_clean = tip.str.replace(r'[^0-9;]', '', regex=True)
    tip_dum = tip_clean.str.get_dummies(sep=';')
    tip_dum.columns = [f"tipus_{c}" for c in tip_dum.columns]
    if '' in tip_dum.columns:
        tip_dum = tip_dum.drop(columns=[''])
    work = pd.concat([work, tip_dum], axis=1)

# -------- 4) PREPARAR X, y --------
# Traiem files sense dependent
work = work.dropna(subset=['nota_mitjana_3']).copy()

# Separar numèriques vs object per dummificar
num_cols = [c for c in work.columns if work[c].dtype.kind in "biuf" and c!='nota_mitjana_3']
cat_cols = [c for c in work.columns if work[c].dtype == 'O']

# One-hot per categòriques (drop_first=True per evitar colinealitat perfecta)
if cat_cols:
    dummies = pd.get_dummies(work[cat_cols], drop_first=True, dtype=int)
    X = pd.concat([work[num_cols], dummies], axis=1)
else:
    X = work[num_cols].copy()

y = work['nota_mitjana_3']

# Eliminar columnes constants o buides
X = X.dropna(axis=1, how='all')
const_cols = [c for c in X.columns if X[c].nunique(dropna=True) <= 1]
if const_cols:
    X = X.drop(columns=const_cols)

# El model no admet NaNs a X → quedem-nos amb files completes en predictors
mask_complete = ~X.isna().any(axis=1)
X2 = X[mask_complete].copy()
y2 = y[mask_complete].copy()

# Afegir constant i ajustar OLS
X_const = sm.add_constant(X2, has_constant='add')
model = sm.OLS(y2, X_const).fit()

# -------- 5) RESULTATS EN TAULA --------
res = pd.DataFrame({
    'variable': model.params.index,
    'beta': model.params.values,
    'std_err': model.bse.values,
    't': model.tvalues.values,
    'p_value': model.pvalues.values
})
ci = model.conf_int(0.05)
res['ci_low']  = ci[0].values
res['ci_high'] = ci[1].values

# Afegim mètriques (R² i R² ajustat) a una fila especial
metrics = pd.DataFrame([{
    'variable': '__metrics__',
    'beta': np.nan,
    'std_err': np.nan,
    't': np.nan,
    'p_value': np.nan,
    'ci_low': model.rsquared,       # guardem R² aquí
    'ci_high': model.rsquared_adj   # i R² ajustat aquí
}])

res_out = pd.concat([res, metrics], ignore_index=True)

# -------- 6) GUARDAR SORTIDES --------
out_data   = "dades_llestes_model.csv"
out_result = "resultats_regressio_multifactor.csv"
pd.concat([y2.rename('nota_mitjana_3'), X2], axis=1).to_csv(out_data, index=False, encoding='utf-8')
res_out.to_csv(out_result, index=False, encoding='utf-8')

# -------- 7) PRINT RESUM --------
print(f"n = {int(model.nobs)}")
print(f"R^2 = {model.rsquared:.3f} | Adj R^2 = {model.rsquared_adj:.3f}")
print("\nPredictors significatius (p<0.05):")
sig = res[(res['variable']!='const') & (res['p_value']<0.05)].copy()
if sig.empty:
    print("   Cap predictor amb p<0.05 (amb aquest model).")
else:
    for _,r in sig.iterrows():
        print(f" - {r['variable']}: β={r['beta']:.3f} (p={r['p_value']:.4f})  IC95%[{r['ci_low']:.3f},{r['ci_high']:.3f}]")

print(f"\nFitxers guardats:\n - {out_data}\n - {out_result}")

# -------- 8) (OPCIONAL) INTERACCIÓ hores_esport × gènere --------
# Descomenta per provar-ho si tens 'hores_esport' numèric i 'genere' (0/1) present i sense NaNs:
# if 'hores_esport' in X2.columns and 'genere' in X2.columns:
#     X_int = X2.copy()
#     X_int['hores_esport_x_genere'] = X2['hores_esport'] * X2['genere']
#     m_int = sm.OLS(y2, sm.add_constant(X_int, has_constant='add')).fit()
#     print("\n--- Model amb interacció hores_esport×genere ---")
#     print(f"R^2={m_int.rsquared:.3f} | Adj R^2={m_int.rsquared_adj:.3f}")
#     if 'hores_esport_x_genere' in m_int.pvalues.index:
#         print(f"β_interacció = {m_int.params['hores_esport_x_genere']:.3f} (p={m_int.pvalues['hores_esport_x_genere']:.4f})")

# -------- 9) (OPCIONAL) MEDIACIÓ VIA SON (aproximació) --------
# if 'hores_esport' in X2.columns and 'son_hores' in X2.columns:
#     # Model A: Nota ~ HoresEsport (afegint la resta de predictors de X2 per ser justos)
#     mA = sm.OLS(y2, sm.add_constant(X2, has_constant='add')).fit()
#     betaA = mA.params.get('hores_esport', np.nan); pA = mA.pvalues.get('hores_esport', np.nan)
#     # Model C: afegim explícitament 'son_hores' (ja hi és a X2 si existia)
#     # Per veure mediació, compara |β| de A vs C; si baixa clarament, possible mediació parcial.
#     print("\n--- Mediació (aprox) via SON ---")
#     print(f"β_A(hores_esport)={betaA:.3f} (p={pA:.4f})  |  (Compara amb β a res_out per evidència de mediació)")


n = 208
R^2 = 0.266 | Adj R^2 = 0.169

Predictors significatius (p<0.05):
 - son_hores: β=0.250 (p=0.0372)  IC95%[0.015,0.486]
 - edat: β=0.143 (p=0.0489)  IC95%[0.001,0.285]
 - tipus_4: β=0.657 (p=0.0100)  IC95%[0.159,1.155]
 - genere_2.0: β=0.408 (p=0.0485)  IC95%[0.003,0.813]
 - curs_nan: β=-2.169 (p=0.0348)  IC95%[-4.180,-0.157]

Fitxers guardats:
 - dades_llestes_model.csv
 - resultats_regressio_multifactor.csv
