
# ðŸ§© Bloc 2 â€” SessiÃ³ 3  
## NormalitzaciÃ³, correlaciÃ³ i visualitzaciÃ³ exploratÃ²ria



## 1. PreparaciÃ³ de l'entorn

En aquesta sessiÃ³ treballarem amb:

- `pandas` per a la manipulaciÃ³ de dades
- `numpy` per a cÃ lcul numÃ¨ric
- `matplotlib` i `seaborn` per a la visualitzaciÃ³
- eines de *scikit-learn* per a l'escalat de dades

> **Nota:** Si estÃ s a un entorn nou, assegura't de tenir instalÂ·lades aquestes llibreries.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split

sns.set()
print("Llibreries carregades correctament.")



## 2. Carrega o creaciÃ³ del conjunt de dades

En un projecte real, carregarÃ­em un fitxer `.csv` amb dades proporcionades.  
Per assegurar que el notebook Ã©s autosuficient, aquÃ­ **crearem un dataset sintÃ¨tic** que simula:

- `edat` (anys)
- `altura` (cm)
- `pes` (kg)
- `ingressos` (sou mensual aproximat)
- `target` (variable objectiu fictÃ­cia, per exemple: nivell de benestar de 0 a 10)


In [None]:

np.random.seed(42)

n = 300

edat = np.random.normal(loc=40, scale=12, size=n).clip(18, 70)
altura = np.random.normal(loc=170, scale=10, size=n).clip(145, 200)
pes = np.random.normal(loc=70, scale=12, size=n).clip(45, 120)

# Ingressos lleugerament correlacionats amb edat i altura
ingressos = (edat * 30 + altura * 5 + np.random.normal(0, 300, size=n)).clip(600, 6000)

# Variable objectiu: nivell de benestar fictici (0-10)
target = (0.02 * ingressos + 0.1 * (altura - 160) - 0.05 * (edat - 40)
          + np.random.normal(0, 3, size=n))
target = target.clip(0, 10)

df = pd.DataFrame({
    "edat": edat.round(0),
    "altura": altura.round(1),
    "pes": pes.round(1),
    "ingressos": ingressos.round(0),
    "target": target.round(2)
})

df.head()



### 2.1. ExploraciÃ³ inicial de les dades


In [None]:

df.describe()


In [None]:

df.info()



## 3. NormalitzaciÃ³ i estandarditzaciÃ³

Treballarem amb dues transformacions habituals:

- **NormalitzaciÃ³ min-max**  
  $x' = \frac{x - \min(x)}{\max(x) - \min(x)}$

- **EstandarditzaciÃ³ (z-score)**  
  $z = \frac{x - \mu}{\sigma}$

Aquestes transformacions sÃ³n especialment Ãºtils per a algoritmes sensibles a l'escala, com ara KNN, regressiÃ³ logÃ­stica o xarxes neuronals.


In [None]:

features = ["edat", "altura", "pes", "ingressos"]

scaler_minmax = MinMaxScaler()
scaler_standard = StandardScaler()

df_minmax = df.copy()
df_standard = df.copy()

df_minmax[[f + "_minmax" for f in features]] = scaler_minmax.fit_transform(df[features])
df_standard[[f + "_std" for f in features]] = scaler_standard.fit_transform(df[features])

df_minmax.head()



### 3.1. ComparaciÃ³ visual abans i desprÃ©s de l'escalat


In [None]:

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

axes[0].hist(df["ingressos"], bins=20)
axes[0].set_title("Ingressos - escala original")

axes[1].hist(df_minmax["ingressos_minmax"], bins=20)
axes[1].set_title("Ingressos - min-max")

plt.tight_layout()
plt.show()



## 4. CorrelaciÃ³ entre variables

La correlaciÃ³ de Pearson mesura la forÃ§a i la direcciÃ³ d'una relaciÃ³ **lineal** entre dues variables numÃ¨riques.

- Valors propers a **1** â†’ correlaciÃ³ positiva forta  
- Valors propers a **-1** â†’ correlaciÃ³ negativa forta  
- Valors propers a **0** â†’ poca o cap correlaciÃ³ lineal


In [None]:

corr_matrix = df.corr(numeric_only=True)
corr_matrix


In [None]:

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", vmin=-1, vmax=1)
plt.title("Matriu de correlaciÃ³")
plt.show()



> **Preguntes per reflexionar:**
>
> - Quines variables estan mÃ©s relacionades amb `target`?
> - TÃ© sentit, des del punt de vista del mÃ³n real, la correlaciÃ³ observada?
> - Hi ha alguna correlaciÃ³ que sembli "sospitosa" o casual?



## 5. VisualitzaciÃ³ exploratÃ²ria (EDA)

Fem alguns grÃ fics per entendre millor les dades: distribucions, relacions i possibles valors atÃ­pics.


In [None]:

# Histogrames
df[["edat", "altura", "pes", "ingressos"]].hist(bins=20, figsize=(10, 8))
plt.suptitle("Histogrames de les variables numÃ¨riques")
plt.tight_layout()
plt.show()


In [None]:

# Scatter plot: altura vs pes
plt.figure(figsize=(6, 4))
sns.scatterplot(x="altura", y="pes", data=df)
plt.title("RelaciÃ³ entre altura i pes")
plt.show()


In [None]:

# Boxplot: ingressos
plt.figure(figsize=(6, 4))
sns.boxplot(x=df["ingressos"])
plt.title("DistribuciÃ³ d'ingressos i possibles outliers")
plt.show()


In [None]:

# Pairplot d'algunes variables
sns.pairplot(df[["edat", "altura", "pes", "ingressos", "target"]])
plt.suptitle("Pairplot de variables clau", y=1.02)
plt.show()



> **Activitats suggerides:**
>
> 1. Identifica una variable amb distribuciÃ³ asimÃ¨trica (*skewed*).  
> 2. Proposa una transformaciÃ³ (per exemple, logarÃ­tmica) per millorar-ne la distribuciÃ³.  
> 3. Indica dues variables que semblin especialment rellevants per predir `target`.
