# Introducció al *Machine Learning*

ML és un subcamp de la intel·ligència artificial que permet als ordinadors aprendre a partir de dades i experiència, millorant el seu rendiment sense ser programats explícitament.

**Trameses comunes en ciències de dades:**

- **Classificació**: assignar categories (ex: client reaccionarà a una oferta?)
- **Regressió**: predir valor numèric continu (ex: quant usuaris usarà el servei?)
- **Agrupament (clustering)**: agrupar dades similars (ex: perfils de clients)
- **Regles d’associació**: identificar elements que solen aparèixer junts (ex: productes comprats junt)
- **Reducció de dimensionalitat**: simplificar dades mantenint informació rellevant


## Tipus d’Aprenentatge

1. **Aprenentatge Supervisat:** tenim dades etiquetades.
    - **Regressió**: predir un valor numèric.
    - **Classificació**: assignar una classe.
2. **Aprenentatge No Supervisat:** dades sense etiquetes.
    - ***Clustering***: agrupar dades per similitud.
    - **Reducció de dimensionalitat**: PCA, $t-$ SNE.
3. **Aprenentatge per Reforç:** l’agent aprèn mitjançant recompenses en un entorn interactiu.


## Algorismes clau en `python`

### Regressió lineal

```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
prediccions = model.predict(X_test)
```

### Regressió logística (classificació)

```python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
prediccions = model.predict(X_test)
```

### Arbres de decisió

```python
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth=5)
model.fit(X_train, y_train)
prediccions = model.predict(X_test)
```

### *Random Forest*

```python
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)
prediccions = model.predict(X_test)
```

### $k-$*means* (Agrupació)

```python
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
etiquetes = kmeans.labels_
```

### *Principal Components Analysis*, PCA (Reducció de la dimensionalitat)

```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_reduit = pca.fit_transform(X)
```

## Enginyeria de les carecterístiques (*Feature Engineering*)


1. **Creació de noves variables:**

```python
df['nova_variable'] = df['variable1'] * df['variable2']
```

2. **Selecció de variables:**

```python
from sklearn.feature_selection import SelectKBest, f_classif
selector = SelectKBest(score_func=f_classif, k=10)
X_nou = selector.fit_transform(X, y)
```

3. **Tractament de valors faltants:**

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')
X_imputat = imputer.fit_transform(X)
```

4. **Normalització:**

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_normalitzat = scaler.fit_transform(X)
```

## Validació i Avaluació de Models

1. **Divisió de dades:**

```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
```

2. **Validació creuada:**

```python
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
```

3. **Mètriques de classificació:**

```python
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
accuracy = accuracy_score(y_test, prediccions)
```

4. **Mètriques de regressió:**

```python
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, prediccions)
```


## Problemes Comuns i Solucions

1. ***Overfitting*:**
    - Reduir complexitat del model.
    - Fer servir regularització (*Ridge*, *LASSO*).
    - Augmentar dades d’entrenament.

2. ***Underfitting*:**
    - Augmentar complexitat del model.
    - Afegir més variables rellevants.

3. **Dades desequilibrades:**

```python
from sklearn.utils import resample
# Oversampling de la classe minoritària
```

## Flux de Treball Típic en un Projecte ML

1. **Exploració de dades**: `pandas`, `matplotlib`, `seaborn`
2. **Preprocessament**: neteja, imputació, transformació
3. **Selecció de model**: prova diferents algorismes
4. **Entrenament**: `fit()`
5. **Avaluació**: mètriques adequades
6. **Optimització**: ajust d’hiperparàmetres amb `GridSearchCV`
7. **Desplegament**: guardar model amb `joblib` o `pickle`