<a href="https://colab.research.google.com/github/ManelSoengas/tutorials/blob/main/Procediment_b%C3%A0sic_ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Procediment bàsic d'implementació Machine Learning**

---
**En què es basa el concepte?**

1. Democratització del machine learning: Avui dia, tothom pot construir models de machine learning si té:

  * Coneixements bàsics d’intel·ligència artificial (IA)

  * Habilitats de programació (especialment en Python)

2. Python com a llenguatge ideal: Python és el llenguatge preferit per fer models de machine learning perquè és:

  * Fàcil d’utilitzar

  * Té biblioteques potents com scikit-learn, pandas, numpy, etc.

  * Permet escriure codi concís i llegible

3. One-liners en Python: El quadern se centra en mostrar com Python pot fer accions potents amb una sola línia de codi, com:

  * Entrenar un model

  * Fer una predicció

  * Calcular una mètrica d’avaluació

  * Dividir un dataset

4. Objectiu del quadern: Fer una guia básica, pràctica i intuïtiva sobre com utilitzar one-liners per:

  * Construir models

  * Avaluar-los

  * Validar-los de manera eficient

5.- One-liners: és una línia única de codi que realitza una tasca significativa per si sola




In [48]:
# Importar llibreries
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

# Importar les classes necessàries
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# Importar les mètriques necessàries
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Importar la llibreria pandas i display"
import pandas as pd

from IPython.display import display



In [49]:
# Codificar numèricament el dataset
adult = fetch_openml(name='adult', version=2, as_frame=True)
df = adult.frame.copy()

In [None]:
print(df.head())  # Mostra les primeres 5 files del dataset adult


In [None]:
print(df.info())  # Resum del dataset: columnes, tipus i valors nuls


In [50]:
# Eliminar files amb valors nuls
df = df.dropna()

In [51]:
# Codificar totes les columnes categòriques amb LabelEncoder
for col in df.select_dtypes(include=["category", "object"]).columns:
    df[col] = LabelEncoder().fit_transform(df[col])

In [52]:
# Definir variables predictives i objectiu
X = df.drop("class", axis=1)
y = df["class"]

In [53]:
# Escalar les dades (important per SVM i LR)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


In [54]:
# Dividir el conjunt en entrenament i test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [55]:
# Models a provar
models = {
    "Logistic Regression": LogisticRegression(max_iter=2000, solver='liblinear'),

    "Support Vector Machine": SVC(),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier()
}

In [56]:
# Llista de resultats
results = []

In [57]:
# Entrenar i avaluar cada model
for name, model in models.items():
    try:
        model.fit(X_train, y_train)
        y_pred_train = model.predict(X_train)
        y_pred_test = model.predict(X_test)

        results.append({
            "Model": name,
            "Accuracy (Train)": accuracy_score(y_train, y_pred_train),
            "Accuracy (Test)": accuracy_score(y_test, y_pred_test),
            "Recall (Train)": recall_score(y_train, y_pred_train),
            "Recall (Test)": recall_score(y_test, y_pred_test),
            "Precision (Train)": precision_score(y_train, y_pred_train),
            "Precision (Test)": precision_score(y_test, y_pred_test),
            "F1 (Train)": f1_score(y_train, y_pred_train),
            "F1 (Test)": f1_score(y_test, y_pred_test),
        })
    except Exception as e:
        print(f"⚠️ Error amb el model {name}: {e}")

        # Convertir i visualitzar els resultats en taula
results_df = pd.DataFrame(results)
display(results_df)

Unnamed: 0,Model,Accuracy (Train),Accuracy (Test),Recall (Train),Recall (Test),Precision (Train),Precision (Test),F1 (Train),F1 (Test)
0,Logistic Regression,0.783343,0.787286,0.295614,0.292329,0.640366,0.638256,0.404498,0.400996
1,Support Vector Machine,0.789839,0.794914,0.162243,0.163867,0.961184,0.965241,0.277625,0.280171
2,Decision Tree,0.999917,0.80586,0.999667,0.614616,1.0,0.59885,0.999833,0.606631
3,Random Forest,0.999917,0.854726,0.999667,0.61961,1.0,0.741445,0.999833,0.675074
