# Modelli ML - E2E

In questa lezione ci occuperemo di allenare e testare diversi modelli di machine learning, in particolare in un contesto di classificazione, sui dati preparati in precedenza.

In [2]:
import pandas as pd
import os

## Import dati

Per prima cosa importiamo i dataset di train e test preparati durante la lezione scorsa.

In [3]:
# Definiamo una funzione, utilizzando la sintassi "lambda", per costruire i path che ci servono.
join_paths = lambda csv_path: os.path.join("datasets", csv_path)

train_path = join_paths("train.csv")
test_path = join_paths("test.csv")

display(train_path, test_path)

'datasets/train.csv'

'datasets/test.csv'

In [4]:
# importiamo ora i dati in due DataFrame distinti
train_df, test_df = pd.read_csv(train_path), pd.read_csv(test_path)

## Estrazione della variabile target

In questo notebook scegliamo come variabile target `banking_crisis`, la variabile binaria che identifica le osservazioni in cui è in corso una crisi bancaria nel paese. A tal fine separiamo tale colonna dalle feature.

In [5]:
# Fissiamo la variabile target
TARGET = "banking_crisis"

# Definiamo una funzione per lo split
def xy_split(df, target_column):
    x = df.drop(columns=target_column)
    y = df[target_column]
    return x, y


# Separiamo target_column dalle altre feature
X_train, y_train = xy_split(train_df, TARGET)
X_test, y_test = xy_split(test_df, TARGET)

In [8]:
# Controlliamo quali colonne sono presenti nel DataFrame e nella Series risultanti
print(X_train.columns)
print("*"*79)
print(y_train.name)

Index(['Latitude (average)', 'Longitude (average)', 'currency_crises',
       'domestic_debt_in_default', 'exch_usd', 'gdp_weighted_default',
       'independence', 'inflation_annual_cpi', 'inflation_crises',
       'sovereign_external_debt_default', 'systemic_crisis', 'year'],
      dtype='object')
*******************************************************************************
banking_crisis


-----

# Modelli

Adesso andremo ad allenare diversi modelli di classificazione usando il nostro train set e testando le performance sul test set.

## Regressione Logistica

Partiamo da uno dei modelli più semplici: la regressione logistica. Utilizzeremo l'implementazione presente nella libreria `scikit-learn`.

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(
    penalty="l1",
    random_state=42,
    solver="lbfgs",
    max_iter=100,
    verbose=True,
    l1_ratio=None,
)