# Progetto: Hotel Booking

**Programmazione di Applicazioni Data Intensive**  
Laurea in Ingegneria e Scienze Informatiche  
DISI - Università di Bologna, Cesena

Studente: Alessandro Lombardini  
alessandr.lombardin3@unibo.it


In [None]:
# Setup librerie
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

## Caso di studio

- Data una prenotazione presso un hotel effettuata da un cliente, si vuole classificare questa come cancellata o non cancellata
- Di ciascuna prenotazione sono disponibili delle caratteristiche
  - numero di adulti, richiesta di un parcheggio, tipo di pasto richiesto, ...
- Vogliamo addestrare un modello a classificare ciascuna prenotazione sulla base di queste caratteristiche

- Utilizziamo il [Hotel booking demand](https://www.kaggle.com/jessemostipak/hotel-booking-demand), in cui ogni osservazione contiene le caratteristiche di una prenotazione


In [None]:
HBD_URL = "https://bitbucket.org/alessandrolombardini/gender-recognition-by-voice/raw/31a37837e84ff9d65e9359a57042a4bc8f907c9c/hotel_bookings.csv"
hbd = pd.read_csv(HBD_URL)

In [None]:
hbd.head(3)

- Si tratta di classificazione binaria, ovvero con due possibili classi
- La colonna `is_canceled` indica la classificazione delle prenotazioni 
    - 0 = non cancellata, 1 = cancellata
- Le altre 31 colonne corrispondono alle altre variabili legate alla prenotazione

- Il dataset presenta:
    - 119390 istanze 
    - 32 feature

In [None]:
hbd.shape

### Lista delle variabili

- hotel: hotel prenotato dall'ospite (H1 = Resort Hotel or H2 = City Hotel)
- lead_time: numero di giorni previsti dal giorno di prenotazione al giorno di arrivo in hotel
- arrival_date_year: anno di arrivo
- arrival_date_month: mese di arrivo 
- arrival_date_week_number: numero della settimana dell'anno di arrivo 
- arrival_date_day_of_month: giorno del mese di arrivo
- stays_in_weekend_nights: numero di notti del weekend (Sabato e Domenica) prenotate
- stays_in_week_nights:  numero di notti non nel weekend (da Lunedi a Venerdi) prenotate
- adults: numero di adulti 
- children: numero di bambini 
- babies: numero di neonati
- meal: combinazione di pasti richiesti (Undefined/SC – no meal package; BB – Bed & Breakfast; HB – Half board (breakfast and one other meal – usually dinner); FB – Full board (breakfast, lunch and dinner))
- country: stato di provenienza
- market_segment: segmento di mercato di destinazione 
- distribution_channel: soggetto per tramite del quale la prenotazione è avvenuto (TA/TO: Travel Agents, Direct: il client, ed altri)
- is_repeated_guest: indica se la prenotazione è fatta da un cliente che aveva già prenotato in passato
    - 1: Si, aveva già prenotato
    - 0: No, non aveva mai prenotato
- previous_cancellations: numero di prenotazioni effettuate in passato dal clienti
- previous_bookings_not_canceled: numero di prenotazioni effettuate in passato dal cliente e non cancellate
- reserved_room_type: codice del tipo di stanza richiesta dal cliente
- assigned_room_type: codice del tipo di stanza assegnata alla prenotazione. A volte vengono assegnate stanze diverse da quelle riservate per motivi legati all'Hotel (es. overbooking) o per richiesta del cliente. 
- booking_changes: numero di cambiamenti apportati alla prenotazione fino al momento del Check-In o della cancellazione
- deposit_type: indica se il cliente ha effettuato un deposito per garantirsi la prenotazione
    - No Deposit: nessun deposito è stato fatto
    - Non Refund: è stato pagato l'intero importo del soggiorno
    - Refundable: è stata pagata solo una parte dell'importo dell'intero soggiorno
- agent: ID dell'agente di viaggio che ha effettuato la prenotazione
- company: ID della compagnia che ha effettuato la prenotazione o che ha pagato la prenotazione. 
- days_in_waiting_list: numero di giorni in cui la prenotazione è rimasta in lista di attesa prima di essere confermata al cliente
- customer_type: tipologia di prenotazione
    - Contract: la prenotazione è associata ad un contratto
    - Group: la prenotazione è associata ad un gruppo
    - Transient: la prenostazione non è parte ne di un gruppo ne di un contratto, e non è associata ad altre prenotazione Transient 
    - Transient-party: la prenotazione è Transient ed è associata ad altre prenotazioni Transient
- adr: Avarage Daily Rate, definito come il costo del soggiorno diviso il numero di notti
- required_car_parking_spaces: numero di spazi macchina richiesti dal cliente
- total_of_special_requests: numero di richieste speciali fatte dal cliente
- reservation_status: ultimo stato registrato della prenotazione
    - Canceled: la prenotazione è stata cancellata dal cliente
    - Check-Out: il client ha effettuato il Check-In e la sua permanenza è terminata
    - No-Show: il cliente non ha effettuato il Check-In e ha informato l'hotel del motivo
- reservation_status_date: ultima data in cui la variabile reservation_status è stata modificara
- **is_canceled: indica se la prenotazione è stata cancellata o no**
    - 0: Non cancellata
    - 1: Cancellata

- La variabile **is_canceled** indica la classificazione della prenotazione, vogliamo stabilire il valore di questa variabile in funzione delle altre
   


- Aumentiamo il limite di colonne che pandas di default ci consente di visualizzare

In [None]:
pd.options.display.max_columns = 32

In [None]:
hbd.head(3)

- Il nostro obiettivo è realizzare un modello di classificazione per una specificia struttura ospitante, in questo caso l'hotel 'City Hotel'

- Il dataset prevede istanze di più hotel

In [None]:
hbd["hotel"].unique()

- Vengono quindi rimosse le istanze dei restanti hotel

In [None]:
hbd = hbd[hbd.hotel == "City Hotel"]
hbd["hotel"].unique()

- Il dataset ora presenta:
    - 79330 istanze

In [None]:
hbd.shape[0]

- Visualizziamo le statistiche principali (media, dev, standard, ...) delle variabili

In [None]:
hbd.describe().T

- I valori non presentano la stessa scala, la standardizzazione potrà quindi essere certamente utile.

- Visualizziamo il numero di valori distinti per ciascuna feature

In [None]:
hbd.nunique()

- La variabile `hotel` è ora completamente inutile, la elimino

In [None]:
hbd.drop(inplace=True, axis=1, labels=['hotel'])

- La data, per come è espressa attualmente, non è ottimale. Conviene estrarre dei campi dalle date che si preveda abbiano particolare correlazione con ciò che si sta prevedendo

- Abbiamo:
    - arrival_date_year 
    - arrival_date_month 
    - arrival_date_week_number
    - arrival_date_day_of_month
    
- Vogliamo ottenere il nome del giorno di arrivo, che risulta essere più rilevante del numero del giorno in se
    - Converto la variabile arrival_date_month da stringa (ovvero il nome del mese) ad intero

In [None]:
import calendar
dict_month_convertion = dict((v,k) for k,v in enumerate(calendar.month_name))
hbd["arrival_date_month"] = hbd["arrival_date_month"].map(dict_month_convertion)

In [None]:
hbd["arrival_date_month"].dtypes

- Ora possiamo ottenere la nuova variabile `arrival_date_day`

In [None]:
import datetime 
import calendar 
  
def findDay(date): 
    day = datetime.datetime.strptime(date, '%d %m %Y').weekday() 
    return (calendar.day_name[day]) 

arrival_date_day = []
for index, row in hbd.iterrows():
    arrival_date_day.append(findDay("{0} {1} {2}".format(row["arrival_date_day_of_month"], row["arrival_date_month"], row["arrival_date_year"])))

hbd.insert(2, "arrival_date_day", arrival_date_day)

In [None]:
hbd["arrival_date_day"].head(3)

- Possiamo eliminare la variabile `arrival_date_day_of_month`
- Eliminiamo anche la variabile `arrival_date_year`, in quanto scarsamente variabile e inutile (se non controproducente) per effettuare delle previsioni  

In [None]:
hbd.drop(inplace=True, axis=1, labels=['arrival_date_year', 'arrival_date_day_of_month'])

- La variabile `assigned_room_type`, cercando di intuirne il significato, potrebbe non essere disponibile al momento della prenotazione, ma solo al momento del Check-In. E' dunque da rimuovere.

In [None]:
hbd.drop(inplace=True, axis=1, labels=['assigned_room_type'])

- Osservando la descrizione delle variabili è possibile notare come vi sia una grossa dipendenza tra le variabili `is_canceled` e `reservation_status`

- I possibili valori di `reservation_status` sono:

In [None]:
hbd["reservation_status"].unique()

- Il valore 'Check-Out' potrebbe corrispondere alla mancata cancellazione, mentre il valore 'Canceled' alla effettiva cancellazione. Anche il campo 'No-Show' potrebbe essere considerato come prenotazione cancellata.

- Contiamo le istanze dei possibili valori di `reservation_status`, al fine di determinare se la variabile è identica alla variabile is_canceled. 

In [None]:
hbd["reservation_status"].value_counts().sort_index()

- Contiamo ora, per ciascun valore di `reservation_status`, quante prenotazioni sono state cancellate

In [None]:
hbd.groupby(['reservation_status']).sum()["is_canceled"]

- Notiamo subito che la considerazione è corretta, le variabili `is_canceled` e `reservation_status` coincidono.
    - Il valore Check-Out viene utilizzato quando la prenotazione non è stata cancellata
    - I valori 'Canceled' e 'No-Shown' definisco entrambi una situazione in cui la prenotazione è stata cancellata.


- Questa variabile va dunque rimossa, e con essa `reservation_status_date`, in quanto inutile senza `reservation_status`

In [None]:
hbd.drop(inplace=True, axis=1, labels=['reservation_status', 'reservation_status_date'])

- Riassumiamo le variabili e i loro tipi

- Verifico la presenza del valore `nan` nelle istanze

In [None]:
hbd.isnull().sum()

- Noto la presenza di valori nulli nelle variabili: 
    - `children` 
    - `country`
    - `agent`
    - `company`
    
    
- Per le variabili `children` e `country` il valore nullo non è accettabile, per cui rimuovo quelle istanze 

In [None]:
hbd.dropna(subset=["country", "children"], inplace=True)

- Converto la variabile children da float ad intero

In [None]:
hbd["children"] = hbd["children"].astype("int64")
hbd["children"].dtypes

- La variabile `company` è nulla in quasi tutte le istanze, mentre `agent` per una buona parte di esse. 

- Il valore nullo in questo caso è però di nostro interesse, in quanto implica che per quella prenotazione non è presente ne un agent ne una company
    - Memorizzo, invece dell'identificativo presente all'interno di questi campi, se il valore è nullo o no
    - In questo modo sono comunque a conoscenza se la prenotazione è avvenuta per tramite di un agent e/o di una company

In [None]:
hbd.loc[hbd["agent"].isnull(), "agent"] = 0 
hbd.loc[hbd["agent"] != 0, "agent"] = 1
hbd.loc[hbd["company"].isnull(), "company"] = 0 
hbd.loc[hbd["company"] != 0, "company"] = 1

- Converto le due variabili ad intero

In [None]:
hbd["agent"] = hbd["agent"].astype("int64")
hbd["company"] = hbd["company"].astype("int64")

In [None]:
hbd.isnull().sum()

- Visualizziamo la correlazione tra le coppie di features

In [None]:
hbd.corr().style.background_gradient(cmap='Spectral').set_precision(2)

## Analisi esplorativa

#### Variabile `is_canceled`

- Stampiamo il numero di valori `Y` e `N` della variabile `is_canceled`, e rappresentiamo la distribuzione di tali valori in un diagramma a torta

In [None]:
hbd["is_canceled"].value_counts()

In [None]:
hbd["is_canceled"].value_counts().plot.pie();

- La suddivisione delle istanze nelle classi è abbastanza bilanciata, non siamo dunque soggetti ai problemi che un forte sblinciamento comporterebbe.

- In un problema di classificazione, è utile visualizzare quanto le variabili predittive siano correlate con la classe da predire

- Vengono quindi ora mostrati sia grafici con la distribuzione delle variabili, ignorando la classe di appartenenza, sia grafici in cui  integriamo la classe di appertenenza, per valutare quanto le variabili siano utili nella predizione della classe. Questo ci consentirà di avere una visione completa sul contesto analizzato.

#### Variabile `lead_time`

- Analizziamo la variabile `lead_time`

- Visualizziamo un'istogramma di `lead_time`, in cui in ogni intervallo si vede il numero di prenotazioni

In [None]:
pd.cut(hbd["lead_time"], 10).value_counts().plot.bar()

- Le prenotazioni più frequenti sono quelle a breve termine, ovvero senza lunghi periodi fra il momento della prenotazione e l'arrivo in hotel

- Visualizziamo un altro istogramma di `lead_time`, in cui in ogni intervallo si vede il numero di cancellazioni

In [None]:
hbd.groupby(pd.cut(hbd["lead_time"], 10)).sum()["is_canceled"].plot.bar()

- L'andamento è il medesimo, abbiamo più cancellazioni nelle prenotazioni a breve termine

- Visualizziamo altri due istogrammi di `lead_time`:
    - uno in cui per ogni intervallo abbiamo il numero totale di cancellazioni in quella fascia diviso il numero totale di prenotazioni sempre in quella fascia
    - un altro, di tipo stacked, in cui in ogni intervallo si vede la suddivisione dei valori tra le classi

In [None]:
(hbd.groupby(pd.cut(hbd["lead_time"], 10)).sum()["is_canceled"] / pd.cut(hbd["lead_time"], 10).value_counts()).plot.bar()

In [None]:
hbd.pivot(columns="is_canceled")["lead_time"].plot.hist(bins=20, stacked=True)

- Entrambi i grafici evidenziano che il tasso di cancellazione cresce al crescere del `lead_time`



#### Variabile `country`

- Analizziamo la variabile `country`

- Visualizziamo un'istogramma di `country`, in cui in venga visualizzato il tasso di cancellazione per ciascuno stato

In [None]:
cancellation_by_state = hbd.groupby(['country']).sum()["is_canceled"]
reservation_by_state = hbd.groupby(['country']).count()["is_canceled"]
ratio_cancellation_by_state = (cancellation_by_state/reservation_by_state).sort_values(ascending=False)

In [None]:
ratio_cancellation_by_state.plot.bar(figsize=(16,4));

- Visualizziamo un istogramma di `country`, in cui in venga visualizzato per ciascuno stato il numero totale di prenotazioni effettuate
- Viene utilizzata la scala logaritmica per apprezzare meglio le differenze fra i vari stati

In [None]:
reservation_by_state.loc[ratio_cancellation_by_state.index].plot.bar(figsize=(16,4), log=True)

- Visualizziamo un ultimo istogramma di `country`, in cui in venga visualizzato per ciascuno stato il numero totale di cancellazioni effettuate

In [None]:
cancellation_by_state.loc[ratio_cancellation_by_state.index].plot.bar(figsize=(16,4), log=True)

- I grafici evidenziano che il tasso di cancellazione è più alto per alcuni stati piuttosto che altri
    - Alcuni stati presentano un tasso di cancellazione pari ad 1, ovvero tutte le prenotazioni sono state cancellate
    - Alcuni stati presentano un tasso di cancellazione pari a 0, ovvero nessuna prenotazione è stata cancellata

#### Variabile `deposit_type`

- Analizziamo la variabile `deposit_type`

- Visualizziamo un'istogramma di `deposit_type`, in cui in per ogni possibile valore si vede il numero di prenotazioni

In [None]:
hbd["deposit_type"].value_counts().plot.bar(log=True)

- Visualizziamo un'istogramma di `deposit_type`, in cui in per ogni possibile valore si vede il numero di cancellazioni

In [None]:
hbd.groupby("deposit_type").sum()["is_canceled"].plot.bar(log=True)

- Visualizziamo un ultimo istogramma di `deposit_type`, in cui in venga visualizzata per ciascuna possibile valore il tasso di cancellazione

In [None]:
(hbd.groupby("deposit_type").sum()["is_canceled"] / hbd["deposit_type"].value_counts())

In [None]:
(hbd.groupby("deposit_type").sum()["is_canceled"] / hbd["deposit_type"].value_counts()).plot.bar()

- Il grafico evidenzia che per il valore 'Non Refund' la percentuale di cancellazioni è pari quasi al 100%

- E' un po controintuitivo, per cui verifichiamo le istanze per averne certezza

In [None]:
hbd[hbd["deposit_type"] == "Non Refund"]["is_canceled"].value_counts()

- Effettivamente pare che quasi tutte siano state cancellate

#### Variabili `arrival_date_day`, `arrival_date_month`, `arrival_date_week_number` 

In [None]:
plt.subplot(1, 3, 1)
(hbd.groupby("arrival_date_day").sum()["is_canceled"] / hbd["arrival_date_day"].value_counts()).plot.bar(figsize=(16,4))
plt.subplot(1, 3, 2)
(hbd.groupby("arrival_date_month").sum()["is_canceled"] / hbd["arrival_date_month"].value_counts()).plot.bar(figsize=(16,4))
plt.subplot(1, 3, 3)
(hbd.groupby("arrival_date_week_number").sum()["is_canceled"] / hbd["arrival_date_week_number"].value_counts()).plot.bar(figsize=(16,4))

#### Variabili `stays_in_weekend_nights`, `stays_in_week_nights`

In [None]:
plt.subplot(1, 2, 1)
(hbd.groupby("stays_in_weekend_nights").sum()["is_canceled"] / hbd["stays_in_weekend_nights"].value_counts()).plot.bar(figsize=(16,4))
plt.subplot(1, 2, 2)
(hbd.groupby("stays_in_week_nights").sum()["is_canceled"] / hbd["stays_in_week_nights"].value_counts()).plot.bar(figsize=(16,4))

#### Variabile `agent`

In [None]:
(hbd.groupby("agent").sum()["is_canceled"] / hbd["agent"].value_counts()).plot.bar()

#### Variabile `company`

In [None]:
(hbd.groupby("company").sum()["is_canceled"] / hbd["company"].value_counts()).plot.bar()

#### Variabile `distribution_channel`

In [None]:
(hbd.groupby("distribution_channel").sum()["is_canceled"] / hbd["distribution_channel"].value_counts()).plot.bar()

#### Variabile `market_segment`

In [None]:
(hbd.groupby("market_segment").sum()["is_canceled"] / hbd["market_segment"].value_counts()).plot.bar()

#### Variabile `booking_changes`

In [None]:
(hbd.groupby("booking_changes").sum()["is_canceled"] / hbd["booking_changes"].value_counts()).plot.bar()

#### Variabile `meal`

In [None]:
(hbd.groupby("meal").sum()["is_canceled"] / hbd["meal"].value_counts()).plot.bar()

## Classificazione lineare

- Convertiamo, per maggiore chiarezza, i valori della variabile `is_canceled` (ovvero 0 e 1) in `N` e `Y`:
    - `0` diventa `N`, ovvero non cancellata
    - `1` diventa `Y`, ovvero cancellata

In [None]:
hbd["is_canceled"] = hbd["is_canceled"].map(lambda value: "N" if value is 0 else "Y")
hbd["is_canceled"].unique()

- Impostiamo come variabile da predire la classe `is_canceled` e come variabili predittive tutte le altre

In [None]:
y = hbd["is_canceled"]
X = hbd.drop(columns="is_canceled")

- Molte variabili sono categoriche, è quindi necessario applicare la binarizzazione delle feature, ovvero convertire ciascuna di esse in più variabili binarie. 

- Le variabili da convertire sono:

In [None]:
X.dtypes[hbd.dtypes == np.object]

- La conversione viene eseguita, in modo molto basilare, dal comando `get_dummies`
    - NB: non sono previste features per tutti quei valori non presenti nel dataset

In [None]:
X = pd.get_dummies(X)

In [None]:
X.shape[1]

In [None]:
X.columns.tolist()

- Suddividiamo i dati in un training set e in un validation set con la funzione `train_test_split` con proporzione 66-33

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(
    X, y, 
    test_size=1/3, 
    random_state=42
)

- Definiamo un modello di regressione logistica più semplice possibile, configurandone l'implementazione e il seed per la casualità
  - gli altri parametri sono lasciati ai valori di default, ad es. la regolarizzazione applicata è L2 con C=1

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

model = LogisticRegression(solver="saga", random_state=42)  

- Addestriamo il modello sui dati

In [None]:
model.fit(X_train, y_train)

- Mostriamo le classi previste dal modello

In [None]:
model.classes_

- NB: Quando effettuiamo una predizione di probabilità otteniamo due valori ([a, b])
    - Il primo valore (a) si riferisce alla probabilità di ottenere la classe `N`
    - Il secondo valore (b) si riferisce alla probabilità di ottenere la classe `Y`

In [None]:
model.predict_proba(X_val[:3])

In [None]:
model.predict(X_val[:3])

- Definiamo una funzione per ottenere tutte le informazioni più interessanti che ci possono essere utili per valutare il modello

- Oltre all'accuratezza come percentuale di classificazioni corrette, esistono altri modi per valutare l'accuratezza di un classificatore
    - precision e recall sono particolarmente utili in caso di sbilanciamento tra le classi, per cui l'accuratezza può non essere un indicatore affidabile
- Confrontando le classi predette da un classificatore su un set di dati con quelle reali, possiamo ottenere una matrice di confusione
- Otteniamo la matrice col metodo confusion_matrix, passando i vettori di classi reali e predette

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score

def print_model_informations(model, X_val, y_val):
    y_pred = model.predict(X_val)
    print("Accuracy =", model.score(X_val, y_val))
    print("\nPrecision (Y) =", precision_score(y_val,y_pred, pos_label="Y"))
    print("Precision (N) =", precision_score(y_val,y_pred, pos_label="N"))
    print("\nRecall (Y) =", recall_score(y_val,y_pred, pos_label="Y"))
    print("Recall (N) =", recall_score(y_val,y_pred, pos_label="N"))
    print("\nF1 Score (Y) =", f1_score(y_val,y_pred, pos_label="Y"))
    print("F1 Score (N) =", f1_score(y_val,y_pred, pos_label="N"))
    print("F1 Score =", f1_score(y_val,y_pred, average="macro"))
    print("\nMatrice di confusione:")
    cm = confusion_matrix(y_val, y_pred)
    print(pd.DataFrame(cm, index=model.classes_, columns=model.classes_))

- Calcoliamo le misure del nostro modello 

In [None]:
print_model_informations(model, X_val, y_val)

- Per avere una valutazione più completa del modello ottento, possiamo metterlo a confronto con quello che accadrebbe prendendo decisioni casuali
    - Generiamo un serie di decisioni casuali (`Y` o `N`)

In [None]:
import random
randoms = pd.Series(np.random.choice(["Y", "N"], size=(y_val.index.shape[0],)), index = y_val.index) 

- Calcoliamo l'accuratezza di questo modello randomico

In [None]:
(y_val == randoms).mean()

- Abbiamo ottenuto un modello che ci consente di intraprendere decisioni più accurate di come le faremmo casualmente

## Regolarizzazione

- Nella regressione logistica possiamo applicare le teniche di regolarizzazione
    - In particolare vogliamo applicare la regolarizzazione L1 che permette di azzerare i pesi delle variabili meno significative
    - Applichiamo una forte regolarizzazione al fine di annullare più valiabili possibili

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

model = LogisticRegression(solver="saga", random_state=42, penalty="l1", C=0.01)  
model.fit(X_train, y_train)

- Andiamo a visualizzare i coefficienti che incido maggiormente sia positivamente che negativamente

In [None]:
pd.Series(model.coef_[0], index=X.columns).sort_values(ascending=False).head(10)

In [None]:
pd.Series(model.coef_[0], index=X.columns).sort_values(ascending=False).tail(10)

- Da questo risultato ho stabilito buona delle variabili su cui mi sono concentrato in fase di analisi esplorativa

## Cross-validation su classificazione

- Quello che vogliamo fare ora è applicare la GridSearch per trovare gli iperparametri migliori
 
- Poichè il dataset è molto ampio e la variabili sono molte, la ricerca degli iperparametri ottimali risulta essere molto dispendiosa.

- Riduciamo la dimensione del dataset in termini di: 
    - istanze
    - variabili 
        - Ottenuti i pesi della regolarizzazione L1, poniamo una soglia del +- 0.1 affinchè un coefficiente possa essere tenuto in considerazione. Se inferiore rimuoviamo quella variabile dal dataframe. 


- Rimuoviamo buona parte delle istanze dal dateset di training
    - Il dataset di evaluation lo lasciamo uguale

In [None]:
X_train_v2, X_val_v2, y_train_v2, y_val_v2 = train_test_split(
    X, y, 
    train_size=1/20,
    random_state=42
)

In [None]:
X_train_v2.shape

In [None]:
X_val_v2.shape

- Rimuoviamo parte delle variabili, quelle meno significative, sia dal dataset di training che di evaluation

In [None]:
coeff = pd.Series(model.coef_[0], index=X.columns)
coeff = coeff[(coeff < 0.1) & (coeff > -0.1)]
X_train_v2.drop(axis=1,columns=coeff.index, inplace=True)
X_val_v2.drop(axis=1,columns=coeff.index, inplace=True)
print("Ho scartato", coeff.shape[0], "variabili")

In [None]:
X_train_v2.shape

In [None]:
X_val_v2.shape

- Applichiamo ora la GridSearch per ottenere gli iperparametri migliori

In [None]:
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.metrics import f1_score
skf = StratifiedKFold(3, shuffle=True, random_state=42)

In [None]:
import warnings
warnings.filterwarnings("ignore") 

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.kernel_ridge import KernelRidge
from sklearn.svm import SVC
mod = Pipeline([
    ("scaler", StandardScaler()),
    ("lr", LogisticRegression(solver="saga", random_state=42))
])
grid = [
    {
        "scaler": [None, StandardScaler()],
        "lr__penalty": ["none"]
    },
    {
        "scaler": [None, StandardScaler()],
        "lr__penalty": ["l2", "l1"],
        "lr__C": np.logspace(-3, 3, 7)
    },
    {
        "scaler": [None, StandardScaler()],
        "lr__penalty": ["elasticnet"],
        "lr__C": np.logspace(-3, 3, 7),
        "lr__l1_ratio": [0.2, 0.5, 0.7]
    }
]
gs = GridSearchCV(mod, grid, cv=skf)
gs.fit(X_train_v2, y_train_v2)

In [None]:
result = pd.DataFrame(gs.cv_results_)
result.sort_values(by="rank_test_score", inplace=True)

In [None]:
result.head(5)

- Andiamo a visualizzare le misure del miglior modello ottenuto

In [None]:
print_model_informations(gs, X_val_v2, y_val_v2)

- Possiamo notare come molte istanze 'Cancellate' vengano classificate come 'Non cancellate'

## Valutazione dei modelli di classificazione

- Andiamo a prendere i parametri dei tre modelli testati che hanno ottenuto i valori "rank_test_score" più alti

In [None]:
result.reset_index(inplace=True)

- Primo in classifica

In [None]:
result.loc[0, 'params']

- Secondo in classifica

In [None]:
result.loc[1, 'params']

- Terzo in classifica

In [None]:
result.loc[3, 'params']

- Dai parametri mostrati genero tre modelli, i tre modelli ipoteticamente migliori

In [None]:
import copy
model_1 = copy.deepcopy(gs.best_estimator_.set_params(**result.loc[0, 'params']))
model_2 = copy.deepcopy(gs.best_estimator_.set_params(**result.loc[1, 'params']))
model_3 = copy.deepcopy(gs.best_estimator_.set_params(**result.loc[2, 'params']))

In [None]:
model_1.get_params(deep=False)

In [None]:
model_2.get_params(deep=False)

In [None]:
model_3.get_params(deep=False)

- Inoltre teniamo in considerazione anche, per puro confronto, il primo modello ottenuto 

In [None]:
model.get_params(deep=False)

### Intervallo di confidenza sui modelli

In [None]:
from scipy.stats import norm

- Definiamo una funzione `conf_interval` che calcoli gli estremi dell'intervallo di confidenza e restituisca una tupla con i due estremi, dove:
  - $a$ è l'accuratezza del modello misurata sul validation set
  - N è il numero di osservazioni nel validation set
  - Z è il valore tale per cui l'area sottesa dalla densità di probabilità $\varphi(x)$ della distribuzione normale standard tra -Z e Z sia il livello di confidenza 1-𝛼
  
- Poichè a noi interessa valutare i modelli con una condifidenza del 95%, possiamo ricavare dalle apposite tabelle di valori che, per 1-𝛼 = 0.95 (𝛼=0.05), Z = 1.96

In [None]:
def conf_interval(a, N, Z=1.96):
    c = (2 * N * a + Z**2) / (2 * (N + Z**2))
    d = Z * np.sqrt(Z**2 + 4*N*a - 4*N*a**2) / (2 * (N + Z**2))
    return c - d, c + d

- Definisco ora una funzione `model_conf_interval` in modo che:
  - prenda in input un modello addestrato `model`, un validation set `X, y` e un livello di confidenza `level` (default 0.95)
  - restituisca l'intervallo di confidenza dell'accuratezza del modello, servendosi della funzione `conf_interval` sopra


In [None]:
def model_conf_interval(model, X, y, level=0.95):
    a = model.score(X, y)
    N = X.shape[0]
    Z = norm.ppf((1 + level) / 2)
    return conf_interval(a, N, Z)

- Usiamo la funzione `model_conf_interval` per calcolare l'intervallo di confidenza al 95% dell'accuratezza dei tre modelli ottenuti stimata sul validation set  

In [None]:
model_conf_interval(model_1, X_val_v2, y_val_v2)

In [None]:
model_conf_interval(model_2, X_val_v2, y_val_v2)

In [None]:
model_conf_interval(model_3, X_val_v2, y_val_v2)

### Confronto tra modelli

- Dati due modelli diversi, vogliamo poter valutare se l'accuratezza  𝑎1  misurata su uno sia significativamente migliore della  𝑎2  misurata sull'altro.

- Implementiamo la funzione `diff_interval` in modo che
  - prenda in input le accuratezze `a1` e `a2`, i numeri di osservazioni `N1` e `N2` e il coefficiente `Z`
  - calcoli l'intervallo di confidenza della differenza tra due modelli secondo la formula sopra

In [None]:
def diff_interval(a1, a2, N1, N2, Z):
    d = abs(a1 - a2)
    sd = np.sqrt(a1 * (1-a1) / N1 + a2 * (1-a2) / N2)
    return d - Z * sd, d + Z * sd

- Implementiamo la funzione `model_diff_interval` in modo che
  - prenda in input due modelli `m1, m2`, un validation set `X, y` e un livello di confidenza `level` (default 0.95)
  - restituisca l'intervallo di confidenza della differenza di accuratezza tra i due modelli, valutati entrambi sul validation set dato

In [None]:
def model_diff_interval(m1, m2, X, y, level=0.95):
    a1 = m1.score(X, y)
    a2 = m2.score(X, y)
    N = len(X)
    Z = norm.ppf((1 + level) / 2)
    return diff_interval(a1, a2, N, N, Z)

- Utilizziamo `model_diff_interval` per calcolare l'intervallo al 95\% della differenza di accurateza sul validation set tra i tre modelli ottenuti

In [None]:
model_diff_interval(model_1, model_2, X_val_v2, y_val_v2)

In [None]:
model_diff_interval(model_2, model_3, X_val_v2, y_val_v2)

In [None]:
model_diff_interval(model_1, model_3, X_val_v2, y_val_v2)

- In nessuno dei tre casi abbiamo la certezza che un modello sia meglio dell'altro

- Poichè l'intervallo ottenuto include lo zero (l'estremo inferiore è negativo), non abbiamo la certezza al 95\% (o altro livello di confidenza) che il modello con accuratezza stimata maggiore sia effettivamente migliore


### Interpretazione della conoscenza appresa

- Interpretiamo ora la conoscenza appresa attraverso l'analisi dei parametri appresi (coefficienti degli iperpiani)

- Analizziamo quali feature sono più positivamente o negativamente correlate ed in che misura con la variabile da predire

- Poichè dei tre migliori modelli ottenuti non abbiamo certezza che uno sia migliore degli altri, prendiamo il primo

In [None]:
model_1

- Visualizziamo le classi possibili

In [None]:
model_1.classes_

- La classe `0` rappresenta la classe positiva, ovvero la classe che si ottiene se la probabilità supera il 50%, viceversa per la classe `1`

In [None]:
model_1.predict(X_val_v2[:3])

In [None]:
model_1.predict_proba(X_val_v2[:3])

- Visualizziamo prima di tutto l'intercetta di questo modello

In [None]:
model_1.named_steps["lr"].intercept_

- La probabilità di partenza è molto vicina a 0 (ovvero la classe `N`)

- Visualizziamo il resto dei coefficienti

In [None]:
pd.Series(model_1.named_steps["lr"].coef_[0], index=X_train_v2.columns).sort_values(ascending=False)

- Le variabili che presentano una maggiore influenza sul risultato sono:
    - lead_time (-): all'aumentare del valore di lead_time la probabilità che una prenotazione venga cancellata diminuisce
    - arrival_date_year (+): 
    - adults
    - country
    - reserved_room_type
    - assigned_room_type
    - deposit_type
    - adr
    - require_car_parking_spaces

- Interessante notare come, essendo utilizzata la regressione Lasso, alcuni parametri sono stati azzerati.
    - Queste variabili sono state considerate dal modello come irrilevanti per la predizione, quindi le ha scartate
    - Le variabili in questione sono:
        - is_repeated_guest
        - previous_cancellations
        - previous_bookings_not_canceled
    - Queste variabili non hanno alcun tipo di correlazione con la possibilità che una prenotazione venga o no cancellata

### Classificazione con reti neurali

In [None]:
from sklearn.neural_network import MLPClassifier

In [None]:
model = MLPClassifier(hidden_layer_sizes=5, batch_size=50, activation="relu", random_state=42)
model.fit(X_train, y_train)
model.score(X_val_v2, y_val_v2)

In [None]:
model = MLPClassifier(hidden_layer_sizes=7, batch_size=50, activation="relu", random_state=42)
model.fit(X_train, y_train)
print(model.score(X_val, y_val))