In [1]:
#Model építése és tanítása

In [2]:
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, KFold, cross_validate, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import svm
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix

In [3]:
data = pd.read_csv("cleaned_hotel_bookings.csv")

### Adatok előkészítése a model tanításához

In [4]:
num_features = ["lead_time","arrival_date_week_number","arrival_date_day_of_month",
                "stays_in_weekend_nights","stays_in_week_nights","adults","children",
                "babies","is_repeated_guest", "previous_cancellations",
                "previous_bookings_not_canceled","agent","company",
                "required_car_parking_spaces", "total_of_special_requests", "adr"]

cat_features = ["hotel", "arrival_date_month", "meal", "country", "market_segment", 
                "distribution_channel", "reserved_room_type", "assigned_room_type", "customer_type"] 

Az adatokat kétfelé szedjük számszerű és kategorikus jelleg változókra. Mivel már a vizsgálatunk elején foglalkoztunk a null változókkal így a mostani adatok előkészítésnél ezt a lépést már nem kell megcsinálnunk.

Amit azonban meg kell csinálnunk az a kategorikus adatok átalakítása számszerűvé ugyanis a model csak azzal tud dolgozni.
Két lehetőség:
- Label Encoding: Szakdogában magyarázat
- Dummy variables: Szakdogában magyarázat

Dummy variables-t választjuk(szakdogában miért)

Ezután két változóba rakjuk az adatokat X-be és y-ba. Az X-be tartoznak a jelleg változok a y-ba pedig a kimenet, hogy az adott foglalást lemondták-e vagy sem.

In [5]:
X = data.drop(["is_canceled"], axis=1)[num_features + cat_features]
X = pd.get_dummies(X)
y = data["is_canceled"]

Majd train és test részekre kell szétválogatni. Erre azért van szükség hogy mikor teszteljük a modelt, hogy milyen a pontossága olyan adatokat lásson amit a tanítás során még nem látott. A teljes adat 25%-át fogom tesztelési célra szánni.

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=10)

### Decision Tree Classifier

In [7]:
dtree = DecisionTreeClassifier()
dtree.fit(X_train, y_train)
y_dtree_pred=dtree.predict(X_test)
print(classification_report(y_test, y_dtree_pred))
print(confusion_matrix(y_test, y_dtree_pred))

              precision    recall  f1-score   support

           0       0.88      0.89      0.88     18788
           1       0.81      0.80      0.80     11060

    accuracy                           0.85     29848
   macro avg       0.84      0.84      0.84     29848
weighted avg       0.85      0.85      0.85     29848

[[16649  2139]
 [ 2218  8842]]


### Random Forest Classifier

In [8]:
rforest = RandomForestClassifier()
rforest.fit(X_train, y_train)
y_rforest_pred=rforest.predict(X_test)
print(classification_report(y_test, y_rforest_pred))
print(confusion_matrix(y_test, y_rforest_pred))

              precision    recall  f1-score   support

           0       0.88      0.94      0.91     18788
           1       0.88      0.79      0.83     11060

    accuracy                           0.88     29848
   macro avg       0.88      0.86      0.87     29848
weighted avg       0.88      0.88      0.88     29848

[[17644  1144]
 [ 2332  8728]]


### Logistic Regression

In [9]:
logisticreg = LogisticRegression()
logisticreg.fit(X_train, y_train)
y_logisticreg_pred=logisticreg.predict(X_test)
print(classification_report(y_test, y_logisticreg_pred))
print(confusion_matrix(y_test, y_logisticreg_pred))

              precision    recall  f1-score   support

           0       0.82      0.88      0.85     18788
           1       0.77      0.66      0.71     11060

    accuracy                           0.80     29848
   macro avg       0.79      0.77      0.78     29848
weighted avg       0.80      0.80      0.80     29848

[[16589  2199]
 [ 3745  7315]]


### K-nearest Neighbour Classifier

In [10]:
neigh = KNeighborsClassifier()
neigh.fit(X_train, y_train)
y_neigh_pred=neigh.predict(X_test)
print(classification_report(y_test, y_neigh_pred))
print(confusion_matrix(y_test, y_neigh_pred))

              precision    recall  f1-score   support

           0       0.80      0.85      0.82     18788
           1       0.72      0.63      0.67     11060

    accuracy                           0.77     29848
   macro avg       0.76      0.74      0.75     29848
weighted avg       0.77      0.77      0.77     29848

[[16024  2764]
 [ 4061  6999]]


### Gradient Boosting Classifier

In [11]:
gdclf = GradientBoostingClassifier()
gdclf.fit(X_train, y_train)
y_gdclf_pred=gdclf.predict(X_test)
print(classification_report(y_test, y_gdclf_pred))
print(confusion_matrix(y_test, y_gdclf_pred))

              precision    recall  f1-score   support

           0       0.85      0.90      0.88     18788
           1       0.82      0.74      0.77     11060

    accuracy                           0.84     29848
   macro avg       0.84      0.82      0.83     29848
weighted avg       0.84      0.84      0.84     29848

[[16958  1830]
 [ 2908  8152]]
