## CLASSIFICATION

#### IMPORT PACKAGES

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler, LabelEncoder

#### READ DATASET

In [None]:
df = pd.read_csv('/path/to/reservasi_hotel.csv')

#### PROBLEM STATEMENT

#### Analisis Profil Pelanggan

• Perusahaan berusaha untuk memahami profil pelanggan di hotel mitra mereka, termasuk asal negara dan karakteristik pemesanan di hotel resort dan hotel kota.
• Fokus utama perusahaan adalah mengurangi tingkat pembatalan dan pembatalan sebelumnya, dengan tujuan mengoptimalkan proses dan menerapkan kebijakan baru untuk menghindari kerugian perusahaan.
• Mereka ingin mengembangkan model machine learning berdasarkan fitur-fitur yang ada untuk membantu meningkatkan situs web pemesanan hotel online mereka dan pengalaman pelanggan.

#### EDA

In [None]:
# Menampilkan lima baris pertama
print(df.head())

# Deskripsi statistik
print(df.describe())

# Cek nilai yang hilang
print(df.isnull().sum())

# Visualisasi distribusi variabel kategori
sns.countplot(x='is_canceled', data=df)
plt.show()

# Korelasi antar fitur
sns.heatmap(df.corr(), annot=True, fmt=".2f")
plt.show()

#### DATA PRE-PROCESSING

In [None]:
# Mengisi nilai yang hilang
df.fillna(method='ffill', inplace=True)

# Label encoding untuk variabel kategori
le = LabelEncoder()
df['hotel'] = le.fit_transform(df['hotel'])

# Skala fitur numerik
scaler = StandardScaler()
df['lead_time'] = scaler.fit_transform(df[['lead_time']])

#### FEATURE ENGINEERING

In [None]:
# Contoh: menggabungkan bulan kedatangan dan tahun kedatangan menjadi satu fitur
df['arrival_date'] = df['arrival_date_year'].astype(str) + '-' + df['arrival_date_month']

#### MODELING

In [None]:
# Pisahkan data menjadi fitur dan target
X = df.drop('is_canceled', axis=1)
y = df['is_canceled']

# Split data menjadi training dan testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model Logistic Regression
model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
predictions_lr = model_lr.predict(X_test)

# Model Random Forest
model_rf = RandomForestClassifier()
model_rf.fit(X_train, y_train)
predictions_rf = model_rf.predict(X_test)

#### EVALUATION

In [None]:
# Evaluasi Logistic Regression
print(classification_report(y_test, predictions_lr))

# Evaluasi Random Forest
print(classification_report(y_test, predictions_rf))

### LOAD AND PREDICT NEW DATA

In [None]:
# Contoh memuat data baru
new_data = pd.read_csv('/path/to/new_data.csv')
new_data_processed = scaler.transform(new_data[['lead_time']])  # Misalkan hanya memproses lead_time

# Prediksi menggunakan model Random Forest
new_predictions = model_rf.predict(new_data_processed)
print(new_predictions)

### KESIMPULAN/SARAN

Itulah rangkaian langkah yang bisa diikuti untuk menganalisis dataset reservasi hotel. Pastikan untuk menyesuaikan kode dan langkah-langkah sesuai dengan spesifikasi dan kebutuhan data serta masalah spesifik yang ingin diselesaikan.