<a href="https://colab.research.google.com/github/NasTiaFox30/ColabProjects/blob/master/Check_In_Day_Predictor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 🏨 Check-In Day Predictor

Klasyfikacja dnia tygodnia przyjazdu gościa hotelowego

---





## 🎯 Cel zadania
Na podstawie danych gościa (płeć, miejscowość pochodzenia oraz cena za dobę) zbuduj model klasyfikacyjny, który przewidzi **dzień tygodnia**, w którym gość przyjechał do hotelu.

---

## 📂 Dane wejściowe
Plik `hotel_klasyfikacja.csv`, zawierający informacje o rezerwacjach hotelowych.

Najważniejsze kolumny:
- `plec` – płeć gościa (`M` lub `K`),
- `miejscowosc` – miejscowość pochodzenia gościa,
- `cena_za_dobe` – cena zapłacona za dobę,
- `dzien_tygodnia` – dzień tygodnia, w którym gość przyjechał.

---

## 🔧 Zakres prac

1. **Wczytaj dane i zapoznaj się z ich strukturą.**
2. **Wybierz cechy wejściowe:** `plec`, `miejscowosc`, `cena_za_dobe`.
3. **Zakoduj dane kategoryczne** (`plec`, `miejscowosc`, `dzien_tygodnia`) przy pomocy `LabelEncoder`.
4. **Podziel dane** na zbiory: treningowy i testowy (`train_test_split`).
5. **Zbuduj i przetestuj trzy modele klasyfikacyjne:**
   - `RandomForestClassifier`
   - `LogisticRegression`
   - `KNeighborsClassifier`
6. **Oceń skuteczność modeli:**
   - metryka dokładności (`accuracy_score`)
   - raport klasyfikacji (`classification_report`)
7. **Dla modelu Random Forest wypisz ważność cech** (`feature_importances_`).
8. **Przetestuj działanie modelu na nowym przypadku:**

   > Przykład: kobieta z Krakowa, cena za dobę 320 zł → przewidź dzień tygodnia.

---

## 💡 Wskazówki techniczne

- Do kodowania zmiennych tekstowych użyj `LabelEncoder`.
- Pamiętaj, aby przy przewidywaniu nowych przypadków używać tych samych encoderów co wcześniej.
- Wybierz model o najwyższej skuteczności do prognozowania nowych danych.




**Rozwiązanie zadania**

In [None]:
# 1. Import bibliotek
# Importujemy niezbędne biblioteki do wczytywania danych, przygotowania modelu i oceny wyników
import gdown
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# 2. Wczytanie danych
# Wczytujemy dane z pliku CSV zawierające informacje o rezerwacjach hotelowych
# https://drive.google.com/file/d/1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA

gdown.download('https://drive.google.com/uc?id=1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA', 'hotel_klasyfikacja.csv')

dane = pd.read_csv('hotel_klasyfikacja.csv')

In [None]:
# 3. Podstawowa eksploracja danych
# Sprawdzamy informacje o kolumnach oraz pierwsze rekordy, aby zapoznać się z danymi

print(dane.info())
print(dane.head())

In [None]:
# 4. Przygotowanie danych (wybór cech i etykiety)
# Wybieramy zmienne niezależne (cechy) i zmienną zależną (etykietę)
X = dane[["plec", "miejscowosc", "cena_za_dobe"]]
y = dane["dzien_tygodnia"]

In [None]:
# Kodowanie zmiennych kategorycznych
# Zamieniamy dane tekstowe na wartości liczbowe
le_plec = LabelEncoder()
le_miejscowosc = LabelEncoder()
le_dzien = LabelEncoder()

X['plec'] = le_plec.fit_transform(X['plec'])
X['miejscowosc'] = le_miejscowosc.fit_transform(X['miejscowosc'])
y = le_dzien.fit_transform(y)

In [None]:
# 5. Podział na zbiory treningowy i testowy
# Dzielimy dane na część do trenowania modelu i część testową
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 6. Klasyfikatory
# Tworzymy modele, które będziemy testować
model_lr = LogisticRegression(max_iter=1000, random_state=42)
model_knn = KNeighborsClassifier()
model_rf = RandomForestClassifier(random_state=42)

In [None]:
# 7. Trenowanie i ocena
# Dla każdego modelu trenujemy go na danych treningowych, przewidujemy wyniki i oceniamy skuteczność

# Trenowanie:
model_lr.fit(X_train, y_train)
model_knn.fit(X_train, y_train)
model_rf.fit(X_train, y_train)

# Logistic Regression
print("Logistic Regression:")
y_pred_lr = model_lr.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr, target_names=le_dzien.classes_))

# nKNeighborsClassifier
print("\nKNeighborsClassifier:")
y_pred_knn = model_knn.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_knn))
print(classification_report(y_test, y_pred_knn, target_names=le_dzien.classes_))

# Random Forest
print("\nRandom Forest:")
y_pred_rf = model_rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf, target_names=le_dzien.classes_))

In [None]:
# 8. Ważność cech - tylko dla Random Forest
# Sprawdzamy, które cechy miały największy wpływ na decyzje klasyfikatora Random Forest
importances = model_rf.feature_importances_

# Wyświetlenie ważności w tekscie
for cecha, waga in zip(X.columns, importances):
    print(f"Cecha: {cecha:15} | Ważność: {waga:.3f}")

In [None]:
# 9. Przykład klasyfikacji nowego przypadku
# Tworzymy przykładowe dane: kobieta z Warszawy, cena za dobę 320 zł
nowe_dane = pd.DataFrame({
    "plec": ["K"],
    "miejscowosc": ["Krakow"],
    "cena_za_dobe": [320.0]
})

# # Dodatkowe testowanie:
# Tworzymy przykładowe dane: kobieta z Lublin, cena z adobę 500 zł
# nowe_dane = pd.DataFrame({
#     "plec": ["K"],
#     "miejscowosc": ["Lublin"],
#     "cena_za_dobe": [500.0]
# })

# Tworzymy przykładowe dane: mieżczyzna z Poznan, cena z adobę 350 zł
# nowe_dane = pd.DataFrame({
#     "plec": ["M"],
#     "miejscowosc": ["Poznan"],
#     "cena_za_dobe": [370.0]
# })


In [None]:
# 10. Przewidujemy dzień tygodnia modelem RandomForest

nowe_dane['plec'] = le_plec.transform(nowe_dane['plec'])
nowe_dane['miejscowosc'] = le_miejscowosc.transform(nowe_dane['miejscowosc'])

predykcja = model_rf.predict(nowe_dane)
dzien_tygodnia = le_dzien.inverse_transform(predykcja)[0]
print(f"\nPrzewidziany dzień tygodnia: {dzien_tygodnia}")

## 🎓 Rozszerzenie

- Przetestuj więcej przypadków i sprawdź, jak zmiana miejscowości lub ceny wpływa na wynik.
- Dodaj dodatkowe cechy, np. `standard` lub `nr_pokoju`, i sprawdź, czy poprawiają skuteczność.
- Zrób wykresy rozkładu dni tygodnia względem płci lub miasta (`seaborn`, `matplotlib`).

In [None]:
# Import bibliotek
# Importujemy niezbędne biblioteki do wczytywania danych, przygotowania modelu i oceny wyników
import gdown
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# Wczytanie danych
# Wczytujemy dane z pliku CSV zawierające informacje o rezerwacjach hotelowych
# https://drive.google.com/file/d/1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA

gdown.download('https://drive.google.com/uc?id=1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA', 'hotel_klasyfikacja.csv')

dane = pd.read_csv('hotel_klasyfikacja.csv')

In [None]:
# Przygotowanie danych (wybór cech i etykiety)
# Wybieramy zmienne niezależne (cechy) i zmienną zależną (etykietę)

# Rozszerzenie:
X = dane[["plec", "miejscowosc", "cena_za_dobe", "nr_pokoju"]]
y = dane["dzien_tygodnia"]

In [None]:
# Kodowanie zmiennych kategorycznych
# Zamieniamy dane tekstowe na wartości liczbowe
le_plec = LabelEncoder()
le_miejscowosc = LabelEncoder()
le_dzien = LabelEncoder()

X['plec'] = le_plec.fit_transform(X['plec'])
X['miejscowosc'] = le_miejscowosc.fit_transform(X['miejscowosc'])
y = le_dzien.fit_transform(y)

In [None]:
# Podział na zbiory treningowy i testowy
# Dzielimy dane na część do trenowania modelu i część testową
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Klasyfikatory
# Tworzymy model
model_rf = RandomForestClassifier(random_state=42)

In [None]:
# 7. Trenowanie i ocena
# trenujemy model na danych treningowych, przewidujemy wyniki i oceniamy skuteczność

# Trenowanie:
model_rf.fit(X_train, y_train)

# Random Forest
print("\nRandom Forest:")
y_pred_rf = model_rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf, target_names=le_dzien.classes_))

In [None]:
# Ocena skuteczności
# Random Forest
print("Random Forest:")
# y_pred_rf = model_rf.predict(X_test)
accuracy_with_room = accuracy_score(y_test, y_pred_rf)
print(f"Accuracy z nr_pokoju: {accuracy_with_room:.3f}")


# Porównanie z modelem bez nr_pokoju
X_without_room = X.drop(columns=['nr_pokoju'])

X_train_no_room, X_test_no_room, y_train_no_room, y_test_no_room = train_test_split(X_without_room, y, test_size=0.2, random_state=42)

model_rf_no_room = RandomForestClassifier(random_state=42)
model_rf_no_room.fit(X_train_no_room, y_train_no_room)

y_pred_no_room = model_rf_no_room.predict(X_test_no_room)
accuracy_no_room = accuracy_score(y_test_no_room, y_pred_no_room)
print(f"Accuracy bez nr_pokoju: {accuracy_no_room:.3f}")


In [None]:
# Implementacja wykresów
import seaborn as sns
import matplotlib.pyplot as plt

dane['dzien_tygodnia'] = le_dzien.inverse_transform(y)
dane['plec'] = le_plec.inverse_transform(X['plec'])

In [None]:
# Wykres 1: Płeć a dzień tygodnia
plt.figure(figsize=(10, 6))
sns.countplot(data=dane, x='dzien_tygodnia', hue='plec')
plt.title("Rozkład dni tygodnia względem płci")
plt.show()

In [None]:
# Wykres 2: Miasto a dzień tygodnia (top 5)
top_miasta = dane['miejscowosc'].value_counts().nlargest(5).index
dane_top_miasta = dane[dane['miejscowosc'].isin(top_miasta)]
plt.figure(figsize=(12, 6))
sns.countplot(data=dane_top_miasta, x='dzien_tygodnia', hue='miejscowosc')
plt.title("Rozkład dni tygodnia względem miasta (top 5)")
plt.show()

In [None]:
# Wykres 3: Heatmapa
cross_tab = pd.crosstab(dane['miejscowosc'], dane['dzien_tygodnia'])
plt.figure(figsize=(12, 8))
sns.heatmap(cross_tab, cmap='YlGnBu', annot=True, fmt='d', linewidths=.5)
plt.title("Częstość rezerwacji wg miasta i dnia tygodnia")
plt.show()