<a href="https://colab.research.google.com/github/NasTiaFox30/ColabProjects/blob/master/Check_In_Day_Predictor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## üè® Check-In Day Predictor

Klasyfikacja dnia tygodnia przyjazdu go≈õcia hotelowego

---





## üéØ Cel zadania
Na podstawie danych go≈õcia (p≈Çeƒá, miejscowo≈õƒá pochodzenia oraz cena za dobƒô) zbuduj model klasyfikacyjny, kt√≥ry przewidzi **dzie≈Ñ tygodnia**, w kt√≥rym go≈õƒá przyjecha≈Ç do hotelu.

---

## üìÇ Dane wej≈õciowe
Plik `hotel_klasyfikacja.csv`, zawierajƒÖcy informacje o rezerwacjach hotelowych.

Najwa≈ºniejsze kolumny:
- `plec` ‚Äì p≈Çeƒá go≈õcia (`M` lub `K`),
- `miejscowosc` ‚Äì miejscowo≈õƒá pochodzenia go≈õcia,
- `cena_za_dobe` ‚Äì cena zap≈Çacona za dobƒô,
- `dzien_tygodnia` ‚Äì dzie≈Ñ tygodnia, w kt√≥rym go≈õƒá przyjecha≈Ç.

---

## üîß Zakres prac

1. **Wczytaj dane i zapoznaj siƒô z ich strukturƒÖ.**
2. **Wybierz cechy wej≈õciowe:** `plec`, `miejscowosc`, `cena_za_dobe`.
3. **Zakoduj dane kategoryczne** (`plec`, `miejscowosc`, `dzien_tygodnia`) przy pomocy `LabelEncoder`.
4. **Podziel dane** na zbiory: treningowy i testowy (`train_test_split`).
5. **Zbuduj i przetestuj trzy modele klasyfikacyjne:**
   - `RandomForestClassifier`
   - `LogisticRegression`
   - `KNeighborsClassifier`
6. **Oce≈Ñ skuteczno≈õƒá modeli:**
   - metryka dok≈Çadno≈õci (`accuracy_score`)
   - raport klasyfikacji (`classification_report`)
7. **Dla modelu Random Forest wypisz wa≈ºno≈õƒá cech** (`feature_importances_`).
8. **Przetestuj dzia≈Çanie modelu na nowym przypadku:**

   > Przyk≈Çad: kobieta z Krakowa, cena za dobƒô 320 z≈Ç ‚Üí przewid≈∫ dzie≈Ñ tygodnia.

---

## üí° Wskaz√≥wki techniczne

- Do kodowania zmiennych tekstowych u≈ºyj `LabelEncoder`.
- Pamiƒôtaj, aby przy przewidywaniu nowych przypadk√≥w u≈ºywaƒá tych samych encoder√≥w co wcze≈õniej.
- Wybierz model o najwy≈ºszej skuteczno≈õci do prognozowania nowych danych.




**RozwiƒÖzanie zadania**

In [None]:
# 1. Import bibliotek
# Importujemy niezbƒôdne biblioteki do wczytywania danych, przygotowania modelu i oceny wynik√≥w
import gdown
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# 2. Wczytanie danych
# Wczytujemy dane z pliku CSV zawierajƒÖce informacje o rezerwacjach hotelowych
# https://drive.google.com/file/d/1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA

gdown.download('https://drive.google.com/uc?id=1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA', 'hotel_klasyfikacja.csv')

dane = pd.read_csv('hotel_klasyfikacja.csv')

In [None]:
# 3. Podstawowa eksploracja danych
# Sprawdzamy informacje o kolumnach oraz pierwsze rekordy, aby zapoznaƒá siƒô z danymi

print(dane.info())
print(dane.head())

In [None]:
# 4. Przygotowanie danych (wyb√≥r cech i etykiety)
# Wybieramy zmienne niezale≈ºne (cechy) i zmiennƒÖ zale≈ºnƒÖ (etykietƒô)
X = dane[["plec", "miejscowosc", "cena_za_dobe"]]
y = dane["dzien_tygodnia"]

In [None]:
# Kodowanie zmiennych kategorycznych
# Zamieniamy dane tekstowe na warto≈õci liczbowe
le_plec = LabelEncoder()
le_miejscowosc = LabelEncoder()
le_dzien = LabelEncoder()

X['plec'] = le_plec.fit_transform(X['plec'])
X['miejscowosc'] = le_miejscowosc.fit_transform(X['miejscowosc'])
y = le_dzien.fit_transform(y)

In [None]:
# 5. Podzia≈Ç na zbiory treningowy i testowy
# Dzielimy dane na czƒô≈õƒá do trenowania modelu i czƒô≈õƒá testowƒÖ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 6. Klasyfikatory
# Tworzymy modele, kt√≥re bƒôdziemy testowaƒá
model_lr = LogisticRegression(max_iter=1000, random_state=42)
model_knn = KNeighborsClassifier()
model_rf = RandomForestClassifier(random_state=42)

In [None]:
# 7. Trenowanie i ocena
# Dla ka≈ºdego modelu trenujemy go na danych treningowych, przewidujemy wyniki i oceniamy skuteczno≈õƒá

# Trenowanie:
model_lr.fit(X_train, y_train)
model_knn.fit(X_train, y_train)
model_rf.fit(X_train, y_train)

# Logistic Regression
print("Logistic Regression:")
y_pred_lr = model_lr.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr, target_names=le_dzien.classes_))

# nKNeighborsClassifier
print("\nKNeighborsClassifier:")
y_pred_knn = model_knn.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_knn))
print(classification_report(y_test, y_pred_knn, target_names=le_dzien.classes_))

# Random Forest
print("\nRandom Forest:")
y_pred_rf = model_rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf, target_names=le_dzien.classes_))

In [None]:
# 8. Wa≈ºno≈õƒá cech - tylko dla Random Forest
# Sprawdzamy, kt√≥re cechy mia≈Çy najwiƒôkszy wp≈Çyw na decyzje klasyfikatora Random Forest
importances = model_rf.feature_importances_

# Wy≈õwietlenie wa≈ºno≈õci w tekscie
for cecha, waga in zip(X.columns, importances):
    print(f"Cecha: {cecha:15} | Wa≈ºno≈õƒá: {waga:.3f}")

In [None]:
# 9. Przyk≈Çad klasyfikacji nowego przypadku
# Tworzymy przyk≈Çadowe dane: kobieta z Warszawy, cena za dobƒô 320 z≈Ç
nowe_dane = pd.DataFrame({
    "plec": ["K"],
    "miejscowosc": ["Krakow"],
    "cena_za_dobe": [320.0]
})

# # Dodatkowe testowanie:
# Tworzymy przyk≈Çadowe dane: kobieta z Lublin, cena z adobƒô 500 z≈Ç
# nowe_dane = pd.DataFrame({
#     "plec": ["K"],
#     "miejscowosc": ["Lublin"],
#     "cena_za_dobe": [500.0]
# })

# Tworzymy przyk≈Çadowe dane: mie≈ºczyzna z Poznan, cena z adobƒô 350 z≈Ç
# nowe_dane = pd.DataFrame({
#     "plec": ["M"],
#     "miejscowosc": ["Poznan"],
#     "cena_za_dobe": [370.0]
# })


In [None]:
# 10. Przewidujemy dzie≈Ñ tygodnia modelem RandomForest

nowe_dane['plec'] = le_plec.transform(nowe_dane['plec'])
nowe_dane['miejscowosc'] = le_miejscowosc.transform(nowe_dane['miejscowosc'])

predykcja = model_rf.predict(nowe_dane)
dzien_tygodnia = le_dzien.inverse_transform(predykcja)[0]
print(f"\nPrzewidziany dzie≈Ñ tygodnia: {dzien_tygodnia}")

## üéì Rozszerzenie

- Przetestuj wiƒôcej przypadk√≥w i sprawd≈∫, jak zmiana miejscowo≈õci lub ceny wp≈Çywa na wynik.
- Dodaj dodatkowe cechy, np. `standard` lub `nr_pokoju`, i sprawd≈∫, czy poprawiajƒÖ skuteczno≈õƒá.
- Zr√≥b wykresy rozk≈Çadu dni tygodnia wzglƒôdem p≈Çci lub miasta (`seaborn`, `matplotlib`).

In [None]:
# Import bibliotek
# Importujemy niezbƒôdne biblioteki do wczytywania danych, przygotowania modelu i oceny wynik√≥w
import gdown
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# Wczytanie danych
# Wczytujemy dane z pliku CSV zawierajƒÖce informacje o rezerwacjach hotelowych
# https://drive.google.com/file/d/1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA

gdown.download('https://drive.google.com/uc?id=1oMPla7v9OG-RNCPdeQWkown9dQTeeFRA', 'hotel_klasyfikacja.csv')

dane = pd.read_csv('hotel_klasyfikacja.csv')

In [None]:
# Przygotowanie danych (wyb√≥r cech i etykiety)
# Wybieramy zmienne niezale≈ºne (cechy) i zmiennƒÖ zale≈ºnƒÖ (etykietƒô)

# Rozszerzenie:
X = dane[["plec", "miejscowosc", "cena_za_dobe", "nr_pokoju"]]
y = dane["dzien_tygodnia"]

In [None]:
# Kodowanie zmiennych kategorycznych
# Zamieniamy dane tekstowe na warto≈õci liczbowe
le_plec = LabelEncoder()
le_miejscowosc = LabelEncoder()
le_dzien = LabelEncoder()

X['plec'] = le_plec.fit_transform(X['plec'])
X['miejscowosc'] = le_miejscowosc.fit_transform(X['miejscowosc'])
y = le_dzien.fit_transform(y)

In [None]:
# Podzia≈Ç na zbiory treningowy i testowy
# Dzielimy dane na czƒô≈õƒá do trenowania modelu i czƒô≈õƒá testowƒÖ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Klasyfikatory
# Tworzymy model
model_rf = RandomForestClassifier(random_state=42)

In [None]:
# 7. Trenowanie i ocena
# trenujemy model na danych treningowych, przewidujemy wyniki i oceniamy skuteczno≈õƒá

# Trenowanie:
model_rf.fit(X_train, y_train)

# Random Forest
print("\nRandom Forest:")
y_pred_rf = model_rf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf, target_names=le_dzien.classes_))

In [None]:
# Ocena skuteczno≈õci
# Random Forest
print("Random Forest:")
# y_pred_rf = model_rf.predict(X_test)
accuracy_with_room = accuracy_score(y_test, y_pred_rf)
print(f"Accuracy z nr_pokoju: {accuracy_with_room:.3f}")


# Por√≥wnanie z modelem bez nr_pokoju
X_without_room = X.drop(columns=['nr_pokoju'])

X_train_no_room, X_test_no_room, y_train_no_room, y_test_no_room = train_test_split(X_without_room, y, test_size=0.2, random_state=42)

model_rf_no_room = RandomForestClassifier(random_state=42)
model_rf_no_room.fit(X_train_no_room, y_train_no_room)

y_pred_no_room = model_rf_no_room.predict(X_test_no_room)
accuracy_no_room = accuracy_score(y_test_no_room, y_pred_no_room)
print(f"Accuracy bez nr_pokoju: {accuracy_no_room:.3f}")


In [None]:
# Implementacja wykres√≥w
import seaborn as sns
import matplotlib.pyplot as plt

dane['dzien_tygodnia'] = le_dzien.inverse_transform(y)
dane['plec'] = le_plec.inverse_transform(X['plec'])

In [None]:
# Wykres 1: P≈Çeƒá a dzie≈Ñ tygodnia
plt.figure(figsize=(10, 6))
sns.countplot(data=dane, x='dzien_tygodnia', hue='plec')
plt.title("Rozk≈Çad dni tygodnia wzglƒôdem p≈Çci")
plt.show()

In [None]:
# Wykres 2: Miasto a dzie≈Ñ tygodnia (top 5)
top_miasta = dane['miejscowosc'].value_counts().nlargest(5).index
dane_top_miasta = dane[dane['miejscowosc'].isin(top_miasta)]
plt.figure(figsize=(12, 6))
sns.countplot(data=dane_top_miasta, x='dzien_tygodnia', hue='miejscowosc')
plt.title("Rozk≈Çad dni tygodnia wzglƒôdem miasta (top 5)")
plt.show()

In [None]:
# Wykres 3: Heatmapa
cross_tab = pd.crosstab(dane['miejscowosc'], dane['dzien_tygodnia'])
plt.figure(figsize=(12, 8))
sns.heatmap(cross_tab, cmap='YlGnBu', annot=True, fmt='d', linewidths=.5)
plt.title("Czƒôsto≈õƒá rezerwacji wg miasta i dnia tygodnia")
plt.show()