<a href="https://colab.research.google.com/github/ymuto0302/RW2025/blob/main/pandas_data_processing_hotel_booking.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas を用いたホテル予約データ処理
架空のホテルチェーンの2年間の予約データを生成されるコードを以下に示す。  
コード中で乱数を用いているため，実行するたびに「生成されるデータ」は異なる。

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# データセットの作成
np.random.seed(42)  # 結果の再現性のため
dates = pd.date_range(start='2022-01-01', end='2023-12-31', freq='D')
n_samples = len(dates)

data = {
    'Reservation_Date': dates,
    'Room_Rate': np.random.normal(12000, 3000, n_samples),
    'Nights_Stay': np.random.poisson(3, n_samples),
    'Guest_Count': np.random.choice([1, 2, 3, 4, 5, 6], n_samples,
                                   p=[0.2, 0.4, 0.15, 0.15, 0.08, 0.02]),
    'Room_Type': np.random.choice(['Standard', 'Deluxe', 'Suite', 'Executive'],
                                 n_samples, p=[0.5, 0.3, 0.15, 0.05]),
    'Season': np.random.choice(['Spring', 'Summer', 'Autumn', 'Winter'],
                              n_samples, p=[0.25, 0.35, 0.25, 0.15]),
    'Customer_Age': np.random.normal(45, 15, n_samples),
    'Advance_Booking_Days': np.random.exponential(30, n_samples),
    'Revenue': np.random.normal(25000, 8000, n_samples)
}

# 欠損値と異常値の挿入
data['Room_Rate'][np.random.choice(n_samples, 25, replace=False)] = np.nan
data['Revenue'][np.random.choice(n_samples, 15, replace=False)] = np.nan
data['Customer_Age'][np.random.choice(n_samples, 20, replace=False)] = np.random.uniform(80, 95, 20)

# 一部の値を負の値に（異常値として）
anomaly_indices = np.random.choice(n_samples, 10, replace=False)
data['Advance_Booking_Days'][anomaly_indices] = np.random.uniform(-10, -1, 10)

df = pd.DataFrame(data)

# データ型の調整
df['Guest_Count'] = df['Guest_Count'].astype('int8')
df['Nights_Stay'] = df['Nights_Stay'].astype('int8')

In [2]:
# データフレームの先頭を眺めてみる
df.head()

Unnamed: 0,Reservation_Date,Room_Rate,Nights_Stay,Guest_Count,Room_Type,Season,Customer_Age,Advance_Booking_Days,Revenue
0,2022-01-01,13490.142459,0,3,Standard,Summer,56.717608,33.931029,15997.880882
1,2022-01-02,11585.207096,3,5,Standard,Summer,30.504239,36.383301,16251.741708
2,2022-01-03,13943.065614,4,2,Standard,Summer,48.917652,93.693376,22269.52123
3,2022-01-04,16569.089569,4,3,Executive,Winter,60.348015,22.736329,29276.348908
4,2022-01-05,11297.539876,3,1,Deluxe,Winter,42.000257,15.31075,30300.500399


## --- これ以降，各課題に対するコードを書いてください ---