# 前処理大全 Python版

## はじめに
- 初めに以下のセルを実行してください
- 必要なライブラリのインポートとデータベース（PostgreSQL）からのデータ読み込みを行います
- pandas等、利用が想定されるライブラリは以下セルでインポートしています
- その他利用したいライブラリがあれば適宜インストールしてください（"!pip install ライブラリ名"でインストールも可能）
- 処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math
import psycopg2
from sqlalchemy import create_engine
from sklearn import preprocessing
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import TimeSeriesSplit
from imblearn.under_sampling import RandomUnderSampler


pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}

# pd.read_sql用のコネクタ
conn = psycopg2.connect(**pgconfig)

df_customer = pd.read_sql(sql='select * from customer_tb', con=conn)
df_hotel = pd.read_sql(sql='select * from hotel_tb', con=conn)
df_reserve = pd.read_sql(sql='select * from reserve_tb', con=conn)

# 演習問題

---
> サンプル

In [2]:
df_reserve.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400


In [17]:
small_area_mst = df_hotel \
  .groupby(['big_area_name', 'small_area_name'], as_index=False) \
  .size()
small_area_mst.columns = ['big_area_name', 'small_area_name', 'hotel_cnt']
small_area_mst

Unnamed: 0,big_area_name,small_area_name,hotel_cnt
0,A,A-1,35
1,A,A-3,30
2,B,B-1,15
3,B,B-2,18
4,B,B-3,19
5,C,C-1,25
6,C,C-2,30
7,C,C-3,21
8,D,D-1,7
9,D,D-2,7


In [49]:
df = df_reserve.copy()
df["date"] = pd.to_datetime(df_reserve["checkin_date"])
df.groupby(
    ['customer_id', pd.Grouper(key='date', freq='M')]
).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,people_num,total_price
customer_id,date,Unnamed: 2_level_1,Unnamed: 3_level_1
c_1,2016-03-31,4,97200
c_1,2016-07-31,2,20600
c_1,2016-10-31,2,33600
c_1,2017-03-31,4,194400
c_1,2017-09-30,3,68100
...,...,...,...
c_999,2016-10-31,3,59400
c_999,2017-03-31,1,37200
c_999,2017-07-31,2,16000
c_999,2017-10-31,2,41800
