호텔 관리인으로서 '예약 취소'와 관련이 있는 요소들을 파악해보고,
예약 취소율을 줄이기 위한 아이디어
1) 어떤 조건에서 예약 취소가 빈번하게 발생하는지, 
2) 예약 취소와 관련이 있는 요소들이 무엇인지 파악해보고, 
3) 마지막으로 어떻게 하면 예약 취소율을 개선할 수 있을지 아이디어 얻기 

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

#현재 작업 중인 파일의 부모 폴더(프로젝트 루트)를 기준으로 경로 설정
current_path = Path.cwd() #cwd() : Current Working Directory : 현재 작업 디렉토리를 찾아오라는 의미. 
while current_path.name != "codeit-bootcamp-DA13":
    current_path = current_path.parent

ROOT_PATH = current_path # 기준점
DATA_PATH = ROOT_PATH / "data" / "SprintMission06_data"

df = pd.read_csv( DATA_PATH / "hotel_data_modified.csv", encoding = "cp949")


| 컬럼명                              | 설명                                                |
| -------------------------------- | ------------------------------------------------- |
| `hotel`                          | 호텔명 (Resort Hotel 혹은 City Hotel)                  |
| `is_canceled`                    | 호텔 예약이 취소되었는지(1) 혹은 취소되지 않았는지(0)를 나타내는 값          |
| `lead_time`                      | 호텔 예약 시점부터 고객의 호텔 도착 시점까지의 기간 (단위: 일)             |
| `arrival_date_year`              | 고객의 호텔 도착 연도                                      |
| `arrival_date_month`             | 고객의 호텔 도착 월                                       |
| `arrival_date_week_number`       | 고객의 호텔 도착 주 (예: 2015년도 셋째 주 → 3)                  |
| `arrival_date_day_of_month`      | 고객의 호텔 도착 일 (예: 3월 2일 → 2)                        |
| `stays_in_weekend_nights`        | 주말 숙박(토~일) 밤 수                                    |
| `stays_in_week_nights`           | 주중 숙박(월~금) 밤 수                                    |
| `adults`                         | 예약된 어른의 수                                         |
| `children`                       | 예약된 어린이의 수                                        |
| `babies`                         | 예약된 아기의 수                                         |
| `meal`                           | 예약된 식사 유형 (아래 참고)                                 |
| `country`                        | 투숙객 출신 국가 (ISO 3166 국가 코드)                        |
| `market_segment`                 | 시장 세그먼트 (TA: Travel Agent, TO: Tour Operators 등)  |
| `distribution_channel`           | 예약 유통 채널 (TA: Travel Agent, TO: Tour Operators 등) |
| `is_repeated_guest`              | 재방문 고객 여부 (1: 예, 0: 아니오)                          |
| `previous_cancellations`         | 현재 예약 이전에 취소한 예약 수                                |
| `previous_bookings_not_canceled` | 현재 예약 이전에 취소하지 않은 예약 수                            |
| `reserved_room_type`             | 예약한 객실 타입 코드                                      |
| `assigned_room_type`             | 실제 배정된 객실 타입 코드                                   |
| `booking_changes`                | 예약 시점부터 취소/체크인 전까지 변경 횟수                          |
| `agent`                          | 예약을 진행한 여행사 ID                                    |
| `company`                        | 예약 또는 결제 책임이 있는 회사/단체 ID                          |
| `days_in_waiting_list`           | 예약 대기자 명단에 있었던 일수                                 |
| `required_car_parking_spaces`    | 고객이 요구한 주차 공간 수                                   |
| `total_of_special_requests`      | 특별 요청 건수 (예: 트윈 베드, 아기 침대 등)                      |
| `reservation_status`             | 예약의 최종 상태 (아래 참고)                                 |
| `reservation_status_date`        | 최종 예약 상태가 설정된 날짜                                  |


In [4]:
df.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,reserved_room_type,assigned_room_type,booking_changes,agent,company,days_in_waiting_list,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015,July,27,1,0,0,2,...,C,C,3,,,0,0,0,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015,July,27,1,0,0,2,...,C,C,4,,,0,0,0,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015,July,27,1,0,1,1,...,A,C,0,,,0,0,0,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015,July,27,1,0,1,1,...,A,A,0,304.0,,0,0,0,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015,July,27,1,0,2,2,...,A,A,0,240.0,,0,0,1,Check-Out,2015-07-03


In [None]:
df['is_canceled'].value_counts() # 취소율이 전체의 약 40%가량 됨. 

is_canceled
0    75166
1    44224
Name: count, dtype: int64