## 1. Подготовка к работе


In [1]:
# Подгружаем библиотеки

import pandas as pd

In [2]:
def print_lines_of_file(path_to_file, n_lines=None):
    """
    Данная вспомогательная функция принимает путь к файлу
        и выводит на печать заданное количество строк из файла.

    Параметры
    ---------
    path_to_file: путь к файлу
    n_lines: количество строк, которые нужно напечатать.
        Если этот параметр не указан, то на печать выведется весь текст построчно

    Функция возвращает None
    """
    with open(path_to_file) as check_format:
        
        if n_lines is None:
            # Выводим весь текст на печать
            for line in check_format:
                print(line.strip()) #.strip() убирает лишние пробелы в начале и конце строки

        else:
            # Выводим на печать n_lines строк
            for line, _ in zip(check_format, range(n_lines)):
                print(line.strip())

## 2. Загрузка данных

Имеются следующие переменные:

* Hotel – тип отеля (City Hotel или Resort Hotel) \ 
* Is canceled – бронирование было отменено (1) или нет (0); неотменённое считается успешным \
* Lead time – количество дней, прошедших между датой бронирования и датой прибытия  \
* Arrival full date – полная дата прибытия \
* Arrival date year – год прибытия  \
* Arrival date month – месяц прибытия  \
* Arrival date week number – номер недели прибытия\
* Arrival date day of month – день прибытия\
* Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле\
* Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле\
* Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)\
* Adults – число взрослых\
* Children – число детей\
* Babies – число младенцев \
* Meal – выбранный тип питания\
* Country – страна происхождения клиента\
* Reserved room type – тип зарезервированного номера\
* Assigned room type – тип полученного номера (может отличаться от забронированного)\
* Customer type – тип бронирования\
* Reservation status – значение последнего статуса брони:  \
 * Canceled – было отменено клиентом\
 * Check-Out – клиент \зарегистрировался, но уже покинул отель; \
 * No-Show – клиент не зарегистрировался и сообщил администрации отеля причину\
    
* Reservation status date – дата обновления статуса\

In [3]:
# Проверим первые 5 строк в файле
path_to_data = '/bookings.csv'
print_lines_of_file(path_to_data, n_lines =5)

Hotel;Is Canceled;Lead Time;arrival full date;Arrival Date Year;Arrival Date Month;Arrival Date Week Number;Arrival Date Day of Month;Stays in Weekend nights;Stays in week nights;stays total nights;Adults;Children;Babies;Meal;Country;Reserved Room Type;Assigned room type;customer type;Reservation Status;Reservation status_date
Resort Hotel;0;342;2015-07-01;2015;July;27;1;0;0;0;2;0.0;0;BB;PRT;C;C;Transient;Check-Out;2015-07-01
Resort Hotel;0;737;2015-07-01;2015;July;27;1;0;0;0;2;0.0;0;BB;PRT;C;C;Transient;Check-Out;2015-07-01
Resort Hotel;0;7;2015-07-01;2015;July;27;1;0;1;1;1;0.0;0;BB;GBR;A;C;Transient;Check-Out;2015-07-02
Resort Hotel;0;13;2015-07-01;2015;July;27;1;0;1;1;1;0.0;0;BB;GBR;A;A;Transient;Check-Out;2015-07-02


Как мы видим, здесь необходимо использовать сепаратор = ';'

In [4]:
# Считываем данные
whole_hotels_data = pd.read_csv(path_to_data, sep=';') 
whole_hotels_data.head(7)

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


In [5]:
# Посмотрим размер данных
whole_hotels_data.shape

(119390, 21)

In [6]:
# Посмотрим тип переменных
whole_hotels_data.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [7]:
list(whole_hotels_data.columns)

['Hotel',
 'Is Canceled',
 'Lead Time',
 'arrival full date',
 'Arrival Date Year',
 'Arrival Date Month',
 'Arrival Date Week Number',
 'Arrival Date Day of Month',
 'Stays in Weekend nights',
 'Stays in week nights',
 'stays total nights',
 'Adults',
 'Children',
 'Babies',
 'Meal',
 'Country',
 'Reserved Room Type',
 'Assigned room type',
 'customer type',
 'Reservation Status',
 'Reservation status_date']

Всё отлично! За исключением названий столбцов. Они в верхнем регистре и имеют знак пробел. Это нужно исправить.

In [8]:
def convert_to_normal_columns(columns):
    """
    Данная вспомогательная функция принимает список из названий колонок
        и выводит словарь для преобразования этих колонок в 
        нижний регистр и нижние подчеркивания для простоты работы

    Параметры
    ---------
    columns: список названий колонок

    Функция возвращает словарь columns_new
    """
    columns_new = {}
    for name in columns:
        #перебираем все значения изначальных названий
        #ключ - изначальное название, значение - преобразованное
        #lower() приводит к нижему регистру
        #replace() заменяет знак пробела на нижнее подчеркивание
        columns_new[name] = (name.lower().replace(' ', '_'))
    return columns_new #возвращаем готовый словарь для rename()

In [9]:
#Создаю словарь с новыми названиями колонок, готовые для ренейма

new_columns = convert_to_normal_columns(list(whole_hotels_data.columns))
whole_hotels_data = whole_hotels_data.rename(columns=new_columns)

In [10]:
whole_hotels_data

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119385,City Hotel,0,23,2017-08-30,2017,August,35,30,2,5,...,2,0.0,0,BB,BEL,A,A,Transient,Check-Out,2017-09-06
119386,City Hotel,0,102,2017-08-31,2017,August,35,31,2,5,...,3,0.0,0,BB,FRA,E,E,Transient,Check-Out,2017-09-07
119387,City Hotel,0,34,2017-08-31,2017,August,35,31,2,5,...,2,0.0,0,BB,DEU,D,D,Transient,Check-Out,2017-09-07
119388,City Hotel,0,109,2017-08-31,2017,August,35,31,2,5,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2017-09-07


Теперь точно всё отлично

## 3. Пользователи из каких стран совершили наибольшее число успешных бронирований?

In [11]:
#Отфильтруем сначала только те бронирования, которые успешны
#Сгруппируем по странам
#Аггрегируем с счётчиком
#Cортируем по убыванию
#Выводим Топ-5

whole_hotels_data.query('is_canceled == 0') \
                .groupby('country', as_index=False) \
                .agg({'is_canceled':'count'}) \
                .sort_values(by=['is_canceled'], ascending=False) \
                .head(5)

Unnamed: 0,country,is_canceled
125,PRT,21071
57,GBR,9676
54,FRA,8481
50,ESP,6391
42,DEU,6069


## 4. На сколько ночей в среднем бронируют отели разных типов?

In [12]:
#Группирую по отелям
#Аггрегирую по количеству ночей и считаю среднее.
whole_hotels_data.groupby('hotel', as_index=False) \
                .agg({'stays_total_nights': 'mean'}) \
                .round(2)

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.98
1,Resort Hotel,4.32


## 5. Найти количество наблюдений, где assigned_room_type != reserved_room_type

In [13]:
#Использую соответствующий фильтр
#Нахожу его длину

len(whole_hotels_data.query('assigned_room_type != reserved_room_type'))

14917

## 6. На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017 году?

In [14]:
#Задание: На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017 году?

#Группирую по году
#Агрегирую по месяцу и ищу моду

whole_hotels_data.groupby('arrival_date_year', as_index=False) \
                .agg({'arrival_date_month': pd.Series.mode})

Unnamed: 0,arrival_date_year,arrival_date_month
0,2015,September
1,2016,October
2,2017,May


## 7.  На какой месяц бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017?

In [15]:
#Задание:  На какой месяц (arrival_date_month) бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017? 

#Делаю фильтрацию по отмененным бронированиям и отелю
#Группирую по году
#Агрегирую по месяцам и ищу моду

whole_hotels_data.query('is_canceled == 1 and hotel == "City Hotel"') \
                .groupby('arrival_date_year', as_index=False) \
                .agg({'arrival_date_month': pd.Series.mode})

Unnamed: 0,arrival_date_year,arrival_date_month
0,2015,September
1,2016,October
2,2017,May


## 8. Характеристики трёх колонок: adults, children и babies. Какая из них имеет наибольшее среднее значение?

In [16]:
#Задание Характеристики трёх колонок: adults, children и babies. Какая из них имеет наибольшее среднее значение?

whole_hotels_data[['adults', 'children', 'babies']] \
                .mean().idxmax() #

'adults'

 ## 9. Для отелей какого типа среднее значение количества детей оказалось наибольшим?

In [17]:

#создаю новую колонку из двух данных
whole_hotels_data['total_kids'] = whole_hotels_data['children'] + whole_hotels_data['babies']
#группирую по отелям
#агрегирую по новой колонке и ищу среднее, максимальное с округлением до 2х знаков после запятой
whole_hotels_data.groupby('hotel') \
                .agg({'total_kids':'mean'}).idxmax()

total_kids    Resort Hotel
dtype: object

## 10. Посчитать Churn Rate. Как эта метрика связана с наличием детей у клиентов?

In [18]:
#создам новую колонку и заполню ее True и False - есть дети или нет
whole_hotels_data['has_kids'] = whole_hotels_data['total_kids'] > 0
whole_hotels_data['has_kids'] #проверка

0         False
1         False
2         False
3         False
4         False
          ...  
119385    False
119386    False
119387    False
119388    False
119389    False
Name: has_kids, Length: 119390, dtype: bool

In [19]:
#подсчёт количества клиентов у которого есть/нет детей
total_false = whole_hotels_data.query('has_kids == False').shape[0]
total_true = whole_hotels_data.query('has_kids == True').shape[0]
total_false #проверка
total_true

9332

In [20]:
round((whole_hotels_data.query('has_kids == False and is_canceled == 1') \
        .shape[0]) / total_false * 100,2)

37.22

In [21]:
churn_rate_false = round((whole_hotels_data.query("has_kids == False and is_canceled == 1") \
.shape[0]) / total_false * 100,2)

print(f'{churn_rate_false}% - Churn Rate у тех клиентов, у которых нет детей')

37.22% - Churn Rate у тех клиентов, у которых нет детей


In [22]:
churn_rate_true = round((whole_hotels_data.query("has_kids == True and is_canceled == 1") \
.shape[0]) / total_true * 100,2)

print(f'{churn_rate_true}% - Churn Rate у тех клиентов, у которых есть дети')

34.92% - Churn Rate у тех клиентов, у которых есть дети
