# Проект урока 2. Первые аналитические задачи
#  «Аналитика бронирования отелей»

## Шаг 1

В этом проекте вам предстоит почувствовать себя в роли аналитика данных в компании, владеющей сетью отелей, и проанализировать данные о бронированиях. Описание колонок:
* Hotel – тип отеля (City Hotel или Resort Hotel)  
* Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным
* Lead time – количество дней, прошедших между датой бронирования и датой прибытия  
* Arrival full date – полная дата прибытия
* Arrival date year – год прибытия  
* Arrival date month – месяц прибытия  
* Arrival date week number – номер недели прибытия
* Arrival date day of month – день прибытия
* Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле
* Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле
* Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)
* Adults – число взрослых
* Children – число детей
* Babies – число младенцев
* Meal – выбранный тип питания
* Country – страна происхождения клиента
* Reserved room type – тип зарезервированного номера
* Assigned room type – тип полученного номера (может отличаться от забронированного)
* Customer type – тип бронирования
* Reservation status – значение последнего статуса брони: Canceled — было отменено клиентом; Check-Out — клиент зарегистрировался, но уже покинул отель; No-Show — клиент не зарегистрировался и сообщил администрации отеля причину
* Reservation status date – дата обновления статуса

В этом уроке вы закрепите навыки решения аналитических задач с помощью основных методов библиотеки pandas и попробуете новые методы.

## Шаг 2

Как обычно, в начале откройте датасет и посмотрите на данные. Для этого используйте библиотеку pandas, прочитайте датасет с разделителем `;`, сохраните его в переменную `bookings`. **Посмотрите, из какой страны было сделано бронирование в 19-й сверху строке** (обратите внимание, индекс у этой строки может быть не 19)

Шаги выполнения:

1. Импортируйте библиотеку pandas с общепринятым алиасом (псевдонимом) pd

2. Загрузите csv файл к уроку в свою папку в JupyterНub

3. Прочитайте этот датасет с разделителем `;`, результат сохранив в переменную `bookings`

4. Выведите первые 19 строк датафрейма

5. Определите название страны из 19-й сверху строки в колонке `Country`

In [42]:
import pandas as pd
bookings = pd.read_csv('2_bookings.csv', sep=';')
bookings.head(19)['Country']


0     PRT
1     PRT
2     GBR
3     GBR
4     GBR
5     GBR
6     PRT
7     PRT
8     PRT
9     PRT
10    PRT
11    PRT
12    USA
13    ESP
14    PRT
15    IRL
16    PRT
17    IRL
18    FRA
Name: Country, dtype: object

## Шаг 3

Посмотрите на размеры датафрейма `bookings`. **Сколько всего в нем строк и столбцов?**

In [43]:
bookings.shape


(119390, 21)

## Шаг 4

**К какому типу/каким типам относится большинство столбцов?** Выберите один или несколько вариантов.

Шаги выполнения:
1. Проверьте типы данных в датафрейме

2. Определите, какой тип/какие типы данных преобладают

In [44]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

## Шаг 5

Как вы уже могли заметить, названия колонок записаны в неудобном для дальнейшей работы формате. **Исправьте ситуацию, приведя названия столбцов к нижнему регистру и заменив пробелы на знак нижнего подчеркивания**.
Например: `Is Canceled` -> `is_canceled`

Вручную это делать долго и неудобно, попробуйте автоматизировать ваше решение. Для этого могут пригодиться:

[rename](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html)  
[str.lower](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.lower.html)  
[str.replace](https://docs.python.org/3/library/stdtypes.html#str.replace)  
[columns](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html)

Подробнее о них можно прочитать в документации по ссылкам или в конспектах этого и предыдущего уроков.

Шаги выполнения:
1. На одном названии колонки потренируйтесь приводить его к нижнему регистру и заменять пробелы на знак нижнего подчеркивания. Для примера можете взять название колонки `Is Canceled` как строку, в кавычках.

2. Теперь используйте получившийся код для всех названий колонок. Пройдя циклом по списку колонок датафрейма, соберите словарь, в котором ключами будут старые названия колонок, а значениями — новые. Перед циклом, но желательно в той же ячейке, не забудьте создать пустой словарь, куда будете складывать пары названий колонок ключ-значение.

3. Убедитесь, что в словаре с названиями колонок получились именно те значения, которые вам нужны

4. Используя получившийся словарь, переименуйте колонки датафрейма `bookings`, сохранив результат в том же датафрейме

5. Убедитесь, что названия столбцов были успешно изменены и результат сохранен в датафрейм `bookings`

In [45]:
col_dict = {col_name: str(col_name).lower().replace(' ', '_') for col_name in bookings.columns}

In [46]:
bookings = bookings.rename(columns=col_dict)

## Шаг 6

Перейдем к исследованию данных. Чтобы вести успешный бизнес, нашей сети отелей нужно понимать своих клиентов. В этом задании выясните, пользователи из каких стран совершили наибольшее число успешных бронирований? Бронирование считается успешным, если в дальнейшем не было отменено (см.колонку `is_canceled`). **В качестве ответа выберите страны, входящие в топ-5 по числу успешных бронирований**.

In [57]:
bookings.query('is_canceled==0').country.value_counts().head()

PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
Name: country, dtype: int64

## Шаг 7

В нашей сети есть два типа отелей: City Hotel и Resort Hotel. Владельцы сети хотят понимать, отличается ли длительность бронирования в зависимости от типа отеля (см.колонку `hotel`). **Выясните, на сколько ночей (см.колонку `stays_total_nights`) в среднем бронируют отели City Hotel и на сколько Resort Hotel?** Запишите полученные значения в пропуски с точностью до двух знаков после точки.

Может пригодиться: [round](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.round.html)

Шаги выполнения:  
1. Сгруппируйте данные по типу отеля и посчитайте для каждой группы среднее число забронированных ночей

2. Округлите результаты до двух знаков после точки

In [71]:
bookings.groupby('hotel', as_index=False).stays_total_nights.mean()

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.978142
1,Resort Hotel,4.318547


## Шаг 8

Бывает, что в наших отелях случается [овербукинг](https://ru.wikipedia.org/wiki/Овербукинг). Тогда тип номера, присвоенного клиенту (см.колонку `assigned_room_type`), будет отличаться от изначально забронированного (см.колонку `reserved_room_type`). **Посчитайте, сколько подобных наблюдений встретилось в датасете?** Отмена бронирования также считается.

Шаги выполнения:
1. Отберите строки, где значения в колонке `assigned_room_type` не совпадают со значениями в колонке `reserved_room_type`

2. Посчитайте количество оставшихся строк

In [76]:
bookings.query('assigned_room_type != reserved_room_type').shape

(14917, 21)

## Шаг 9

Если у спроса на услугу есть сезонность, компании стоит это учесть. Проанализируйте даты запланированного прибытия (см.колонку `arrival_date_year`) и **определите, на какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017?**

Шаги выполнения:
1. Сгруппируйте данные по годам и посчитайте, сколько раз внутри года встречается каждый месяц

2. Посмотрите, в каком месяце было больше всего бронирований в 2016 году. А в 2017?

In [95]:
bookings.groupby(['arrival_date_year', 'arrival_date_month'], as_index=False).hotel.count()\
    .sort_values(['arrival_date_year','hotel'], ascending=False)\
    .query('arrival_date_year == 2017 | arrival_date_year == 2016')

Unnamed: 0,arrival_date_year,arrival_date_month,hotel
25,2017,May,6313
18,2017,April,5661
23,2017,June,5647
22,2017,July,5313
24,2017,March,4970
19,2017,August,4925
20,2017,February,4177
21,2017,January,3681
16,2016,October,6203
14,2016,May,5478


## Шаг 10

Продолжим изучать бронирования. **Выясните, в каком месяце каждого года бронирования отеля типа City Hotel отменялись чаще всего.**

Шаги выполнения:
1. Оставьте только записи об отмененных бронированиях (см.колонку `is_canceled`) отеля типа City Hotel (см.колонку `hotel`)

2. Сгруппируйте оставшиеся данные по годам и посчитайте количество записей для каждого месяца внутри года

3. Посмотрите, в каком месяце бронирования City Hotel отменялись чаще всего в 2015? 2016? 2017?

In [100]:
bookings\
    .query('is_canceled == 1 & hotel == "City Hotel"')\
    .groupby(['arrival_date_year', 'arrival_date_month'], as_index=False)\
    .lead_time.count()\
    .sort_values(['arrival_date_year','lead_time'], ascending=False)

Unnamed: 0,arrival_date_year,arrival_date_month,lead_time
25,2017,May,2217
18,2017,April,1926
23,2017,June,1808
22,2017,July,1324
24,2017,March,1278
19,2017,August,1123
21,2017,January,1044
20,2017,February,971
16,2016,October,1947
12,2016,June,1720


## Шаг 11

Теперь посмотрим на наших клиентов с точки зрения их возраста. **Какая из колонок `adults`, `children` и `babies` имеет наибольшее среднее значение?**

Шаги выполнения:
1. Оставьте в датафрейме только 3 колонки:  `adults`, `children` и `babies`

2. Посчитайте средние значения для оставшихся колонок

3. Посмотрите, среднее значение в какой колонке больше других?

In [102]:
bookings[['adults', 'children', 'babies']].mean()

adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

## Шаг 12

В наших данных информация о количестве детей записана в две колонки: `children` и `babies`. Это удобно, если нам нужно знать примерный возраст маленьких гостей, но неудобно, если нам требуется просто общее число детей. Для этого создайте колонку `total_kids`, объединив столбцы `children` и `babies`.

После того проверьте, для отелей какого типа среднее значение этой переменной оказалось наибольшим, для City hotel или Resort hotel. **В качестве ответа укажите наибольшее среднее `total_kids`, округлив до двух знаков после точки**.

Шаги выполнения:
1. Создайте колонку `total_kids`, сложив значения в столбцах `children` и `babies`

2. Сгруппируйте данные по типу отеля и посчитайте для каждой группы среднее количество детей

3. Округлите результаты до двух знаков после точки

4. Посмотрите, для отелей какого типа среднее значение оказалось наибольшим? Чему равно это значение?

In [103]:
bookings['total_kids'] = bookings['children']+bookings['babies']

In [105]:
bookings\
    .groupby('hotel').total_kids.mean().round(2)

hotel
City Hotel      0.10
Resort Hotel    0.14
Name: total_kids, dtype: float64

## Шаг 13

Бизнес не любит упускать прибыль, но не все бронирования завершились успешно (см.колонку `is_canceled`), поэтому попробуем посчитать, сколько клиентов было потеряно в процессе. Иными словами, посчитаем метрику под названием Churn Rate.

**Churn rate** (отток, коэффициент оттока) – это процент подписчиков, которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Т.е. представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах. Если Churn rate считают для какой-то определенной группы, то и количество ушедших пользователей, и общее количество пользователей считают только по этой группе.

В нашем случае Churn Rate — это процент клиентов, которые отменили бронирование. Давайте посмотрим, как эта метрика связана с наличием детей у клиентов. **Посчитайте Churn Rate дважды: для клиентов с детьми и для клиентов без детей. В качестве ответа укажите наибольший Churn Rate (% оттока), округленный до двух знаков после точки** (то есть доля 0.24563 будет 24.56% и в ответ пойдёт 24.56)

Шаги выполнения:  
1. Создайте колонку `has_kids`, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (см.созданную на прошлом шаге колонку `total_kids`), в противном случае – False

2. Получите 4 датафрейма, отобрав только нужные записи для каждого:  
1 — клиенты без детей, которые делали бронирование (не важно, отменяли его потом или нет)  
2 — клиенты без детей, которые отменили бронирование  
3, 4 — аналогичные два датафрейма для клиентов с детьми

3. Посчитайте количество записей в каждом из четырех датафреймов, чтобы получить число клиентов с теми или иными параметрами

4. Посчитайте Churn Rate клиентов без детей: разделите число клиентов без детей, которые отменили бронирование, на общее число клиентов без детей и переведите результат в проценты. По аналогии посчитайте Churn Rate клиентов с детьми

5. Округлите оба значения Churn Rate до двух знаков после точки

6. Посмотрите, какое из значений Churn rate больше: у клиентов с детьми или у клиентов без детей? Чему равно это значение?

In [123]:
bookings['has_kids'] = bookings.total_kids > 0

In [126]:
a1 = bookings.query('not has_kids').hotel.count()
a2 = bookings.query('not has_kids & is_canceled').hotel.count()
'Нет детей', a2/a1

('Нет детей', 0.37221283323338605)

In [127]:
b1 = bookings.query('has_kids').hotel.count()
b2 = bookings.query('has_kids & is_canceled').hotel.count()
'Есть дети', b2/b1

('Есть дети', 0.3492284612087441)

## Итоги

В этом проекте вы проанализировали данные о бронированиях и закрепили навыки работы с библиотекой pandas, а также узнали новые подходы к переименованию колонок и округлению значений, познакомились с метрикой Churn Rate.