# Типы данных pandas и особенности работы с датой и временем

### Цели и задачи проекта
В этой тетрадке используем датасет `hotel_dataset.csv`, который содержит информацию о бронированиях номеров в гостиницах. На примере датасета познакомимся с основными типами данных pandas, покажем, как их определить и при необходимости скорректировать. Также определим пропущенные значения в данных и разберём особенности работы с датой и временем в pandas.

### Описание данных
В проекте будут использованы данные датасета `hotel_dataset.csv` с таким описанием:
- `client id` — идентификатор клиента;
- `hotel id` — идентификатор отеля;
- `hotel Name` — название отеля;
- `number of rooms` — число комнат;
- `category of room` — категории комнат;
- `hotel Address` — адрес отеля;
- `price for the night` — стоимость проживания за ночь;
- `is balcon` — наличие в номере балкона;
- `is late Checkout` — возможен ли поздний выезд из отеля;
- `user check in datetime` — дата и время регистрации клиента;
- `user check out datetime` — дата и время выезда клиента;
- `booking channel` — вид бронирования;
- `length of Stay` — продолжительность пребывания;
- `room service ordered` — заказывалось ли обслуживание номера;
- `num adults` — число проживающих взрослых;
- `num children` — число проживающих детей;
- `amenities used` — заказ дополнительных услуг;
- `payment method` — метод оплаты номера.

### Содержимое проекта
1. Загрузка и знакомство с данными
2. Поиск пропущенных значений
3. Корректировка типа данных
4. Работа с датой и временем

## Загрузка и знакомство с данными:

Загрузим необходимые библиотеки для анализа данных и данные из датасета `hotel_dataset.csv`. Затем выведем основную информацию о данных с помощью метода `info()` и первые строки датафрейма.

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [8]:
# Выгружаем данные из датасета hotel_dataset.csv в датафрейм hotels
hotels = pd.read_csv('C:\\Users\\elena.kim\\Downloads\\hotel_dataset.csv')


In [9]:
# Выводим информацию о датафрейме
hotels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1688 entries, 0 to 1687
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   client id                1688 non-null   int64  
 1   hotel id                 1688 non-null   int64  
 2   hotel Name               1662 non-null   object 
 3   number of rooms          1688 non-null   int64  
 4   category of room         1688 non-null   object 
 5   hotel Address            1662 non-null   object 
 6   price for the night      1602 non-null   float64
 7   is balcon                1688 non-null   bool   
 8   is late Checkout         1688 non-null   bool   
 9   user check in datetime   1688 non-null   object 
 10  user check out datetime  1688 non-null   object 
 11  booking channel          1688 non-null   object 
 12  length of Stay           1688 non-null   int64  
 13  room service ordered     1688 non-null   bool   
 14  num adults              

In [10]:
# Выводим первые строки датафрейма на экран
hotels.head()

Unnamed: 0,client id,hotel id,hotel Name,number of rooms,category of room,hotel Address,price for the night,is balcon,is late Checkout,user check in datetime,user check out datetime,booking channel,length of Stay,room service ordered,num adults,num children,amenities used,payment method
0,1,89,Consider Lodge,26,Superior,"с. Норильск, пр. Гоголя, д. 6 стр. 239, 796481",4966.73,False,False,2023-04-13 11:15:21,2023-04-14 11:15:21,Online,2,False,2,2,,КРЕДИТНАЯ КАРТА
1,2,94,End Grand Hotel,66,Superior,"с. Прохладный, бул. Морозова, д. 8/3 к. 492, 7...",5843.81,False,False,2023-07-25 20:33:22,2023-07-31 20:33:22,Online,3,False,3,1,,КРЕДИТНАЯ КАРТА
2,3,75,Whatever Boutique Hotel,136,Suite,"клх Воркута, бул. Городской, д. 9/9, 111247",2974.54,False,False,2023-03-14 09:50:47,2023-03-15 09:50:47,Online,4,True,3,0,,ДЕБЕТОВАЯ КАРТА
3,4,75,Summer Resort,116,Standard,"к. Медногорск, пр. Мичурина, д. 80 к. 4/2, 868956",3433.05,False,False,2023-01-03 18:55:00,2023-01-08 18:55:00,Online,5,False,2,0,Spa,КРЕДИТНАЯ КАРТА
4,5,65,Culture Spa,68,Standard,"с. Батайск, ш. Высотное, д. 5 к. 7, 986577",7280.69,False,False,2023-07-22 10:57:58,2023-07-29 10:57:58,Travel Agency,5,False,3,0,Тренажёрный зал,КРЕДИТНАЯ КАРТА


Датасет `hotel_dataset.csv` содержит 18 столбцов и 1688 строк, в которых представлена информация о бронированиях гостиничных номеров.

Изучим типы данных и их корректность:
- **Булевые значения (bool).** Три столбца представлены типом `bool` — это `is balcon`, `is late Checkout` и `room service ordered`. Выбранный тип данных является корректным, так как эти столбцы содержат логическую информацию: `True` и `False`.
- **Целочисленные значения (int64).** Шесть столбцов имеют тип данных `int64`, что подходит для представленных данных. Это `client id`, `hotel id`, `number of rooms`, `length of Stay`, `num adults`, `num children`.
    Для этих данных тип `int64` корректен, однако можно уменьшить разрядность до `int32` или `int16`, если значения достаточно малы и это не повлияет на точность.
- **Числовые значения с плавающей запятой (float64).** Один столбец, `price for the night`, содержит стоимость за ночь и представлен типом `float64`. Это верное решение, так как цена может включать дробные значения.
- **Строковые данные (object).** Восемь столбцов имеют тип данных `object`:
    - `hotel Name`, `hotel Address` и `booking channel` содержат строковую информацию (название отеля, его адрес и канал бронирования), что логично для текстовых данных. Здесь тип данных `object` подходит.
    - `user check in datetime` и `user check out datetime` хранят информацию о дате и времени заселения и выезда гостей. Для таких данных рекомендуется использовать тип `datetime64`, который облегчит выполнение временных вычислений и упростит анализ временных периодов.
    - `category of room`, `amenities used` и `payment method` также хранят текстовые данные, но их можно рассматривать как категориальные признаки. В этом случае можно использовать тип `category`, чтобы улучшить производительность и оптимизировать память, если набор значений ограничен и заведомо известен.

После анализа типов данных видно, что большинство столбцов корректно представлены. Однако для оптимизации можно использовать целочисленные типы с уменьшенной разрядностью и преобразовать строковые данные даты и времени в тип `datetime64`.

In [11]:
# Выводим количество пропущенных строк в датафрейме
hotels.isna().sum()

client id                    0
hotel id                     0
hotel Name                  26
number of rooms              0
category of room             0
hotel Address               26
price for the night         86
is balcon                    0
is late Checkout             0
user check in datetime       0
user check out datetime      0
booking channel              0
length of Stay               0
room service ordered         0
num adults                   0
num children                 0
amenities used             315
payment method               0
dtype: int64

In [13]:
# Подсчитываем процент строк с пропусками
hotels.isna().sum() / len(hotels) * 100

client id                   0.000000
hotel id                    0.000000
hotel Name                  1.540284
number of rooms             0.000000
category of room            0.000000
hotel Address               1.540284
price for the night         5.094787
is balcon                   0.000000
is late Checkout            0.000000
user check in datetime      0.000000
user check out datetime     0.000000
booking channel             0.000000
length of Stay              0.000000
room service ordered        0.000000
num adults                  0.000000
num children                0.000000
amenities used             18.661137
payment method              0.000000
dtype: float64

In [14]:
# Преобразовываем типы данных с понижением разрядности
for column in ['number of rooms','length of Stay',
               'num adults','num children']:
    hotels[column] = pd.to_numeric(hotels[column], downcast='integer')

In [15]:
# Преобразовываем тип данных столбцов user check in datetime и user check out datetime
# к типу datetime64
hotels['user check in datetime'] = pd.to_datetime(hotels['user check in datetime'])
hotels['user check out datetime'] = pd.to_datetime(hotels['user check out datetime'])

In [16]:
# Проверяем результат преобразования
hotels[['number of rooms','length of Stay','num adults','num children',
 'user check in datetime','user check out datetime']].dtypes

number of rooms                     int16
length of Stay                       int8
num adults                           int8
num children                         int8
user check in datetime     datetime64[ns]
user check out datetime    datetime64[ns]
dtype: object

Для оптимизации работы с данными в датафрейме были сделаны такие изменения типов данных:
- `number of rooms`: тип данных изменён с `int64` на `int16`.
- `length of Stay`, `num adults` и `num children`: тип данных изменён с `int64` на `int8`.
- `user check in datetime` и `user check out datetime`: тип данных изменён с `object` на `datetime64`.

In [18]:
# Находим минимальную и максимальную даты заселения
min_date = hotels['user check in datetime'].min()
max_date = hotels['user check in datetime'].max()

# Выводим результат
print('Минимальная дата заселения:', min_date)
print('Максимальная дата заселения:', max_date)

Минимальная дата заселения: 2023-01-01 13:25:31
Максимальная дата заселения: 2023-12-31 11:23:30


In [19]:
# Преобразуем тип данных столбца user check out datetime в тип datetime64
hotels['user check out datetime'] = pd.to_datetime(hotels['user check out datetime'])

# Создаём новый столбец с отформатированным выводом даты выезда клиента
hotels['user_check_out_date_f'] = hotels['user check out datetime'].dt.strftime('%d %b %Y')

# Выводим результат
hotels[['user check out datetime', 'user_check_out_date_f']].head()

Unnamed: 0,user check out datetime,user_check_out_date_f
0,2023-04-14 11:15:21,14 Apr 2023
1,2023-07-31 20:33:22,31 Jul 2023
2,2023-03-15 09:50:47,15 Mar 2023
3,2023-01-08 18:55:00,08 Jan 2023
4,2023-07-29 10:57:58,29 Jul 2023


In [21]:
# Создаём новый столбец с временем проживания клиента
hotels['stay_duration'] = hotels['user check out datetime'] - hotels['user check in datetime']

# Выводим результат
stay_duration = hotels[['stay_duration']].mean()[0]

print(f'Среднее время проживания в номере: {stay_duration}')

Среднее время проживания в номере: 5 days 02:19:03.127962085


  stay_duration = hotels[['stay_duration']].mean()[0]


In [22]:
# Считаем целое количество дней
hotels['stay_duration_days'] = hotels['stay_duration'] / pd.to_timedelta('1 D') 

# Меняем тип данных на целочисленный
hotels['stay_duration_days'] = hotels['stay_duration_days'].astype('int64')

# Выводим результат
stay_duration_mode = hotels['stay_duration_days'].mode()[0]
print(f'Мода количества дней проживания: {stay_duration_mode} дней')

Мода количества дней проживания: 7 дней


В результате дополнительной обработки данных с временем и датой были получены такие результаты:
- Минимальная дата заселения — 1 января 2023 года, а максимальная 31 декабря 2023 года. Таким образом, можно говорить о том, что данные о бронировании представлены за один календарный год.
- Среднее время проживания в номере составляет 5 дней 2 часа 19 минут. Это типично для краткосрочных поездок, таких как небольшие отпуска или командировки.
- Мода количества дней проживания — 7 дней. Мода отличается от среднего значения в большую сторону, что может говорить о том, что чаще всего гости останавливались на неделю.

## Основные выводы и результаты

Были загружены данные `hotel_dataset.csv`. Они содержат 18 столбцов и 1688 строк, в которых представлена информация о бронированиях гостиничных номеров. При первичном знакомстве с данными и их предобработкой получили такие результаты:
- В четырёх столбцах (`hotel Name`, `hotel Address`, `price for the night`, `amenities used`) были обнаружены пропущенные значения. Максимальное значение пропущенных данных в столбце `amenities used` — 18%.
- Для оптимизации работы с данными в датафрейме были произведены следующие изменения типов данных:
    - `number of rooms`: тип данных изменён с `int64` на `int16`.
    - `length of Stay`, `num adults` и num `children`: тип данных изменён с `int64` на `int8`.
    - `user check in datetime` и `user check out datetime`: тип данных изменён с `object` на `datetime64`.
- Для дополнительной работы с данными были созданы дополнительные столбцы:
    - `user_check_out_date_f`: столбец с отформатированной датой выезда гостей в формате: день, сокращённое название месяца и четырёхзначный год;
    - `stay_duration`: столбец с разницей между датой и временем выезда (`столбец user check out datetime`) и датой и временем заезда (`столбец user check in datetime`);
    - `stay_duration_days`: столбец с количеством дней, проведённых гостем в номере.