# 1. Exploratory Data Analysis
Давайте посмотрим на данные :)

Для справки, по условию задачи мы имеем такие колонки в таблице:
1. "rate_name" - строка с описанием номера отеля на английском языке, длина - не более 500 символов.
Пример: “Standard TWO BEDS CAPACITY 1 PAX”.

2. "class" – тип номера, **дополнительное** поле для предсказания,
может принимать следующие значения (всего 14 классов):
    - run-of-house
    - dorm
    - capsule
    - room
    - junior-suite
    - suite
    - apartment
    - studio
    - villa
    - cottage
    - bungalow
    - chalet
    - camping
    - tent

3. "quality" - класс номера, **дополнительное** поле для предсказания,
может принимать следующие значения (всего 19 классов):
    - undefined
    - economy
    - standard
    - comfort
    - business
    - superior
    - deluxe
    - premier
    - executive
    - presidential
    - premium
    - classic
    - ambassador
    - grand
    - luxury
    - platinum
    - prestige
    - privilege
    - royal

4. "bathroom" - тип ванной, **дополнительное** поле для предсказания,
может принимать следующие значения (всего 4 класса):
    - undefined
    - shared bathroom
    - private bathroom
    - external private bathroom

5. "bedding" - тип кровати, **обязательное** поле для предсказания,
может принимать следующие значения (всего 5 классов):
    - undefined
    - bunk bed
    - single bed
    - double/double-or-twin (aka "twin/twin-or-double", эти два значения можно рассматривать как одно и то же, согласно организаторам)
    - multiple

6. "capacity" - количество мест, **обязательное** поле для предсказания,
может принимать следующие значения (всего 7 классов):
    - undefined
    - single
    - double
    - triple
    - quadruple
    - quintuple
    - sextuple

7. "bedrooms" - количество спальных комнат, **поле не для предсказания**,
может принимать следующие значения (всего 7 классов):
    - undefined
    - 1 bedroom
    - 2 bedrooms
    - 3 bedrooms
    - 4 bedrooms
    - 5 bedrooms
    - 6 bedrooms

8. "club" - признак того, является ли номер клубным, **дополнительное** поле для предсказания,
может принимать следующие значения (всего 2 класса):
    - not club
    - club

9. "balcony" - наличие балкона, **дополнительное** поле для предсказания,
может принимать следующие значения (всего 2 класса):
    - no balcony
    - with balcony (в данных "balcony")

10. "view" - вид из номера, **обязательное** поле для предсказания,
может принимать следующие значения (всего 34 класса):
    - undefined
    - bay view
    - bosphorus view
    - burj-khalifa view
    - canal view
    - city view
    - courtyard view
    - dubai-marina view
    - garden view
    - golf view
    - harbour view
    - inland view
    - kremlin view
    - lake view
    - land view
    - mountain view
    - ocean view
    - panoramic view
    - park view
    - partial-ocean view
    - partial-sea view
    - partial view
    - pool view
    - river view
    - sea view
    - sheikh-zayed view
    - street view
    - sunrise view
    - sunset view
    - water view
    - with view
    - beachfront
    - ocean front
    - sea front

11. "floor" - этажность номера, **поле не для предсказания**,
может принимать следующие значения:
    - undefined
    - penthouse floor
    - duplex floor
    - basement floor
    - attic floor

## 1.1 Смотрим на всё и сразу

In [1]:
import pandas as pd
from ydata_profiling import ProfileReport

In [2]:
rates_clean = pd.read_csv("../raw_data/rates_clean.csv")
rates_clean.head()

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
0,deluxe triple room,room,deluxe,private bathroom,,triple,not club,,no balcony,,
1,Premium Two Queen Room with Living Lrea\tHigh ...,room,premium,private bathroom,,double,not club,,no balcony,,
2,Premier Premier Seaview Sea,room,premier,private bathroom,,,not club,,no balcony,sea view,
3,Queen room (1 Queen Bed),room,standard,private bathroom,double/double-or-twin,double,not club,,no balcony,,
4,Studio - Pool access Studio - Pool access pool,studio,,private bathroom,,,not club,,no balcony,,


In [3]:
rates_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11979 entries, 0 to 11978
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   rate_name  11978 non-null  object
 1   class      11979 non-null  object
 2   quality    9177 non-null   object
 3   bathroom   11969 non-null  object
 4   bedding    6750 non-null   object
 5   capacity   7717 non-null   object
 6   club       11979 non-null  object
 7   bedrooms   1565 non-null   object
 8   balcony    11979 non-null  object
 9   view       2882 non-null   object
 10  floor      236 non-null    object
dtypes: object(11)
memory usage: 1.0+ MB


In [4]:
ProfileReport(rates_clean).to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

### 1.1.1 Проблемы с данными

Какие проблемы я нашёл благодаря отчёту:
- В колонке "rate_name" есть пропуски. Для простоты можно заполнять NaN в этой колонке значением "undefined", но сначала нужно посмотреть, какие там заданы атрибуты.
- В колонке "rate_name" есть дубликаты. Перед использованием этих данных для обучения нужно убедиться, что для одинаковых тарифов заданы одинаковые атрибуты, и убрать дубликаты для избежания "утечек" тестовой выборки.
- Некоторые классы представлены маленьким количеством примеров или не представлены вовсе. Например, в столбце "capacity" класс "sextuple" представлен лишь 1-м примером, а "quintuple" не представлен совсем. Возможно, имеет смысл взять больше примеров из "rates_dirty" или сгенерировать синтетические. При этом почти во всех атрибутах наблюдается сильный перекос в классах: большинство примеров относятся к одному из них, а остатки распределены по остальным категориям.

Посмотрим на пример с пустым тарифом:

In [5]:
rates_clean[rates_clean["rate_name"].isna()]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
903,,room,standard,private bathroom,,,not club,,no balcony,,


В примере есть заполненные поля, у которых возможно значение "undefined", но при этом у них установлено какое-то осмысленное значение. Этот пример лучше будет убрать из выборки дл обучения.

Теперь перейдём к дубликатам:

In [6]:
# Для корректной проверки на одинаковость заменим NaN на строку "undefined"
rates_without_nan = rates_clean.fillna("undefined")

duplicates_by_name = rates_without_nan[
    rates_without_nan["rate_name"].duplicated(keep=False)
]
full_duplicates = rates_without_nan[rates_without_nan.duplicated(keep=False)]
duplicates_by_name.compare(
    full_duplicates
)  # Этот метод должен вернуть разность двух датафреймов

In [7]:
duplicates_by_name.shape

(1941, 11)

In [8]:
rates_clean_unique = rates_without_nan.drop_duplicates()

К счастью, все дубли имеют одинаковые атрибуты, поэтому можно спокойно убрать лишние записи. Ещё нам это говорит о том, что разметка тарифа зависит только от его описания, а не от какой-нибудь дополнительной информации вроде описания отеля.

Рассмотрим подробнее, примеров каких классов не хватает. Я не буду рассматривать колонки, для которых не нужно делать предсказания.

In [9]:
rates_clean_unique["class"].value_counts().to_frame()

Unnamed: 0_level_0,count
class,Unnamed: 1_level_1
room,7158
suite,1919
apartment,622
junior-suite,429
studio,305
villa,299
dorm,59
cottage,43
bungalow,30
chalet,15


In [10]:
rates_clean_unique[rates_clean_unique["class"] == "camping"].shape

(0, 11)

In [11]:
rates_clean_unique["quality"].value_counts().to_frame()

Unnamed: 0_level_0,count
quality,Unnamed: 1_level_1
standard,3436
undefined,2585
deluxe,1606
superior,984
executive,459
premium,443
classic,321
economy,223
comfort,182
premier,165


In [12]:
rates_clean_unique[rates_clean_unique["quality"] == "platinum"].shape

(0, 11)

In [13]:
rates_clean_unique["bathroom"].value_counts().to_frame()

Unnamed: 0_level_0,count
bathroom,Unnamed: 1_level_1
private bathroom,10740
shared bathroom,155
undefined,8


In [14]:
rates_clean_unique[rates_clean_unique["bathroom"] == "external private bathroom"].shape

(0, 11)

In [15]:
rates_clean_unique["bedding"].value_counts().to_frame()

Unnamed: 0_level_0,count
bedding,Unnamed: 1_level_1
undefined,4774
double/double-or-twin,4373
twin/twin-or-double,1481
single bed,131
multiple,109
bunk bed,35


In [64]:
rates_clean_unique["capacity"].value_counts().to_frame()

Unnamed: 0_level_0,count
capacity,Unnamed: 1_level_1
double,5969
undefined,3882
single,410
quadruple,398
triple,243
sextuple,1


In [65]:
rates_clean_unique[rates_clean_unique["capacity"] == "quintuple"].shape

(0, 11)

In [66]:
rates_clean_unique["club"].value_counts().to_frame()

Unnamed: 0_level_0,count
club,Unnamed: 1_level_1
not club,10709
club,194


In [67]:
rates_clean_unique["balcony"].value_counts().to_frame()

Unnamed: 0_level_0,count
balcony,Unnamed: 1_level_1
no balcony,10317
balcony,586


In [68]:
rates_clean_unique["view"].value_counts().to_frame()

Unnamed: 0_level_0,count
view,Unnamed: 1_level_1
undefined,8131
sea view,858
city view,416
garden view,246
pool view,186
ocean view,154
partial-sea view,149
with view,116
water view,86
ocean front,67


In [69]:
rates_clean_unique[rates_clean_unique["view"] == "dubai-marina view"].shape

(0, 11)

В итоге у нас отсутствуют следующие классы:
- "camping" в поле "class",
- "platinum" в поле "quality",
- "external private bathroom" в поле "bathroom",
- "quintuple" в поле "capacity",
- "dubai-marina view" в поле "view".

Помимо этого, у следующих классов представлено очень маленькое количество примеров (менее 10):
- "tent" в поле "class" (9),
- "run-of-house" в поле "class" (8),
- "capsule" в поле "class" (7),
- "undefined" в поле "bathroom" (8),
- "sextuple" в поле "capacity" (1),
- "panoramic view" в поле "view" (9),
- "street view" в поле "view" (5),
- "sheikh-zayed view" в поле "view" (5),
- "sunrise view" в поле "view" (4),
- "kremlin view" в поле "view" (1).

Посмотрим, как обстоят дела в "rates_dirty", может можно будет взять недостающие примеры оттуда:

In [35]:
rates_dirty = pd.read_csv("../raw_data/rates_dirty.csv")
rates_dirty.head()

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
0,Standard - Double Room - With Breakfast,room,standard,private bathroom,double/double-or-twin,double,not club,,no balcony,,
1,6 Bed Non AC Mixed Dorm (1 Twin Bunk Bed),dorm,,shared bathroom,,,not club,,no balcony,,
2,Standard Twin Room non-smoking,room,standard,private bathroom,twin/twin-or-double,double,not club,,no balcony,,
3,"Deluxe Suite, Single or Double/Twin Bed",suite,deluxe,private bathroom,double/double-or-twin,single,not club,,no balcony,,
4,King Premium Mountain View,room,premium,private bathroom,,,not club,,no balcony,mountain view,


In [36]:
rates_dirty.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180443 entries, 0 to 180442
Data columns (total 11 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   rate_name  180442 non-null  object
 1   class      180443 non-null  object
 2   quality    161421 non-null  object
 3   bathroom   180370 non-null  object
 4   bedding    126466 non-null  object
 5   capacity   146302 non-null  object
 6   club       180443 non-null  object
 7   bedrooms   9799 non-null    object
 8   balcony    180443 non-null  object
 9   view       21631 non-null   object
 10  floor      3161 non-null    object
dtypes: object(11)
memory usage: 15.1+ MB


Тут тоже видим пустой "rate_name":

In [37]:
rates_dirty[rates_dirty["rate_name"].isna()]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
95946,,room,standard,private bathroom,,,not club,,no balcony,,


In [38]:
rates_dirty_without_nan = rates_dirty.fillna("undefined")

In [39]:
ProfileReport(rates_dirty_without_nan).to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [40]:
rates_dirty_without_nan["class"].value_counts().to_frame()

Unnamed: 0_level_0,count
class,Unnamed: 1_level_1
room,151193
suite,7198
studio,6222
apartment,5828
junior-suite,3551
dorm,2537
class,1859
villa,806
bungalow,392
cottage,365


Интересно, у нас так и не появился класс "camping", но зато появился класс "class", посмотрим-ка на такие примеры: 

In [41]:
rates_dirty[rates_dirty["class"] == "class"].head()

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
58,name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
140,name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
151,name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
185,name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
224,name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor


Стало ещё интересней. Судя по отчёту, в "rates_dirty" 1859 таких примеров. Их уж точно стоит выкинуть, чтобы использовать эту выборку :P

In [42]:
rates_dirty_without_sus_records = rates_dirty_without_nan[
    rates_dirty_without_nan["class"] != "class"
]

In [43]:
ProfileReport(rates_dirty_without_sus_records).to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Похоже, что в выборке очень много дубликатов по "rate_name". Проверим, что у них одинаковая разметка: 

In [52]:
duplicates_by_name = rates_dirty_without_sus_records[
    rates_dirty_without_sus_records["rate_name"].duplicated(keep=False)
]
full_duplicates = rates_dirty_without_sus_records[
    rates_dirty_without_sus_records.duplicated(keep=False)
]
duplicates_by_name.compare(full_duplicates)

In [53]:
duplicates_by_name.shape

(130750, 11)

In [54]:
unique_dirty_rates = rates_dirty_without_sus_records.drop_duplicates()
ProfileReport(unique_dirty_rates).to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Вернусь к поиску недостающих примеров:

In [70]:
unique_dirty_rates["quality"].value_counts().to_frame()

Unnamed: 0_level_0,count
quality,Unnamed: 1_level_1
standard,29381
undefined,9951
deluxe,8019
superior,7304
classic,2429
comfort,2056
economy,2024
premium,1339
executive,1157
business,604


Тут нашёлся недостающий класс "platinum", посмотрим на эти примеры:

In [71]:
unique_dirty_rates[unique_dirty_rates["quality"] == "platinum"]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
2896,Platinum King Room (1 King Bed),room,platinum,private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
3345,Platinum Suite,suite,platinum,private bathroom,undefined,undefined,not club,undefined,no balcony,undefined,undefined
85106,Suite (Rock Platinum) BC,suite,platinum,private bathroom,undefined,undefined,not club,undefined,no balcony,undefined,undefined
139388,"Platinum King, 1 King Bed",room,platinum,private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined


Я согласен с разметкой этих примеров, их стоит включить в обучающую выборку, но их всё ещё довольно мало. Идём дальше по недостающим классам:

In [72]:
unique_dirty_rates[unique_dirty_rates["bathroom"] == "undefined"].head()

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
2035,Run of House - No Parking (Check-In After 3PM),run-of-house,undefined,undefined,undefined,undefined,not club,undefined,no balcony,undefined,undefined
5814,Room Assigned on Arrival,run-of-house,undefined,undefined,undefined,undefined,not club,undefined,no balcony,undefined,undefined
8016,"Room, Run of House,1 Double Bed,NonSmoking",run-of-house,undefined,undefined,undefined,undefined,not club,undefined,no balcony,undefined,undefined
11666,ROH KING,run-of-house,undefined,undefined,undefined,undefined,not club,undefined,no balcony,undefined,undefined
13391,Standard ROH - 2 Double Beds,run-of-house,undefined,undefined,undefined,undefined,not club,undefined,no balcony,undefined,undefined


In [73]:
unique_dirty_rates[
    (unique_dirty_rates["bathroom"] == "undefined")
    & (unique_dirty_rates["class"] != "run-of-house")
].head()

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor


Посмотрим, сохраняется ли такое условие в "rates_clean":

In [74]:
rates_clean_unique[
    (rates_clean_unique["bathroom"] == "undefined")
    & (rates_clean_unique["class"] != "run-of-house")
]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor


Получается, что "bathroom" равно "undefined", то тогда "class" должен быть "run-of-house". В принципе справедливо, ведь пока не заедешь в run-of-house, не узнаешь, что за комната достанется.

In [75]:
unique_dirty_rates[unique_dirty_rates["bathroom"] == "external private bathroom"]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
2874,"Double Room (Private Bathroom Outside Room), N...",room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
3035,Double or Twin Room with Private External Bath...,room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
15351,Twin Room (External Private Bathroom),room,standard,external private bathroom,twin/twin-or-double,double,not club,undefined,no balcony,undefined,undefined
17384,Double Room with Private External Bathroom,room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
44086,Family Room with Private External Bathroom N...,room,standard,external private bathroom,undefined,undefined,not club,undefined,no balcony,undefined,undefined
76718,"Double Room, Private Bathroom (External)(1 Dou...",room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
81903,"Suite (Private External Bathroom), Single or D...",suite,undefined,external private bathroom,double/double-or-twin,single,not club,undefined,no balcony,undefined,undefined
101308,"Double Room, Private Bathroom (External) (1 Do...",room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined
106255,Double Room with Private External Bathroom s...,room,standard,external private bathroom,double/double-or-twin,single,not club,undefined,no balcony,undefined,undefined
110532,Double Room with Private External Bathroom,room,standard,external private bathroom,double/double-or-twin,double,not club,undefined,no balcony,undefined,undefined


Снова видим хорошие примеры, которыми можно было бы расширить выборку для обучения. Переходим к следующей колонке:

In [76]:
unique_dirty_rates["capacity"].value_counts().to_frame()

Unnamed: 0_level_0,count
capacity,Unnamed: 1_level_1
double,41467
undefined,14643
single,5595
quadruple,2568
triple,1671
quintuple,9
sextuple,3


In [78]:
unique_dirty_rates[unique_dirty_rates["capacity"].isin(["quintuple", "sextuple"])]

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
26005,Sextuple Room (3 Adults + 2 Children).,room,standard,private bathroom,undefined,sextuple,not club,undefined,no balcony,undefined,undefined
27792,Standard Room (Quintuple) (5 Twin Beds),room,standard,private bathroom,undefined,quintuple,not club,undefined,no balcony,undefined,undefined
30882,"FOUR SINGLE BEDS DELUXE ROOM WITH HARAM VIEW, ...",room,deluxe,private bathroom,single bed,quintuple,not club,undefined,no balcony,undefined,undefined
35665,Sextuple Room,room,standard,private bathroom,undefined,sextuple,not club,undefined,no balcony,undefined,undefined
36533,Quintuple Room Bed and Breakfast,room,standard,private bathroom,undefined,quintuple,not club,undefined,no balcony,undefined,undefined
78518,Standard room with 5 single beds,room,standard,private bathroom,single bed,quintuple,not club,undefined,no balcony,undefined,undefined
103546,Quintuple Room non-smoking,room,standard,private bathroom,undefined,quintuple,not club,undefined,no balcony,undefined,undefined
119468,Quintuple Room,room,standard,private bathroom,undefined,quintuple,not club,undefined,no balcony,undefined,undefined
137362,Apartment with 3 rooms for 6 people Sextuple,apartment,undefined,private bathroom,undefined,sextuple,not club,3 bedrooms,no balcony,undefined,undefined
171364,Quintuple Apartments with kitchen (Korvet buil...,apartment,undefined,private bathroom,undefined,quintuple,not club,undefined,no balcony,undefined,undefined


In [79]:
unique_dirty_rates.loc[30882, "rate_name"]

'FOUR SINGLE BEDS DELUXE ROOM WITH HARAM VIEW, COMP WIFI/COFFEE-TEA FACILITIES/49 INCH HDTV, 63 SQM/IRON-BOARD/SAFE/MINIBAR/WALKIN SHOWER Quintuple'

Интересно, комната для 3-х взрослых и 2-х детей - это комната на шестерых, а четыре одиночные кровати - это комната на пятерых. Похоже, что пятый человек из этой комнаты ушёл в комнату на шестерых :D К разметке тут вопросов нет, а к исходным описаниям - есть. Посмотрим на последнюю оставшуюся колонку:

In [80]:
unique_dirty_rates["view"].value_counts().to_frame()

Unnamed: 0_level_0,count
view,Unnamed: 1_level_1
undefined,52676
sea view,2830
city view,2792
garden view,1685
pool view,805
partial-sea view,666
with view,627
ocean view,509
mountain view,507
river view,372


In [81]:
unique_dirty_rates[unique_dirty_rates["view"] == "dubai-marina view"].shape

(0, 11)

In [84]:
unique_dirty_rates[unique_dirty_rates["view"] == "kremlin view"].shape

(0, 11)

Недостающего класса "dubai-marina view" так и не нашлось :( Похоже, придётся примеры для этой категории выдумывать с нуля. Посмотрим на редкие, но присутствующие классы:

In [83]:
unique_dirty_rates[
    unique_dirty_rates["view"].isin(["sheikh-zayed view", "sunrise view"])
].head(10)

Unnamed: 0,rate_name,class,quality,bathroom,bedding,capacity,club,bedrooms,balcony,view,floor
4924,Sunrise Villa - Transfer Included (GAN Airport...,villa,undefined,private bathroom,undefined,undefined,not club,undefined,no balcony,sunrise view,undefined
15611,SUNRISE STUDIO,studio,undefined,private bathroom,undefined,undefined,not club,undefined,no balcony,sunrise view,undefined
15694,Villa Sunrise Beach Pool Villa,villa,undefined,private bathroom,undefined,undefined,not club,undefined,no balcony,sunrise view,undefined
19718,Sunrise Villa Double With Return Speedboat Tra...,villa,premium,private bathroom,double/double-or-twin,double,not club,undefined,no balcony,sunrise view,undefined
21010,Overwater Pool Villa Sunrise with arrival Seap...,villa,undefined,private bathroom,undefined,undefined,not club,undefined,no balcony,sunrise view,undefined
23646,"Classic Room, Guest room, 1 King, Sheikh Zayed...",room,classic,private bathroom,double/double-or-twin,double,not club,undefined,balcony,sheikh-zayed view,undefined
27704,Rover Room - Easy Access To Sheikh Zayed Road ...,room,standard,private bathroom,double/double-or-twin,double,not club,undefined,no balcony,sheikh-zayed view,undefined
34748,Superior Room Sheikh Zayed View,room,superior,private bathroom,undefined,undefined,not club,undefined,no balcony,sheikh-zayed view,undefined
53312,"Beach Villa (Sunrise View, Private Pool - Seap...",villa,undefined,private bathroom,undefined,undefined,not club,undefined,no balcony,sunrise view,undefined
58797,Sunrise Pool Water Vila With Sea Plane Transfe...,villa,undefined,private bathroom,double/double-or-twin,double,not club,undefined,no balcony,sunrise view,undefined


## 1.2 Смотрим только на описания тарифов "rate_name"
Проверим, может ли там быть что-то кроме описания на английском языке

In [106]:
non_english_non_punct_char_regex = r"[^a-zA-Z\.\-!,?:;\(\)\[\]\d\s\+\/&%–'#*№\\\"«»\|]"

pd.set_option("display.max_colwidth", 255)

filtered_records = rates_clean_unique[
    rates_clean_unique["rate_name"].str.contains(non_english_non_punct_char_regex)
]
print(filtered_records.shape)
filtered_records[["rate_name"]]

(36, 11)


Unnamed: 0,rate_name
610,bed in Dormitory bed in a female 6-bed room (санузел и душ на этаже) (bathroom and shower on the floor) (Shared facilities)
1207,FAMILY ROOM WİTH 2 BENDROOM POOL VİEW Single bed(4 Amount)
1354,2-room superior apartment Teterinsky lane 14с2 double
2149,Madame Rêve Suite - Paris Monuments View – Terrace
2392,"Two-Bedroom Duplex Suite 46m², annex building, (41 rue du Roi de Sicile) (1 Queen Bed, 1 King Bed and 1 Queen Sofa Bed)"
2755,Executive Room (Vendôme) (1 Queen Bed)
3411,3-bed сomfort room with 1 double and sofa bed double (Main Building)
3502,Superior Panthéon Room
3625,Deluxe Marina Suite - Sea View with Butler Service (Duplex Suite - 558 ft²)(with breakfast)
3683,Chambre pour 8 personnes avec Salle de bain privée (8 Twin Beds)


In [113]:
filtered_dirty_records = unique_dirty_rates[
    unique_dirty_rates["rate_name"].str.contains(non_english_non_punct_char_regex)
]
print(filtered_records.shape)
filtered_dirty_records[["rate_name"]].head(40)

(36, 11)


Unnamed: 0,rate_name
72,STANDART ODA ÇİFT KİŞİLİK Double(1 Amount)
136,2-мест. без удобств
611,Chambre Double Confort Hébergement
686,Habitación Standard
944,"Standard Oda, 1 Çift Kişilik veya 2 Tek Kişilik Yatak(1 Double Bed)"
1841,Deluxe Room With Sea View<Side>
1918,"Habitación Individual, 1 cama doble (1 Double Bed)"
2326,City Room with Two Queen Beds including $75 Food & Beverage Credit per Stay
2872,Double room. Superior. Breakfast. Ca 36 m². Balcony. View of the garden.
3304,"Standart - İki Yataklı Oda, Single or Double/Twin Bed"


1. В словах могут быть опечатки (например, "Lrea") или похожие символы (например, "İ" вместо "I").
2. В обоих файлах встречаются описания целиком на русском, французском, испанском и турецком.
3. Даже если описание в основном на английском, в нём могут встречаться слова на других языках, например, на турецком.

Редкие слова на других языках можно просто исключить из описания без потери смысла. А если описание целиком не на английском, то так просто разобраться с ними не получится. Раз уж я склоняюсь к дополнению данных, то попробую добавить и примеры на разных языках.

## 1.3 Выводы

Поковырявшись в данных, я выбрал такой план дальнейших действий:
1. Почистить данные от неудачных примеров: пустые описания, дубликаты и т.д.
2. Дополнить данные, добавив в rates_clean удачные примеры редких классов из rates_dirty.
3. Сгенерировать с помощью LLM примеры классов, которые не представлены в rates_clean.
4. Сгенерировать с помощью LLM примеры описаний тарифов на разных языках (русском, французском, испанском и турецком).
5. Так как задача требует большой пропускной способности, и описания тарифов имеют похожую структуру и слова-маркеры (уникальных слов не так уж и много, по авто-отчётам в rates_clean около 2000, в rates_dirty - около 10000), то имеет смысл использовать простые методы для векторизации и классификации из классического ML. Например, TfidfVectorizer и RidgeClassifier.