# Цель задания

Собрать новый датасет с помощью парсинга данных.

## Формат сдачи

Пришлите ссылку на репозиторий, в котором находятся:
* Jupiter Notebook с кодом.
* Итоговый датасет — файл в формате .csv.

**Критерии оценки**:

* Датасет содержит все необходимые поля; размер датасета соответствует эталонному на 90% и более, обучена модель, отправлен сабмишн и выводы — 5 баллов.
* Датасет содержит все необходимые поля; размер датасета соответствует эталонному менее чем на 90%, правильная логика на этапах матчинга, парсинга доп. характеристик авто и мерджа с исходным датасетом — 4 балла.
* Датасет содержит все или почти все необходимые поля; размер датасета соответствует эталонному менее чем на 90% допущена серьезная ошибка на одном из этапов: матчинг, парсинг доп. характеристик авто и мердж с исходным датасетом — 3 балла.
* Получилось спарсить ссылки на модели автомобилей — 2 балла.
* Код не исполняется; нет датасета — 1 балл.

# <center> 🤼‍♀️ Разминаемся (Задание 1)
В качестве первого задания вам предстоит достать значения средних зарплат по городам России. Сайт, на котором они хранятся: https://stepik.org/media/attachments/lesson/866758/mean_salary_by_city.html

Ответ - датафрейм, котором города идут в алфавитном порядке.

Пример ответа:

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image1.png?raw=true' width="550" >

In [1]:
!pip install requests
!pip install beautifulsoup4




In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://stepik.org/media/attachments/lesson/866758/mean_salary_by_city.html"

response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

cities = soup.find_all("div", class_="reg_name")
salaries = soup.find_all("div", class_="col-xl-3 col-4 text-right")

data = []
for city, salary in zip(cities, salaries):
    city_name = city.get_text()
    avg_salary = salary.get_text()
    data.append([city_name, avg_salary])

# Сортировка данных по названию городов в алфавитном порядке
data.sort(key=lambda x: x[0])

df_prover = pd.DataFrame(data, columns=["city", "mean_salary"])
df_prover.head()

Unnamed: 0,city,mean_salary
0,Абакан,45 300 ₽
1,Анадырь,129 200 ₽
2,Ангарск,45 600 ₽
3,Архангельск,53 100 ₽
4,Астрахань,38 000 ₽




---



---



# <center> 🌍 Парсим [automobili.ru](https://automobili.ru/cars/catalog/) 🚗

В этой задаче вам предстоит спарсить дополнительные данные по моделям машин с сайта: https://automobili.ru/cars/catalog/ и добавить их в существующий датасет. Для того чтобы было проще понимать, в каком месте вы ошибаетесь (если такое происходит), мы разбили эту задачу на несколько степов, где постепенно будем парсить данный сайт.

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image2.png?raw=true' width="750" >

## <center> 🕊 Собираем ссылки 🔗

Для того чтобы начать доставать информацию о моделях, нужно вначале получить ссылки на эти модели. На первой странице сайта находится список всех марок. Вам нужно:

1) Собрать все ссылки на автомобильные бренды (средствами автоматического парсинга).

2) Пройтись по каждой из полученных ссылок и спарсить названия конкретных моделей автомобилей.

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image3.png?raw=true' width="750" >
<left> <img src='https://github.com/PeMikj/images/blob/main/images/image4.png?raw=true' width="750" >

В итоге у вас должно найтись 325 ссылок, которые выглядят примерно так:

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image5.png?raw=true' width="750" >

Ответ - датафрейм с ссылками и названием модели. Датафрейм должен быть отсортирован по названию модели, а затем по ссылкам.
`df.sort_values(by=['model', 'link'])`

Пример:

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image6.png?raw=true' width="750" >

In [3]:
import requests
from bs4 import BeautifulSoup

url = "https://automobili.ru/cars/catalog/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# Находим все ссылки на странице
links = soup.find_all("a", class_="one-letter-items__link", href=True)

# Собираем ссылки в нужном формате
brand_links = ["https://automobili.ru" + link["href"] for link in links]

print("Ссылки на автомобильные бренды:")
for brand_link in brand_links:
    print(brand_link)


Ссылки на автомобильные бренды:
https://automobili.ru/cars/catalog/aston_martin/
https://automobili.ru/cars/catalog/audi/
https://automobili.ru/cars/catalog/bentley/
https://automobili.ru/cars/catalog/bmw/
https://automobili.ru/cars/catalog/bugatti/
https://automobili.ru/cars/catalog/cadillac/
https://automobili.ru/cars/catalog/changan/
https://automobili.ru/cars/catalog/chery/
https://automobili.ru/cars/catalog/cheryexeed/
https://automobili.ru/cars/catalog/chevrolet/
https://automobili.ru/cars/catalog/citroen/
https://automobili.ru/cars/catalog/dongfeng/
https://automobili.ru/cars/catalog/faw/
https://automobili.ru/cars/catalog/ferrari/
https://automobili.ru/cars/catalog/fiat/
https://automobili.ru/cars/catalog/geely/
https://automobili.ru/cars/catalog/genesis/
https://automobili.ru/cars/catalog/haval/
https://automobili.ru/cars/catalog/honda/
https://automobili.ru/cars/catalog/hyundai/
https://automobili.ru/cars/catalog/infiniti/
https://automobili.ru/cars/catalog/isuzu/
https://aut

In [4]:
import pandas as pd



model_info = []

for url in brand_links:
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

    s_models = soup.find_all("a", class_="model-item__media", href=True)
    models = soup.find_all("a", class_="model-item__title", href=True)

    for s_model, model in zip(s_models, models):
        model_name = model.text
        model_link = model["href"]


        # Добавление части URL к модели
        model_link = "https://automobili.ru" + model_link

        model_info.append({"link": model_link})

df_links = pd.DataFrame(model_info)
df_links.head()

Unnamed: 0,link
0,https://automobili.ru/cars/catalog/aston_marti...
1,https://automobili.ru/cars/catalog/aston_marti...
2,https://automobili.ru/cars/catalog/aston_marti...
3,https://automobili.ru/cars/catalog/audi/a3/
4,https://automobili.ru/cars/catalog/audi/a4/


In [5]:
def extract_model_name_from_url(url):
    parts = url.split("/")
    model_name = parts[-3] + ' ' + parts[-2]
    return model_name

# Применяем функцию к каждой строке в колонке 'url'
df_links['model_name'] = df_links['link'].apply(extract_model_name_from_url)

# Выводим результат
df_links.head()

Unnamed: 0,link,model_name
0,https://automobili.ru/cars/catalog/aston_marti...,aston_martin vantage
1,https://automobili.ru/cars/catalog/aston_marti...,aston_martin db11
2,https://automobili.ru/cars/catalog/aston_marti...,aston_martin dbs-superleggera
3,https://automobili.ru/cars/catalog/audi/a3/,audi a3
4,https://automobili.ru/cars/catalog/audi/a4/,audi a4


In [6]:
len(df_links)

325

In [7]:
# Сортировка столбца "model_name" по алфавиту
df_sorted = df_links.sort_values(by="model_name").reset_index(drop=True)

# Вывод отсортированного датасета
df_sorted.head(10)

Unnamed: 0,link,model_name
0,https://automobili.ru/cars/catalog/aston_marti...,aston_martin db11
1,https://automobili.ru/cars/catalog/aston_marti...,aston_martin dbs-superleggera
2,https://automobili.ru/cars/catalog/aston_marti...,aston_martin vantage
3,https://automobili.ru/cars/catalog/audi/Q5/,audi Q5
4,https://automobili.ru/cars/catalog/audi/a3/,audi a3
5,https://automobili.ru/cars/catalog/audi/a4/,audi a4
6,https://automobili.ru/cars/catalog/audi/a4_all...,audi a4_allroad
7,https://automobili.ru/cars/catalog/audi/a5/,audi a5
8,https://automobili.ru/cars/catalog/audi/a6/,audi a6
9,https://automobili.ru/cars/catalog/audi/a7/,audi a7


In [8]:
#df_sorted.to_csv("all_brands_models.csv", index=False)

## <center> 👉👈 Матчим ссылки с датасетом

Отлично! Мы получили ссылки на все модели машин, которые есть на сайте, но нам понадобится только небольшая часть, так как многие модели отсутствуют в изначальном датасете. В этом задании вам предстоит сопоставить ссылки и машины из датасета `quickstart_train.csv`.

In [9]:
import pandas as pd

path = 'https://stepik.org/media/attachments/lesson/866758/quickstart_train.csv'

df = pd.read_csv(path)
df.head(3)

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,mean_rating,distance_sum,rating_min,speed_max,user_ride_quality_median,deviation_normal_count,user_uniq
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,4.737759,12141310.0,0.1,180.855726,0.023174,174,170
1,O41613818T,VW Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,4.480517,18039090.0,0.0,187.862734,12.306011,174,174
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,34.93,gear_stick,4.768391,15883660.0,0.1,102.382857,2.513319,174,173


<left> <img src='https://github.com/PeMikj/images/blob/main/images/image7.png?raw=true' width="750" >
<left> <img src='https://github.com/PeMikj/images/blob/main/images/image8.png?raw=true' width="300" >



Далее нам нужно сматчить названия моделей машин в исходном и спаршенном датафреймах.
Для решения задачи можно использовать разные способы измерения близости между двумя строками.

Мы будем использовать алгоритм  нахождения наибольшей общей подпоследовательности - [википедия.](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BE%D0%B1%D1%89%D0%B0%D1%8F_%D0%BF%D0%BE%D0%B4%D0%BF%D0%BE%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D1%8C)

Для каждой модели в нашем исходном датафрейме нужно:

1) Найти строку с названием модели в напаршенных данных с максимальным значением наибольшей общей подпоследовательности.

2) Нормализовать значение наибольшей общей подпоследовательности на длину строки в исходном датафрейме.

3) Отсечь те случаи, где нормализованное значение меньше 0.85.

4) Если не удалось найти матч - заполняем np.nan.


P.S. Также нужно заменить `vw` на `volkswagen` в изначальном датасете, чтоб было больше совпадений. Нужно понимать, что идеально сматчить не всегда получится, поэтому иногда приходится прибегать к эвристикам, но мы в данном задании этого делать не будем.

Пример матчинга между названиями машин в исходном датафрейме и напаршенном.
Для каждого названия авто из исходного датафрейма находится название из напаршенного с наибольшим значением наибольшей общей подпоследовательности.

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image9.png?raw=true' width="550" >

In [10]:
# Заменяем 'vw' и 'VW' на 'volkswagen' в столбце 'model'
df['model'] = df['model'].str.replace('vw', 'volkswagen', case=False)
df['model'] = df['model'].str.replace('VW', 'volkswagen', case=False)

df.head()

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,mean_rating,distance_sum,rating_min,speed_max,user_ride_quality_median,deviation_normal_count,user_uniq
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,4.737759,12141310.0,0.1,180.855726,0.023174,174,170
1,O41613818T,volkswagen Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,4.480517,18039090.0,0.0,187.862734,12.306011,174,174
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,34.93,gear_stick,4.768391,15883660.0,0.1,102.382857,2.513319,174,173
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,32.22,engine_fuel,3.88092,16518830.0,0.1,172.793237,-5.029476,174,170
4,N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,27.51,engine_fuel,4.181149,13983170.0,0.1,203.462289,-14.260456,174,171


In [11]:
import difflib
import numpy as np

# Функция для нахождения наибольшей общей подпоследовательности
def find_lcs(s1, s2):
    seq = difflib.SequenceMatcher(None, s1, s2)
    match = seq.find_longest_match(0, len(s1), 0, len(s2))
    return s1[match.a: match.a + match.size] if match.size > 0 else np.nan


df['model_name_combined'] = np.nan

for i in range(len(df)):
    original = df['model'][i].lower()
    matches = [find_lcs(original, parsed.lower()).capitalize() for parsed in df_sorted['model_name']]

    # Проверяем, есть ли сопоставление
    if any(matches):
        idx = matches.index(max(matches, key=len))
        df.at[i, 'model_name_combined'] = matches[idx]
        df.at[i, 'link'] = df_links['link'][idx]

# Выводим результат
df.head()


Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,mean_rating,distance_sum,rating_min,speed_max,user_ride_quality_median,deviation_normal_count,user_uniq,model_name_combined,link
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,4.737759,12141310.0,0.1,180.855726,0.023174,174,170,Kia rio,https://automobili.ru/cars/catalog/kia/k900/
1,O41613818T,volkswagen Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,4.480517,18039090.0,0.0,187.862734,12.306011,174,174,Volkswagen polo,https://automobili.ru/cars/catalog/volvo/s90/
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,34.93,gear_stick,4.768391,15883660.0,0.1,102.382857,2.513319,174,173,Renault sandero,https://automobili.ru/cars/catalog/rolls-royce...
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,32.22,engine_fuel,3.88092,16518830.0,0.1,172.793237,-5.029476,174,170,Mercedes-benz glc,https://automobili.ru/cars/catalog/mercedes-be...
4,N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,27.51,engine_fuel,4.181149,13983170.0,0.1,203.462289,-14.260456,174,171,Renault sandero,https://automobili.ru/cars/catalog/rolls-royce...


## <center> ⚗️ Достаем технические характеристики

Достаем информацию о машинах

Отлично! Ссылки мы достали, теперь пришло время получить необходимые данные из них. Это скриншот того, как выглядит страничка сайта для конкретной модели (в нашем случае Renault Sandero):

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image10.png?raw=true' width="750" >


Отсюда вам необходимо для каждой модели получить следующую информацию:

1) `year` - год начала выпуска модели (целое число);
2) `mod` - название модификации;
3) `price` - рекомендованная цена (целое число);
4) `engine` - тип двигателя;
5) `power` - мощность в л.с.;
6) `box` - тип коробки передач;
7) `trans` - тип трансмиссии;
8) `body` - тип кузова;


Это все можно сделать при помощи BeautifulSoap.

Мы берем значения только для самой первой модификации!

Далее соединяем с нашим исходным датасетом. `model` - столбик по которому мы соединяем датасеты.

Получившийся датасет - решение задачи (не изменяйте порядок строк в изначальном датасете).

Пример результата (для удобства представления в исходном датасете сохранены только колонки `car_id` и `model`, но вам нужны все колонки из исходного датасета):

<left> <img src='https://github.com/PeMikj/images/blob/main/images/image11.png?raw=true' width="850" >

In [13]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Предположим, что df_sorted - это ваш датафрейм с колонкой 'link'
# Замените df_sorted на ваш реальный датафрейм

data_list = []

for url in df_sorted['link']:
    response = requests.get(url)

    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')

        data = {}

        def extract_model_name_from_url(url):
            parts = url.split("/")
            model_name = parts[-2]
            return model_name

        # Применяем функцию к каждой строке в колонке 'url'
        data['mod'] = extract_model_name_from_url(url)

        # Находим первую строку <a> с классом "modif_compare_btn"
        first_a_tag = soup.find('a', class_='modif_compare_btn')

        # Цена!
        price_element = soup.find('span', class_='currency')
        if price_element:
            data['price'] = price_element.text

        # Тип коробки передач!
        box_element = soup.find('td', class_='td_box')
        if box_element:
            data['box'] = box_element.text

        # Тип двигателя!
        engine_element = soup.find('td', class_='td_engine')
        if engine_element:
           data['engine'] = engine_element.text

          # Мощность в л.с.
           power_element = engine_element.find_next_sibling('td')
           if power_element:
            data['power'] = power_element.text
        else:
            data['power'] = "Мощность не указана"

        # Тип трансмиссии!
        trans_element = soup.find('td', class_='td_trans')
        if trans_element:
            data['trans'] = trans_element.text

        # Тип кузова!
        body_element = soup.find('td', class_='td_body')
        if body_element:
            data['body'] = body_element.text

        # Добавляем ссылку в данные
        data['link'] = url

        data_list.append(data)

    else:
        print(f"Ошибка при загрузке страницы {url}")

df_pars = pd.DataFrame(data_list)  # Создание датафрейма из списка словарей
df_pars.head()

Unnamed: 0,mod,price,box,engine,power,trans,body,link
0,db11,18 317 500 ₽,Классический автомат,Бензин,608 л.с.,Задний,Купе,https://automobili.ru/cars/catalog/aston_marti...
1,dbs-superleggera,₽,Классический автомат,Бензин,725 л.с.,Задний,Купе,https://automobili.ru/cars/catalog/aston_marti...
2,vantage,₽,Классический автомат,Бензин,510 л.с.,Задний,Купе,https://automobili.ru/cars/catalog/aston_marti...
3,Q5,3 270 000 ₽,Робот с одним сцеплением,Бензин,249 л.с.,Полный,Универсал,https://automobili.ru/cars/catalog/audi/Q5/
4,a3,1 645 000 ₽,Робот с одним сцеплением,Бензин,150 л.с.,Передний,Седан,https://automobili.ru/cars/catalog/audi/a3/


In [14]:
df_pars.tail()

Unnamed: 0,mod,price,box,engine,power,trans,body,link
320,v90-cross-country,3 425 000 ₽,Классический автомат,Бензин,249 л.с.,Полный,Универсал,https://automobili.ru/cars/catalog/volvo/v90-c...
321,xc40,2 268 000 ₽,Классический автомат,Дизель,150 л.с.,Передний,Универсал,https://automobili.ru/cars/catalog/volvo/xc40/
322,xc60,3 269 000 ₽,Классический автомат,Бензин,249 л.с.,Полный,Универсал,https://automobili.ru/cars/catalog/volvo/xc60/
323,xc90,3 955 000 ₽,Классический автомат,Бензин,249 л.с.,Полный,Универсал,https://automobili.ru/cars/catalog/volvo/xc90/
324,xc90-twinengine,5 993 000 ₽,Классический автомат,Гибрид,320+87 л.с.,Полный,Универсал,https://automobili.ru/cars/catalog/volvo/xc90-...


In [15]:
#дополняем датасет данными из датасета спаршенного

# Объединение датасетов по столбцу 'links' с использованием метода merge
merged_df = df.merge(df_pars, on='link', how='left')

# Замена отсутствующих значений на 'NaN'
merged_df.fillna('NaN', inplace=True)

# Вывод результирующего датасета
merged_df.head()

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,...,user_uniq,model_name_combined,link,mod,price,box,engine,power,trans,body
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,...,170,Kia rio,https://automobili.ru/cars/catalog/kia/k900/,k900,3 664 900 ₽,Классический автомат,Бензин,249 л.с.,Полный,Седан
1,O41613818T,volkswagen Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,...,174,Volkswagen polo,https://automobili.ru/cars/catalog/volvo/s90/,s90,2 975 000 ₽,Классический автомат,Бензин,190 л.с.,Передний,Седан
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,34.93,gear_stick,...,173,Renault sandero,https://automobili.ru/cars/catalog/rolls-royce...,wraith,23 600 000 ₽,Классический автомат,Бензин,632 л.с.,Задний,Купе
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,32.22,engine_fuel,...,170,Mercedes-benz glc,https://automobili.ru/cars/catalog/mercedes-be...,glc-amg-coupe-,6 720 000 ₽,Классический автомат,Бензин,390 л.с.,Полный,Внедорожник
4,N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,27.51,engine_fuel,...,171,Renault sandero,https://automobili.ru/cars/catalog/rolls-royce...,wraith,23 600 000 ₽,Классический автомат,Бензин,632 л.с.,Задний,Купе


In [16]:
# Удаление столбца 'link' из датасета
merged_df = merged_df.drop('link', axis=1)

# Вывод обнmerged_df
merged_df.head(2)

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,...,deviation_normal_count,user_uniq,model_name_combined,mod,price,box,engine,power,trans,body
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,...,174,170,Kia rio,k900,3 664 900 ₽,Классический автомат,Бензин,249 л.с.,Полный,Седан
1,O41613818T,volkswagen Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,...,174,174,Volkswagen polo,s90,2 975 000 ₽,Классический автомат,Бензин,190 л.с.,Передний,Седан


In [17]:
# Удаление столбца 'link' из датасета
merged_df = merged_df.drop('model_name_combined', axis=1)

# Вывод обнmerged_df
merged_df.head(2)

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class,...,user_ride_quality_median,deviation_normal_count,user_uniq,mod,price,box,engine,power,trans,body
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,109.99,another_bug,...,0.023174,174,170,k900,3 664 900 ₽,Классический автомат,Бензин,249 л.с.,Полный,Седан
1,O41613818T,volkswagen Polo VI,economy,petrol,3.9,2015,78218,2021,34.48,electro_bug,...,12.306011,174,174,s90,2 975 000 ₽,Классический автомат,Бензин,190 л.с.,Передний,Седан


In [18]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2337 entries, 0 to 2336
Data columns (total 24 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   car_id                    2337 non-null   object 
 1   model                     2337 non-null   object 
 2   car_type                  2337 non-null   object 
 3   fuel_type                 2337 non-null   object 
 4   car_rating                2337 non-null   float64
 5   year_to_start             2337 non-null   int64  
 6   riders                    2337 non-null   int64  
 7   year_to_work              2337 non-null   int64  
 8   target_reg                2337 non-null   float64
 9   target_class              2337 non-null   object 
 10  mean_rating               2337 non-null   float64
 11  distance_sum              2337 non-null   float64
 12  rating_min                2337 non-null   float64
 13  speed_max                 2337 non-null   float64
 14  user_rid

In [19]:
merged_df.to_csv('new_df_train.csv', index=False)

## <center> 🏋️‍♂️Тренировка с новыми данными

Обучите модель на обогащенном датасете и сравните результат с предыдущими.

Отправьте сабмишн на kaggle.

Сделайте выводы.