## Практическая работа

В этой работе вам нужно будет подготовить финальный нотбук по задаче предсказания стоимости поддержанного автомобиля, которую мы решали на протяжении нескольких модулей. 
<br>
*Обязательные задачи* помогут проверить, что вы действительно усвоили материал. Если у вас всё получилось, можете переходить к следующей теме.
<br>
Удачи!

Цели практической работы: 

1.   Потренироваться в формировании понятного и структурированного ноутбука по результатам исследования.
2.   Отработать выбор наилучшей предсказательной модели с помощью кросс-валидации. 
3.   На основе результатов метрик научиться делать выводы о переобучении/недообучении модели.
4.   Научиться сохранять обученные модели в формате `pickle`.




Что оценивается:

*   Ноутбук состоит из блоков: каждый блок соответствует определённой фазе работы с задачей.
*   Блоки, которые состоят из нескольких этапов, декомпозированы на подблоки (например, в `Data Preparation` может быть несколько подблоков: `Data cleaning`, `Feature Selection` и тому подобное).
*   Код написан в едином стиле и не нарушает PEP-8.
*   Код покрыт комментариями.
*   Код воспроизводим (то есть проверяющий, запустив ноутбук, получит ровно такие же результаты).
*   Все условия задач выполнены.





## Обязательные задачи

### Постановка общей задачи:



Напомним, что вы работаете с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах. На этих данных вам нужно построить модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

### Описание датасета:



- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.

###  Задачи:

Ниже представлены задачи по проекту построения модели. Выполните их и в отдельном файле соберите финальный ноутбук проекта. 

0. *Импорт сторонних библиотек*

В первой ячейке ноутбука импортируйте библиотеки, которые необходимы для работы с данными. Впоследствии все импорты добавляйте в эту ячейку. Структурируйте их по PEP-8. 

[Документация по оформлению import'ов (PEP-8)](https://peps.python.org/pep-0008/#imports)

1. *Загрузка данных*

Загрузите данные из файла `df_out`. Выведите размерность и первые 5 строчек данных.

2. *Data Preparation*

Объявите блок Data Preparation. В этом блоке:
* произведите преобразование типов данных, если нужно;
* исследуйте данные на пропуски, обработайте их (например, заполните какими-то значениями);
* избавьтесь от аномалий, если нужно.

В решении данной задачи опирайтесь на результаты работы в 17-19 модулях блока Data Preparation. Исследование данных подкрепляйте соответствующей визуализацией в виде графиков, таблиц или статистических значений.

Декомпозируйте блок на подблоки.


3. *Feature engineering*

Объявите блок Feature engineering. В этом блоке:
* подготовьте категориальные переменные с помощью OneHotEncoder;
* стандартизируйте и нормализуйте переменные, если нужно;
* создайте новые признаки на основе информации в датафрейме (на основе дат, текстовых значений переменных, и так далее);
* удалите неинформативные колонки, которые появились в датасете в результате Feature engineering;
* сформируйте финальный датасет, на котором будет производиться моделирование, и сохраните его в отдельный файл.

В решении данной задачи опирайтесь на результаты работы в 20 модуле блока Data Preparation. Исследование подкрепляйте соответствующей визуализацией в виде графиков, таблиц или матриц корреляций, если это нужно.

Декомпозируйте блок на подблоки.

4. *Modelling*

Объявите блок Modelling. В этом блоке:
* сформируйте датасет для обучения; инициализируйте фичи и целевую переменную 
(`price_category`); положите их в соответствующие переменные;
* разделите данные на треин и тест;
* объявите три модели: логистическая регрессия, случайный лес и многослойный персептрон;
* поработайте с моделями: сделайте тюнинг параметров и выберите лучшую модель с помощью кросс-валидации на тренировочной выборке;
* по результатам кросс-валидации выберите лучшую модель;
* посчитайте значение метрики лучшей модели на тестовой выборке; убедитесь, что модель не переобучилась.

В решении данной задачи опирайтесь на результаты работы в 22-23 модулях блока Modelling. Исследование подкрепляйте соответствующей визуализацией в виде графиков, таблиц или матриц корреляций, если это нужно.

Декомпозируйте блок на подблоки, если это нужно.

4. *Results*

Объявите блок Results. В этом блоке:

* подведите итог: какая модель показала себя лучше всего и будет финальным результатом данного ноутбука;
* обучите эту модель на всём датасете;
* сохраните обученную модель в `pickle`.

## Как отправить работу на проверку


Отправьте куратору на проверку финальный ноутбук проекта, а также файл обученной модели в формате `pickle`.

## Импорт сторонних библиотек


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
!pip install scikit-learn
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, mean_absolute_error
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import numpy as np
from sklearn.model_selection import GridSearchCV, cross_val_score, train_test_split
import pickle

##  Загрузка данных

In [2]:
df = pd.read_csv('C:/Users/User/Desktop/Python/Python/ds-intro/ds-intro/28_evaluation/data/df_out.csv', sep = ',')
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category,date
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020.0,ram,2500 crew cab big horn,diesel,27442,clean,other,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,tn,35.06,-85.25,2021-04-17T12:30:50-0400,high,2021-04-17 16:30:50+00:00
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,60023,clean,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium,2021-05-03 19:40:21+00:00
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017.0,volkswagen,golf r hatchback,gas,14048,clean,other,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high,2021-04-28 10:52:20+00:00
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013.0,toyota,rav4,gas,117291,clean,automatic,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium,2021-04-17 14:08:57+00:00
4,7316474668,https://newyork.craigslist.org/lgi/cto/d/baldw...,new york city,https://newyork.craigslist.org,21800,2021.0,nissan,altima,gas,8000,clean,automatic,https://images.craigslist.org/00V0V_3pSOiPZ3Sd...,2021 Nissan Altima Sv with Only 8 K Miles Titl...,ny,40.6548,-73.6097,2021-05-03T18:32:06-0400,medium,2021-05-03 22:32:06+00:00


## Data Preparation 

In [3]:
df.info() 
def print_useful_rows_info(df):
    print('Количество полностью заполненных объектов из всей выборки:', len(df.dropna()))
    print('Процент полностью заполненных объектов из всей выборки:', round(len(df.dropna()) / len(df) * 100, 2))
    
print_useful_rows_info(df)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              10000 non-null  int64  
 1   url             10000 non-null  object 
 2   region          10000 non-null  object 
 3   region_url      10000 non-null  object 
 4   price           10000 non-null  int64  
 5   year            9964 non-null   float64
 6   manufacturer    10000 non-null  object 
 7   model           9872 non-null   object 
 8   fuel            9937 non-null   object 
 9   odometer        10000 non-null  int64  
 10  title_status    9834 non-null   object 
 11  transmission    9955 non-null   object 
 12  image_url       9998 non-null   object 
 13  description     9998 non-null   object 
 14  state           10000 non-null  object 
 15  lat             9902 non-null   float64
 16  long            9902 non-null   float64
 17  posting_date    9998 non-null   

In [4]:
missing_values = ((df.isna().sum() / len(df)) * 100).sort_values(ascending=False)
print('Процент пропущенных значений:\n', missing_values)

Процент пропущенных значений:
 title_status      1.66
model             1.28
lat               0.98
long              0.98
fuel              0.63
transmission      0.45
year              0.36
description       0.02
date              0.02
posting_date      0.02
image_url         0.02
id                0.00
region_url        0.00
region            0.00
url               0.00
price             0.00
odometer          0.00
manufacturer      0.00
state             0.00
price_category    0.00
dtype: float64


In [5]:
df.title_status.value_counts(dropna=False)

title_status
clean         9518
rebuilt        171
NaN            166
salvage         92
lien            35
missing         16
parts only       2
Name: count, dtype: int64

In [6]:
df.title_status = df.title_status.fillna(df.title_status.mode()[0])
print("Количество пропущенных значений в title_status:", df.title_status.isna().sum())

Количество пропущенных значений в title_status: 0


In [7]:
df.model.value_counts(dropna=False)

model
f-150                    151
NaN                      128
silverado 1500           110
1500                     100
camry                     77
                        ... 
ss                         1
4runner trd off road       1
mark lt                    1
jetta se                   1
q3 sport premium plus      1
Name: count, Length: 3467, dtype: int64

In [8]:
df.model = df.model.fillna('other')
print("Количество пропущенных значений в model:", df.model.isna().sum())

Количество пропущенных значений в model: 0


In [9]:
missing_years = df["year"].isna().sum()
print("Количество пропущенных значений в 'year':", missing_years)

Количество пропущенных значений в 'year': 36


In [10]:
df = df[df.year.notna()]
print("Количество пропущенных значений в year:", df.year.isna().sum()) 

Количество пропущенных значений в year: 0


In [11]:
df.transmission.value_counts(dropna=False)

transmission
automatic    7667
other        1623
manual        631
NaN            43
Name: count, dtype: int64

In [12]:
df.transmission = df.transmission.fillna('other')
print("Количество пропущенных значений в transmission:", df.transmission.isna().sum())

Количество пропущенных значений в transmission: 0


In [13]:
df.lat.value_counts(dropna=False)

lat
NaN          96
43.182400    88
33.779214    79
40.468785    73
33.786500    54
             ..
35.529798     1
40.560500     1
33.725427     1
33.654019     1
42.123900     1
Name: count, Length: 5042, dtype: int64

In [14]:
df.long.value_counts(dropna=False)

long
 NaN           96
-84.112200     88
-84.411811     79
-74.281707     73
-84.445400     54
               ..
-97.565518      1
-122.411600     1
-117.969140     1
-117.980606     1
-71.317360      1
Name: count, Length: 5075, dtype: int64

In [15]:
(df.long.isna() | df.lat.isna()).sum()

np.int64(96)

In [16]:
df = df[~(df.long.isna() | df.lat.isna())]
df.shape
print_useful_rows_info(df)

Количество полностью заполненных объектов из всей выборки: 9814
Процент полностью заполненных объектов из всей выборки: 99.45


In [17]:
df.year = df.year.astype('int16')
print(df.year.dtype)

int16


In [48]:
df.fuel.value_counts(dropna=False)

fuel
gas         8298
other        725
diesel       643
hybrid       104
NaN           54
electric      44
Name: count, dtype: int64

In [49]:
df.fuel = df.fuel.fillna('other')

In [51]:
print("Количество пропущенных значений в fuel:", df.fuel.isna().sum()) 

Количество пропущенных значений в fuel: 0


## Feature engineering 

In [32]:

categorical_columns = [
    "model", 
    "transmission", 
    "region", 
    "manufacturer", 
    "state", 
    "title_status", 
    "fuel"
]

for col in categorical_columns:
    print(f"Признак: {col}")
    print(f"Количество уникальных значений: {df[col].nunique()}")
    print(f"Уникальные значения: {df[col].unique()[:10]} ...")  # первые 10 для наглядности
    print("-" * 50)

Признак: model
Количество уникальных значений: 3438
Уникальные значения: ['2500 crew cab big horn' 'explorer 4wd 4dr xlt' 'golf r hatchback' 'rav4'
 'altima' '1 series 128i coupe 2d' 'fusion se' 'accord' 'charger' 'galant'] ...
--------------------------------------------------
Признак: transmission
Количество уникальных значений: 3
Уникальные значения: ['other' 'automatic' 'manual'] ...
--------------------------------------------------
Признак: region
Количество уникальных значений: 393
Уникальные значения: ['chattanooga' 'north jersey' 'reno / tahoe' 'fayetteville'
 'new york city' 'knoxville' 'des moines' 'roanoke' 'grand rapids'
 'omaha / council bluffs'] ...
--------------------------------------------------
Признак: manufacturer
Количество уникальных значений: 40
Уникальные значения: ['ram' 'ford' 'volkswagen' 'toyota' 'nissan' 'bmw' 'honda' 'dodge'
 'mitsubishi' 'fiat'] ...
--------------------------------------------------
Признак: state
Количество уникальных значений: 51
Уник

In [33]:
data = df[categorical_columns]
print(data)

                          model transmission                   region  \
0        2500 crew cab big horn        other              chattanooga   
1          explorer 4wd 4dr xlt    automatic             north jersey   
2              golf r hatchback        other             reno / tahoe   
3                          rav4    automatic             fayetteville   
4                        altima    automatic            new york city   
...                         ...          ...                      ...   
9995                       rav4    automatic               chautauqua   
9996                   wrangler        other               binghamton   
9997  a3 2.0t premium plus pzev    automatic                    salem   
9998                    cayenne    automatic                  madison   
9999     1500 crew cab big horn        other  norfolk / hampton roads   

     manufacturer state title_status    fuel  
0             ram    tn        clean  diesel  
1            ford    nj      

In [34]:
ohe = OneHotEncoder(sparse_output=False)
encoded_data = ohe.fit_transform(data)
ohe

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [35]:
ohe.fit(data)

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [36]:
ohe.categories_

[array(['-benz e350', '1 series 128i convertible 2d',
        '1 series 128i coupe 2d', ..., 'z4 sdrive35is roadster 2d',
        'zephyr', 'zx2'], shape=(3438,), dtype=object),
 array(['automatic', 'manual', 'other'], dtype=object),
 array(['SF bay area', 'abilene', 'akron / canton', 'albany',
        'albuquerque', 'altoona-johnstown', 'amarillo', 'ames',
        'anchorage / mat-su', 'ann arbor', 'annapolis',
        'appleton-oshkosh-FDL', 'asheville', 'ashtabula', 'athens',
        'atlanta', 'auburn', 'augusta', 'austin', 'bakersfield',
        'baltimore', 'baton rouge', 'battle creek',
        'beaumont / port arthur', 'bellingham', 'bemidji', 'bend',
        'billings', 'binghamton', 'birmingham', 'bismarck', 'bloomington',
        'bloomington-normal', 'boise', 'boone', 'boston', 'boulder',
        'bowling green', 'bozeman', 'brainerd', 'brownsville', 'brunswick',
        'buffalo', 'butte', 'cape cod / islands', 'catskills',
        'cedar rapids', 'central NJ', 'central lo

In [37]:
encoded_data = ohe.transform(data)
print(encoded_data)
print("Размерность:", encoded_data.shape)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
Размерность: (9868, 3937)


In [38]:
ohe.get_feature_names_out()

array(['model_-benz e350', 'model_1 series 128i convertible 2d',
       'model_1 series 128i coupe 2d', ..., 'fuel_hybrid', 'fuel_other',
       'fuel_nan'], shape=(3937,), dtype=object)

In [39]:
new_feature_names = ohe.get_feature_names_out(categorical_columns)
encoded_df = pd.DataFrame(encoded_data, columns=new_feature_names, index=df.index)
df_combined = pd.concat([df, encoded_df], axis=1)

print(df_combined.head())
print(df_combined.columns.tolist())

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7316474668  https://newyork.craigslist.org/lgi/cto/d/baldw...   

          region                           region_url  price  year  \
0    chattanooga   https://chattanooga.craigslist.org  54990  2020   
1   north jersey     https://newjersey.craigslist.org  16942  2016   
2   reno / tahoe          https://reno.craigslist.org  35590  2017   
3   fayetteville  https://fayetteville.craigslist.org  14500  2013   
4  new york city       https://newyork.craigslist.org  21800  2021   

  manufacturer                   model    fuel  odometer  ...  \
0          ram  2500 crew cab big horn  diesel     27442  ...   
1         ford    explorer 4wd 4dr xlt  

In [40]:
original_data = ohe.inverse_transform(encoded_data)
original_df = pd.DataFrame(original_data, columns=categorical_columns, index=df.index)
original_df

Unnamed: 0,model,transmission,region,manufacturer,state,title_status,fuel
0,2500 crew cab big horn,other,chattanooga,ram,tn,clean,diesel
1,explorer 4wd 4dr xlt,automatic,north jersey,ford,nj,clean,
2,golf r hatchback,other,reno / tahoe,volkswagen,ca,clean,gas
3,rav4,automatic,fayetteville,toyota,nc,clean,gas
4,altima,automatic,new york city,nissan,ny,clean,gas
...,...,...,...,...,...,...,...
9995,rav4,automatic,chautauqua,toyota,ny,clean,gas
9996,wrangler,other,binghamton,jeep,ny,clean,gas
9997,a3 2.0t premium plus pzev,automatic,salem,audi,or,clean,gas
9998,cayenne,automatic,madison,porsche,wi,clean,hybrid


In [None]:
quantitative_columns = [
    "lat", 
    "long", 
    "year", 
    "odometer", 
    "price"
]
data = df[quantitative_columns]
print(data)

In [42]:
std_scaler = StandardScaler()
std_scaler.fit(data)

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [43]:
scaled_data = std_scaler.transform(data)
print("\nРазмерность:", scaled_data.shape)



Размерность: (9868, 5)


In [44]:
print("posting_date:")
print(df_combined["posting_date"].head())


print("\ndate:")
print(df_combined["date"].head())

posting_date:
0    2021-04-17T12:30:50-0400
1    2021-05-03T15:40:21-0400
2    2021-04-28T03:52:20-0700
3    2021-04-17T10:08:57-0400
4    2021-05-03T18:32:06-0400
Name: posting_date, dtype: object

date:
0    2021-04-17 16:30:50+00:00
1    2021-05-03 19:40:21+00:00
2    2021-04-28 10:52:20+00:00
3    2021-04-17 14:08:57+00:00
4    2021-05-03 22:32:06+00:00
Name: date, dtype: object


In [45]:
df_combined["date"] = pd.to_datetime(df_combined["date"], errors="coerce")
print(df_combined["date"].head())
print(df_combined["date"].dtype)

0   2021-04-17 16:30:50+00:00
1   2021-05-03 19:40:21+00:00
2   2021-04-28 10:52:20+00:00
3   2021-04-17 14:08:57+00:00
4   2021-05-03 22:32:06+00:00
Name: date, dtype: datetime64[ns, UTC]
datetime64[ns, UTC]


In [54]:

columns_for_drop = ['year', 'url', 'region', 'region_url', 'manufacturer',
                    'model', 'fuel', 'odometer', 'title_status', 'transmission',
                    'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
                    'odometer_km', 'odometer/price', 'region_new', 'region_corrected', 'manufacturer_model',
                    'desc_len', 'model_in_desc', 'price_k$', 'age_category', 'model_len', 'model_word_count',
                    'short_model', 'lat_mm', 'long_mm', 'date', 'std_scaled_price',
                    'month', 'dayofweek', 'diff_years',
                    'odometer/price_std']

df_prepared = df_combined.drop(columns = columns_for_drop, errors="ignore")
print(df_prepared.head())

           id  price price_category  model_-benz e350  \
0  7308295377  54990           high               0.0   
1  7316380095  16942         medium               0.0   
2  7313733749  35590           high               0.0   
3  7308210929  14500         medium               0.0   
4  7316474668  21800         medium               0.0   

   model_1 series 128i convertible 2d  model_1 series 128i coupe 2d  \
0                                 0.0                           0.0   
1                                 0.0                           0.0   
2                                 0.0                           0.0   
3                                 0.0                           0.0   
4                                 0.0                           0.0   

   model_1 series 135i 2dr coupe  model_1 series 135i convertible 2d  \
0                            0.0                                 0.0   
1                            0.0                                 0.0   
2             

In [55]:
print("Оставшиеся колонки:", df_prepared.columns.tolist())
print("Размерность df_prepared:", df_prepared.shape)

Оставшиеся колонки: ['id', 'price', 'price_category', 'model_-benz e350', 'model_1 series 128i convertible 2d', 'model_1 series 128i coupe 2d', 'model_1 series 135i 2dr coupe', 'model_1 series 135i convertible 2d', 'model_1 series 135i coupe 2d', 'model_1 ton', 'model_124 spider classica', 'model_128i', 'model_135i', 'model_135i 335i 335is 335xi  535i', 'model_1500', 'model_1500 4x4', 'model_1500 big horn', 'model_1500 big horn/lone star', 'model_1500 classic', 'model_1500 classic crew cab', 'model_1500 classic crew cab slt', 'model_1500 classic quad cab slt', 'model_1500 classic regular cab', 'model_1500 classic slt', 'model_1500 classic slt 4wd', 'model_1500 classic slt 4x4', 'model_1500 classic sport 4x4', 'model_1500 classic warlock', 'model_1500 crew cab', 'model_1500 crew cab 140.5 larami', 'model_1500 crew cab big horn', 'model_1500 crew cab express pickup', 'model_1500 crew cab laramie', 'model_1500 crew cab laramie pickup', 'model_1500 crew cab rebel pickup', 'model_1500 crew 

In [56]:
df_prepared.to_csv("data/vehicles_dataset_prepared.csv", index=False)
print("Файл сохранён: data/vehicles_dataset_prepared.csv")

Файл сохранён: data/vehicles_dataset_prepared.csv


## Modeling

In [None]:
df = pd.read_csv('C:/Users/User/Desktop/Python/Python/ds-intro/ds-intro/23_linear_model/data/vehicles_dataset_prepared.csv', sep = ',')
df.head()

In [None]:
df_prepared = df.drop(['id', 'price', 'odometer/price_std'], axis=1)
X = df_prepared.drop('price_category', axis=1)
y = df_prepared['price_category']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [None]:
num_cols = [
    'std_scaled_odometer', 'year_std', 'lat_std', 'long_std',
    'desc_len_std', 'model_in_desc_std', 'model_len_std',
    'model_word_count_std', 'month_std', 'dayofweek_std', 'diff_years_std'
]
scaler = StandardScaler()
X_train[num_cols] = scaler.fit_transform(X_train[num_cols])
X_test[num_cols] = scaler.transform(X_test[num_cols])

In [None]:
logreg = LogisticRegression(max_iter=2000,  solver='lbfgs')
rf = RandomForestClassifier(random_state=42)
mlp = MLPClassifier(hidden_layer_sizes=(128, 64), activation='relu', max_iter=1000, random_state=42)

In [None]:
param_grid_lr = {'C': [0.1, 1, 5, 10]}
grid_lr = GridSearchCV(logreg, param_grid_lr, cv=5, scoring='accuracy')
grid_lr.fit(X_train, y_train)

param_grid_rf = {'n_estimators': [100, 200], 'max_depth': [10, 20, None]}
grid_rf = GridSearchCV(rf, param_grid_rf, cv=5, scoring='accuracy')
grid_rf.fit(X_train, y_train)

param_grid_mlp = {'hidden_layer_sizes': [(64,), (128,64)], 'alpha': [0.0001, 0.001]}
grid_mlp = GridSearchCV(mlp, param_grid_mlp, cv=5, scoring='accuracy')
grid_mlp.fit(X_train, y_train)

In [None]:
best_models = {
    'LogReg': grid_lr.best_estimator_,
    'RandomForest': grid_rf.best_estimator_,
    'MLP': grid_mlp.best_estimator_
}
for name, model in best_models.items():
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
    print(f"{name}: mean={cv_scores.mean():.3f}, std={cv_scores.std():.3f}")


In [None]:
best_model = max(best_models.items(), key=lambda kv: cross_val_score(kv[1], X_train, y_train, cv=5).mean())[1]

best_model.fit(X_train, y_train)
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)

print("\nЛучшая модель:", best_model.__class__.__name__)
print("Train Accuracy:", accuracy_score(y_train, y_pred_train))
print("Test Accuracy:", accuracy_score(y_test, y_pred_test))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_test))
print("\nClassification report:\n", classification_report(y_test, y_pred_test))

## Results

In [None]:
final_model = RandomForestClassifier(
    n_estimators=200, 
    max_depth=15, 
    random_state=42
)

In [None]:
final_model.fit(X, y)

In [None]:
with open("final_model.pkl", "wb") as f:
    pickle.dump(final_model, f)

print("Финальная модель обучена и сохранена в 'final_model.pkl'")