In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv('../data/raw/train.csv')
df.head()

Unnamed: 0,id,price_rub,mark,model,generation,configuration,complectation,body_type,color,displacement,...,owners_count,condition,custom,pts,seller_type,region,city,address,options,description
0,16799418,2200000,Kia,Sportage,IV Рестайлинг,Внедорожник 5 дв.,Prestige Black Edition,пятидверный внедорожник,чёрный,2.4,...,1,среднее,растаможен,оригинал,частник,Вологодская область,Череповец,"Россия, Вологодская область,","[""airbag-curtain"",""park-assist-r"",""leather"",""b...","Автомобиль в отличном состоянии, вложений ника..."
1,14261299,300000,Ford,Maverick,III,Внедорожник 5 дв.,,пятидверный внедорожник,серебристый,3.0,...,4,среднее,растаможен,дубликат,частник,Краснодарский край,Сочи,Теневой переулок,,"Есть жизненные повреждения, автомобиль рабочий..."
2,10850488,2600000,Volkswagen,Caravelle,T6,Минивэн,Trendline,минивэн,чёрный,2.0,...,2,среднее,растаможен,оригинал,частник,Оренбургская область,Орск,,"[""isofix"",""front-seats-heat"",""hcc"",""heated-was...","Автомобиль в отличном состоянии, все то пройде..."
3,16407528,549000,Opel,Astra,H Рестайлинг,Седан,Essentia,седан,чёрный,1.6,...,4,среднее,растаможен,дубликат,частник,Самарская область,Самара,,"[""abs"",""airbag-driver"",""airbag-passenger"",""air...",Продаю личный автомобиль в хорошем состоянии. ...
4,12695854,700000,Hyundai,Santa Fe,I,Внедорожник 5 дв.,,пятидверный внедорожник,красный,2.7,...,3,среднее,растаможен,оригинал,частник,Краснодарский край,Краснодар,Адлерский район,,"Пороги переваренные, грм новый, масла в двигат..."


In [4]:
df['log_price'] = np.log1p(df['price_rub'])
df['bin_horse_power'] = pd.cut(df['horse_power'], bins=[0, 100, 200, 300, 400, np.inf], labels=['0-100', '100-200', '200-300', '300-400', '400+'])
df['car_age'] = 2026 - df['year']


In [5]:
df['owners_count'].value_counts()

owners_count
4    23567
3    19134
1    18299
2    17595
0     1414
Name: count, dtype: int64

In [6]:
df.loc[(df['owners_count'] == 0) & (df['seller_type'] == 'компания'), 'pts'] = 'оригинал'

In [7]:
df[df['color'].isna()==True]

Unnamed: 0,id,price_rub,mark,model,generation,configuration,complectation,body_type,color,displacement,...,pts,seller_type,region,city,address,options,description,log_price,bin_horse_power,car_age
11231,10762226,1850000,Hyundai,Santa Fe,II Рестайлинг,Внедорожник 5 дв.,,пятидверный внедорожник,,2.4,...,дубликат,частник,Новосибирская область,Новосибирск,Новосибирская область,,Авто полностью в полном порядке. По кузову в и...,14.430697,100-200,14
42133,10684422,1750000,Lada (ВАЗ),Vesta,I,Универсал 5 дв. SW,,универсал,,1.6,...,оригинал,частник,Пермский край,Соликамск,,,К продаже Лада Веста СВ в отличной комплектаци...,14.375127,100-200,5
52190,16639311,935000,Lada (ВАЗ),Vesta,I,Седан,Luxe (2019-2021),седан,,1.6,...,оригинал,частник,Республика Дагестан,Кизилюрт,,"[""esp"",""immo"",""multi-wheel"",""wheel-power"",""eng...","Продам хорошую весту,не битая НО ЕСТЬ ВЫТЯНУТЫ...",13.748303,100-200,6
56471,13823774,990000,Audi,A4,IV (B8),Седан,Стандарт,седан,,1.8,...,оригинал,частник,Краснодарский край,Туапсе,"Привокзальная площадь, 16","[""airbag-driver"",""airbag-side"",""abs"",""wheel-po...",Машина в хорошем состоянии реальному покупател...,13.805461,100-200,18
60620,10702159,4700000,Kia,Sorento,IV,Внедорожник 5 дв.,Premium (2020-2021),пятидверный внедорожник,,2.5,...,оригинал,частник,Пензенская область,Пенза,,"[""19-inch-wheels"",""alloy-wheel-disks"",""panoram...",,15.363073,100-200,5
72819,10641285,1600000,Mercedes-Benz,Citan,I (W415),Компактвэн,109 CDI,компактвэн,,1.5,...,оригинал,частник,Омская область,Омск,Центральный округ,"[""wheel-power"",""wheel-configuration1"",""third-r...",Мercedеs citan Eдинственный в Омскe) Ухoженны...,14.285515,0-100,13
73530,10636948,490000,Mercedes-Benz,E-Класс,"II (W210, S210)",Седан,,седан,,2.2,...,оригинал,частник,Ростовская область,Донецк,,,"Автомобиль в достойном, ухоженном состоянии, д...",13.102163,0-100,30


Напишем функцию, которая будет заполнять пропуска для цвета самым "модным" цветом для этой марки + модели

In [8]:
def fill_color_by_mode(df):
    color_mode = df.groupby(['mark', 'model'])['color'].agg(lambda x: x.mode().iloc[0] if not x.mode().empty else pd.NA)
    
    color_dict = color_mode.to_dict()
    
    def fill_color(row):
        if pd.isna(row['color']):
            return color_dict.get((row['mark'], row['model']), row['color'])
        return row['color']
    
    df['color'] = df.apply(fill_color, axis=1)
    return df

df = fill_color_by_mode(df)

Заметим, что для всех строк, где есть пропуска в признаке 'km_age' признак 'seller_type' - компания.

In [9]:
df[(df['km_age'].isna()==True) & (df['seller_type'] != 'компания')]

Unnamed: 0,id,price_rub,mark,model,generation,configuration,complectation,body_type,color,displacement,...,pts,seller_type,region,city,address,options,description,log_price,bin_horse_power,car_age


In [10]:
df['km_age'] = df['km_age'].fillna(df.loc[df['seller_type'] != 'компания', 'km_age'].median())

In [11]:
df.loc[(df['pts'].isna()==True) & (df['seller_type'] == 'компания')] 

Unnamed: 0,id,price_rub,mark,model,generation,configuration,complectation,body_type,color,displacement,...,pts,seller_type,region,city,address,options,description,log_price,bin_horse_power,car_age


In [12]:
df.loc[df['pts'].isna() & (df['seller_type'] == 'частник'), 'pts'] = 'Неизвестно'

In [13]:
df.loc[df['generation'].isna(), ['mark', 'model']]

Unnamed: 0,mark,model
14,Nissan,Tino
23,Lada (ВАЗ),2109
58,Nissan,Bassara
64,Great Wall,Wingle 7
65,Great Wall,Hover H5
...,...,...
80003,BAW,Ace M7
80005,Dadi,Shuttle
80006,Oting,Paladin
80007,Hudson,Deluxe Eight


Постараемся как то умно заполнить пропуски в признаке 'generation'. Возможно, найдутся такие строки, где марка+модель дадут нам информацию о 'generation'. Если же таких нет, то поставим 'Неизвестно'.

In [14]:
def fill_generation(df):
    gen_mode = df.groupby(['mark', 'model'])['generation'].agg(
        lambda x: x.mode().iloc[0] if not x.mode().empty else pd.NA
    )
    
    gen_dict = gen_mode.to_dict()
    
    def fill_gen(row):
        if pd.isna(row['generation']):
            mode_val = gen_dict.get((row['mark'], row['model']), pd.NA)
            return mode_val if pd.notna(mode_val) else 'Неизвестно'
        return row['generation']
    
    df['generation'] = df.apply(fill_gen, axis=1)
    return df
df = fill_generation(df)

In [15]:
df['region'] = df['region'].fillna('Неизвестно')
df['address'] = df['address'].fillna('Неизвестно')

По скольку цены в городах могут различаться для одних и тех же машин, то введем индекс города

In [16]:
P_global = df['log_price'].mean()
cuty_mean = df.groupby('city')['log_price'].mean()
df['city_price_ratio'] = df['city'].map(cuty_mean) / P_global

In [17]:
df.loc[:, df.isna().any()]

Unnamed: 0,complectation,options,description
0,Prestige Black Edition,"[""airbag-curtain"",""park-assist-r"",""leather"",""b...","Автомобиль в отличном состоянии, вложений ника..."
1,,,"Есть жизненные повреждения, автомобиль рабочий..."
2,Trendline,"[""isofix"",""front-seats-heat"",""hcc"",""heated-was...","Автомобиль в отличном состоянии, все то пройде..."
3,Essentia,"[""abs"",""airbag-driver"",""airbag-passenger"",""air...",Продаю личный автомобиль в хорошем состоянии. ...
4,,,"Пороги переваренные, грм новый, масла в двигат..."
...,...,...,...
80004,,,Машина не битая не крашенная в идеальном состо...
80005,,,
80006,,,"Продам отличный автомобиль, в эксплуатации был..."
80007,,,"Автомобиль в оригинальном, отличном состоянии ..."


In [18]:
df['count_options'] = df['options'].apply(lambda x: len(x.split(',')) if pd.notna(x) else 0)
df['count_options'] = df['count_options'].fillna(0)
df.drop('options', axis=1, inplace=True)
df['count_options']

0        54
1         0
2        31
3        22
4         0
         ..
80004     0
80005     0
80006     0
80007     0
80008    82
Name: count_options, Length: 80009, dtype: int64

In [19]:
df['complectation'] = df['complectation'].fillna('Неизвестно')
df['description'] = df['description'].fillna('Неизвестно')

In [20]:
categorical_cols = [
        'mark', 'model', 'generation', 'configuration', 'complectation',
        'body_type', 'color', 'drive_type', 'engine_type', 'transmission',
        'wheel', 'condition', 'custom', 'pts', 'seller_type', 'region', 'city'
    ]

for col in categorical_cols:
    df[col] = df[col].astype('category')

df.dtypes

id                     int64
price_rub              int64
mark                category
model               category
generation          category
configuration       category
complectation       category
body_type           category
color               category
displacement         float64
drive_type          category
engine_type         category
horse_power            int64
transmission        category
wheel               category
km_age               float64
year                   int64
owners_count           int64
condition           category
custom              category
pts                 category
seller_type         category
region              category
city                category
address               object
description           object
log_price            float64
bin_horse_power     category
car_age                int64
city_price_ratio     float64
count_options          int64
dtype: object

Постараемся как то превратить этот description ужас в что-то осмысленное 

In [31]:
pd.set_option('display.max_colwidth', None)
df['description'].iloc[10:20]

10                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               двигатель контрактный, работает идеально, и очень тихо, масло не ест, ни грамма В максимальной комплектации: ✅климат контроль ✅подогрев и вентиляция передних и задних сидений ✅люк, панорама ✅круиз-контроль ✅атаманка у пассажира ✅бесключевой доступ старт-стоп ✅аудио система с навигацией и Bluetooth Торг у машины.
11                                                                                                                         Классика британского автопрома. Яг

In [27]:
df['has_heating'] = df['description'].str.contains('обогрев', case=False, na=False, regex=True).astype(int)

In [32]:
import re

damage_keywords = {
    'повреждени': ['повреждение', 'повреждения', 'повреждён', 'поврежден', 'повреждена'],
    'бит': ['битый', 'битая', 'битое', 'битые', 'бит', 'бита'],
    'ремонт': ['ремонта', 'ремонту', 'ремонтный', 'ремонтные', 'ремонт'],
    'работ': ['неработает', 'не работает', 'нерабочий', 'нерабочая', 'нерабочее'],
    'завод': ['заводится', 'заведется', 'запускается', 'незаводится', 'не заводится'],
    'слом': ['сломано', 'сломан', 'сломался', 'сломалась', 'сломанный'],
    'авария': ['авария', 'аварийный', 'аварийная', 'после аварии'],
    'дтп': ['дтп', 'попадал', 'попадала', 'участие в дтп'],
    'ржавчина': ['ржавчина', 'ржавый', 'ржавая', 'ржавое', 'ржавые', 'гниль', 'гнилой', 'коррозия'],
    'внимание': ['требует внимания', 'нуждается во внимании', 'требует осмотра', 'нужен осмотр']
}

patterns = []
for word_forms in damage_keywords.values():
    patterns.extend(word_forms)

pattern = '|'.join(patterns)
df['has_damage'] = df['description'].str.contains(pattern, case=False, na=False, regex=True).astype(int)