In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt

In [2]:
def del_col(df: pd.DataFrame, columns: list):

    if type(columns) is list:
        df = df.drop([columns], axis=1)

    return df

In [3]:
def mape(y_true, y_pred):
    '''
    Метрика
    '''
    return np.mean(np.abs((y_pred-y_true)/y_true))

In [4]:
def display_data(dataframe, list_columns=None):
    '''
    Развернутая информация по датасету с фильтрацией по списку колонок,
    по умолчнию без фильтрации,
    названия признаков упорядочены по алфавиту
    '''
    if list_columns==None:
        index_ = sorted(dataframe.columns)
    else: 
        index_ = sorted([x for x in set(dataframe.dtypes.index).intersection(set(list_columns))])
    
    df = dataframe[index_]
    d = pd.concat([df.dtypes,df.count() + df.isna().sum(),\
               round((df.isna().sum()/(df.count() + df.isna().sum()))*100,2),df.nunique(),],axis=1)
    d.columns = ['Тип', 'Общ.кол', '% пропусков','Кол-во уник.значений']
    display(d)
    
    return

In [5]:
def show_correlation(df, features):
    '''
    plot correlation matrix
    '''
    
    #corr_matrix = df.drop(categorial_feature, axis=1).corr()
    corr_matrix = df[features].corr()
    plt.rcParams['figure.figsize'] = (15,15)
    sns.heatmap(corr_matrix, square=True,
                annot=True, fmt=".1f", linewidths=0.1, cmap="RdBu")
    plt.tight_layout()
    
    return

In [36]:
df = pd.read_csv('./dataset_all.csv', index_col=0)
display_data(df)

Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,object,71989,0.0,11
desc,object,71989,0.0,58395
engine_capacity,float64,71989,0.12,57
engine_power,float64,71989,0.08,344
fuel_type,object,71989,0.0,5
mileage,float64,71989,16.53,14638
model,object,71989,0.0,29
model_2,object,71989,0.0,962
name,object,71989,0.0,53807
params,object,71989,0.0,49677


In [38]:
#исправление пропусков
df['mileage'].fillna(0, inplace=True)
display_data(df)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['mileage'].fillna(0, inplace=True)


Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,object,71989,0.0,11
desc,object,71989,0.0,58395
engine_capacity,float64,71989,0.12,57
engine_power,float64,71989,0.08,344
fuel_type,object,71989,0.0,5
mileage,float64,71989,0.0,14639
model,object,71989,0.0,29
model_2,object,71989,0.0,962
name,object,71989,0.0,53807
params,object,71989,0.0,49677


In [39]:
df.loc[(df['engine_capacity'].isnull()) & (df['fuel_type'] == 'электро'), 'engine_capacity'] = 0.0
display_data(df)

Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,object,71989,0.0,11
desc,object,71989,0.0,58395
engine_capacity,float64,71989,0.0,58
engine_power,float64,71989,0.08,344
fuel_type,object,71989,0.0,5
mileage,float64,71989,0.0,14639
model,object,71989,0.0,29
model_2,object,71989,0.0,962
name,object,71989,0.0,53807
params,object,71989,0.0,49677


In [40]:
df.loc[df['engine_power'].isnull(), 'engine_power'] = df.loc[df['engine_power'].isnull(), 'engine_capacity'].apply(lambda x: df.groupby('engine_capacity')['engine_power'].mean()[x])
#df.loc[df['engine_power'].isnull(), 'engine_capacity'].apply(lambda x: df.groupby('engine_capacity')['engine_power'].mean()[x])
display_data(df)

Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,object,71989,0.0,11
desc,object,71989,0.0,58395
engine_capacity,float64,71989,0.0,58
engine_power,float64,71989,0.0,354
fuel_type,object,71989,0.0,5
mileage,float64,71989,0.0,14639
model,object,71989,0.0,29
model_2,object,71989,0.0,962
name,object,71989,0.0,53807
params,object,71989,0.0,49677


In [41]:
#df.year.value_counts()

df = df.drop('params', axis=1)
df = df.drop('name', axis=1)
df

Unnamed: 0,price,desc,region,mileage,engine_capacity,transmission,engine_power,body_type,wheel,fuel_type,model,model_2,year
3883899162,2570000,"Данный автомобиль прошел юридическую проверку,...",Москва,24831.0,1.4,AMT,150.0,седан,передний,бензин,Audi,A4,2017
3719132447,2595000,Дополнительная скидка до 300 000 рублей при по...,Москва,116401.0,2.0,AMT,249.0,лифтбек,полный,бензин,Audi,A7,2016
3662013276,1299000,Оставить заявку на рассрочку Оставить заявку н...,Москва,98000.0,1.4,AMT,122.0,седан,передний,бензин,Audi,A3,2013
3612342601,6999000,"Автомобиль из Германии. Идеальное состояние, п...",Москва,78000.0,3.0,AT,231.0,внедорожник,полный,дизель,Audi,Q7,2021
3566107102,2279000,Оставить заявку на рассрочку Оставить заявку н...,Москва,172000.0,2.0,AMT,249.0,седан,полный,бензин,Audi,A6,2017
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4162350483,349000,Продам Ваз 2112 2008г. Я Собственник по докуме...,Челябинская обл.,100000.0,1.6,MT,90.0,хетчбэк,передний,бензин,ВАЗ,(LADA),2008
3709120114,935000,Машина в отличном состоянии. Без Дтп. Кузов в ...,Ставропольский край,186000.0,1.6,MT,106.0,седан,передний,бензин,ВАЗ,(LADA) Vesta,2017
3747662839,380000,Рaсчeт кpeдита пo Телефоhу за 5 мин. Комплекта...,Удмуртская Республика,73887.0,1.6,MT,98.0,седан,передний,бензин,ВАЗ,(LADA) Priora,2011
3469898222,750000,Специальные Условия Для Каждого! Спешите Время...,Санкт-Петербург,87453.0,1.6,MT,106.0,универсал,передний,бензин,ВАЗ,(LADA) Largus,2020


In [42]:
df['mileage'] = df['mileage'].astype(int)

df['engine_power'] = df['engine_power'].astype(int)
df

Unnamed: 0,price,desc,region,mileage,engine_capacity,transmission,engine_power,body_type,wheel,fuel_type,model,model_2,year
3883899162,2570000,"Данный автомобиль прошел юридическую проверку,...",Москва,24831,1.4,AMT,150,седан,передний,бензин,Audi,A4,2017
3719132447,2595000,Дополнительная скидка до 300 000 рублей при по...,Москва,116401,2.0,AMT,249,лифтбек,полный,бензин,Audi,A7,2016
3662013276,1299000,Оставить заявку на рассрочку Оставить заявку н...,Москва,98000,1.4,AMT,122,седан,передний,бензин,Audi,A3,2013
3612342601,6999000,"Автомобиль из Германии. Идеальное состояние, п...",Москва,78000,3.0,AT,231,внедорожник,полный,дизель,Audi,Q7,2021
3566107102,2279000,Оставить заявку на рассрочку Оставить заявку н...,Москва,172000,2.0,AMT,249,седан,полный,бензин,Audi,A6,2017
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4162350483,349000,Продам Ваз 2112 2008г. Я Собственник по докуме...,Челябинская обл.,100000,1.6,MT,90,хетчбэк,передний,бензин,ВАЗ,(LADA),2008
3709120114,935000,Машина в отличном состоянии. Без Дтп. Кузов в ...,Ставропольский край,186000,1.6,MT,106,седан,передний,бензин,ВАЗ,(LADA) Vesta,2017
3747662839,380000,Рaсчeт кpeдита пo Телефоhу за 5 мин. Комплекта...,Удмуртская Республика,73887,1.6,MT,98,седан,передний,бензин,ВАЗ,(LADA) Priora,2011
3469898222,750000,Специальные Условия Для Каждого! Спешите Время...,Санкт-Петербург,87453,1.6,MT,106,универсал,передний,бензин,ВАЗ,(LADA) Largus,2020


TODO:

Исключить пропуски в данных

Убрать ненужные колонки

Привести некоторые категориальные признаки в номинальные

Год - сделать красиво и удалить, где мало элементов

Регион - убрать где мало элементов, мейби предобработать

Трансмиссия, привод, тип топлива, тип кузова - данные хорошие

Объем двигателя - есть выбросы

Мощность двигателя - вроде все нормально


In [21]:
df[df['body_type'].isnull() == True].params.value_counts()

params
3.5 AT внедорожник, полный, бензин                6
12 км, 3.5 AT внедорожник, полный, бензин         4
2.7 MT фургон, задний, бензин                     3
1 км, 3.5 AT внедорожник, полный, бензин          3
15 км, 3.5 AT внедорожник, полный, бензин         3
3 км, 3.5 AT внедорожник, полный, бензин          3
2.9 MT фургон, полный, бензин                     2
16 км, 3.5 AT внедорожник, полный, бензин         2
35 км, 3.5 AT внедорожник, полный, бензин         1
40 км, 3.5 AT внедорожник, полный, бензин         1
23 км, 3.5 AT внедорожник, полный, бензин         1
900 км, 3.5 AT внедорожник, полный, бензин        1
58 км, 3.3 AT внедорожник, полный, дизель         1
5 км, 3.5 AT внедорожник, полный, бензин          1
1.5 AMT седан, передний, бензин                   1
104 898 км, 2 AT внедорожник, передний, бензин    1
110 273 км, 1.6 AT хетчбэк, передний, бензин      1
26 км, 3.5 AT внедорожник, полный, бензин         1
95 800 км, 1.5 AMT универсал, передний, дизель    1
2.8 M

In [43]:
display_data(df)

Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,object,71989,0.0,11
desc,object,71989,0.0,58395
engine_capacity,float64,71989,0.0,58
engine_power,int32,71989,0.0,344
fuel_type,object,71989,0.0,5
mileage,int32,71989,0.0,14639
model,object,71989,0.0,29
model_2,object,71989,0.0,962
price,int64,71989,0.0,5119
region,object,71989,0.0,447


In [45]:
for colum in ['body_type', 'fuel_type', 'model', 'model_2', 'region', 'transmission', 'wheel']:
    df[colum] = df[colum].astype('category').cat.codes

df = df.drop('desc', axis=1)
display_data(df)

Unnamed: 0,Тип,Общ.кол,% пропусков,Кол-во уник.значений
body_type,int8,71989,0.0,11
engine_capacity,float64,71989,0.0,58
engine_power,int32,71989,0.0,344
fuel_type,int8,71989,0.0,5
mileage,int32,71989,0.0,14639
model,int8,71989,0.0,29
model_2,int16,71989,0.0,962
price,int64,71989,0.0,5119
region,int16,71989,0.0,447
transmission,int8,71989,0.0,4


In [46]:
df.to_csv('./prod_data_all.csv', index=False)