# Первичная обработка данных

 Некоторые признаки нуждаются в предобработке.  
 Этот шаг можно было сделать в рамках основного jupyter notebook файла, но я решил поступить иначе.  
 Если вы не хотите плодить файлы в своем проекта, то просто скопируйте код в свой jupyter notebook.

In [1]:
# imports
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
# Read the data
df = pd.read_csv('car_prices_multiprocessing_08_11_2020.csv')
df.shape

In [None]:
# Посмотрим на данные
df.head()

## Первичные преобразования
Признаки, требующие преобразования:
- **fuelType**
- **color_hex**
- **Руль**
- **vehicleTransmission**
- **Привод**

In [4]:
fuel_type_converter = {
    'GASOLINE': 'бензин',
    'DIESEL': 'дизель',
    'HYBRID': 'гибрид',
    'ELECTRO': 'электро',
    'LPG': 'газ',
}

color_convertor = {
    '040001': 'черный',
    'FAFBFB': 'белый',
    '0000CC': 'синий',
    '97948F': 'серый',
    'CACECB': 'серебристый',
    '200204': 'коричневый',
    'EE1D19': 'красный',
    '007F00': 'зелёный',
    '22A0F8': 'голубой',
    'C49648': 'бежевый.',
    'DEA522': 'золотистый',
    'FF8649': 'оранжевый',
    '660099': 'фиолетовый',
    '4A2197': 'пурпурный',
    'FFD600': 'жёлтый',
    'FFC0CB': 'розовый',    
}

wheel_convertor = {
    'LEFT': 'левый',
    'RIGHT': 'правый',
}

transmission_converter = {
    'MECHANICAL': 'механическая',
    'AUTOMATIC': 'автоматическая',
    'ROBOT': 'роботизированная',
    'VARIATOR': 'вариаторная'
}

gear_type_convertor = {
    'REAR_DRIVE': 'задний',
    'ALL_WHEEL_DRIVE': 'полный',
    'FORWARD_CONTROL': 'передний',
}

pts_convertor = {
    'ORIGINAL': 'Оригинал',
    'DUPLICATE': 'Дубликат',
}

def convert_features(data):
    data.fuelType.replace(fuel_type_converter, inplace=True)

    # преобразуем значения цветов из hex-формата в строчное название цвета
    data['color'] = data.color_hex.apply(lambda x: color_convertor[x])
    data.drop(labels='color_hex', axis=1, inplace=True)
    
    # Преобразуем признак steering_wheel
    data['Руль'].replace(wheel_convertor, inplace=True)
    
    # Преобразуем признак vehicleTransmission
    data.vehicleTransmission.replace(transmission_converter, inplace=True)
    
    # Преобразуем признак gear_type
    data['Привод'].replace(gear_type_convertor, inplace=True)
    
    # Преобразуем признак ПТС
    data['ПТС'].replace(pts_convertor, inplace=True)
    
    # Переведем в верхний регистр название бренда
    data.brand = data.brand.str.upper()
    
    return data

In [None]:
df = convert_features(df)

In [None]:
df.isnull().sum()

In [None]:
# удалим объекты без цены и с пропусками в след. признаках
cols_to_dropna = 'bodyType engineDisplacement enginePower fuelType modelDate name numberOfDoors super_gen vehicleConfiguration vehicleTransmission Привод price price_timestamp price_segment'.split(' ')

df = df.dropna(subset=cols_to_dropna)

### Запись в файл

In [3]:
def write_to_csv(data, file_name):
    date_str = datetime.now().strftime('%d_%m_%Y')
    df.to_csv(f"{file_name}_{date_str}_final.csv", index=False, encoding='utf-8')

In [None]:
write_to_csv(df, 'car_prices')