# Feature Engineering. Практическая работа

Сдаётся на проверку.

## Цели практической работы

Научиться: 

*   генерировать новые признаки; 
*   нормализовать и кодировать данные с помощью lambda-функций и библиотеки scikit-learn.


## Что входит в практическую работу

1. Построить признаки из строк.
2. Преобразовать категориальные переменные.
3. Стандартизировать данные.
4. Использовать MinMaxScaler для нормализации данных.
5. Создать признаки на основе дат.
6. Сохранить датафрейм для этапа моделирования.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов.
- При построении графиков название и оси подписаны, выведена легенда, если требуется. 
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них тем.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему куратору.


## Задача

Мы продолжим исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset_upd.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

В этой практической работе вы продолжите генерировать дополнительные признаки и завершите подготовку датасета для этапа моделирования.

## Описание датасета:
- `id`— идентификатор записи;
- `url`— URL-записи о продаже;
- `region`— регион;
- `region_url`— URL региона;
- `price`— стоимость;
- `year`— год выпуска;
- `manufacturer`— производитель;
- `model`— модель;
- `condition`— состояние;
- `cylinders`— количество цилиндров;
- `fuel`— тип топлива;
- `odometer`— количество пройденных миль;
- `title_status`— статус;
- `transmission`— коробка передач;
- `VIN`— идентификационный номер;
- `drive`— тип привода;
- `size`— размер;
- `type`— кузов;
- `paint_color`— цвет;
- `image_url`— URL изображения;
- `description`— указанное описание;
- `county`— страна;
- `state`— штат;
- `lat`— широта;
- `long`— долгота;
- `posting_date`— дата размещения объявления о продаже;
- `price_category`— категория цены.


In [97]:
# Импортируйте необходимые библиотеки
import pandas as pd
import matplotlib as plt
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

### Задача 1. Построение признаков из строк

1. Загрузите датасет из `data/vehicles_dataset_upd6.csv`, выведите первые пять записей и список колонок.

In [78]:
# Ваш код здесь
df = pd.read_csv('vehicles_dataset_upd6.csv')
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,is_jeep,is_honda,is_nissan,x0_diesel,x0_electric,x0_gas,x0_hybrid,x0_other,std_scaled_odometer,std_scaled_price
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,0,0,0,1.0,0.0,0.0,0.0,0.0,-1.07939,2.958509
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.560115,-0.085826
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,0,0,0,0.0,0.0,1.0,0.0,0.0,-1.292863,1.406256
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,0,0,0,0.0,0.0,1.0,0.0,0.0,0.352621,-0.281218
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.234311,-0.274017


2. Выведите список значений и количество уникальных значений для модели автомобиля.

In [79]:
# Ваш код здесь
df['model'].unique()

array(['2500 crew cab big horn', 'explorer 4wd 4dr xlt',
       'golf r hatchback', ..., 'gs350', '1988 Nisan',
       'a3 2.0t premium plus pzev'], dtype=object)

In [80]:
df['model'].nunique()

3341

3. Количество уникальных значений велико. Попробуем их сократить, оставив только первое слово в наименовании модели. С помощью lambda-функции и преобразования над строками создайте новый признак `short_model`, содержащий только первое слово из наименования модели, выведите его и количество получившихся уникальных значений.

In [81]:
# Ваш код здесь
df['short_model'] = df['model'].apply(lambda x: x.split()[0])
df['short_model']

0           2500
1       explorer
2           golf
3           rav4
4              1
          ...   
9614        rav4
9615    wrangler
9616          a3
9617     cayenne
9618        1500
Name: short_model, Length: 9619, dtype: object

In [82]:
df['short_model'].nunique()

943

### Задача 2. Преобразование категориальных переменных

1. Для категориальных переменных `short_model`, `transmission`, `region`, `manufacturer`, `state`, `title_status`, `age_category` распечатайте наименование категории и количество уникальных значений в ней.


In [83]:
# Ваш код здесь
def unique_counts(df,column_name):
    unique_values = df[column_name].unique()
    unique_count = df[column_name].nunique()
    print(f'\n Имя категории : {column_name}')
    print(f'\n количество уникальных значений : {unique_count}')
unique_counts(df,'short_model')
unique_counts(df,'transmission')
unique_counts(df,'region')
unique_counts(df,'manufacturer')
unique_counts(df,'state')
unique_counts(df,'title_status')
unique_counts(df,'age_category')







 Имя категории : short_model

 количество уникальных значений : 943

 Имя категории : transmission

 количество уникальных значений : 3

 Имя категории : region

 количество уникальных значений : 393

 Имя категории : manufacturer

 количество уникальных значений : 40

 Имя категории : state

 количество уникальных значений : 51

 Имя категории : title_status

 количество уникальных значений : 6

 Имя категории : age_category

 количество уникальных значений : 3


2. Создайте датафрейм `data`, содержащий только выбранные категориальные переменные.

In [87]:
# Ваш код здесь
data = df[['short_model','region','transmission','age_category','manufacturer','state','title_status']]
data

Unnamed: 0,short_model,region,transmission,age_category,manufacturer,state,title_status
0,2500,chattanooga,other,new,ram,tn,clean
1,explorer,north jersey,automatic,new,ford,nj,clean
2,golf,reno / tahoe,other,new,volkswagen,ca,clean
3,rav4,fayetteville,automatic,average,toyota,nc,clean
4,1,knoxville,other,average,bmw,tn,clean
...,...,...,...,...,...,...,...
9614,rav4,chautauqua,automatic,old,toyota,ny,clean
9615,wrangler,binghamton,other,average,jeep,ny,clean
9616,a3,salem,automatic,average,audi,or,clean
9617,cayenne,madison,automatic,new,porsche,wi,clean


3. Создайте объект класса OneHotEncoder, который будет отвечать за преобразование. Уточните, что на выходе должна быть неразреженная матрица.

In [183]:
# Ваш код здесь
ohe = OneHotEncoder(sparse=False)

4. Идентифицируйте параметры преобразования на датафрейме с категориальными переменными.

In [184]:
# Ваш код здесь
ohe.fit(data)

OneHotEncoder(sparse=False)

5. Примените преобразование для датафрейма с категориальными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [187]:
# Ваш код здесь
ohe_f = ohe.transform(data)
ohe_f

array([[0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       ...,
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.]])

6. Выведите новые наименования признаков с помощью метода `get_feature_names_out`.

In [188]:
# Ваш код здесь
ohe.get_feature_names_out()

array(['short_model_-benz', 'short_model_1', 'short_model_124', ...,
       'title_status_rebuilt_1.0', 'title_status_salvage_0.0',
       'title_status_salvage_1.0'], dtype=object)

7. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [191]:
# Ваш код здесь
data[ohe.get_feature_names_out()] = ohe_f
data.head()

Unnamed: 0,short_model,region,transmission,age_category,manufacturer,state,title_status,short_model_-benz,short_model_1,short_model_124,...,title_status_lien_0.0,title_status_lien_1.0,title_status_missing_0.0,title_status_missing_1.0,title_status_parts only_0.0,title_status_parts only_1.0,title_status_rebuilt_0.0,title_status_rebuilt_1.0,title_status_salvage_0.0,title_status_salvage_1.0
0,2500,chattanooga,other,new,ram,tn,clean,0.0,0.0,0.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
1,explorer,north jersey,automatic,new,ford,nj,clean,0.0,0.0,0.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
2,golf,reno / tahoe,other,new,volkswagen,ca,clean,0.0,0.0,0.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
3,rav4,fayetteville,automatic,average,toyota,nc,clean,0.0,0.0,0.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
4,1,knoxville,other,average,bmw,tn,clean,0.0,1.0,0.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0


8. Посмотрите на результат обратного преобразования получившейся матрицы в исходные признаки, используйте `inverse_transform`.

In [192]:
# Ваш код здесь
ohe.inverse_transform

<bound method OneHotEncoder.inverse_transform of OneHotEncoder(sparse=False)>

### Задача 3. Стандартизация данных

1. Создайте переменную под количественные переменные `lat`, `long`, `year`, `odometer/price`, `desc_len`, `model_in_desc`, `model_len`, `model_word_count` и создайте датафрейм `data`, содержащий только выбранные количественные переменные.


In [195]:
# Ваш код здесь
data1 = df[['lat','long','year','odometer/price','desc_len','model_in_desc','model_len','model_word_count']]
data1

Unnamed: 0,lat,long,year,odometer/price,desc_len,model_in_desc,model_len,model_word_count
0,35.060000,-85.250000,2020,0.499036,4482,0,22,5
1,40.821805,-74.061962,2016,3.542852,968,0,20,4
2,33.779214,-84.411811,2017,0.394718,4286,0,16,3
3,35.715954,-78.655304,2013,8.089034,3241,0,4,1
4,35.970000,-83.940000,2012,5.515079,4851,0,22,5
...,...,...,...,...,...,...,...,...
9614,42.123900,-79.189500,2002,33.370412,1710,0,4,1
9615,43.216990,-77.755610,2008,7.835323,948,0,8,1
9616,44.925908,-122.982753,2011,16.696387,909,0,25,5
9617,43.029559,-89.397796,2015,1.941787,3644,0,7,1


2. Создайте объект `std_scaler` класса StandardScaler с параметрами по умолчанию, который будет отвечать за стандартизацию.

In [196]:
# Ваш код здесь
std_scaler = StandardScaler()
std_scaler

StandardScaler()

3. Идентифицируйте параметры преобразования на датафрейме с количественными переменными.

In [197]:
# Ваш код здесь
std_scaler.fit(data1)

StandardScaler()

4. Примените преобразование для датафрейма с количественными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [198]:
# Ваш код здесь
std_scaler_data1 = std_scaler.transform(data1)
std_scaler_data1

array([[-0.61917248,  0.48424452,  1.32239376, ..., -0.15578836,
         1.16303238,  1.91066901],
       [ 0.38801429,  1.11079989,  0.69597272, ..., -0.15578836,
         0.93208734,  1.23579936],
       [-0.84305905,  0.531185  ,  0.85257798, ..., -0.15578836,
         0.47019727,  0.56092971],
       ...,
       [ 1.10542805, -1.62887477, -0.08705357, ..., -0.15578836,
         1.50944993,  1.91066901],
       [ 0.7739386 ,  0.25195859,  0.53936746, ..., -0.15578836,
        -0.56905538, -0.78880959],
       [-0.33773799,  0.98546471,  0.85257798, ..., -0.15578836,
         1.16303238,  1.91066901]])

5. Создайте наименования новых признаков по шаблону: `lat_std` для `lat` и так далее.

In [199]:
# Ваш код здесь
data1 = data1.rename(columns={'lat': 'lat_std','long': 'long_std','year': 'year_std','odometer/price': 'odometer/price_std','desc_len':'desc_len_std','model_in_desc': 'model_in_desc_std','model_len': 'model_len_std','model_word_count': 'model_word_count_std'})
data1

Unnamed: 0,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std
0,35.060000,-85.250000,2020,0.499036,4482,0,22,5
1,40.821805,-74.061962,2016,3.542852,968,0,20,4
2,33.779214,-84.411811,2017,0.394718,4286,0,16,3
3,35.715954,-78.655304,2013,8.089034,3241,0,4,1
4,35.970000,-83.940000,2012,5.515079,4851,0,22,5
...,...,...,...,...,...,...,...,...
9614,42.123900,-79.189500,2002,33.370412,1710,0,4,1
9615,43.216990,-77.755610,2008,7.835323,948,0,8,1
9616,44.925908,-122.982753,2011,16.696387,909,0,25,5
9617,43.029559,-89.397796,2015,1.941787,3644,0,7,1


6. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [214]:
# Ваш код здесь
df[['lat_std','long_std','year_std','odometer/price_std','desc_len_std','model_in_desc_std','model_len_std','model_word_count_std']] = std_scaler_data1
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,std_scaled_price,short_model,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,2.958509,2500,-0.619172,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,-0.085826,explorer,0.388014,1.1108,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,1.406256,golf,-0.843059,0.531185,0.852578,-0.51448,0.560744,-0.155788,0.470197,0.56093
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,-0.281218,rav4,-0.504509,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.78881
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,-0.274017,1,-0.460101,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669


### Задача 4. MinMax-нормализация данных

1. Импортируйте MinMaxScaler из `sklearn.preprocessing`.

In [138]:
# Ваш код здесь
from sklearn.preprocessing import MinMaxScaler

2. Создайте датафрейм, содержащий переменные `lat` и `long`.

In [203]:
# Ваш код здесь
data2 = df[['lat','long']]
data2

Unnamed: 0,lat,long
0,35.060000,-85.250000
1,40.821805,-74.061962
2,33.779214,-84.411811
3,35.715954,-78.655304
4,35.970000,-83.940000
...,...,...
9614,42.123900,-79.189500
9615,43.216990,-77.755610
9616,44.925908,-122.982753
9617,43.029559,-89.397796


3. Повторите действия пунктов 2–6 из задачи 3 для добавления в исходный датафрейм признаков `lat_mm` и `long_mm`. Выведите получившийся датафрейм.

In [204]:
# Ваш код здесь
std_scaler = MinMaxScaler()

In [205]:
std_scaler.fit(data2[['lat','long']])

MinMaxScaler()

In [209]:
std_scaler_data2 = std_scaler.transform(data2[['lat','long']])
std_scaler_data2

array([[0.34176874, 0.28869912],
       [0.4686646 , 0.33305517],
       [0.31356118, 0.2920222 ],
       ...,
       [0.55905185, 0.13910399],
       [0.51728736, 0.27225478],
       [0.37722678, 0.32418225]])

In [210]:
data2 = data2.rename(columns={'lat': 'lat_mm','long':'long_mm'})

In [216]:
df[['lat_mm','long_mm']] = std_scaler_data2 
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,lat_mm,long_mm
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,-0.619172,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,0.341769,0.288699
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0.388014,1.1108,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,0.468665,0.333055
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,-0.843059,0.531185,0.852578,-0.51448,0.560744,-0.155788,0.470197,0.56093,0.313561,0.292022
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,-0.504509,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.78881,0.356215,0.314844
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,-0.460101,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,0.36181,0.293893


4. Создайте переменную под географические признаки `lat`, `lat_std`, `lat_mm`, `long`, `long_std`, `long_mm` и выведите их. Посмотрите на различия в значениях для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования. 

In [217]:
# Ваш код здесь
df[['lat','lat_std','lat_mm','long','long_std','long_mm']]

Unnamed: 0,lat,lat_std,lat_mm,long,long_std,long_mm
0,35.060000,-0.619172,0.341769,-85.250000,0.484245,0.288699
1,40.821805,0.388014,0.468665,-74.061962,1.110800,0.333055
2,33.779214,-0.843059,0.313561,-84.411811,0.531185,0.292022
3,35.715954,-0.504509,0.356215,-78.655304,0.853562,0.314844
4,35.970000,-0.460101,0.361810,-83.940000,0.557607,0.293893
...,...,...,...,...,...,...
9614,42.123900,0.615626,0.497341,-79.189500,0.823646,0.312727
9615,43.216990,0.806702,0.521415,-77.755610,0.903947,0.318411
9616,44.925908,1.105428,0.559052,-122.982753,-1.628875,0.139104
9617,43.029559,0.773939,0.517287,-89.397796,0.251959,0.272255


5. Выведите описательные статистики для всех географических признаков. Посмотрите на различия в статистиках для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования.

In [218]:
# Ваш код здесь
df.describe()

Unnamed: 0,id,price,year,odometer,lat,long,odometer_km,odometer/price,desc_len,model_in_desc,...,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,lat_mm,long_mm
count,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,...,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0
mean,7311568000.0,18014.652771,2011.555879,95166.428943,38.602095,-93.896875,153155.52142,14.916422,2745.205115,0.369581,...,2.108662e-16,-4.267993e-16,9.321938e-15,6.127637000000001e-17,-2.6200290000000003e-17,-2.058627e-16,-1.19321e-16,5.10017e-16,0.419779,0.254418
std,4358556.0,12498.618213,6.385814,62746.525381,5.720989,17.857352,100980.744143,28.227443,2747.910831,2.372451,...,1.000052,1.000052,1.000052,1.000052,1.000052,1.000052,1.000052,1.000052,0.125997,0.070797
min,7301586000.0,500.0,1995.0,0.0,19.541726,-158.0693,0.0,0.0,4.0,0.0,...,-3.331829,-3.593801,-2.592738,-0.5284644,-0.9976116,-0.1557884,-1.26189,-0.7888096,0.0,0.0
25%,7308208000.0,7500.0,2008.0,40784.0,34.92,-106.94434,65635.485696,1.65856,502.5,0.0,...,-0.643645,-0.7306875,-0.5568694,-0.4697043,-0.8161916,-0.1557884,-0.6845279,-0.7888096,0.338685,0.20269
50%,7312785000.0,15000.0,2013.0,91000.0,39.3,-87.8458,146450.304,5.838926,2149.0,0.0,...,0.1219966,0.3388739,0.2261569,-0.3216008,-0.216978,-0.1557884,-0.3381103,-0.1139399,0.435149,0.278408
75%,7315287000.0,26990.0,2017.0,138594.5,42.3821,-80.678711,223046.227008,16.469689,4235.0,0.0,...,0.6607601,0.740247,0.852578,0.0550297,0.5421837,-0.1557884,0.5856698,0.5609297,0.503028,0.306822
max,7317090000.0,57999.0,2020.0,283995.0,64.9475,94.1632,457045.64928,466.666667,26777.0,63.0,...,4.605283,10.53179,1.322394,16.00477,8.745933,26.40041,20.216,18.10754,1.0,1.0


6. Выведите матрицу корреляций для всех географических признаков, чтобы убедиться, что нормализация признаков сохранила свойства исходных признаков.

In [220]:
# Ваш код здесь
df.corr()

Unnamed: 0,id,price,year,odometer,lat,long,odometer_km,odometer/price,desc_len,model_in_desc,...,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,lat_mm,long_mm
id,1.0,-0.094815,-0.100476,0.048108,-0.077992,-0.109705,0.048108,0.040483,-0.028756,-0.012981,...,-0.077992,-0.109705,-0.100476,0.040483,-0.028756,-0.012981,-0.046895,-0.049346,-0.077992,-0.109705
price,-0.094815,1.0,0.551719,-0.532678,-0.013819,-0.046448,-0.532678,-0.491961,0.370749,0.040314,...,-0.013819,-0.046448,0.551719,-0.491961,0.370749,0.040314,0.344565,0.346095,-0.013819,-0.046448
year,-0.100476,0.551719,1.0,-0.502363,-0.030911,0.018927,-0.502363,-0.390563,0.3757,0.021912,...,-0.030911,0.018927,1.0,-0.390563,0.3757,0.021912,0.229937,0.255428,-0.030911,0.018927
odometer,0.048108,-0.532678,-0.502363,1.0,0.02616,-0.004025,1.0,0.518346,-0.30474,0.014233,...,0.02616,-0.004025,-0.502363,0.518346,-0.30474,0.014233,-0.251333,-0.275012,0.02616,-0.004025
lat,-0.077992,-0.013819,-0.030911,0.02616,1.0,-0.134596,0.02616,0.025882,0.018658,-0.011035,...,1.0,-0.134596,-0.030911,0.025882,0.018658,-0.011035,0.001124,-0.009247,1.0,-0.134596
long,-0.109705,-0.046448,0.018927,-0.004025,-0.134596,1.0,-0.004025,0.006534,-0.07674,-0.013786,...,-0.134596,1.0,0.018927,0.006534,-0.07674,-0.013786,0.014472,0.015311,-0.134596,1.0
odometer_km,0.048108,-0.532678,-0.502363,1.0,0.02616,-0.004025,1.0,0.518346,-0.30474,0.014233,...,0.02616,-0.004025,-0.502363,0.518346,-0.30474,0.014233,-0.251333,-0.275012,0.02616,-0.004025
odometer/price,0.040483,-0.491961,-0.390563,0.518346,0.025882,0.006534,0.518346,1.0,-0.22421,-0.017746,...,0.025882,0.006534,-0.390563,1.0,-0.22421,-0.017746,-0.162768,-0.172033,0.025882,0.006534
desc_len,-0.028756,0.370749,0.3757,-0.30474,0.018658,-0.07674,-0.30474,-0.22421,1.0,0.129553,...,0.018658,-0.07674,0.3757,-0.22421,1.0,0.129553,0.157077,0.159116,0.018658,-0.07674
model_in_desc,-0.012981,0.040314,0.021912,0.014233,-0.011035,-0.013786,0.014233,-0.017746,0.129553,1.0,...,-0.011035,-0.013786,0.021912,-0.017746,0.129553,1.0,-0.123609,-0.105882,-0.011035,-0.013786


### Задача 5. Признаки на основе дат

1. Выведите по отдельности колонки `posting_date` и `date`. 

In [264]:
# Ваш код здесь
print(df.posting_date,'\n')
print(df.date)

0       2021-04-17 12:30:50-04:00
1       2021-05-03 15:40:21-04:00
2       2021-04-28 03:52:20-07:00
3       2021-04-17 10:08:57-04:00
4       2021-04-08 15:10:56-04:00
                  ...            
9614    2021-04-10 16:33:57-04:00
9615    2021-05-03 09:36:30-04:00
9616    2021-04-22 12:14:01-07:00
9617    2021-04-14 09:14:42-05:00
9618    2021-04-24 13:50:49-04:00
Name: posting_date, Length: 9619, dtype: object 

0      2021-04-17 16:30:50+00:00
1      2021-05-03 19:40:21+00:00
2      2021-04-28 10:52:20+00:00
3      2021-04-17 14:08:57+00:00
4      2021-04-08 19:10:56+00:00
                  ...           
9614   2021-04-10 20:33:57+00:00
9615   2021-05-03 13:36:30+00:00
9616   2021-04-22 19:14:01+00:00
9617   2021-04-14 14:14:42+00:00
9618   2021-04-24 17:50:49+00:00
Name: date, Length: 9619, dtype: datetime64[ns, UTC]


2. Ранее преобразованная колонка `date` после сохранения в файл и загрузки из него содержит данные в строковом формате, поэтому измените её тип c помощью `pd.to_datetime`.

In [233]:
# Ваш код здесь
df.date = pd.to_datetime(df.date)
df.date

0      2021-04-17 16:30:50+00:00
1      2021-05-03 19:40:21+00:00
2      2021-04-28 10:52:20+00:00
3      2021-04-17 14:08:57+00:00
4      2021-04-08 19:10:56+00:00
                  ...           
9614   2021-04-10 20:33:57+00:00
9615   2021-05-03 13:36:30+00:00
9616   2021-04-22 19:14:01+00:00
9617   2021-04-14 14:14:42+00:00
9618   2021-04-24 17:50:49+00:00
Name: date, Length: 9619, dtype: datetime64[ns, UTC]

3. Несколькими способами извлеките номер месяца продажи автомобиля.

3.1. Из переменной `posting_date` с помощью lambda-функции и операций над строками.

In [234]:
# Ваш код здесь
df['posting_date'].apply(lambda x: int(x.split('-')[1]))

0       4
1       5
2       4
3       4
4       4
       ..
9614    4
9615    5
9616    4
9617    4
9618    4
Name: posting_date, Length: 9619, dtype: int64

3.2. Из переменной `date` с помощью lambda-функции и метода `month`.

In [235]:
# Ваш код здесь
df['date'].apply(lambda x: x.month)

0       4
1       5
2       4
3       4
4       4
       ..
9614    4
9615    5
9616    4
9617    4
9618    4
Name: date, Length: 9619, dtype: int64

3.3. Из переменной `date` с помощью `dt` и метода `month`.

In [240]:
# Ваш код здесь
df['date'].dt.month

0       4
1       5
2       4
3       4
4       4
       ..
9614    4
9615    5
9616    4
9617    4
9618    4
Name: date, Length: 9619, dtype: int64

4. Создайте любым из способов (3.2 или 3.3) признак `month`, обозначающий номер месяца размещения объявления о продаже автомобиля, и распечатайте его.

In [243]:
# Ваш код здесь
df['month'] = df['date'].dt.month
df[['date','month']]

Unnamed: 0,date,month
0,2021-04-17 16:30:50+00:00,4
1,2021-05-03 19:40:21+00:00,5
2,2021-04-28 10:52:20+00:00,4
3,2021-04-17 14:08:57+00:00,4
4,2021-04-08 19:10:56+00:00,4
...,...,...
9614,2021-04-10 20:33:57+00:00,4
9615,2021-05-03 13:36:30+00:00,5
9616,2021-04-22 19:14:01+00:00,4
9617,2021-04-14 14:14:42+00:00,4


5. Создайте признак `dayofweek`, обозначающий день недели размещения объявления о продаже автомобиля, и распечатайте его.

In [292]:
# Ваш код здесь
df['dayofweek'] = df['date'].dt.dayofweek
df['dayofweek']

0       5
1       0
2       2
3       5
4       3
       ..
9614    5
9615    0
9616    3
9617    2
9618    5
Name: dayofweek, Length: 9619, dtype: int64

6. Создайте признак `diff_years`, обозначающий количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля, и распечатайте его. Дополнительные корректировки не применяйте.

In [268]:
# Ваш код здесь
df['posting_date'] = pd.to_datetime(df.posting_date, utc=True)

In [280]:
df['year_of'] = df['posting_date'].dt.year
df['diff_years'] = df['year_of'] - df['year']

7. Примените стандартизацию к новым признаками и сохраните результат в новые признаки вида `month_std`.

In [283]:
# Ваш код здесь
df = df.rename(columns={'month':'month_std','year_of':'year_of_std','diff_years':'diff_years_std'})

### Задача 6. Сохранение датафрейма для этапа моделирования

1. Удалите колонки, которые были исходными для формирования признаков, а также новые признаки, которые были добавлены с целью обучения.  Сохраните новый датафрейм в переменную `df_prepared`.

In [289]:
# Допишите код

columns_for_drop = ['year', 'url', 'region', 'region_url', 'manufacturer',
                    'model', 'fuel', 'odometer', 'title_status', 'transmission',
                    'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
                    'odometer_km', 'odometer/price', 'region_new', 'region_corrected', 'manufacturer_model',
                    'desc_len', 'model_in_desc', 'price_k$', 'age_category', 'model_len', 'model_word_count',
                    'short_model', 'lat_mm', 'long_mm', 'date', 'std_scaled_price',
                    'month_std', 'dayofweek', 'diff_years_std',
                    'odometer/price_std']


In [293]:
df_prepared = df.drop(columns=columns_for_drop)

2. Распечатайте оставшийся список колонок и размерность финального датафрейма.

In [295]:
# Ваш код здесь
df_prepared.columns

Index(['id', 'price', 'price_category', 'is_audi', 'is_ford', 'is_chevrolet',
       'is_toyota', 'is_jeep', 'is_honda', 'is_nissan', 'x0_diesel',
       'x0_electric', 'x0_gas', 'x0_hybrid', 'x0_other', 'std_scaled_odometer',
       'lat_std', 'long_std', 'year_std', 'desc_len_std', 'model_in_desc_std',
       'model_len_std', 'model_word_count_std', 'year_of_std'],
      dtype='object')

In [297]:
df_prepared.shape

(9619, 24)

3. Запишите преобразованный датафрейм в файл `data/vehicles_dataset_prepared.csv`, индекс не сохраняйте.

In [299]:
# Ваш код здесь
df_prepared.to_csv('vehicles_dataset_prepared.csv',index=False)

## Описание преобразованного датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);

- `price`— стоимость;
- `price_category`– категория цены.