# Feature Engineering. Практическая работа

Сдаётся на проверку.

## Цели практической работы

Научиться: 

*   генерировать новые признаки; 
*   нормализовать и кодировать данные с помощью lambda-функций и библиотеки scikit-learn.


## Что входит в практическую работу

1. Построить признаки из строк.
2. Преобразовать категориальные переменные.
3. Стандартизировать данные.
4. Использовать MinMaxScaler для нормализации данных.
5. Создать признаки на основе дат.
6. Сохранить датафрейм для этапа моделирования.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов.
- При построении графиков название и оси подписаны, выведена легенда, если требуется. 
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них тем.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему куратору.


## Задача

Мы продолжим исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset_upd.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

В этой практической работе вы продолжите генерировать дополнительные признаки и завершите подготовку датасета для этапа моделирования.

## Описание датасета:
- `id`— идентификатор записи;
- `url`— URL-записи о продаже;
- `region`— регион;
- `region_url`— URL региона;
- `price`— стоимость;
- `year`— год выпуска;
- `manufacturer`— производитель;
- `model`— модель;
- `condition`— состояние;
- `cylinders`— количество цилиндров;
- `fuel`— тип топлива;
- `odometer`— количество пройденных миль;
- `title_status`— статус;
- `transmission`— коробка передач;
- `VIN`— идентификационный номер;
- `drive`— тип привода;
- `size`— размер;
- `type`— кузов;
- `paint_color`— цвет;
- `image_url`— URL изображения;
- `description`— указанное описание;
- `county`— страна;
- `state`— штат;
- `lat`— широта;
- `long`— долгота;
- `posting_date`— дата размещения объявления о продаже;
- `price_category`— категория цены.


In [66]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, StandardScaler


### Задача 1. Построение признаков из строк

1. Загрузите датасет из `data/vehicles_dataset_upd6.csv`, выведите первые пять записей и список колонок.

In [67]:
df = pd.read_csv(r'.\data\vehicles_dataset_upd6.csv')
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,is_jeep,is_honda,is_nissan,x0_diesel,x0_electric,x0_gas,x0_hybrid,x0_other,std_scaled_odometer,std_scaled_price
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,0,0,0,1.0,0.0,0.0,0.0,0.0,-1.07939,2.958509
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.560115,-0.085826
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,0,0,0,0.0,0.0,1.0,0.0,0.0,-1.292863,1.406256
3,7308210929,https://fayetteville.craigslist.org/ctd/d/raleigh-2013-toyota-rav4-xle-4dr-suv/7308210929.html,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,0,0,0,0.0,0.0,1.0,0.0,0.0,0.352621,-0.281218
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxville-2012-bmw-series-128i-coupe-2d/7303797340.html,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.234311,-0.274017


2. Выведите список значений и количество уникальных значений для модели автомобиля.

In [68]:
df.model.value_counts()

model
f-150                        145
other                        107
silverado 1500               105
1500                          99
camry                         76
                            ... 
sierra1500 crewcab 4x4         1
corolla se                     1
xc60 t6 inscription sport      1
silverado 1500 ls              1
a3 2.0t premium plus pzev      1
Name: count, Length: 3341, dtype: int64

3. Количество уникальных значений велико. Попробуем их сократить, оставив только первое слово в наименовании модели. С помощью lambda-функции и преобразования над строками создайте новый признак `short_model`, содержащий только первое слово из наименования модели, выведите его и количество получившихся уникальных значений.

In [69]:
df['short_model'] = df.model.apply(lambda x: x.split(' ')[0])
len(df.short_model.unique())

943

### Задача 2. Преобразование категориальных переменных

1. Для категориальных переменных `short_model`, `transmission`, `region`, `manufacturer`, `state`, `title_status`, `age_category` распечатайте наименование категории и количество уникальных значений в ней.


In [70]:
categories = ['short_model', 'transmission', 'region', 'manufacturer', 'state', 'title_status', 'age_category']
# categories = ['transmission', 'age_category']

for category in categories:
    print(category, len(df[category].unique()))

short_model 943
transmission 3
region 393
manufacturer 40
state 51
title_status 6
age_category 3


2. Создайте датафрейм `data`, содержащий только выбранные категориальные переменные.

In [71]:
data = df[categories].copy()
data.head()

Unnamed: 0,short_model,transmission,region,manufacturer,state,title_status,age_category
0,2500,other,chattanooga,ram,tn,clean,new
1,explorer,automatic,north jersey,ford,nj,clean,new
2,golf,other,reno / tahoe,volkswagen,ca,clean,new
3,rav4,automatic,fayetteville,toyota,nc,clean,average
4,1,other,knoxville,bmw,tn,clean,average


3. Создайте объект класса OneHotEncoder, который будет отвечать за преобразование. Уточните, что на выходе должна быть неразреженная матрица.

In [72]:
ohe = OneHotEncoder(sparse_output=False)

4. Идентифицируйте параметры преобразования на датафрейме с категориальными переменными.

In [73]:
ohe.fit(data)

5. Примените преобразование для датафрейма с категориальными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [74]:
ohe_fuel = ohe.transform(data)
print(ohe_fuel, ohe_fuel.shape)

[[0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 ...
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]] (9619, 1439)


6. Выведите новые наименования признаков с помощью метода `get_feature_names_out`.

In [75]:
ohe_names = ohe.get_feature_names_out()
ohe_names

array(['short_model_-benz', 'short_model_1', 'short_model_124', ...,
       'age_category_average', 'age_category_new', 'age_category_old'],
      dtype=object)

7. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [76]:
df[ohe_names] = ohe_fuel
# new_df[ohe.get_feature_names_out()] = ohe_fuel
df.head()

  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
  df[ohe_names] = ohe_fuel
 

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,state_wy,title_status_clean,title_status_lien,title_status_missing,title_status_parts only,title_status_rebuilt,title_status_salvage,age_category_average,age_category_new,age_category_old
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
3,7308210929,https://fayetteville.craigslist.org/ctd/d/raleigh-2013-toyota-rav4-xle-4dr-suv/7308210929.html,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxville-2012-bmw-series-128i-coupe-2d/7303797340.html,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


8. Посмотрите на результат обратного преобразования получившейся матрицы в исходные признаки, используйте `inverse_transform`.

In [77]:
ohe.inverse_transform(ohe_fuel)

array([['2500', 'other', 'chattanooga', ..., 'tn', 'clean', 'new'],
       ['explorer', 'automatic', 'north jersey', ..., 'nj', 'clean',
        'new'],
       ['golf', 'other', 'reno / tahoe', ..., 'ca', 'clean', 'new'],
       ...,
       ['a3', 'automatic', 'salem', ..., 'or', 'clean', 'average'],
       ['cayenne', 'automatic', 'madison', ..., 'wi', 'clean', 'new'],
       ['1500', 'other', 'norfolk / hampton roads', ..., 'va', 'clean',
        'new']], dtype=object)

### Задача 3. Стандартизация данных

1. Создайте переменную под количественные переменные `lat`, `long`, `year`, `odometer/price`, `desc_len`, `model_in_desc`, `model_len`, `model_word_count` и создайте датафрейм `data`, содержащий только выбранные количественные переменные.


In [78]:
quan_names = ['lat', 'long', 'year', 'odometer/price', 'desc_len', 'model_in_desc', 'model_len', 'model_word_count']
data = df[quan_names].copy()
data

Unnamed: 0,lat,long,year,odometer/price,desc_len,model_in_desc,model_len,model_word_count
0,35.060000,-85.250000,2020,0.499036,4482,0,22,5
1,40.821805,-74.061962,2016,3.542852,968,0,20,4
2,33.779214,-84.411811,2017,0.394718,4286,0,16,3
3,35.715954,-78.655304,2013,8.089034,3241,0,4,1
4,35.970000,-83.940000,2012,5.515079,4851,0,22,5
...,...,...,...,...,...,...,...,...
9614,42.123900,-79.189500,2002,33.370412,1710,0,4,1
9615,43.216990,-77.755610,2008,7.835323,948,0,8,1
9616,44.925908,-122.982753,2011,16.696387,909,0,25,5
9617,43.029559,-89.397796,2015,1.941787,3644,0,7,1


2. Создайте объект `std_scaler` класса StandardScaler с параметрами по умолчанию, который будет отвечать за стандартизацию.

In [79]:
std_scaler = StandardScaler()

3. Идентифицируйте параметры преобразования на датафрейме с количественными переменными.

In [80]:
std_scaler.fit(data)# Ваш код здесь

4. Примените преобразование для датафрейма с количественными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [81]:
std_data = std_scaler.transform(data)
std_data

array([[-0.61917248,  0.48424452,  1.32239376, ..., -0.15578836,
         1.16303238,  1.91066901],
       [ 0.38801429,  1.11079989,  0.69597272, ..., -0.15578836,
         0.93208734,  1.23579936],
       [-0.84305905,  0.531185  ,  0.85257798, ..., -0.15578836,
         0.47019727,  0.56092971],
       ...,
       [ 1.10542805, -1.62887477, -0.08705357, ..., -0.15578836,
         1.50944993,  1.91066901],
       [ 0.7739386 ,  0.25195859,  0.53936746, ..., -0.15578836,
        -0.56905538, -0.78880959],
       [-0.33773799,  0.98546471,  0.85257798, ..., -0.15578836,
         1.16303238,  1.91066901]])

5. Создайте наименования новых признаков по шаблону: `lat_std` для `lat` и так далее.

In [82]:
std_names = [i+'_std' for i in quan_names]
std_names

['lat_std',
 'long_std',
 'year_std',
 'odometer/price_std',
 'desc_len_std',
 'model_in_desc_std',
 'model_len_std',
 'model_word_count_std']

6. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [83]:
df[std_names] = std_data
print(df.head(), df.columns)

           id  \
0  7308295377   
1  7316380095   
2  7313733749   
3  7308210929   
4  7303797340   

                                                                                               url  \
0  https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html   
1              https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html   
2                https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html   
3   https://fayetteville.craigslist.org/ctd/d/raleigh-2013-toyota-rav4-xle-4dr-suv/7308210929.html   
4   https://knoxville.craigslist.org/ctd/d/knoxville-2012-bmw-series-128i-coupe-2d/7303797340.html   

         region                           region_url  price  year  \
0   chattanooga   https://chattanooga.craigslist.org  54990  2020   
1  north jersey     https://newjersey.craigslist.org  16942  2016   
2  reno / tahoe          https://reno.craigslist.org  35590  2017   
3  fayet

  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data
  df[std_names] = std_data


### Задача 4. MinMax-нормализация данных

1. Импортируйте MinMaxScaler из `sklearn.preprocessing`.

In [84]:
from sklearn.preprocessing import MinMaxScaler

2. Создайте датафрейм, содержащий переменные `lat` и `long`.

In [85]:
data = df[['lat', 'long']].copy()
data

Unnamed: 0,lat,long
0,35.060000,-85.250000
1,40.821805,-74.061962
2,33.779214,-84.411811
3,35.715954,-78.655304
4,35.970000,-83.940000
...,...,...
9614,42.123900,-79.189500
9615,43.216990,-77.755610
9616,44.925908,-122.982753
9617,43.029559,-89.397796


3. Повторите действия пунктов 2–6 из задачи 3 для добавления в исходный датафрейм признаков `lat_mm` и `long_mm`. Выведите получившийся датафрейм.

In [86]:
mm_data = MinMaxScaler().fit(data).transform(data)
df[['lat_mm', 'long_mm']] = mm_data
df

  df[['lat_mm', 'long_mm']] = mm_data
  df[['lat_mm', 'long_mm']] = mm_data


Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,lat_std,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,lat_mm,long_mm
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,-0.619172,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,0.341769,0.288699
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0.388014,1.110800,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,0.468665,0.333055
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,-0.843059,0.531185,0.852578,-0.514480,0.560744,-0.155788,0.470197,0.560930,0.313561,0.292022
3,7308210929,https://fayetteville.craigslist.org/ctd/d/raleigh-2013-toyota-rav4-xle-4dr-suv/7308210929.html,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,-0.504509,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.788810,0.356215,0.314844
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxville-2012-bmw-series-128i-coupe-2d/7303797340.html,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,-0.460101,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,0.361810,0.293893
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9614,7304876387,https://chautauqua.craigslist.org/ctd/d/falconer-2002-toyota-rav/7304876387.html,chautauqua,https://chautauqua.craigslist.org,4495,2002,toyota,rav4,gas,150000,...,0.615626,0.823646,-1.496501,0.653795,-0.376744,-0.155788,-0.915473,-0.788810,0.497341,0.312727
9615,7316152972,https://binghamton.craigslist.org/ctd/d/rochester-2008-jeep-wrangler/7316152972.html,binghamton,https://binghamton.craigslist.org,14495,2008,jeep,wrangler,gas,113573,...,0.806702,0.903947,-0.556869,-0.250872,-0.654060,-0.155788,-0.453583,-0.788810,0.521415,0.318411
9616,7310993818,https://salem.craigslist.org/ctd/d/salem-2011-audi-a3-20t-premium-plus-pzev/7310993818.html,salem,https://salem.craigslist.org,8995,2011,audi,a3 2.0t premium plus pzev,gas,150184,...,1.105428,-1.628875,-0.087054,0.063061,-0.668253,-0.155788,1.509450,1.910669,0.559052,0.139104
9617,7306637427,https://madison.craigslist.org/ctd/d/madison-2015-porsche-cayenne-awd-4dr-e/7306637427.html,madison,https://madison.craigslist.org,31900,2015,porsche,cayenne,hybrid,61943,...,0.773939,0.251959,0.539367,-0.459670,0.327100,-0.155788,-0.569055,-0.788810,0.517287,0.272255


4. Создайте переменную под географические признаки `lat`, `lat_std`, `lat_mm`, `long`, `long_std`, `long_mm` и выведите их. Посмотрите на различия в значениях для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования. 

In [87]:
geog = ['lat', 'lat_std', 'lat_mm', 'long', 'long_std', 'long_mm']
df[geog]

Unnamed: 0,lat,lat_std,lat_mm,long,long_std,long_mm
0,35.060000,-0.619172,0.341769,-85.250000,0.484245,0.288699
1,40.821805,0.388014,0.468665,-74.061962,1.110800,0.333055
2,33.779214,-0.843059,0.313561,-84.411811,0.531185,0.292022
3,35.715954,-0.504509,0.356215,-78.655304,0.853562,0.314844
4,35.970000,-0.460101,0.361810,-83.940000,0.557607,0.293893
...,...,...,...,...,...,...
9614,42.123900,0.615626,0.497341,-79.189500,0.823646,0.312727
9615,43.216990,0.806702,0.521415,-77.755610,0.903947,0.318411
9616,44.925908,1.105428,0.559052,-122.982753,-1.628875,0.139104
9617,43.029559,0.773939,0.517287,-89.397796,0.251959,0.272255


5. Выведите описательные статистики для всех географических признаков. Посмотрите на различия в статистиках для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования.

In [88]:
df[geog].describe()

Unnamed: 0,lat,lat_std,lat_mm,long,long_std,long_mm
count,9619.0,9619.0,9619.0,9619.0,9619.0,9619.0
mean,38.602095,2.105257e-16,0.419779,-93.896875,-4.498602e-16,0.254418
std,5.720989,1.000052,0.125997,17.857352,1.000052,0.070797
min,19.541726,-3.331829,0.0,-158.0693,-3.593801,0.0
25%,34.92,-0.643645,0.338685,-106.94434,-0.7306875,0.20269
50%,39.3,0.1219966,0.435149,-87.8458,0.3388739,0.278408
75%,42.3821,0.6607601,0.503028,-80.678711,0.740247,0.306822
max,64.9475,4.605283,1.0,94.1632,10.53179,1.0


6. Выведите матрицу корреляций для всех географических признаков, чтобы убедиться, что нормализация признаков сохранила свойства исходных признаков.

In [89]:
df[geog].corr()

Unnamed: 0,lat,lat_std,lat_mm,long,long_std,long_mm
lat,1.0,1.0,1.0,-0.134596,-0.134596,-0.134596
lat_std,1.0,1.0,1.0,-0.134596,-0.134596,-0.134596
lat_mm,1.0,1.0,1.0,-0.134596,-0.134596,-0.134596
long,-0.134596,-0.134596,-0.134596,1.0,1.0,1.0
long_std,-0.134596,-0.134596,-0.134596,1.0,1.0,1.0
long_mm,-0.134596,-0.134596,-0.134596,1.0,1.0,1.0


### Задача 5. Признаки на основе дат

1. Выведите по отдельности колонки `posting_date` и `date`. 

In [90]:
print(df['posting_date'], df['date'])

0       2021-04-17T12:30:50-0400
1       2021-05-03T15:40:21-0400
2       2021-04-28T03:52:20-0700
3       2021-04-17T10:08:57-0400
4       2021-04-08T15:10:56-0400
                  ...           
9614    2021-04-10T16:33:57-0400
9615    2021-05-03T09:36:30-0400
9616    2021-04-22T12:14:01-0700
9617    2021-04-14T09:14:42-0500
9618    2021-04-24T13:50:49-0400
Name: posting_date, Length: 9619, dtype: object 0       2021-04-17 16:30:50+00:00
1       2021-05-03 19:40:21+00:00
2       2021-04-28 10:52:20+00:00
3       2021-04-17 14:08:57+00:00
4       2021-04-08 19:10:56+00:00
                  ...            
9614    2021-04-10 20:33:57+00:00
9615    2021-05-03 13:36:30+00:00
9616    2021-04-22 19:14:01+00:00
9617    2021-04-14 14:14:42+00:00
9618    2021-04-24 17:50:49+00:00
Name: date, Length: 9619, dtype: object


2. Ранее преобразованная колонка `date` после сохранения в файл и загрузки из него содержит данные в строковом формате, поэтому измените её тип c помощью `pd.to_datetime`.

In [91]:
df['date'] = pd.to_datetime(df['date'])
df['date']

0      2021-04-17 16:30:50+00:00
1      2021-05-03 19:40:21+00:00
2      2021-04-28 10:52:20+00:00
3      2021-04-17 14:08:57+00:00
4      2021-04-08 19:10:56+00:00
                  ...           
9614   2021-04-10 20:33:57+00:00
9615   2021-05-03 13:36:30+00:00
9616   2021-04-22 19:14:01+00:00
9617   2021-04-14 14:14:42+00:00
9618   2021-04-24 17:50:49+00:00
Name: date, Length: 9619, dtype: datetime64[ns, UTC]

3. Несколькими способами извлеките номер месяца продажи автомобиля.

3.1. Из переменной `posting_date` с помощью lambda-функции и операций над строками.

In [92]:
posting_date = df['posting_date']
posting_date = posting_date.apply(lambda x: x.split(' ')[0].split('-')[1])
posting_date

0       04
1       05
2       04
3       04
4       04
        ..
9614    04
9615    05
9616    04
9617    04
9618    04
Name: posting_date, Length: 9619, dtype: object

3.2. Из переменной `date` с помощью lambda-функции и метода `month`.

In [93]:
date = df['date']
date.apply(lambda x: x.month)

0       4
1       5
2       4
3       4
4       4
       ..
9614    4
9615    5
9616    4
9617    4
9618    4
Name: date, Length: 9619, dtype: int64

3.3. Из переменной `date` с помощью `dt` и метода `month`.

In [94]:
# Не понял, что за dt

4. Создайте любым из способов (3.2 или 3.3) признак `month`, обозначающий номер месяца размещения объявления о продаже автомобиля, и распечатайте его.

In [95]:
df['month'] = df['date'].apply(lambda x: x.month)
df.month

  df['month'] = df['date'].apply(lambda x: x.month)


0       4
1       5
2       4
3       4
4       4
       ..
9614    4
9615    5
9616    4
9617    4
9618    4
Name: month, Length: 9619, dtype: int64

5. Создайте признак `dayofweek`, обозначающий день недели размещения объявления о продаже автомобиля, и распечатайте его.

In [96]:
df['dayofweek'] = df['date'].apply(lambda x: x.day)
df['dayofweek']

  df['dayofweek'] = df['date'].apply(lambda x: x.day)


0       17
1        3
2       28
3       17
4        8
        ..
9614    10
9615     3
9616    22
9617    14
9618    24
Name: dayofweek, Length: 9619, dtype: int64

6. Создайте признак `diff_years`, обозначающий количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля, и распечатайте его. Дополнительные корректировки не применяйте.

In [97]:
df['diff_years'] = df['date'].apply(lambda x: x.year) - df['year']
df['diff_years']

  df['diff_years'] = df['date'].apply(lambda x: x.year) - df['year']


0        1
1        5
2        4
3        8
4        9
        ..
9614    19
9615    13
9616    10
9617     6
9618     4
Name: diff_years, Length: 9619, dtype: int64

7. Примените стандартизацию к новым признаками и сохраните результат в новые признаки вида `month_std`.

In [98]:
new_col = ['month', 'dayofweek', 'diff_years']
std = StandardScaler().fit(df[new_col])
std_new_col = std.transform(df[new_col])

df[[i+'_std' for i in new_col]] = std_new_col
df.head()

  df[[i+'_std' for i in new_col]] = std_new_col
  df[[i+'_std' for i in new_col]] = std_new_col
  df[[i+'_std' for i in new_col]] = std_new_col


Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,model_len_std,model_word_count_std,lat_mm,long_mm,month,dayofweek,diff_years,month_std,dayofweek_std,diff_years_std
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,1.163032,1.910669,0.341769,0.288699,4,17,1,-0.615846,0.170952,-1.322394
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0.932087,1.235799,0.468665,0.333055,5,3,5,1.623784,-1.210056,-0.695973
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,0.470197,0.56093,0.313561,0.292022,4,28,4,-0.615846,1.25603,-0.852578
3,7308210929,https://fayetteville.craigslist.org/ctd/d/raleigh-2013-toyota-rav4-xle-4dr-suv/7308210929.html,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,-0.915473,-0.78881,0.356215,0.314844,4,17,8,-0.615846,0.170952,-0.226157
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxville-2012-bmw-series-128i-coupe-2d/7303797340.html,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,1.163032,1.910669,0.36181,0.293893,4,8,9,-0.615846,-0.716839,-0.069552


### Задача 6. Сохранение датафрейма для этапа моделирования

1. Удалите колонки, которые были исходными для формирования признаков, а также новые признаки, которые были добавлены с целью обучения.  Сохраните новый датафрейм в переменную `df_prepared`.

In [99]:
columns_for_drop = ['year', 'url', 'region', 'region_url', 'manufacturer',
                    'model', 'fuel', 'odometer', 'title_status', 'transmission',
                    'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
                    'odometer_km', 'odometer/price', 'region_new', 'region_corrected', 'manufacturer_model',
                    'desc_len', 'model_in_desc', 'price_k$', 'age_category', 'model_len', 'model_word_count',
                    'short_model', 'lat_mm', 'long_mm', 'date', 'std_scaled_price',
                    'month', 'dayofweek', 'diff_years',
                    'odometer/price_std']

df_prepared = df.drop(columns_for_drop, axis=1)
df_prepared.head()

Unnamed: 0,id,price,price_category,is_audi,is_ford,is_chevrolet,is_toyota,is_jeep,is_honda,is_nissan,...,lat_std,long_std,year_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,month_std,dayofweek_std,diff_years_std
0,7308295377,54990,high,0,0,0,0,0,0,0,...,-0.619172,0.484245,1.322394,0.632075,-0.155788,1.163032,1.910669,-0.615846,0.170952,-1.322394
1,7316380095,16942,medium,0,1,0,0,0,0,0,...,0.388014,1.1108,0.695973,-0.646781,-0.155788,0.932087,1.235799,1.623784,-1.210056,-0.695973
2,7313733749,35590,high,0,0,0,0,0,0,0,...,-0.843059,0.531185,0.852578,0.560744,-0.155788,0.470197,0.56093,-0.615846,1.25603,-0.852578
3,7308210929,14500,medium,0,0,0,1,0,0,0,...,-0.504509,0.853562,0.226157,0.180435,-0.155788,-0.915473,-0.78881,-0.615846,0.170952,-0.226157
4,7303797340,14590,medium,0,0,0,0,0,0,0,...,-0.460101,0.557607,0.069552,0.766366,-0.155788,1.163032,1.910669,-0.615846,-0.716839,-0.069552


2. Распечатайте оставшийся список колонок и размерность финального датафрейма.

In [102]:
df.columns, df.shape

(Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
        'model', 'fuel', 'odometer',
        ...
        'model_len_std', 'model_word_count_std', 'lat_mm', 'long_mm', 'month',
        'dayofweek', 'diff_years', 'month_std', 'dayofweek_std',
        'diff_years_std'],
       dtype='object', length=1501),
 (9619, 1501))

3. Запишите преобразованный датафрейм в файл `data/vehicles_dataset_prepared.csv`, индекс не сохраняйте.

In [100]:
df_prepared.to_csv(r'.\data\vehicles_dataset_prepared.csv', index=False)

## Описание преобразованного датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);

- `price`— стоимость;
- `price_category`– категория цены.