# Feature Engineering. Практическая работа

Сдаётся на проверку.

## Цели практической работы

Научиться: 

*   генерировать новые признаки; 
*   нормализовать и кодировать данные с помощью lambda-функций и библиотеки scikit-learn.


## Что входит в практическую работу

1. Построить признаки из строк.
2. Преобразовать категориальные переменные.
3. Стандартизировать данные.
4. Использовать MinMaxScaler для нормализации данных.
5. Создать признаки на основе дат.
6. Сохранить датафрейм для этапа моделирования.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов.
- При построении графиков название и оси подписаны, выведена легенда, если требуется. 
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них тем.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему куратору.


## Задача

Мы продолжим исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset_upd.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

В этой практической работе вы продолжите генерировать дополнительные признаки и завершите подготовку датасета для этапа моделирования.

## Описание датасета:
- `id`— идентификатор записи;
- `url`— URL-записи о продаже;
- `region`— регион;
- `region_url`— URL региона;
- `price`— стоимость;
- `year`— год выпуска;
- `manufacturer`— производитель;
- `model`— модель;
- `condition`— состояние;
- `cylinders`— количество цилиндров;
- `fuel`— тип топлива;
- `odometer`— количество пройденных миль;
- `title_status`— статус;
- `transmission`— коробка передач;
- `VIN`— идентификационный номер;
- `drive`— тип привода;
- `size`— размер;
- `type`— кузов;
- `paint_color`— цвет;
- `image_url`— URL изображения;
- `description`— указанное описание;
- `county`— страна;
- `state`— штат;
- `lat`— широта;
- `long`— долгота;
- `posting_date`— дата размещения объявления о продаже;
- `price_category`— категория цены.


In [1]:
import pandas as pd
import matplotlib.pyplot as plt

### Задача 1. Построение признаков из строк

1. Загрузите датасет из `data/vehicles_dataset_upd6.csv`, выведите первые пять записей и список колонок.

In [2]:
df = pd.read_csv("C:/Users/User/Desktop/Python/Python/ds-intro/ds-intro/20_feature_engineering/homework/data/vehicles_dataset_upd6.csv", sep = ',')
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,is_jeep,is_honda,is_nissan,x0_diesel,x0_electric,x0_gas,x0_hybrid,x0_other,std_scaled_odometer,std_scaled_price
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,...,0,0,0,1.0,0.0,0.0,0.0,0.0,-1.07939,2.958509
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.560115,-0.085826
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,...,0,0,0,0.0,0.0,1.0,0.0,0.0,-1.292863,1.406256
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,...,0,0,0,0.0,0.0,1.0,0.0,0.0,0.352621,-0.281218
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,...,0,0,0,0.0,0.0,0.0,0.0,1.0,-0.234311,-0.274017


In [5]:
df.columns

Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
       'model', 'fuel', 'odometer', 'title_status', 'transmission',
       'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
       'price_category', 'date', 'odometer_km', 'odometer/price', 'region_new',
       'region_corrected', 'manufacturer_model', 'desc_len', 'model_in_desc',
       'price_k$', 'age_category', 'model_len', 'model_word_count', 'is_audi',
       'is_ford', 'is_chevrolet', 'is_toyota', 'is_jeep', 'is_honda',
       'is_nissan', 'x0_diesel', 'x0_electric', 'x0_gas', 'x0_hybrid',
       'x0_other', 'std_scaled_odometer', 'std_scaled_price'],
      dtype='object')

2. Выведите список значений и количество уникальных значений для модели автомобиля.

In [8]:
unique_models = df['model'].unique()
unique_models_count = df['model'].nunique()

print("Список уникальных моделей:", unique_models)
print("Количество уникальных моделей:", unique_models_count)

Список уникальных моделей: ['2500 crew cab big horn' 'explorer 4wd 4dr xlt' 'golf r hatchback' ...
 'gs350' '1988 Nisan' 'a3 2.0t premium plus pzev']
Количество уникальных моделей: 3341


3. Количество уникальных значений велико. Попробуем их сократить, оставив только первое слово в наименовании модели. С помощью lambda-функции и преобразования над строками создайте новый признак `short_model`, содержащий только первое слово из наименования модели, выведите его и количество получившихся уникальных значений.

In [9]:
df['short_model'] = df['model'].apply(lambda x: str(x).split()[0])
unique_short_models = df['short_model'].unique()
unique_short_models_count = df['short_model'].nunique()


print("Список уникальных коротких моделей:", unique_short_models)
print("Количество уникальных коротких моделей:", unique_short_models_count)

Список уникальных коротких моделей: ['2500' 'explorer' 'golf' 'rav4' '1' 'fusion' 'accord' 'charger' 'altima'
 'galant' '500' 'town' 'e-series' 'g.' 'silverado' 'mustang' 'maxima'
 'civic' 'vue' 'tahoe' 'f-350' 'f150' 'clubman' 'xts' '3500' 'rogue'
 'compass' 'camry' 'renegade' 'forte5' 'f-150' 'wrangler' 'mazda3' '535i'
 'park' 'focus' 'gx' 'titan' 'corolla' 'colorado' 'tiguan' 'impreza'
 'jetta' 'super' 'q5' 'es' 'lx450' 'pilot' 'Diahatsu' 'other' 'sequoia'
 '1500' 'tucson' 'sierra' 'grand' 'nautilus' 'elantra' 'x1' 'camaro'
 'benz' 'tacoma' 'tsx' 'sebring' 'yukon' 'cooper' 'enclave' 'x4' 'sequioa'
 'xc90' 'is300' 'f350' 'romeo' 'ranger' 'spark' '7' 'express' 'q7'
 'tribute' 'xv' 'impala' 'c300' 'frontier' 'fit' 'cc' 'transit' 'outback'
 'passat' '350z' 'optima' 'c10' 'expedition' 'pathfinder' 'challenger'
 '200' 'taurus' 'evoque' 'x3' 'arcadia' 'cr-v' 'xt6' 'sante' 'versa'
 'e150' 'equinox' 'sonata' 'soul' 'regal' 'Scion' 'lucerne' 'f250'
 'odyssey' 's60' 'cruze' 'mkx' 'sienna' '914

### Задача 2. Преобразование категориальных переменных

1. Для категориальных переменных `short_model`, `transmission`, `region`, `manufacturer`, `state`, `title_status`, `age_category` распечатайте наименование категории и количество уникальных значений в ней.


In [10]:
categorical_columns = [
    "short_model", 
    "transmission", 
    "region", 
    "manufacturer", 
    "state", 
    "title_status", 
    "age_category"
]

for col in categorical_columns:
    print(f"Признак: {col}")
    print(f"Количество уникальных значений: {df[col].nunique()}")
    print(f"Уникальные значения: {df[col].unique()[:10]} ...")  # первые 10 для наглядности
    print("-" * 50)


Признак: short_model
Количество уникальных значений: 943
Уникальные значения: ['2500' 'explorer' 'golf' 'rav4' '1' 'fusion' 'accord' 'charger' 'altima'
 'galant'] ...
--------------------------------------------------
Признак: transmission
Количество уникальных значений: 3
Уникальные значения: ['other' 'automatic' 'manual'] ...
--------------------------------------------------
Признак: region
Количество уникальных значений: 393
Уникальные значения: ['chattanooga' 'north jersey' 'reno / tahoe' 'fayetteville' 'knoxville'
 'des moines' 'roanoke' 'grand rapids' 'omaha / council bluffs'
 'rhode island'] ...
--------------------------------------------------
Признак: manufacturer
Количество уникальных значений: 40
Уникальные значения: ['ram' 'ford' 'volkswagen' 'toyota' 'bmw' 'honda' 'dodge' 'nissan'
 'mitsubishi' 'fiat'] ...
--------------------------------------------------
Признак: state
Количество уникальных значений: 51
Уникальные значения: ['tn' 'nj' 'ca' 'nc' 'ia' 'va' 'mi' 'ri' 'oh'

2. Создайте датафрейм `data`, содержащий только выбранные категориальные переменные.

In [34]:
data = df[categorical_columns]
print(data)

     short_model transmission                   region manufacturer state  \
0           2500        other              chattanooga          ram    tn   
1       explorer    automatic             north jersey         ford    nj   
2           golf        other             reno / tahoe   volkswagen    ca   
3           rav4    automatic             fayetteville       toyota    nc   
4              1        other                knoxville          bmw    tn   
...          ...          ...                      ...          ...   ...   
9614        rav4    automatic               chautauqua       toyota    ny   
9615    wrangler        other               binghamton         jeep    ny   
9616          a3    automatic                    salem         audi    or   
9617     cayenne    automatic                  madison      porsche    wi   
9618        1500        other  norfolk / hampton roads          ram    va   

     title_status age_category  
0           clean          new  
1        

3. Создайте объект класса OneHotEncoder, который будет отвечать за преобразование. Уточните, что на выходе должна быть неразреженная матрица.

In [17]:
!pip install scikit-learn
from sklearn.preprocessing import OneHotEncoder

Collecting scikit-learn
  Downloading scikit_learn-1.7.1-cp313-cp313-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.1-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.1-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.1-cp313-cp313-win_amd64.whl (8.7 MB)
   ---------------------------------------- 0.0/8.7 MB ? eta -:--:--
   - -------------------------------------- 0.3/8.7 MB ? eta -:--:--
   ------ --------------------------------- 1.3/8.7 MB 3.7 MB/s eta 0:00:03
   --------------- ------------------------ 3.4/8.7 MB 6.2 MB/s eta 0:00:01
   ---------------- ----------------------- 3.7/8.7 MB 6.4 MB/s eta 0:00:01
   ------------------------ --------------- 5.2/8.7 MB 5.9 MB/s eta 0:00:01
   --------------------------- ------------ 6.0/8.7

In [36]:
ohe = OneHotEncoder(sparse_output=False)
encoded_data = ohe.fit_transform(data)
ohe

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


4. Идентифицируйте параметры преобразования на датафрейме с категориальными переменными.

In [26]:
ohe.fit(data)


0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [30]:
ohe.categories_

[array(['-benz', '1', '124', '128i', '135i', '1500', '163869', '1928',
        '1951', '1954', '1960s', '1966', '1968', '1972', '1977', '1978',
        '198.5', '1988', '1994', '1999', '2', '200', '2000', '2002',
        '2006', '2007', '2008', '2009', '2012', '2015', '2016', '2017',
        '2018', '210', '240', '2500', '2500hd', '280zx', '3', '3-series',
        '3-window', '3.2', '300', '300-series', '300c', '300s', '300zx',
        '3100', '318i', '320i', '323i', '325ci', '325i', '325is', '325xi',
        '328', '328ci', '328d', '328i', '328xi', '330i', '330xi', '335i',
        '335xi', '350', '3500', '3500hd', '350z', '370z', '380sl', '3i',
        '4', '4-runner', '428', '430i', '435i', '440xi', '4500', '4runner',
        '4x4', '5', '5-series', '50', '500', '500c', '500l', '500x',
        '525i', '528i', '528xi', '530', '530i', '535i', '535xi', '540i',
        '545i', '5500', '5500hd', '550i', '5th', '6', '640', '645ci',
        '650i', '650xi', '7', '750', '750i', '750xi', '86'

5. Примените преобразование для датафрейма с категориальными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [32]:
encoded_data = ohe.transform(data)
print(encoded_data)
print("Размерность:", encoded_data.shape)

[[0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 ...
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 1. 0.]]
Размерность: (9619, 1439)


6. Выведите новые наименования признаков с помощью метода `get_feature_names_out`.

In [33]:
ohe.get_feature_names_out()

array(['short_model_-benz', 'short_model_1', 'short_model_124', ...,
       'age_category_average', 'age_category_new', 'age_category_old'],
      shape=(1439,), dtype=object)

7. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [39]:
new_feature_names = ohe.get_feature_names_out(categorical_columns)
encoded_df = pd.DataFrame(encoded_data, columns=new_feature_names, index=df.index)
df_combined = pd.concat([df, encoded_df], axis=1)

print(df_combined.head())
print(df_combined.columns.tolist())

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7303797340  https://knoxville.craigslist.org/ctd/d/knoxvil...   

         region                           region_url  price  year  \
0   chattanooga   https://chattanooga.craigslist.org  54990  2020   
1  north jersey     https://newjersey.craigslist.org  16942  2016   
2  reno / tahoe          https://reno.craigslist.org  35590  2017   
3  fayetteville  https://fayetteville.craigslist.org  14500  2013   
4     knoxville     https://knoxville.craigslist.org  14590  2012   

  manufacturer                   model    fuel  odometer  ... state_wy  \
0          ram  2500 crew cab big horn  diesel     27442  ...      0.0   
1         ford    explorer 4

8. Посмотрите на результат обратного преобразования получившейся матрицы в исходные признаки, используйте `inverse_transform`.

In [42]:
original_data = ohe.inverse_transform(encoded_data)
original_df = pd.DataFrame(original_data, columns=categorical_columns, index=df.index)
original_df

Unnamed: 0,short_model,transmission,region,manufacturer,state,title_status,age_category
0,2500,other,chattanooga,ram,tn,clean,new
1,explorer,automatic,north jersey,ford,nj,clean,new
2,golf,other,reno / tahoe,volkswagen,ca,clean,new
3,rav4,automatic,fayetteville,toyota,nc,clean,average
4,1,other,knoxville,bmw,tn,clean,average
...,...,...,...,...,...,...,...
9614,rav4,automatic,chautauqua,toyota,ny,clean,old
9615,wrangler,other,binghamton,jeep,ny,clean,average
9616,a3,automatic,salem,audi,or,clean,average
9617,cayenne,automatic,madison,porsche,wi,clean,new


### Задача 3. Стандартизация данных

1. Создайте переменную под количественные переменные `lat`, `long`, `year`, `odometer/price`, `desc_len`, `model_in_desc`, `model_len`, `model_word_count` и создайте датафрейм `data`, содержащий только выбранные количественные переменные.


In [43]:
quantitative_columns = [
    "lat", 
    "long", 
    "year", 
    "odometer", 
    "price", 
    "desc_len", 
    "model_in_desc", 
    "model_len", 
    "model_word_count"
]
data = df[quantitative_columns]
print(data)

            lat        long  year  odometer  price  desc_len  model_in_desc  \
0     35.060000  -85.250000  2020     27442  54990      4482              0   
1     40.821805  -74.061962  2016     60023  16942       968              0   
2     33.779214  -84.411811  2017     14048  35590      4286              0   
3     35.715954  -78.655304  2013    117291  14500      3241              0   
4     35.970000  -83.940000  2012     80465  14590      4851              0   
...         ...         ...   ...       ...    ...       ...            ...   
9614  42.123900  -79.189500  2002    150000   4495      1710              0   
9615  43.216990  -77.755610  2008    113573  14495       948              0   
9616  44.925908 -122.982753  2011    150184   8995       909              0   
9617  43.029559  -89.397796  2015     61943  31900      3644              0   
9618  36.670000  -76.300000  2017     35921  31990      4483              0   

      model_len  model_word_count  
0            22

2. Создайте объект `std_scaler` класса StandardScaler с параметрами по умолчанию, который будет отвечать за стандартизацию.

In [45]:
from sklearn.preprocessing import StandardScaler
std_scaler = StandardScaler()

3. Идентифицируйте параметры преобразования на датафрейме с количественными переменными.

In [46]:
std_scaler.fit(data)

0,1,2
,copy,True
,with_mean,True
,with_std,True


4. Примените преобразование для датафрейма с количественными переменными и сохраните в новую переменную, распечатайте получившуюся матрицу и её размерность.

In [47]:
scaled_data = std_scaler.transform(data)
print("\nРазмерность:", scaled_data.shape)



Размерность: (9619, 9)


5. Создайте наименования новых признаков по шаблону: `lat_std` для `lat` и так далее.

In [48]:
std_feature_names = [col + "_std" for col in quantitative_columns]
print("Новые имена признаков:")
print(std_feature_names)

Новые имена признаков:
['lat_std', 'long_std', 'year_std', 'odometer_std', 'price_std', 'desc_len_std', 'model_in_desc_std', 'model_len_std', 'model_word_count_std']


6. Добавьте в исходный датафрейм получившиеся новые признаки, выведите первые пять записей датафрейма и список колонок.

In [49]:
scaled_df = pd.DataFrame(scaled_data, columns=std_feature_names, index=df.index)
df_combined = pd.concat([df, scaled_df], axis=1)
print(df_combined.head())
print(df_combined.columns.tolist())

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7303797340  https://knoxville.craigslist.org/ctd/d/knoxvil...   

         region                           region_url  price  year  \
0   chattanooga   https://chattanooga.craigslist.org  54990  2020   
1  north jersey     https://newjersey.craigslist.org  16942  2016   
2  reno / tahoe          https://reno.craigslist.org  35590  2017   
3  fayetteville  https://fayetteville.craigslist.org  14500  2013   
4     knoxville     https://knoxville.craigslist.org  14590  2012   

  manufacturer                   model    fuel  odometer  ... short_model  \
0          ram  2500 crew cab big horn  diesel     27442  ...        2500   
1         ford    expl

### Задача 4. MinMax-нормализация данных

1. Импортируйте MinMaxScaler из `sklearn.preprocessing`.

In [50]:
from sklearn.preprocessing import MinMaxScaler

2. Создайте датафрейм, содержащий переменные `lat` и `long`.

In [51]:
geo_data = df[["lat", "long"]]
print(geo_data)

            lat        long
0     35.060000  -85.250000
1     40.821805  -74.061962
2     33.779214  -84.411811
3     35.715954  -78.655304
4     35.970000  -83.940000
...         ...         ...
9614  42.123900  -79.189500
9615  43.216990  -77.755610
9616  44.925908 -122.982753
9617  43.029559  -89.397796
9618  36.670000  -76.300000

[9619 rows x 2 columns]


3. Повторите действия пунктов 2–6 из задачи 3 для добавления в исходный датафрейм признаков `lat_mm` и `long_mm`. Выведите получившийся датафрейм.

In [52]:
mm_scaler = MinMaxScaler()
geo_scaled = mm_scaler.fit_transform(geo_data)
geo_scaled_df = pd.DataFrame(geo_scaled, columns=["lat_mm", "long_mm"], index=df.index)
df_combined = pd.concat([df, geo_scaled_df], axis=1)
print(df_combined)

              id                                                url  \
0     7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1     7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2     7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3     7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4     7303797340  https://knoxville.craigslist.org/ctd/d/knoxvil...   
...          ...                                                ...   
9614  7304876387  https://chautauqua.craigslist.org/ctd/d/falcon...   
9615  7316152972  https://binghamton.craigslist.org/ctd/d/roches...   
9616  7310993818  https://salem.craigslist.org/ctd/d/salem-2011-...   
9617  7306637427  https://madison.craigslist.org/ctd/d/madison-2...   
9618  7311960763  https://norfolk.craigslist.org/ctd/d/chesapeak...   

                       region                           region_url  price  \
0                 chattanooga   https://chattanooga.craigslist.org  54

4. Создайте переменную под географические признаки `lat`, `lat_std`, `lat_mm`, `long`, `long_std`, `long_mm` и выведите их. Посмотрите на различия в значениях для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования. 

In [55]:
geo_data = df[["lat", "long"]]
std_scaler = StandardScaler()
geo_scaled = std_scaler.fit_transform(geo_data)
geo_scaled_df = pd.DataFrame(geo_scaled, columns=["lat_std", "long_std"], index=df.index)
df_combined = pd.concat([df_combined, geo_scaled_df], axis=1)
geo_features = ["lat", "lat_std", "lat_mm", "long", "long_std", "long_mm"]
geo_df = df_combined[geo_features]
print(geo_df.head())

         lat   lat_std    lat_mm       long  long_std   long_mm
0  35.060000 -0.619172  0.341769 -85.250000  0.484245  0.288699
1  40.821805  0.388014  0.468665 -74.061962  1.110800  0.333055
2  33.779214 -0.843059  0.313561 -84.411811  0.531185  0.292022
3  35.715954 -0.504509  0.356215 -78.655304  0.853562  0.314844
4  35.970000 -0.460101  0.361810 -83.940000  0.557607  0.293893


5. Выведите описательные статистики для всех географических признаков. Посмотрите на различия в статистиках для исходных признаков и нормализованных с помощью стандартизации и MinMax-преобразования.

In [56]:
stats = geo_df.describe()
print(stats)

               lat       lat_std       lat_mm         long      long_std  \
count  9619.000000  9.619000e+03  9619.000000  9619.000000  9.619000e+03   
mean     38.602095  2.105257e-16     0.419779   -93.896875 -4.498602e-16   
std       5.720989  1.000052e+00     0.125997    17.857352  1.000052e+00   
min      19.541726 -3.331829e+00     0.000000  -158.069300 -3.593801e+00   
25%      34.920000 -6.436450e-01     0.338685  -106.944340 -7.306875e-01   
50%      39.300000  1.219966e-01     0.435149   -87.845800  3.388739e-01   
75%      42.382100  6.607601e-01     0.503028   -80.678711  7.402470e-01   
max      64.947500  4.605283e+00     1.000000    94.163200  1.053179e+01   

           long_mm  
count  9619.000000  
mean      0.254418  
std       0.070797  
min       0.000000  
25%       0.202690  
50%       0.278408  
75%       0.306822  
max       1.000000  


6. Выведите матрицу корреляций для всех географических признаков, чтобы убедиться, что нормализация признаков сохранила свойства исходных признаков.

In [57]:
corr_matrix = geo_df.corr()
print(corr_matrix)

               lat   lat_std    lat_mm      long  long_std   long_mm
lat       1.000000  1.000000  1.000000 -0.134596 -0.134596 -0.134596
lat_std   1.000000  1.000000  1.000000 -0.134596 -0.134596 -0.134596
lat_mm    1.000000  1.000000  1.000000 -0.134596 -0.134596 -0.134596
long     -0.134596 -0.134596 -0.134596  1.000000  1.000000  1.000000
long_std -0.134596 -0.134596 -0.134596  1.000000  1.000000  1.000000
long_mm  -0.134596 -0.134596 -0.134596  1.000000  1.000000  1.000000


### Задача 5. Признаки на основе дат

1. Выведите по отдельности колонки `posting_date` и `date`. 

In [62]:

print("posting_date:")
print(df_combined["posting_date"].head())


print("\ndate:")
print(df_combined["date"].head())


posting_date:
0    2021-04-17T12:30:50-0400
1    2021-05-03T15:40:21-0400
2    2021-04-28T03:52:20-0700
3    2021-04-17T10:08:57-0400
4    2021-04-08T15:10:56-0400
Name: posting_date, dtype: object

date:
0    2021-04-17 16:30:50+00:00
1    2021-05-03 19:40:21+00:00
2    2021-04-28 10:52:20+00:00
3    2021-04-17 14:08:57+00:00
4    2021-04-08 19:10:56+00:00
Name: date, dtype: object


2. Ранее преобразованная колонка `date` после сохранения в файл и загрузки из него содержит данные в строковом формате, поэтому измените её тип c помощью `pd.to_datetime`.

In [63]:
df_combined["date"] = pd.to_datetime(df_combined["date"], errors="coerce")
print(df_combined["date"].head())
print(df_combined["date"].dtype)

0   2021-04-17 16:30:50+00:00
1   2021-05-03 19:40:21+00:00
2   2021-04-28 10:52:20+00:00
3   2021-04-17 14:08:57+00:00
4   2021-04-08 19:10:56+00:00
Name: date, dtype: datetime64[ns, UTC]
datetime64[ns, UTC]


3. Несколькими способами извлеките номер месяца продажи автомобиля.

3.1. Из переменной `posting_date` с помощью lambda-функции и операций над строками.

In [66]:
df_combined["month1"] = df_combined["date"].dt.month
print(df_combined[["date", "month1"]].head())

                       date  month1
0 2021-04-17 16:30:50+00:00       4
1 2021-05-03 19:40:21+00:00       5
2 2021-04-28 10:52:20+00:00       4
3 2021-04-17 14:08:57+00:00       4
4 2021-04-08 19:10:56+00:00       4


In [67]:
df_combined["posting_month"] = df_combined["posting_date"].apply(lambda x: int(x.split("-")[1]))
print(df_combined[["posting_date", "posting_month"]].head())

               posting_date  posting_month
0  2021-04-17T12:30:50-0400              4
1  2021-05-03T15:40:21-0400              5
2  2021-04-28T03:52:20-0700              4
3  2021-04-17T10:08:57-0400              4
4  2021-04-08T15:10:56-0400              4


3.2. Из переменной `date` с помощью lambda-функции и метода `month`.

In [69]:
df_combined["month2"] = df_combined["date"].apply(lambda x: x.month)
print(df_combined[["date", "month2"]].head())

                       date  month2
0 2021-04-17 16:30:50+00:00       4
1 2021-05-03 19:40:21+00:00       5
2 2021-04-28 10:52:20+00:00       4
3 2021-04-17 14:08:57+00:00       4
4 2021-04-08 19:10:56+00:00       4


3.3. Из переменной `date` с помощью `dt` и метода `month`.

In [70]:
df_combined["month3"] = df_combined["date"].dt.strftime("%m").astype(int)
print(df_combined[["date", "month3"]].head())

                       date  month3
0 2021-04-17 16:30:50+00:00       4
1 2021-05-03 19:40:21+00:00       5
2 2021-04-28 10:52:20+00:00       4
3 2021-04-17 14:08:57+00:00       4
4 2021-04-08 19:10:56+00:00       4


4. Создайте любым из способов (3.2 или 3.3) признак `month`, обозначающий номер месяца размещения объявления о продаже автомобиля, и распечатайте его.

In [80]:
df_combined["month"] = df_combined["date"].apply(lambda x: x.month)
print(df_combined[["date", "month"]].head())

                       date  month
0 2021-04-17 16:30:50+00:00      4
1 2021-05-03 19:40:21+00:00      5
2 2021-04-28 10:52:20+00:00      4
3 2021-04-17 14:08:57+00:00      4
4 2021-04-08 19:10:56+00:00      4


5. Создайте признак `dayofweek`, обозначающий день недели размещения объявления о продаже автомобиля, и распечатайте его.

In [72]:
df_combined["dayofweek"] = df_combined["date"].dt.dayofweek
print(df_combined[["date", "dayofweek"]].head())

                       date  dayofweek
0 2021-04-17 16:30:50+00:00          5
1 2021-05-03 19:40:21+00:00          0
2 2021-04-28 10:52:20+00:00          2
3 2021-04-17 14:08:57+00:00          5
4 2021-04-08 19:10:56+00:00          3


In [75]:
df_combined["day_name"] = df_combined["date"].dt.day_name()
print(df_combined[["date", "day_name"]].head())

                       date   day_name
0 2021-04-17 16:30:50+00:00   Saturday
1 2021-05-03 19:40:21+00:00     Monday
2 2021-04-28 10:52:20+00:00  Wednesday
3 2021-04-17 14:08:57+00:00   Saturday
4 2021-04-08 19:10:56+00:00   Thursday


6. Создайте признак `diff_years`, обозначающий количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля, и распечатайте его. Дополнительные корректировки не применяйте.

In [76]:
df_combined["diff_years"] = df_combined["date"].dt.year - df_combined["year"]
print(df_combined[["year", "date", "diff_years"]].head())

   year                      date  diff_years
0  2020 2021-04-17 16:30:50+00:00           1
1  2016 2021-05-03 19:40:21+00:00           5
2  2017 2021-04-28 10:52:20+00:00           4
3  2013 2021-04-17 14:08:57+00:00           8
4  2012 2021-04-08 19:10:56+00:00           9


7. Примените стандартизацию к новым признаками и сохраните результат в новые признаки вида `month_std`.

In [81]:
new_features = ["month", "dayofweek", "diff_years"]
scaler = StandardScaler()
df_combined[[f"{col}_std" for col in new_features]] = scaler.fit_transform(df_combined[new_features])
print(df_combined[["month", "month_std", "dayofweek", "dayofweek_std", "diff_years", "diff_years_std"]].head())

   month  month_std  dayofweek  dayofweek_std  diff_years  diff_years_std
0      4  -0.615846          5       1.120284           1       -1.322394
1      5   1.623784          0      -1.374972           5       -0.695973
2      4  -0.615846          2      -0.376870           4       -0.852578
3      4  -0.615846          5       1.120284           8       -0.226157
4      4  -0.615846          3       0.122182           9       -0.069552


### Задача 6. Сохранение датафрейма для этапа моделирования

1. Удалите колонки, которые были исходными для формирования признаков, а также новые признаки, которые были добавлены с целью обучения.  Сохраните новый датафрейм в переменную `df_prepared`.

In [86]:

columns_for_drop = ['year', 'url', 'region', 'region_url', 'manufacturer',
                    'model', 'fuel', 'odometer', 'title_status', 'transmission',
                    'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
                    'odometer_km', 'odometer/price', 'region_new', 'region_corrected', 'manufacturer_model',
                    'desc_len', 'model_in_desc', 'price_k$', 'age_category', 'model_len', 'model_word_count',
                    'short_model', 'lat_mm', 'long_mm', 'date', 'std_scaled_price',
                    'month', 'dayofweek', 'diff_years',
                    'odometer/price_std']

df_prepared = df_combined.drop(columns = columns_for_drop, errors="ignore")
print(df_prepared.head())


           id  price price_category  is_audi  is_ford  is_chevrolet  \
0  7308295377  54990           high        0        0             0   
1  7316380095  16942         medium        0        1             0   
2  7313733749  35590           high        0        0             0   
3  7308210929  14500         medium        0        0             0   
4  7303797340  14590         medium        0        0             0   

   is_toyota  is_jeep  is_honda  is_nissan  ...  month1  posting_month  \
0          0        0         0          0  ...       4              4   
1          0        0         0          0  ...       5              5   
2          0        0         0          0  ...       4              4   
3          1        0         0          0  ...       4              4   
4          0        0         0          0  ...       4              4   

   month2  month3   day_name  month1_std  dayofweek_std  diff_years_std  \
0       4       4   Saturday   -0.615846       1.1202

2. Распечатайте оставшийся список колонок и размерность финального датафрейма.

In [85]:
print("Оставшиеся колонки:", df_prepared.columns.tolist())
print("Размерность df_prepared:", df_prepared.shape)

Оставшиеся колонки: ['id', 'price', 'price_category', 'is_audi', 'is_ford', 'is_chevrolet', 'is_toyota', 'is_jeep', 'is_honda', 'is_nissan', 'x0_diesel', 'x0_electric', 'x0_gas', 'x0_hybrid', 'x0_other', 'std_scaled_odometer', 'lat_std', 'long_std', 'month1', 'posting_month', 'month2', 'month3', 'day_name', 'month1_std', 'dayofweek_std', 'diff_years_std', 'month2_std', 'month_std']
Размерность df_prepared: (9619, 28)


тут не убрала month2, month3

3. Запишите преобразованный датафрейм в файл `data/vehicles_dataset_prepared.csv`, индекс не сохраняйте.

In [None]:
df_prepared.to_csv("data/vehicles_dataset_prepared.csv", index=False)

print("Файл сохранён: data/vehicles_dataset_prepared.csv")

## Описание преобразованного датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);

- `price`— стоимость;
- `price_category`– категория цены.