In [45]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.preprocessing import LabelBinarizer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

In [46]:
data = pd.read_excel('./data/data_ford_price.xlsx')
data.head()

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.4715,-82.4834,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.11472,


In [47]:
data.dropna(inplace=True)

In [48]:
X_origin = data.drop('price', axis=1)
y = data['price']

In [49]:
X_origin.dtypes

year              int64
condition         int64
cylinders         int64
odometer          int64
title_status     object
transmission     object
drive            object
size             object
lat             float64
long            float64
weather         float64
dtype: object

In [50]:
X = X_origin.drop(['title_status', 'transmission', 'drive', 'size'], axis=1)

In [51]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

---

### RFE

Метод рекурсивного исключения признаков (RFE) предполагает выбор признаков путём рекурсивного рассмотрения всё меньших и
меньших наборов фичей.

In [52]:
from sklearn.feature_selection import RFE

estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)

selector.get_feature_names_out()


array(['year', 'condition', 'cylinders'], dtype=object)

In [53]:
X_train.columns

Index(['year', 'condition', 'cylinders', 'odometer', 'lat', 'long', 'weather'], dtype='object')

In [54]:
selector.ranking_

array([1, 1, 1, 5, 2, 4, 3])

---

### МЕТОДЫ ВЫБОРА ПРИЗНАКОВ НА ОСНОВЕ ФИЛЬТРОВ
В качестве фильтров для выбора признаков используются уже знакомые нам статистики, такие как коэффициент корреляции Пирсона, ANOVA и
т. д. При этом выбор статистических показателей сильно зависит от типов переменных в данных.
Чем больше известно о типе данных, тем проще выбрать подходящую статистическую меру для метода отбора признаков на основе фильтра.
Ниже приведена схема-помощник в выборе метода селекции признаков.

In [55]:
from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'condition', 'odometer'], dtype=object)

In [56]:
from sklearn.feature_selection import f_classif
selector = SelectKBest(f_classif, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

array(['year', 'condition', 'odometer'], dtype=object)