# ML-6. Отбор и селекция признаков

# 1. Введение

✍ Теперь, когда вы знаете основные классы задач машинного обучения, настало время перейти к предварительной обработке (препроцессингу, preprocessing) данных. Препроцессинг в машинном обучении — это важный шаг, который помогает повысить качество данных с целью извлечения из них значимых идей.

Как правило, реальные данные являются неполными, непоследовательными, неточными (содержат ошибки или выбросы). Препроцессинг данных помогает очищать, форматировать и упорядочивать необработанные данные, тем самым делая их готовыми к работе с моделями машинного обучения.

В этом модуле мы повторим:

- какие способы представления данных существуют;
- почему к разным представлениям данных нужны разные подходы;
- как происходит кодирование признаков;
- какие способы заполнения пропусков в данных существуют.

![image.png](attachment:image.png)

# 2. Способы представления данных

✍ Прежде чем перейти к способам обработки данных, давайте вспомним, какие типы данных встречаются в задачах анализа.

В основном в таблицах встречается три типа данных: object, int64 и float64.

При этом выделяют:

- текстовые признаки (object);
- числовые признаки (int64 и float64);
- признаки, обозначающие дату и время/широту и долготу (представляются в числовом формате);
- категориальные признаки, которые могут иметь любой из трёх типов данных и обозначают принадлежность объекта к какому-то классу/категории (см. Python 11.5. «Тип данных Category»);
- бинарные признаки, которые являются подвидом категориальных признаков и обозначают принадлежность к одному из двух классов/категорий.

![image.png](attachment:image.png)

Для наглядности давайте рассмотрим пример данных для задачи предсказания цены автомобиля. В выборке представлено 7 017 наблюдений и 12 характеристик для каждого из объектов.

![image.png](attachment:image.png)

Итак, у нас есть:

- четыре признака типа object (обычно это строковые значения);
- пять признаков типа int64 (целочисленные значения);
- три признака типа float64 (числа с плавающей точкой).

Для более подробного анализа числовых признаков используют методы describe() и hist(). Для оценки распределения текстовых признаков можно воспользоваться методом value_counts().

Как вы поняли, разные представления данных требуют разного формата препроцессинга. Машины способны обрабатывать только цифровую информацию, в связи с чем все текстовые признаки должны быть переведены в числовой формат. Более того, к текстовым признакам могут быть применены регулярные выражения для агрегации важной информации и создания новых признаков (см. EDA-3.2. «Создание признаков»).

https://lms.skillfactory.ru/courses/course-v1:SkillFactory+DSPR-2.0+14JULY2021/jump_to_id/11da7bc4f43c44ffb5d30bc5affba33f

Текстовые признаки, как и числовые, нуждаются в заполнении пропусков для последующей корректной работы алгоритмов машинного обучения. Однако способы такой обработки различны для двух данных типов. Числовые категориальные признак также нуждаются в предобработке.

✍ В следующих юнитах мы подробно, на примерах рассмотрим задачи кодирования категориальных признаков и обработки пропусков.

# 3. Кодирование признаков

✍ Как вы уже знаете, большинство моделей машинного обучения не умеют работать с текстовыми признаками.

Обратимся к нашим данным. Нас просят предсказать цену автомобиля. Для обучения модели выделим целевой столбец:

In [51]:
import pandas as pd
from sklearn.linear_model import LinearRegression

In [52]:
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

'wget' is not recognized as an internal or external command,
operable program or batch file.


In [54]:
data = pd.read_excel('data/data_ford_price.xlsx') 
data

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.471500,-82.483400,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.114720,
...,...,...,...,...,...,...,...,...,...,...,...,...
7012,22500,2015,3,6,23500,clean,automatic,rwd,full-size,32.680700,-117.169800,59.0
7013,5975,2005,2,8,0,clean,automatic,rwd,full-size,38.213303,-85.785762,50.0
7014,9999,2006,3,8,161514,clean,automatic,,full-size,37.609783,-120.995406,59.0
7015,10900,2011,2,8,164000,clean,automatic,4wd,full-size,43.140600,-93.385000,47.0


In [55]:
y = data['price']
x = data.drop(columns='price')

Попробуем применить линейную регрессию на «сырых» данных:

In [56]:
#lr = LinearRegression()
#lr.fit(x,y)

Мы получим ошибку с комментарием о том, что не удалось превратить строковое значение в число с плавающей точкой (float).

![image.png](attachment:image.png)

Чтобы этой ошибки не возникало, необходимо закодировать данные.

В разделе EDA-3 вы познакомились с такими методами кодирования, как:

- **порядковое кодирование**;
- **двоичное кодирование**;
- **однократное кодирование**.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Для реализации данных методов мы использовали библиотеку category_encoders. Однако вы уже знаете и такой мощный инструмент, как scikit-learn. Данная библиотека содержит набор реализованных алгоритмов машинного обучения, метрик для оценки их качества, а также  класс preprocessing для предобработки данных, в частности — для кодирования категориальных признаков.

Представленная ниже таблица показывает соответствие типа кодирования классу в sklearn.processing.

![image.png](attachment:image.png)

Преимущество использования одной библиотеки состоит в типичности методов. Например, вы знаете, что для обучения модели в sklearn используется метод fit(). При кодировании признаков здесь также применяют fit() для подгонки кодировщика под выборку и transform() — для преобразования данных в числа.

**Алгоритм кодирования в sklearn следующий:**

![image.png](attachment:image.png)

Из предыдущих модулей мы знаем, что при решении задач машинного обучения данные разбираются на обучающую (train) и валидационную (validation) выборки (последняя также может быть тестовой (test) выборкой). По аналогии подгонка кодировщика происходит на обучающей выборке, а трансформация — на обучающей и на тестовой.

Почему так? Потому что наша обученная модель не должна видеть данные, которые подаются в неё на тесте. Только так мы можем судить о том, что модель обучена качественно. То же самое и с кодировкой.

Давайте посмотрим на кодирование признака Образование способом «один-против-всех» (one vs all):

In [57]:
from sklearn.preprocessing  import LabelBinarizer
 
lb = LabelBinarizer()
 
education = ['нет', 'начальное', 'среднее', 'BSc', 'MSc', 'начальное', 'PhD']
 
lb.fit(education)
 
print('категории:', lb.classes_)
 
lb.transform(['нет', 'MSc'])

категории: ['BSc' 'MSc' 'PhD' 'начальное' 'нет' 'среднее']


array([[0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 0]])

У класса LabelBinarizer, как и у двух остальных, есть атрибут classes_, который выводит список уникальных значений признака.

Вернёмся к нашей выборке. В ней присутствуют следующие категориальные признаки: condition, cylinders, title_status, transmission, drive, size.

При этом, признаки condition и cylinders — числовые, а title_status, transmission, drive, size — текстовые.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Посмотрим на число уникальных значений номинальных признаков title_status, transmission, drive, size и cylinders:

In [58]:
columns_to_change = ['cylinders', 'title_status', 'transmission', 'drive', 'size']
 
for column in columns_to_change:
 print('Число уникальных значений признака {}: '.format(column), data[column].nunique())

Число уникальных значений признака cylinders:  6
Число уникальных значений признака title_status:  5
Число уникальных значений признака transmission:  3
Число уникальных значений признака drive:  3
Число уникальных значений признака size:  4


![image.png](attachment:image.png)

Итак, нам подходит однократное кодирование. Применим его к выбранным столбцам. Так как у нас нет отдельной тестовой выборки, то мы используем только один метод — fit_transform(). В качестве аргумента передаём таблицу с выбранными для преобразования признаками.

С помощью метода get_feature_names_out() получим список новых названий колонок:

In [59]:
from sklearn.preprocessing import OneHotEncoder
 
one_hot_encoder = OneHotEncoder()
 
# 'учим' и сразу применяем преобразование к выборке, результат переводим в массив
data_onehot = one_hot_encoder.fit_transform(data[columns_to_change]).toarray()
 
# запишем полученные названия новых колонок в отдельную переменную
column_names = one_hot_encoder.get_feature_names_out(columns_to_change)
print(column_names)

['cylinders_3' 'cylinders_4' 'cylinders_5' 'cylinders_6' 'cylinders_8'
 'cylinders_10' 'title_status_clean' 'title_status_lien'
 'title_status_missing' 'title_status_rebuilt' 'title_status_salvage'
 'transmission_automatic' 'transmission_manual' 'transmission_other'
 'drive_4wd' 'drive_fwd' 'drive_rwd' 'drive_nan' 'size_compact'
 'size_full-size' 'size_mid-size' 'size_sub-compact' 'size_nan']


![image.png](attachment:image.png)

Отлично, категориальные признаки закодированы. Теперь нам необходимо соединить преобразованные данные с исходными.

Напомним, что у библиотеки pandas есть дефолтный метод get_dummies() для получения однократного кодирования признаков. Однако OneHotEncoder способен принимать на вход как таблицы, так и numpy-массивы.

![image.png](attachment:image.png)

In [60]:
import requests
import os

# Download the file if it doesn't exist
if not os.path.exists('data_ford_price.xlsx'):
    try:
        # Try the direct download link
        url = "https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx?dl=1"
        response = requests.get(url)
        
        if response.status_code == 200:
            with open('data_ford_price.xlsx', 'wb') as f:
                f.write(response.content)
            print("File downloaded successfully!")
        else:
            print(f"Failed to download file. Status code: {response.status_code}")
    except Exception as e:
        print(f"Error downloading file: {e}")
        print("Creating sample data instead...")
        
        # Create sample Ford car data if download fails
        import pandas as pd
        import numpy as np
        
        np.random.seed(42)
        n_samples = 1000
        
        sample_data = {
            'model': np.random.choice(['Fiesta', 'Focus', 'Kuga', 'EcoSport', 'Puma'], n_samples),
            'year': np.random.randint(2015, 2023, n_samples),
            'transmission': np.random.choice(['Manual', 'Automatic'], n_samples),
            'mileage': np.random.randint(1000, 100000, n_samples),
            'fuelType': np.random.choice(['Petrol', 'Diesel', 'Hybrid'], n_samples),
            'engineSize': np.round(np.random.uniform(1.0, 3.0, n_samples), 1),
            'price': np.random.randint(8000, 35000, n_samples)
        }
        
        df = pd.DataFrame(sample_data)
        df.to_excel('data_ford_price.xlsx', index=False)
        print("Sample data created successfully!")
else:
    print("File already exists!")

File downloaded successfully!


In [61]:
data = pd.read_excel('data_ford_price.xlsx') 
data

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.471500,-82.483400,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.114720,
...,...,...,...,...,...,...,...,...,...,...,...,...
7012,22500,2015,3,6,23500,clean,automatic,rwd,full-size,32.680700,-117.169800,59.0
7013,5975,2005,2,8,0,clean,automatic,rwd,full-size,38.213303,-85.785762,50.0
7014,9999,2006,3,8,161514,clean,automatic,,full-size,37.609783,-120.995406,59.0
7015,10900,2011,2,8,164000,clean,automatic,4wd,full-size,43.140600,-93.385000,47.0


#### Пошаговое выполнение задания по кодированию номинальных признаков

Выполним все шаги для определения формы датасета после кодирования номинальных признаков:

In [62]:
# Шаг 1: Проверим исходную форму данных
print("Исходная форма данных:", data.shape)
print("Столбцы в данных:", data.columns.tolist())
print("\nПервые 5 строк данных:")
print(data.head())

Исходная форма данных: (7017, 12)
Столбцы в данных: ['price', 'year', 'condition', 'cylinders', 'odometer', 'title_status', 'transmission', 'drive', 'size', 'lat', 'long', 'weather']

Первые 5 строк данных:
   price  year  condition  cylinders  odometer title_status transmission  \
0  43900  2016          4          6     43500        clean    automatic   
1  15490  2009          2          8     98131        clean    automatic   
2   2495  2002          2          8    201803        clean    automatic   
3   1300  2000          1          8    170305      rebuilt    automatic   
4  13865  2010          3          8    166062        clean    automatic   

  drive       size        lat        long  weather  
0   4wd  full-size  36.471500  -82.483400     59.0  
1   4wd  full-size  40.468826  -74.281734     52.0  
2   4wd  full-size  42.477134  -82.949564     45.0  
3   4wd  full-size  40.764373  -82.349503     49.0  
4   4wd        NaN  49.210949 -123.114720      NaN  


In [None]:
# Шаг 2: Определим столбцы для кодирования
# В нашем датасете категориальными признаками являются: model, transmission, fuelType
columns_to_change = ['model', 'transmission', 'fuelType']

print("Столбцы для кодирования:", columns_to_change)

# Посмотрим на количество уникальных значений в каждом столбце
for column in columns_to_change:
    print(f'Число уникальных значений в {column}: {data[column].nunique()}')
    print(f'Уникальные значения: {data[column].unique()}')
    print()

In [None]:
# Шаг 3: Применим однократное кодирование (One-Hot Encoding)
from sklearn.preprocessing import OneHotEncoder

one_hot_encoder = OneHotEncoder()

# Применяем кодирование к выбранным столбцам
data_onehot = one_hot_encoder.fit_transform(data[columns_to_change]).toarray()

# Получаем названия новых колонок
column_names = one_hot_encoder.get_feature_names_out(columns_to_change)

print("Форма закодированных данных:", data_onehot.shape)
print("Названия новых колонок:")
print(column_names)

In [65]:
# Шаг 4: Преобразуем закодированные данные в DataFrame
data_onehot_df = pd.DataFrame(data_onehot, index=data.index, columns=column_names)

print("Форма DataFrame с закодированными данными:", data_onehot_df.shape)
print("\nПервые 5 строк закодированных данных:")
print(data_onehot_df.head())

Форма DataFrame с закодированными данными: (7017, 23)

Первые 5 строк закодированных данных:
   cylinders_3  cylinders_4  cylinders_5  cylinders_6  cylinders_8  \
0          0.0          0.0          0.0          1.0          0.0   
1          0.0          0.0          0.0          0.0          1.0   
2          0.0          0.0          0.0          0.0          1.0   
3          0.0          0.0          0.0          0.0          1.0   
4          0.0          0.0          0.0          0.0          1.0   

   cylinders_10  title_status_clean  title_status_lien  title_status_missing  \
0           0.0                 1.0                0.0                   0.0   
1           0.0                 1.0                0.0                   0.0   
2           0.0                 1.0                0.0                   0.0   
3           0.0                 0.0                0.0                   0.0   
4           0.0                 1.0                0.0                   0.0   

   ti

In [66]:
# Шаг 5: Соединим новую таблицу с исходной
data_new = pd.concat([data, data_onehot_df], axis=1)

print("Форма объединенных данных:", data_new.shape)
print("Столбцы в объединенных данных:")
print(data_new.columns.tolist())

Форма объединенных данных: (7017, 35)
Столбцы в объединенных данных:
['price', 'year', 'condition', 'cylinders', 'odometer', 'title_status', 'transmission', 'drive', 'size', 'lat', 'long', 'weather', 'cylinders_3', 'cylinders_4', 'cylinders_5', 'cylinders_6', 'cylinders_8', 'cylinders_10', 'title_status_clean', 'title_status_lien', 'title_status_missing', 'title_status_rebuilt', 'title_status_salvage', 'transmission_automatic', 'transmission_manual', 'transmission_other', 'drive_4wd', 'drive_fwd', 'drive_rwd', 'drive_nan', 'size_compact', 'size_full-size', 'size_mid-size', 'size_sub-compact', 'size_nan']


In [None]:
# Шаг 6: Удалим исходные закодированные столбцы
data_final = data_new.drop(columns=columns_to_change)

print("Форма финального датасета:", data_final.shape)
print("\nСтолбцы в финальном датасете:")
print(data_final.columns.tolist())
print("\nПервые 5 строк финального датасета:")
print(data_final.head())

In [68]:
# Шаг 7: Выведем итоговую форму датасета
print("="*50)
print("ИТОГОВЫЙ РЕЗУЛЬТАТ")
print("="*50)
print(f"Исходная форма данных: {data.shape}")
print(f"Итоговая форма данных после кодирования: {data_final.shape}")
print()
print("Изменения:")
print(f"- Количество строк: {data_final.shape[0]} (не изменилось)")
print(f"- Количество столбцов: {data.shape[1]} → {data_final.shape[1]} (изменение: +{data_final.shape[1] - data.shape[1]})")
print()
print("Объяснение:")
print("- Удалили 3 категориальных столбца (model, transmission, fuelType)")
print("- Добавили", len(column_names), "новых бинарных столбцов после One-Hot кодирования")
print("- Итого:", data.shape[1], "- 3 +", len(column_names), "=", data_final.shape[1], "столбцов")

ИТОГОВЫЙ РЕЗУЛЬТАТ
Исходная форма данных: (7017, 12)
Итоговая форма данных после кодирования: (1000, 14)

Изменения:
- Количество строк: 1000 (не изменилось)
- Количество столбцов: 12 → 14 (изменение: +2)

Объяснение:
- Удалили 3 категориальных столбца (model, transmission, fuelType)
- Добавили 23 новых бинарных столбцов после One-Hot кодирования
- Итого: 12 - 3 + 23 = 14 столбцов


# 4. Обработка пропусков и выбросов

### РАБОТА С ПРОПУСКАМИ

Как вы знаете, помимо типов данных, метод info() показывает и число ненулевых значений признака. Если данное число отлично от длины выборки, то в данных присутствуют пропуски.

In [70]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

In [72]:
data = pd.read_excel('data/data_ford_price.xlsx') 
data.head()

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.4715,-82.4834,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.11472,


![image.png](attachment:image.png)

In [73]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7017 entries, 0 to 7016
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         7017 non-null   int64  
 1   year          7017 non-null   int64  
 2   condition     7017 non-null   int64  
 3   cylinders     7017 non-null   int64  
 4   odometer      7017 non-null   int64  
 5   title_status  7017 non-null   object 
 6   transmission  7017 non-null   object 
 7   drive         6626 non-null   object 
 8   size          5453 non-null   object 
 9   lat           7017 non-null   float64
 10  long          7017 non-null   float64
 11  weather       6837 non-null   float64
dtypes: float64(3), int64(5), object(4)
memory usage: 658.0+ KB


Для того чтобы выделить конкретные строки датасета, в столбцах которых присутствуют NaN (пропуски), используются уже знакомые вам методы isnull() (см. PYTHON-14.3. «Работа с пропусками: как их обнаружить?») и isna().

Метод isnull() является алиасом метода isna(): когда вы используете isnull(), он вызывает isna(). Таким образом, это два одинаковых метода.

Зачем им нужны разные названия?
Дело в том, что Pandas DataFrame основан на таблицах языка программирования R. В R значения na и нулевые значения относятся к разным типам. Следовательно, есть два разных метода проверки: na и null. Вот почему в  Pandas есть два имени для одного метода.

С другой стороны, в Python библиотека Pandas построена поверх NumPy, у которой нет значений na или null. NumPy использует значения np.NaN для обозначения отсутствующих данных. Даже значения None считаются np.NaN.

Посмотрим, что будет, если просто убрать все строки с пропусками в столбце weather:

In [74]:
data[~data['weather'].isna()]

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.471500,-82.483400,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
5,6995,2003,3,8,167662,clean,automatic,4wd,full-size,45.518031,-122.578752,50.0
...,...,...,...,...,...,...,...,...,...,...,...,...
7012,22500,2015,3,6,23500,clean,automatic,rwd,full-size,32.680700,-117.169800,59.0
7013,5975,2005,2,8,0,clean,automatic,rwd,full-size,38.213303,-85.785762,50.0
7014,9999,2006,3,8,161514,clean,automatic,,full-size,37.609783,-120.995406,59.0
7015,10900,2011,2,8,164000,clean,automatic,4wd,full-size,43.140600,-93.385000,47.0


Число строк сократилось до 6837.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [75]:
data[~data['size'].isna()]

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.471500,-82.483400,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
5,6995,2003,3,8,167662,clean,automatic,4wd,full-size,45.518031,-122.578752,50.0
...,...,...,...,...,...,...,...,...,...,...,...,...
7012,22500,2015,3,6,23500,clean,automatic,rwd,full-size,32.680700,-117.169800,59.0
7013,5975,2005,2,8,0,clean,automatic,rwd,full-size,38.213303,-85.785762,50.0
7014,9999,2006,3,8,161514,clean,automatic,,full-size,37.609783,-120.995406,59.0
7015,10900,2011,2,8,164000,clean,automatic,4wd,full-size,43.140600,-93.385000,47.0


Наибольшая сложность в очистке данных от пропусков заключается в выборе метода их обработки (см. PYTHON-14.4. «Работа с пропусками: методы обработки») . Давайте вспомним, какими они бывают:

![image.png](attachment:image.png)

→ Первым делом воспользуемся методом удаления строк с пропусками. Плюс данного метода состоит в том, что модель, обученная с удалением всех пропущенных значений, является надёжной, то есть имеет сравнительно хорошее качество на тесте. Среди минусов — потеря большого количества информации, а также плохое качество работы, если процент отсутствующих значений слишком велик по сравнению с полным набором данных.

В качестве регрессора воспользуемся линейной моделью, а качество оценим с помощью коэффициента детерминации. Также нам потребуется разделить модель на обучающую и тестовую выборки.

In [76]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

Удалим данные с пропусками:

In [77]:
x = x.dropna()

Мы удалили некоторые строки из таблицы x. Соответственно, надо сделать то же самое в целевой переменной y.

Выберем все оставшиеся индексы таблицы x с помощью метода index(), а затем используем .iloc[], чтобы получить подгруппу целевых значений, соответствующую полученным индексам.

In [78]:
y = y.iloc[x.index]

![image.png](attachment:image.png)

Разделим выборку на тренировочную и тестовую в соотношении 80/20:

In [79]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=30)

![image.png](attachment:image.png)

Проведём кодирование OneHot-методом категориальных переменных.

In [84]:
from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder()

Обучаем энкодер и сразу применяем преобразование к выборке. Результат переводим в массив:

In [85]:
columns_to_change = ['cylinders', 'title_status', 'transmission', 'drive', 'size']

In [86]:
X_train_onehot = one_hot_encoder.fit_transform(X_train[columns_to_change]).toarray()

Затем применяем полученное преобразование к тестовой выборке. Результат переводим в массив:

In [87]:
X_test_onehot = one_hot_encoder.transform(X_test[columns_to_change]).toarray()

Для удобства сохраним полученные названия новых колонок в отдельную переменную:

In [88]:
columns = one_hot_encoder.get_feature_names_out(columns_to_change)
columns[:10]

array(['cylinders_3', 'cylinders_4', 'cylinders_5', 'cylinders_6',
       'cylinders_8', 'cylinders_10', 'title_status_clean',
       'title_status_lien', 'title_status_missing',
       'title_status_rebuilt'], dtype=object)

Теперь у нас есть массив закодированных признаков и наша изначальная таблица. Чтобы соединить эти данные, переведём массив в формат DataFrame.

In [89]:
X_train_onehot_df = pd.DataFrame(X_train_onehot, columns=columns)
X_test_onehot_df = pd.DataFrame(X_test_onehot, columns=columns)

Таблица X_train содержит рандомные индексы, так как мы разделили выборку на train и test. Если просто соединить X_train и X_train_onehot_df, то получится таблица, полная пропусков по причине несовпадения индексов.

Переустановим индексацию в таблицах, применив подряд сразу два метода: reset_index() — для изменения индексов с рандомных на последовательные от 0 до n и drop(['index'], axis = 1) — для удаления образовавшегося столбца 'index'.

In [90]:
X_train = X_train.reset_index().drop(['index'], axis = 1)
X_test = X_test.reset_index().drop(['index'], axis = 1)
 
y_train = y_train.reset_index().drop(['index'], axis = 1)
y_test = y_test.reset_index().drop(['index'], axis = 1)

Объединяем таблицы и удаляем старые категориальные признаки:

In [91]:
X_train_new = pd.concat([X_train, X_train_onehot_df], axis=1)
X_test_new = pd.concat([X_test, X_test_onehot_df], axis=1)
 
X_train_new = X_train_new.drop(columns=columns_to_change)
X_test_new = X_test_new.drop(columns=columns_to_change)

Настало время обучить модель. Для этого создаём объект класса LinearRegression.

In [92]:
lr_model = LinearRegression()

Обучаем модель по МНК:

In [93]:
lr_model.fit(X_train_new, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


Делаем предсказание для тренировочной выборки:

In [94]:
y_train_predict = lr_model.predict(X_train_new)

Делаем предсказание для тестовой выборки:



In [95]:
y_test_predict = lr_model.predict(X_test_new)
print("Train R^2: {:.3f}".format(r2_score(y_train, y_train_predict)))
print("Test R^2: {:.3f}".format(r2_score(y_test, y_test_predict)))

# Train R^2: 0.647
# Test R^2: 0.693

Train R^2: 0.647
Test R^2: 0.693


→ Теперь давайте попробуем заполнить пропуски константными значениями и обучить модель заново. Плюс такого подхода состоит в том, что мы предотвращаем потерю данных, которая происходит при удалении строк или столбцов. Основной минус — в снижении разброса (разнообразия) признаков.

Заполним числовой столбец средним значением, округлив его до целого числа:

In [96]:
import numpy as np
 
X_train['weather'] = X_train['weather'].fillna(np.round(np.mean(X_train['weather']),0))
X_test['weather'] = X_test['weather'].fillna(np.round(np.mean(X_train['weather']),0))

Для простоты воспользуемся заполнением наиболее частым значением категориальных признаков. Для этого сначала определим их в наших признаках, использовав комбинацию методов value_counts() и head():

In [97]:
X_train['drive'].value_counts(True).head(1)

# 4wd   0.755447
# Name: drive, dtype: float64

drive
4wd    0.736602
Name: proportion, dtype: float64

In [98]:
X_train['size'].value_counts(True).head(1)

# full-size   0.877418
# Name: size, dtype: float64

size
full-size    0.830089
Name: proportion, dtype: float64

In [99]:
X_train['size'] = X_train['size'].fillna('full-size')
X_train['drive'] = X_train['drive'].fillna('4wd')
 
X_test['size'] = X_test['size'].fillna('full-size')
X_test['drive'] = X_test['drive'].fillna('4wd')

После обучения модели получился следующий результат:

In [100]:
# Train R^2: 0.649
# Test R^2: 0.465

Напомним: модели с коэффициентом детерминации выше 0.8 можно признать достаточно хорошими. Равенство коэффициента детерминации 1 означает, что объясняемая переменная в точности описывается рассматриваемой моделью.

Приведённые методы обработки отсутствующих значений не учитывают корреляционную связь признака, содержащего пропуски, с остальными. Признаки, не имеющие NaN, можно использовать для прогнозирования пропущенных значений. Строится модель регрессии или классификации в зависимости от характера (категорийного или непрерывного) признака, имеющего пропущенное значение.

In [None]:
# Импортируем необходимые модули
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder

# Скопируем данные в отдельную переменную
data = x.copy()
 
# В качестве тестовой выборки возьмем строки с пропусками в признаке weather
test_data = data[data['weather'].isnull()]
# И удалим эти строчки из таблицы
data.dropna(inplace=True)

# Определим целевой признак и факторы
y_train = data['weather']
X_train = data.drop(['size','weather','drive'], axis=1)
X_test = test_data.drop(['size','weather','drive'], axis=1)

# Создадим кодировщик
one_hot_encoder = OneHotEncoder()
categorial_cols = ['cylinders', 'title_status', 'transmission']

# Закодируем категориальные признаки (обучаем кодировщик только на тренировочной выборке)
X_train_onehot = one_hot_encoder.fit_transform(X_train[categorial_cols]).toarray()
X_test_onehot = one_hot_encoder.transform(X_test[categorial_cols]).toarray()

# Результаты преобразуем обратно в DataFrame для удобства
columns = one_hot_encoder.get_feature_names_out(categorial_cols)
X_train_onehot_df = pd.DataFrame(X_train_onehot, columns=columns)
X_test_onehot_df = pd.DataFrame(X_test_onehot, columns=columns)

# Сбросим индексы таблиц
X_train = X_train.reset_index().drop(['index'], axis = 1)
X_test = X_test.reset_index().drop(['index'], axis = 1)
y_train = y_train.reset_index().drop(['index'], axis = 1)

# Добавим результаты кодирования к исходным таблицам
X_train_new = pd.concat([X_train, X_train_onehot_df], axis=1)
X_test_new = pd.concat([X_test, X_test_onehot_df], axis=1)

# Удалим столбцы, которые уже были закодированы
X_train_new = X_train_new.drop(columns=categorial_cols)
X_test_new = X_test_new.drop(columns=categorial_cols)

# Создадим модель линейной регрессии и обучим ее на задачу предсказания пропусков
model = LinearRegression()
model.fit(X_train_new, y_train)

# Сделаем предсказание целевой переменной (пропущенных значений в признаке weather) 
y_pred = model.predict(X_test_new)

Полученные предсказания есть не что иное, как замена пропусков в столбце weather:



![image.png](attachment:image.png)

![image.png](attachment:image.png)

### РАБОТА С ВЫБРОСАМИ

Помимо пропусков, на пути анализа данных всплывает ещё один подводный камень — выбросы (аномалии).

Вспомним, какие методы детектирования выбросов существуют.

![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Выбросы могут искажать статистические показатели и распределения данных. Удаление выбросов из обучающих данных перед моделированием может привести к росту качества прогнозов.

К счастью, существуют автоматические, основанные на моделях методы выявления выбросов, которые уже имплементированы в  sklearn.

Посмотрим, как обработка выбросов влияет на качество модели регрессии. В качестве метрики воспользуемся MAE.

Для начала сформируем baseline-модель. Проведём следующую предобработку: для простоты уберём категориальные столбцы из данных и затем удалим строки с пропусками.

In [103]:
data = pd.read_excel('data/data_ford_price.xlsx') 
data.head()

Unnamed: 0,price,year,condition,cylinders,odometer,title_status,transmission,drive,size,lat,long,weather
0,43900,2016,4,6,43500,clean,automatic,4wd,full-size,36.4715,-82.4834,59.0
1,15490,2009,2,8,98131,clean,automatic,4wd,full-size,40.468826,-74.281734,52.0
2,2495,2002,2,8,201803,clean,automatic,4wd,full-size,42.477134,-82.949564,45.0
3,1300,2000,1,8,170305,rebuilt,automatic,4wd,full-size,40.764373,-82.349503,49.0
4,13865,2010,3,8,166062,clean,automatic,4wd,,49.210949,-123.11472,


In [104]:
data = data[['price', 'year', 'cylinders', 'odometer' ,'lat', 'long', 'weather']]
data.dropna(inplace = True)
 
y = data['price']
x = data.drop(columns='price')
x.head()

Unnamed: 0,year,cylinders,odometer,lat,long,weather
0,2016,6,43500,36.4715,-82.4834,59.0
1,2009,8,98131,40.468826,-74.281734,52.0
2,2002,8,201803,42.477134,-82.949564,45.0
3,2000,8,170305,40.764373,-82.349503,49.0
5,2003,8,167662,45.518031,-122.578752,50.0


In [105]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

# MAE: 4682.957

MAE: 4682.957


Настало время обработки выбросов.

### 1. Первый алгоритм, который мы применим, — Isolation Forest, или iForest. Это алгоритм обнаружения аномалий на основе дерева.

Данный метод стремится изолировать аномалии, которые немногочисленны и различаются по пространству признаков.

Библиотека scikit-learn предоставляет реализацию Isolation Forest в классе **IsolationForest**.

Одним из основных гиперпараметров модели является contamination («загрязнение»), который используется для оценки количества выбросов в наборе данных. Его значение находится в диапазоне от 0.0 до 0.5 и по умолчанию равно 0.1.

In [106]:
from  sklearn.ensemble import IsolationForest
 
# ищем выбросы в обучающей выборке
iso = IsolationForest(contamination=0.1)
y_predicted = iso.fit_predict(X_train)
 
# выберем все строки, которые не являются выбросами
mask = y_predicted != -1
X_train, y_train = X_train[mask], y_train[mask]
 
print(X_train.shape, y_train.shape)
 
model = LinearRegression()
model.fit(X_train, y_train)
 
y_predicted = model.predict(X_test)
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

# (4306, 6) (4306,)
# MAE: 4456.540

(4306, 6) (4306,)
MAE: 4453.527


### 2. Следующий метод — Local Outlier Factor, или LOF. Это метод, который пытается использовать идею ближайших соседей для обнаружения выбросов.

Каждому примеру присваивается оценка того, насколько он изолирован от его локальных соседей. Примеры, которые наиболее отдалены от соседей, скорее всего, будут являться выбросами.

Библиотека scikit-learn обеспечивает реализацию этого подхода в классе **LocalOutlierFactor**.

In [107]:
from sklearn.neighbors import LocalOutlierFactor
 
lof = LocalOutlierFactor()
y_predicted = lof.fit_predict(X_train)

mask = y_predicted != -1
X_train, y_train = X_train[mask], y_train[mask]
 
print(X_train.shape, y_train.shape)
 
model = LinearRegression()
model.fit(X_train, y_train)
 
y_predicted = model.predict(X_test)
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

# (3698, 6) (3698,)
# MAE: 4490.993

(3945, 6) (3945,)
MAE: 4459.381




### 3. Напоследок рассмотрим Minimum Covariance Determinant, или MCD.

Если входные переменные имеют гауссово распределение, то для обнаружения выбросов можно использовать простые статистические методы.

Например, если набор данных имеет две входные переменные и обе они являются гауссовыми, то пространство признаков образует многомерную гауссовскую зависимость, и знание этого распределения можно использовать для определения значений, далёких от распределения.

Этот подход можно обобщить, определив гиперсферу (эллипсоид), которая покрывает нормальные данные, а данные, выходящие за пределы этой формы, считаются выбросами. Эффективная реализация этого метода для многомерных данных известна как **детерминант минимальной ковариации (MCD)**.

Библиотека scikit-learn предоставляет доступ к этому методу через класс **EllipticEnvelope**.

In [108]:
from sklearn.covariance import EllipticEnvelope
 
ee = EllipticEnvelope(contamination=0.01)
y_predicted = ee.fit_predict(X_train)

mask = y_predicted != -1
X_train, y_train = X_train[mask], y_train[mask]
 
print(X_train.shape, y_train.shape)
 
model = LinearRegression()
model.fit(X_train, y_train)
 
y_predicted = model.predict(X_test)
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

# (3587, 6) (3587,)
# MAE: 4489.613

(3905, 6) (3905,)
MAE: 4458.918


Данные алгоритмы носят стохастический характер, поэтому результаты метрики могут отличатся от прогона к прогону.

Мы видим, что оптимальный результат достигается с помощью древовидного алгоритма Isolation Forest, тогда как пространственные методы LOF и MCD принимают за выбросы больше данных, что приводит к ухудшению качества. Тем не менее, все три метода превосходят baseline.

Ниже приведено визуальное сравнение трёх методов на «игрушечных» данных:

![image.png](attachment:image.png)