# Создание признаков

## Проектирование признаков

In [None]:
import pandas as pd
df = pd.read_csv('data/wine_cleared.csv') # Загрузка данных из файла в переменную, создание объекта DataFrame
#df.info()

In [None]:
df['price'][129968]

Разбор числовых величин

In [None]:
df['price_round'] = df['price'].round().astype(int) # создание нового признака с ценой округленной до целого (int)
#df.info()
#df.head()

Разбор текста. Регулярные выражения.

In [None]:
regex = '\d{4}' # класс символов - числа от 0 до 9
df['year'] = df['title'].str.findall(regex).str.get(0) # извлечение "года производства" из описания и запись в отдельный признак
df.info()
#df.head()

Разбор категорий. Кодирование признаков.

In [None]:
# создаем новый признак, если страна производитель US, то ставится единица, если другая, ставится ноль
df['is_usa'] = df['country'].apply(lambda x: 1 if x == 'US' else 0)
#df.info()
#df.head()

Задание 2.1
<br>
Выберите из списка две самых популярных (помимо США) страны, производящих вино.

In [None]:
df_count = df['country'].value_counts()
display(df_count)

Задание 2.2
<br>Создайте бинарные признаки is_france, is_italy наподобие признака is_usa.
<br>В ответ впишите результат выполнения кода data['is_france'].sum():
<br>В ответ впишите результат выполнения кода data['is_italy'].sum():

In [None]:
# создаем новый признак, если страна производитель France, то ставится единица, если другая, ставится ноль
df['is_france'] = df['country'].apply(lambda x: 1 if x=='France' else 0).astype(int)
df_fr_sum = df['is_france'].sum() # сумма по столбцу is_france

# создаем новый признак, если страна производитель Italy, то ставится единица, если другая, ставится ноль
df['is_italy'] = df['country'].apply(lambda x: 1 if x=='Italy' else 0).astype(int)
df_it_sum = df['is_italy'].sum() # сумма по столбцу is_italy

display(f'Франция {df_fr_sum}, Италия {df_it_sum}')

Задание 2.3
<br>
Создайте новый бинарный признак old_wine, где значение 1 будет обозначать, что вино старше 2010 года.
<br>В ответ впишите результат выполнения кода data['old_wine'].sum():

In [None]:
# преобразуем признак год из объекта в дату
df['year'] = pd.to_datetime(df['year'], errors='coerce')

# создаем новый бинарный признак "old_wine", где вина старше 2010 года будут обозначены единицей
df['old_wine'] = df['year'].apply(lambda x: 1 if x.year < 2010 else 0)
df['old_wine'].sum()

Задание 2.7 (Самопроверка)
<br>Создайте новый признак locality из признака title, который будет обозначать название долины/местности производства вина.
<br>
Например, в названии вина Rainstorm 2013 Pinot Gris (Willamette Valley) locality будет Willamette Valley.<br> В названии Tandem 2011 Ars In Vitro Tempranillo-Merlot (Navarra) — Navarra.

In [None]:

regex = '\(([^)]+)\)' # регулярные выражения - поиск слов в круглых скобках
df['locality'] = df['title'].str.findall(regex).str.get(0) # извлечение "наименования местности" из описания и запись в отдельный признак
#df.info()
df.head()

### Проектирование признаков. Внешние источники данных

In [None]:
# Импорт Pandas
import pandas as pd

# Загружаем дополнительную таблицу country_population
country_population = pd.read_csv('data\country_population.csv', sep=';')
#country_population.info()
country_population.head(25)

Задание 3.1
<br>
Каково население Италии согласно дата-сету country_population?

In [None]:
country_population.loc[country_population['country']=='Italy']
#country_population.iloc[24, 1]
#df_heart.iloc[300]['trestbps_mean']

Объединяем таблицы df и country_population по country

In [None]:
df = df.join(country_population.set_index('country'), on=('country'))
#df.head(2)

Добавляем датасет со значением площадей стран

In [None]:
# Загружаем дополнительную таблицу country_area
country_area = pd.read_csv('data\country_area.csv', sep=';')
country_area.info()
#country_area.head()

Задание 3.2
<br>Создайте новый признак area_country — площадь страны, аналогичный признаку country_population.
<br>Какая площадь страны у вина под названием 'Gård 2014 Grand Klasse Reserve Lawrence Vineyards Viognier (Columbia Valley (WA))'?

In [None]:
df = df.join(country_area.set_index('country'), on=('country'))
df.info()

In [None]:
mask = df.loc[df['title']=='Gård 2014 Grand Klasse Reserve Lawrence Vineyards Viognier (Columbia Valley (WA))']
mask['area']

### Создание признаков. Работа с форматом «дата-время»

In [None]:
# Создаём тестовый датасет
import pandas as pd 

# инициализируем информацию о звонках
calls_list = [
    [460, '2013-12-17 04:55:39', '2013-12-17 04:55:44', '2013-12-17 04:55:45'],
    [12, '2013-12-16 20:03:20', '2013-12-16 20:03:22', '2013-12-16 20:07:13'],
    [56, '2013-12-16 20:03:20', '2013-12-16 20:03:20', '2013-12-16 20:05:04'],
    [980, '2013-12-16 20:03:20','2013-12-16 20:03:27', '2013-12-16 20:03:29'],
    [396, '2013-12-16 20:08:27', '2013-12-16 20:08:28','2013-12-16 20:12:03'],
    [449, '2013-12-16 20:03:20', '2013-12-16 20:03:25','2013-12-16 20:05:00'],
    [397, '2013-12-16 20:08:25', '2013-12-16 20:08:27', '2013-12-16 20:09:59'],
    [398, '2013-12-16 20:01:23', '2013-12-16 20:01:23', '2013-12-16 20:04:58'],
    [452, '2013-12-16 20:03:20', '2013-12-16 20:03:21','2013-12-16 20:04:55'],
    [440, '2013-12-16 20:03:20', '2013-12-16 20:04:26', '2013-12-16 20:04:32']
]

calls = pd.DataFrame(calls_list, columns=['client_id', 'agent_date', 'created_at', 'end_date'])

# преобразовываем признаки в формат datetime для удобной работы
calls['agent_date'] = pd.to_datetime(calls['agent_date'])
calls['created_at'] = pd.to_datetime(calls['created_at'])
calls['end_date'] = pd.to_datetime(calls['end_date'])

# Мы можем посчитать, сколько примерно длилось время разговора клиента и сотрудника компании — длительность разговора. 
# Подсчитаем разницу между датой и временем начала разговора с клиентом и датой и временем окончания звонка через аксессор dt.seconds
calls['duration_sec'] = (calls['end_date'] - calls['created_at']).dt.seconds
calls

Задание 4.1
<br>
Подсчитайте, сколько секунд тратят сотрудники компании на дозвон клиенту. Результат запишите в новый признак time_connection.
<br>
В ответ запишите результат выполнения следующего кода: <i>calls['time_connection'].sum()</i>

In [None]:
# Создаем новый признак 'time_connection'
calls['time_connection'] = (calls['created_at'] - calls['agent_date']).dt.seconds
calls['time_connection'].sum()

In [None]:
calls

Задание 4.2
<br>
Создайте новый признак is_connection — факт соединения с клиентом.<br>Признак будет равен 1 в случае, если разговор состоялся и продлился больше 10 секунд, иначе — 0.
<br>
В ответ запишите результат выполнения следующего кода: <i>calls['is_connection'].sum()</i>

In [None]:
calls['is_connection'] = calls['duration_sec'].apply(lambda x: 1 if x > 10 else 0)
calls['is_connection'].sum()

In [None]:
calls

Задание 4.3
<br>
Создайте признак time_diff — разницу в секундах между началом звонка(не разговора) и его окончанием.
<br>
В ответ запишите результат выполнения следующего кода: <i>calls['time_diff'].sum()</i>

In [None]:
calls['time_diff'] = (calls['end_date'] - calls['agent_date']).dt.seconds
calls
calls['time_diff'].sum()

Итак, мы получили четыре новых признака для нашего набора данных: <b><i>duration, time_connection, is_connection, time_diff</i></b>. После генерации признаков из дат исходные признаки <b>agent_date, created_at, end_date</b> нам больше не нужны — передать на вход модели мы им не сможем, так как большинство моделей машинного обучения умеют работать только с числами, даты и текст ей недоступны, поэтому удалим их:

In [None]:
calls = calls.drop(columns=['agent_date', 'created_at', 'end_date'], axis=1)
calls

Задание 4.5
<br>
Создайте признак количество дней с момента произведения вина — years_diff для датасета винных обзоров. За дату отсчёта возьмите 12 января 2022 года.<br>В ответ впишите максимальное количество дней с момента произведения вина. Ответ округлите до целого числа.

In [None]:
df['years_diff'] = (pd.to_datetime('2022-01-12') - df['year']).dt.days
df['years_diff'].max()

### Кодирование признаков. Методы

ПОРЯДКОВОЕ КОДИРОВАНИЕ. ORDINAL ENCODING

In [None]:
import pandas as pd
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

In [None]:
# импорт необходимой библиотеки
import category_encoders as ce

# вызываем класс для порядкового кодирования
ord_encoder = ce.OrdinalEncoder()

# вызываем метод для установки соответствия кодирования (размер - вещь) и преобразования данных fit_transform
data_bin = ord_encoder.fit_transform(clothing[['size', 'type']])

# вызываем метод из Pandas - concat для добавления закодированных признаков в датафрейм
clothing = pd.concat([clothing, data_bin], axis=1)
clothing


Задание 5.3 (Самопроверка)
<br>
Используйте ранее изученные методы кодирования и закодируйте признак year в датасете винных обзоров порядковым кодированием.

In [None]:
# импорт необходимой библиотеки
import category_encoders as ce

# вызываем класс для порядкового кодирования
ord_encoder = ce.OrdinalEncoder(cols=['year'])

# вызываем метод для установки соответствия кодирования (year) и преобразования данных fit_transform
data_bin = ord_encoder.fit_transform(df[['year']])

# чтобы в датасете не было двух столбцов с одинаковым именем присваиваем другое имя 'year_encoder'
data_bin.rename(columns={'year': 'year_encoder'}, inplace=True)

# вызываем метод из Pandas - concat для добавления закодированных признаков в датафрейм
df_1 = pd.concat([df, data_bin], axis=1)
df_1.info()

In [None]:
type(data_bin)

In [None]:
df_1.columns.values[-1]='XX'

In [None]:
df_1['XX'].unique()

### ОДНОКРАТНОЕ КОДИРОВАНИЕ. ONE-HOT ENCODING

In [None]:
import pandas as pd
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

In [None]:
import category_encoders as ce # импорт для работы с кодировщиком

encoder = ce.OneHotEncoder(cols=['type']) # указываем столбец для кодирования
type_bin = encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

In [None]:
clothing_dummies = pd.get_dummies(clothing, columns=['type'])
clothing_dummies

Задание 5.4
<br>
В нашем наборе данных винных обзоров признак, обозначающий имя сомелье (taster_name), является номинальным. Закодируйте его, используя One-Hot Encoding.
<br>В ответе напишите, сколько признаков добавилось после применения кодирования.

In [None]:
df_one = pd.get_dummies(df, columns=['taster_name'])
df_one.info()

In [None]:
import category_encoders as ce

encoder = ce.OneHotEncoder(cols=['taster_name'])
type_bin = encoder.fit_transform(df['taster_name'])
data = pd.concat([df, type_bin], axis=1)

data.info()

### ДВОИЧНОЕ КОДИРОВАНИЕ Binary Encoder

In [None]:
import pandas as pd
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

In [None]:
# импорт необходимой библиотеки
import category_encoders as ce

# вызываем класс для порядкового кодирования
bin_encoder = ce.BinaryEncoder(cols=['type'])

# вызываем метод для установки соответствия кодирования (тип - вещь) и преобразования данных fit_transform
type_bin = bin_encoder.fit_transform(clothing['type'])

# вызываем метод из Pandas - concat для добавления закодированных признаков в датафрейм
clothing = pd.concat([clothing, type_bin], axis=1)
clothing


Задание 5.5
<br>
Закодируйте признак country двоичным способом.
<br>Сколько новых признаков образовалось после кодирования признака country?

In [None]:
import pandas as pd
import category_encoders as ce

bin_encoder = ce.BinaryEncoder(cols=['country'])
country_bin = bin_encoder.fit_transform(df['country'])
df_bin = pd.concat([df, country_bin], axis=1)

df_bin.info()

Задание 5.8
<br>На основе изученного материала определите подходящий способ кодирования признака taster_twitter_handle из датасета винных обзоров и закодируйте его.
<br>В ответе напишите, сколько признаков добавилось после применения кодирования.

In [None]:
df['taster_twitter_handle'].nunique()

In [None]:
#df['taster_twitter_handle'].unique()
# Более 15 уникальных значений - используем бинарное кодирование
# импорт необходимой библиотеки
import category_encoders as ce

# вызываем класс для порядкового кодирования
df_bin_encoder = ce.BinaryEncoder(cols=['taster_twitter_handle'])

# вызываем метод для установки соответствия кодирования и преобразования данных fit_transform
df_type_bin = df_bin_encoder.fit_transform(df['taster_twitter_handle'])

# вызываем метод из Pandas - concat для добавления закодированных признаков в датафрейм
df_bin_enc = pd.concat([df, df_type_bin], axis=1)
df_bin_enc.info()

Задание 5.9 (Самопроверка)
<br>Используйте следующий датафрейм для задания:

In [None]:
df.info()

In [None]:
list_of_dicts = [
 {'product': 'Product1', 'price': 1200, 'payment_type': 'Mastercard'},
 {'product': 'Product2', 'price': 3600, 'payment_type': 'Visa'},
 {'product': 'Product3', 'price': 7500, 'payment_type': 'Amex'}
]
df_59 = pd.DataFrame(list_of_dicts)
df_59

In [None]:
# Однократное кодирование
import category_encoders as ce # импорт для работы с кодировщиком

encoder_59 = ce.OneHotEncoder(['product', 'payment_type']) # указываем столбец для кодирования
type_one_59 = encoder_59.fit_transform(df_59[['product', 'payment_type']])
df_59 = pd.concat([df_59, type_one_59], axis=1)

df_59

In [None]:
df_59

In [None]:
df.info()

Задание 7.4 (Самопроверка)
<br>
Проведите корреляционный анализ всего набора данных и отберите только необходимые признаки для предсказания рейтинга вина.
<br>
❗️ Удалять признак рейтинг — points нельзя!
<br>
❗️ Для простоты вычислений можете использовать только корреляцию Пирсона.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#df_wine = pd.read_csv('data/wine_cleared.csv') # Загрузка данных из файла в переменную, создание объекта DataFrame
fig, ax = plt.subplots(figsize=(15,10))
sns.heatmap(df.corr(), annot=True, linewidths=.5, ax=ax)



In [None]:
# Удалим самые сильно скоррелированные пары
df_drop = df.drop(['is_usa', 'is_france', 'is_italy', 'price_round', 'area'], axis=1)

# Проверяем, что сильно скоррелированных признаков не осталось
fig, ax = plt.subplots(figsize=(15,10))
sns.heatmap(df_drop.corr(), annot=True, linewidths=.5, ax=ax)

## Проверка знаний

In [None]:
import pandas as pd

df_heart = pd.read_csv('data/heart.csv', sep=',')
df_heart.head()

Задание 8.1
<br>
Создайте новый признак old, где 1 — при возрасте пациента более 60 лет.
<br>
В ответ введите результат выполнения кода heart['old'].sum().

In [None]:
df_heart['old'] = df_heart['age'].apply(lambda x: 1 if x > 60 else 0)

df_heart['old'].sum()

Задание 8.2
<br>
Создайте новый признак trestbps_mean, который будет обозначать норму давления в среднем для его возраста и пола. <br>trestbps — систолическое артериальное давление в состоянии покоя.

In [None]:
def get_trestbps_mean(sex, age):
    pressure = [
        [116, 120, 127, 137, 144, 159],
        [123, 126, 129, 135, 142, 142]
    ]

    if age < 21:
        return pressure[int(sex)][0]
    elif age >= 61:
        return pressure[int(sex)][5]
    else:
        return pressure[int(sex)][int((age - 1) // 10 - 1)]


df_heart['trestbps_mean'] = df_heart.apply(lambda row: get_trestbps_mean(row['sex'], row['age']), axis=1)
#df_heart
df_heart['trestbps_mean'].iloc[300]

In [None]:
df_heart.head(10)

In [None]:
df_heart.info()

In [None]:
df_heart['exang'].nunique()

In [None]:
df_heart.iloc[300]['trestbps_mean']

Задание 8.5
<br>
Раскодируйте вышеперечисленные признаки методом OneHotEncoding без удаления исходных признаков.
<br> Сколько получилось признаков?

In [None]:
import category_encoders as ce # импорт для работы с кодировщиком

encoder_heart = ce.OneHotEncoder(cols=['cp', 'restecg', 'slope', 'ca', 'thal']) # указываем столбец для кодирования
type_bin_heart = encoder_heart.fit_transform(df_heart[['cp', 'restecg', 'slope', 'ca', 'thal']])
df_heart = pd.concat([df_heart, type_bin_heart], axis=1)

In [None]:
df_heart.info()

Задание 8.6
<br>
Нормализуйте все числовые признаки подходящим способом.
<br>
В ответе напишите стандартное отклонение признака chol. Ответ округлите до шести знаков после запятой.

In [None]:
#Подключение библиотек
import pandas as pd

# для нормализации, стандартизации
from sklearn import preprocessing

# инициализируем нормализатор RobustScaler
r_scaler = preprocessing.RobustScaler()

# Копируем названия столбцов, которые теряются при использовании fit_transform()
col_names = list(df_heart.columns)

# копируем исходный датасет
df_heart_r = r_scaler.fit_transform(df_heart)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_heart_r = pd.DataFrame(df_heart_r, columns=col_names)

In [None]:
round(df_heart_r['chol'].describe(), 6)

Задание 8.7
<br>
Проведите корреляционный анализ и отберите признаки для будущей модели. Выберите пары сильно скоррелированных признаков.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Возвращаем верхний треугольник матрицы и далее будем его маскировать
upp_mat = np.triu(df_heart.corr())

fig, ax = plt.subplots(figsize=(30,10))
sns.heatmap(df_heart.corr(), vmin = -1, vmax = +1, annot=True, cmap = 'coolwarm', linewidths=2, mask = upp_mat, ax=ax)

#sns.heatmap(df.corr(), vmin = -1, vmax = +1, annot = True, cmap = 'coolwarm', mask = upp_mat)