## Преобразование признаков

### Нормализация признаков

MINMAXSCALER

In [None]:
import numpy as np 
import pandas as pd

np.random.seed(34)

# для нормализации, стандартизации
from sklearn import preprocessing

# Для графиков
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
matplotlib.style.use('ggplot')

# сгенерируем датасет из случайных чисел
df = pd.DataFrame({ 
    # Бета распределение, 5 – значение альфа, 1 – значение бета, 1000 – размер
    'beta': np.random.beta(5, 1, 1000) * 60,
    
    # Экспоненциальное распределение, 10 – "резкость" экспоненты, 1000 – размер
    'exponential': np.random.exponential(10, 1000),
    
    # Нормальное распределение, 10 – среднее значение р., 2 – стандартное отклонение, 1000 – количество сэмплов
    'normal_p': np.random.normal(10, 2, 1000),
    
    # Нормальное распределение, 10 – среднее значение р., 10 – стандартное отклонение, 1000 – количество сэмплов
    'normal_l': np.random.normal(10, 10, 1000),
})

# Копируем названия столбцов, которые теряются при использовании fit_transform()
col_names = list(df.columns)

In [None]:
# зададим параметры холста, название и визуализируем кривые распределения:
fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('Исходные распределения')

# kdeplot() (KDE – оценка плотности ядра) – специальный метод для графиков распределений
sns.kdeplot(df['beta'], ax=ax1, label ='beta')
sns.kdeplot(df['exponential'], ax=ax1, label ='exponential')
sns.kdeplot(df['normal_p'], ax=ax1, label ='normal_p')
sns.kdeplot(df['normal_l'], ax=ax1, label ='normal_l')
plt.legend()

In [None]:
df.describe()

In [None]:
# инициализируем нормализатор MinMaxScaler
mm_scaler = preprocessing.MinMaxScaler()

# копируем исходный датасет
df_mm = mm_scaler.fit_transform(df)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_mm = pd.DataFrame(df_mm, columns=col_names)

fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('После нормализации MinMaxScaler')

sns.kdeplot(df_mm['beta'], ax=ax1, label='beta')
sns.kdeplot(df_mm['exponential'], ax=ax1, label='exponential')
sns.kdeplot(df_mm['normal_p'], ax=ax1, label='normal_p')
sns.kdeplot(df_mm['normal_l'], ax=ax1, label='normal_l')
plt.legend()

In [None]:
df_mm.describe()

ROBUSTSCALER

In [None]:
# инициализируем нормализатор RobustScaler
r_scaler = preprocessing.RobustScaler()

# копируем исходный датасет
df_r = r_scaler.fit_transform(df)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_r = pd.DataFrame(df_r, columns=col_names)

fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('Распределения после RobustScaler')

sns.kdeplot(df_r['beta'], ax=ax1, label='beta')
sns.kdeplot(df_r['exponential'], ax=ax1, label='exponential')
sns.kdeplot(df_r['normal_p'], ax=ax1, label='normal_p')
sns.kdeplot(df_r['normal_l'], ax=ax1, label='normal_l')
plt.legend()

In [None]:
df_r.describe()

### Стандартизация признака

STANDARDSCALER

In [None]:
# инициализируем стандартизатор StandardScaler
s_scaler = preprocessing.StandardScaler()

# копируем исходный датасет
df_st = s_scaler.fit_transform(df)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_st = pd.DataFrame(df_st, columns=col_names)

fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('Распределения после StandardScaler')

sns.kdeplot(df_st['beta'], ax=ax1, label='beta')
sns.kdeplot(df_st['exponential'], ax=ax1, label='exponential')
sns.kdeplot(df_st['normal_p'], ax=ax1, label='normal_p')
sns.kdeplot(df_st['normal_l'], ax=ax1, label='normal_l')
plt.legend()

In [None]:
df_st.describe()

Задание 6.4
<br>
Нормализуйте признак price. Используйте подходящий тип нормализации.
<br>
В ответе напишите результат выполнения кода <i>data['price'].sum()</i>, округлённый до целого.

In [None]:
df_test = pd.read_csv('data/wine_cleared.csv') # Загрузка данных из файла в переменную, создание объекта DataFrame

In [None]:
# Из датасета винных обзоров создаем Series с колнкой price
df_norm = df_test['price']

# Преобразуем Series в DataFrame
df_norm = pd.DataFrame(df_norm)

# Копируем названия столбцов, которые теряются при использовании fit_transform()
col_names = list(df_norm.columns)

# инициализируем нормализатор RobustScaler
r_scaler = preprocessing.RobustScaler()

# копируем исходный датасет
df_robust = r_scaler.fit_transform(df_norm)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_robust = pd.DataFrame(df_robust, columns=col_names)
df_robust['price'].sum()
fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('Распределения после RobustScaler')

sns.kdeplot(df_robust['price'], ax=ax1, label='price')
plt.legend()

In [None]:
df_robust.describe()

In [None]:
round(df_robust['price'].sum())

Задание 6.5
<br>
Стандартизируйте исходный признак price.
<br>
В ответе напишите результат выполнения кода <i><b>data['price'][129968]</b></i>. Ответ округлите до сотых.

In [None]:
# Из датасета винных обзоров создаем Series с колнкой price
df_stand = df_test['price']

# Преобразуем Series в DataFrame
df_stand = pd.DataFrame(df_stand)

# Копируем названия столбцов, которые теряются при использовании fit_transform()
col_names = list(df_stand.columns)

# инициализируем стандартизатор StandardScaler
s_scaler = preprocessing.StandardScaler()

# копируем исходный датасет
df_standard = s_scaler.fit_transform(df_stand)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
df_standard = pd.DataFrame(df_standard, columns=col_names)

fig, (ax1) = plt.subplots(ncols=1, figsize=(10, 8))
ax1.set_title('Распределения после StandardScaler')

sns.kdeplot(df_standard['price'], ax=ax1, label='price')
plt.legend()

In [None]:
round(df_standard['price'][129968], 2)

Задание 7.4 (Самопроверка)
<br>
Проведите корреляционный анализ всего набора данных и отберите только необходимые признаки для предсказания рейтинга вина.
<br>
❗️ Удалять признак рейтинг — points нельзя!
<br>
❗️ Для простоты вычислений можете использовать только корреляцию Пирсона.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df_wine = pd.read_csv('data/wine_cleared.csv') # Загрузка данных из файла в переменную, создание объекта DataFrame

sns.heatmap(df_wine.corr(), annot=True)

fig, ax = plt.subplots(figsize=(15,10))
sns.heatmap(data.corr(), annot=True, linewidths=.5, ax=ax)

In [None]:
df_wine.info()