# Глава 4 Работа с числовыми данными

# Шкалирование признака

In [None]:
#Требуется прошкалировать числовой признак в диапазон между двумя значениями

$$
\begin{array}{c}
x_i' = \frac{x_i - min(x)}{max(x)-min(x)}\\\
\end{array}
$$

In [1]:
import numpy as np
from sklearn import preprocessing

In [2]:
#Создать признак
feature = np.array(
    [[-500.5],
     [-100.1],
     [0],
     [100.1],
     [900.9]]
)
#создать шкалировщик
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

In [3]:
#Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [None]:
#два варианта шкалирования:
#первый - применить метод fit затем метод transform
#второй - применить метод fit_transform
#разницы нет, но в первом варианте 
#можно применить одно и то же преобразование к разным наборам данных

# Стандартизация признака

In [None]:
#требуется преобразовать признак, чтобы он имел среднее значение 0 
#и стандартное отклонение 1

$$
\begin{array}{c}
x_i' = \frac{x_i - x}{\sigma}\\\
\end{array}
$$



In [7]:
import numpy as np
from sklearn import preprocessing

In [8]:
#Создать признак
x = np.array(
    [[-1000.1],
     [-200.2],
     [500.5],
     [600.6],
     [9000.9]]
)
#создать шкалировщик
scaler = preprocessing.StandardScaler()

In [9]:
#преобразовать признак
standardized = scaler.fit_transform(x)

In [10]:
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [11]:
standardized.mean()

4.4408920985006264e-17

In [24]:
print("Среднее: ", round(standardized.mean()))
print("Стандартное отклонение: ", standardized.std())

Среднее:  0.0
Стандартное отклонение:  1.0


In [28]:
#если данные имеют значительные выбросы
#создать шкалировщик
robust_scaler = preprocessing.RobustScaler()
#преобразовать признак
robust = robust_scaler.fit_transform(x)

In [29]:
print("Среднее: ", round(robust.mean()))
print("Стандартное отклонение: ", robust.std())

Среднее:  2.0
Стандартное отклонение:  4.565023609817704


In [30]:
robust

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

# Нормализация наблюдений

In [None]:
#требуется прошкалировать значения признаков в наблюдениях 
#для получения единичной нормы

$$
\begin{array}{c}
\lVert x \rVert_2 = \sqrt{x_1^2 + x_2^2 + ...+ x_n^2}\\\
\end{array}
$$



In [None]:
import numpy as np
from sklearn.preprocessing import Normalizer

In [46]:
#Создать матрицу признаков
features = np.array(
    [[0.5, 0.5],
     [1.1, 3.4],
     [1.5, 20.2],
     [1.63, 34.4],
     [10.9, 3.3]]
)

In [49]:
#создать нормализатор
normalizer = Normalizer(norm="l2")

In [52]:
#преобразовать матрицу признаков
transform_features = normalizer.transform(features)

In [53]:
transform_features

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [54]:
transform_features[:, 0]**2 + transform_features[:, 1]**2

array([1., 1., 1., 1., 1.])

In [None]:
#Класс Normalizer предоставляет три варианта нормы, 
#при этом евклидова норма является аргументом по умолчанию

$$
\begin{array}{c}
\lVert x \rVert_2 = \sqrt{x_1^2 + x_2^2 + ...+ x_n^2}\\\
\end{array}
$$

In [59]:
#преобразовать матрицу признаков
features_l2_norm = Normalizer(norm="l2").transform(features)

In [60]:
#показать матрицу признаков
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [None]:
  #альтернативой является манхэттенская норма L1

$$
\begin{array}{c}
\lVert x \rVert_1 = \sum_{i=1}^n |x_i| \\\
\end{array}
$$

In [65]:
#преобразовать матрицу признаков
features_l1_norm = Normalizer(norm="l1").transform(features)

In [68]:
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [69]:
features_l1_norm[:, 0] + features_l1_norm[:, 1]

array([1., 1., 1., 1., 1.])

In [70]:
print('Сумма значений первого наблюдения: ', features_l1_norm[0, 0] + features_l1_norm[0, 1])

Сумма значений первого наблюдения:  1.0


# Генерирование полиноминальных и взаимодействующих признаков

In [None]:
#требуется создать полиноминальные и взаимодействующие признаки

In [2]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

In [5]:
features = np.array([
    [2, 3],
    [2, 3],
    [2, 3]
])

In [6]:
#создать объект PolynomialFeatures
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

In [7]:
#создать полиномиальные признаки
polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

In [8]:
interaction = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)

In [9]:
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

# Преобразование признаков

In [10]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

In [11]:
features = np.array([
    [2, 3],
    [2, 3],
    [2, 3]
])

In [12]:
def add_ten(x):
    return x + 10

In [13]:
ten_transformer = FunctionTransformer(add_ten)

In [14]:
ten_transformer.transform(features)



array([[12, 13],
       [12, 13],
       [12, 13]])

In [15]:
import pandas as pd
df = pd.DataFrame(features, columns=["признак_1", "признак_2"])
df.apply(add_ten)

Unnamed: 0,признак_1,признак_2
0,12,13
1,12,13
2,12,13


# Обнаружение выбросов

In [None]:
#Требуется идентифицировать предельные значения

In [2]:
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs
#создадим симулированные данные
features, _ = make_blobs(n_samples=10,
                         n_features=2,
                         centers=1,
                         random_state=1
)

In [3]:
#заменить значения первого наблюдения предельными значениями
features[0,0]=10000
features[0,1]=10000

In [15]:
#создать детектор
outlier_detector = EllipticEnvelope(contamination=.1)

In [16]:
#выполнить подгонку детектора
outlier_detector.fit(features)

EllipticEnvelope(assume_centered=False, contamination=0.1, random_state=None,
         store_precision=True, support_fraction=None)

In [17]:
#предсказать выбросы
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

In [18]:
#любое наблюдение за пределами эллипса  - выброс помечается как (-1)

In [19]:
#создать один признак
feature = features[:,0]
#создать функцию, которая возвращает индекс выбросов
def indicies_of_outliers(x):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

indicies_of_outliers(feature)

(array([0], dtype=int64),)

# Обработка выбросов

In [20]:
#отбросить выбросы
import pandas as pd
houses = pd.DataFrame()
houses['Цена'] = [534433, 392333, 293222, 4322032]
houses['Ванные'] = [2, 3.5, 2, 116]
houses['Кв_футы'] = [1500, 2500, 1500, 48000]

#отфильтровать наблюдения
houses[houses['Ванные'] < 20]

Unnamed: 0,Цена,Ванные,Кв_футы
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


In [21]:
#можно их пометить как выбросы и включить в качестве признака
import numpy as np
#создать признак на основе булева условия
houses['Выброс'] = np.where(houses['Ванные'] < 20, 0, 1)
houses

Unnamed: 0,Цена,Ванные,Кв_футы,Выброс
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


In [23]:
#ослабить эффект выбросов
#взять логарифм признака
houses['Логарифм_Кв_футы'] = [np.log(x) for x in houses['Кв_футы']]
houses

Unnamed: 0,Цена,Ванные,Кв_футы,Выброс,Логарифм_Кв_футы
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


# Дискретизация признаков

In [24]:
#Дан числовой признак и требуется разбить его на дискретные корзины
#бинаризация признака
import numpy as np
from sklearn.preprocessing import Binarizer
#признак
age = np.array([
    [6],
    [12],
    [20],
    [36],
    [65]
])
#бинаризатор
binarizer = Binarizer(18)

#преобразовать признак
binarizer.fit_transform(age)

array([[0],
       [0],
       [1],
       [1],
       [1]])

In [25]:
#разбиваем числовые признаки в соответствии с несколькими порогами
np.digitize(age, bins=[20, 30, 64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

In [26]:
np.digitize(age, bins=[20, 30, 64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

In [27]:
np.digitize(age, bins=[18])

array([[0],
       [0],
       [1],
       [1],
       [1]], dtype=int64)

# Группирование наблюдений с помощью кластеризации

In [None]:
#требуется сгруппировать наблюдения так, чтобы похожие наблюдения находились в одной группе

In [1]:
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [5]:
#создать матрицу симулированных признаков
features, _ = make_blobs(n_samples=50,
                        n_features=2,
                        centers=3,
                        random_state=1)

In [7]:
dataframe = pd.DataFrame(features, columns=["признак_1", "признак_2"])

In [8]:
#создать кластеризатор по методу к средних
clusterer = KMeans(3, random_state=0)

In [9]:
#подгонка кластеризатора
clusterer.fit(features)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
    random_state=0, tol=0.0001, verbose=0)

In [11]:
#предсказать значения
dataframe["группа"] = clusterer.predict(features)

In [13]:
dataframe.head(20)

Unnamed: 0,признак_1,признак_2,группа
0,-9.877554,-3.336145,0
1,-7.28721,-8.353986,2
2,-6.943061,-7.023744,2
3,-7.440167,-8.791959,2
4,-6.641388,-8.075888,2
5,-0.794152,2.104951,1
6,-2.760179,5.551214,1
7,-9.946905,-4.590344,0
8,-0.52579,3.306599,1
9,-1.981977,4.022436,1


# Удаление наблюдений с пропущенными значениями

In [None]:
#Требуется удалить наблюдения, содержащие пропущенные значения

In [14]:
import numpy as np

In [15]:
#Создать матрицу признаков
features = np.array([
    [1.1, 11.1],
    [2.2, 22.2],
    [3.3, 33.3],
    [4.4, 44.4],
    [np.nan, 55]
    ])

In [17]:
new_features = features[~np.isnan(features).any(axis=1)]
new_features

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [18]:
#альтернатива: удалить наблюдения, содержащие пропущенные значения с помощью pandas
import pandas as pd
dataframe = pd.DataFrame(features, columns=["признак_1", "признак_2"])

In [19]:
dataframe.dropna()

Unnamed: 0,признак_1,признак_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


# Импутация пропущенных значений

In [None]:
#в данных имеются пропущенные значения
#требуется заполнить или предсказать их значения

In [None]:
!conda install ecos  
!conda install CVXcanon
!pip install fancyimpute  

In [25]:
#если объем данных небольшой, то предсказать с помощью к ближайших соседей(KNN)
import numpy as np
from fancyimpute import KNN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

ModuleNotFoundError: No module named 'fancyimpute'

In [None]:
#создать матрицу симулированных признаков
features, _ = make_blobs(n_samples=1000,
                        n_features=2,
                        random_state=1)

In [None]:
#стандартизировать признаки
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

In [None]:
#заменить первое значение первого признака на пропущенное значение
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

In [None]:
#предсказать пропущенные значения в матрице признаков
features_knn_imputed = KNN(k=5, verbose=0).fit_transform(standardized_features)

In [None]:
#сравнить истинные и импутированные значения
print('Истинное значение: ', true_value)
print('Импутированное значение: ', features_knn_imputed[0,0])

In [None]:
#альтернативный метод: использование модуля Imputer библиотеки scikitlearn для заполнения
#пропущенных значений средними, медианными и наиболее частыми значениями признаков
#но результат хуже, чем к ближайшие соседи

In [None]:
from sklearn.impute import SimpleImputer
#создать заполнитель
mean_imputer = SimpleImputer(strategy='mean')
#импутировать значения
features_mean_imputed = mean_imputer.fit_transform(features)

In [None]:
#сравнить истинные и импутированные значения
print('Истинное значение: ', true_value)
print('Импутированное значение: ', features_mean_imputed[0,0])