# Лабораторная работа №1
# Препроцессинг данных

Препроцессинг данных включает в себя широкий круг методов для очистки, выбора и преобразования данных с целью улучшения качества последующего интеллектуального анализа данных. 

Программные средства для препроцессинга данных имеются как в библиотеке Pandas, так и основной библиотеке машинного обучения scikit-learn (sklearn).

## Загрузка данных из удаленного файла

Считаем набор данных “Ирисы” из репозитария UCI (http://archive.ics.uci.edu/) различными способами.

1) Считаем данные при помощи библиотеки `urllib.request`, выведем данные на экран и проанализируем размерность данных (количество записей и признаков):

In [None]:
# данные из репозитария UCI
url = \
    "https://archive.ics.uci.edu/ml/"+\
    "machine-learning-databases/iris/iris.data"

In [None]:
import urllib.request

data = urllib.request.urlopen(url) # объект типа 'HTTPResponse'

xList = []
for line in data:    
    row = line.strip().decode().split(",") # сплит по запятой
    if len(row) > 1:
        xList.append(row)

In [None]:
print('##### Набор данных Ирисы #####')
print("Число строк = ", len(xList))
print("Число столбцов = ", len(xList[1]))
xList

Чтобы использовать считанные данные, нужно преобразовать их в правильный тип.

2) Скопируем файл из репозитария UCI на локальный диск, считаем набор данных при помощи функции `genfromtxt()` библиотеки NumPy и дополнительно рассчитаем средние значения признаков, матрицы ковариаций и корреляций признаков:

In [None]:
from urllib.request import urlopen
from contextlib import closing

# копируем удаленный файл на диск
with closing(urlopen(url)) as u, open("iris.csv", "w") as f: 
    f.write(u.read().decode())

In [None]:
import numpy as np

data = np.genfromtxt( "iris.csv", delimiter=",", usecols=(0,1,2,3), 
                     dtype=float ) 
targ = np.genfromtxt( "iris.csv", delimiter=",", usecols=(4), 
                     dtype=str )

In [None]:
data

In [None]:
targ

In [None]:
iris_mean = np.mean( data, axis=0 )
iris_cov = np.cov( data.T )
iris_corr = np.corrcoef( data.T ) 

print( "*** Средние значения:\n", iris_mean )
print( "*** Матрица ковариаций:\n", iris_cov )
print( "*** Матрица корреляций:\n", iris_corr )

3) Считаем теперь набор данных “Ирисы” при помощи пакета Pandas:

In [None]:
import pandas as pd

# считываем данные в объект DataFrame
my_data = pd.read_csv( url, header=None )
my_data

In [None]:
my_data.describe() # сводка данных для числовых столбцов

Плохое качество данных оказывает негативное воздействие на процесс анализа данных. Наиболее часто встречающиеся проблемы включают шум, выбросы, отсутствующие значения и дублирующиеся данные.

## Работа с пропущенными значениями

Достаточно часто в данных отсутствуют (пропущено) одно или несколько значений признаков. Иногда не хватает информации, а иногда некоторые значения не подходят для признаков. Существуют различные подходы для работы с пропущенными (отсутствующими) значениями. 

Рассмотрим инструментарий для работы с пропущенными значениями на примере синтетического набора данных.

In [None]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
                  index=['r1', 'r2', 'r3', 'r4', 'r5'], 
                  columns=['c1', 'c2', 'c3'])
df

Значение `nan` (not-a-number) представляет собой специальное значение, определенное в библиотеке NumPy и предназначенное для кодирования пустых значений: 

In [None]:
np.nan, type(np.nan)

Сделаем в датафрейме ряд изменений (использован индексатор `loc`):

In [None]:
df['c4'] = np.nan               # новый столбец со значениями NaN
df.loc['r6'] = np.arange(15,19) # новая строка со значениями от 15 до 18
df.loc['r7'] = np.nan           # новая строка со значениями NaN
df['c5'] = np.nan               # новый столбец со значениями NaN
df['c4']['r1'] = 20             # значение NaN заменяем на 20
df

Значения `NaN` интерпретируются как неопределенные (пропущенные).

### Поиск (отбор) пропущенных значений

In [None]:
df.isnull() # отбор элементов со значениями NaN

In [None]:
df.notnull() # отбор элементов со значениями, отличными от NaN

In [None]:
~df.isnull() # можно отобрать элементы и так

In [None]:
df.isnull().sum(axis=0) # подсчитываем кол-во NaN в каждом столбце

In [None]:
df.isnull().sum(axis=1) # подсчитываем кол-во NaN в каждой строке

In [None]:
df.count(axis=0) # кол-во значений, отличных от NaN, по каждому столбцу

### Удаление пропущенных значений

Отберем непропущенные значения в столбце `c4`:

In [None]:
df.c4[df.c4.notnull()] # один вариант обращения к столбцу

In [None]:
df['c4'][df['c4'].notnull()] # другой вариант обращения к столбцу

Можно удалить из столбца все значения NaN при помощи метода `dropna()`:

In [None]:
df['c4'].dropna()

Метод `dropna()` возвращает копию с удаленными значениями, при этом  исходный датафрейм (столбец) не изменяется.

In [None]:
df

Метод `dropna()` при применении к датафрейму удаляет целиком строки, в которых есть по крайней мере одно значение NaN, поэтому из датафрейма будут удалены все строки:

In [None]:
df.dropna()

При использовании ключа `how='all'` удаляются лишь те строки, в которых все значения являются значениями NaN:

In [None]:
df.dropna(how = 'all')

Можно изменить ось, чтобы удалить столбцы со значениями NaN вместо строк:

In [None]:
df.dropna(how='all', axis=1) # удаляем столбец c5

Создадим копию датафрейма и заменим в двух ячейках значения NaN на  значения 0:

In [None]:
df2 = df.copy()
df2.loc['r7','c1'] = 0 # df2.loc['r7'].c1=0 или df2.loc['r7']['c1']=0
df2.loc['r7','c3'] = 0 # df2.loc['r7'].c3=0 или df2.loc['r7']['c3']=0 
df2

Удалим столбцы, в которых есть хотя бы одно значение NaN:

In [None]:
df2.dropna(how='any', axis=1) 

Оставим столбцы, в которых есть по крайней мере два значения, отличных от NaN:

In [None]:
df2.dropna(thresh=3, axis=1)

### Заполнение пропущенных значений

Пропущенные значения могут быть заполнены константой:

In [None]:
df.fillna(0)

Значения NaN не учитываются при вычислении средних значений:

In [None]:
df.mean()

Поэтому после замены значений NaN на 0 получаем другие средние значения:

In [None]:
df.fillna(0).mean()

Пропущенные значения могут быть заполнены соседними значениями в прямом и обратном порядке:

In [None]:
df.c4.fillna(method="ffill") # прямой порядок

In [None]:
df.c4.fillna(method="bfill") # обратный порядок

Можно заполнить пропущенные значения для конкретных индексов строк при помощи соответствующего объекта `Series`:

In [None]:
fill_values = pd.Series([100, 101, 102], index=['r1', 'r2', 'r3'])
fill_values

In [None]:
df.c4.fillna(fill_values)

Заполним значения NaN в каждом столбце средним значением этого столбца (где оно может быть вычислено):

In [None]:
df.fillna(df.mean())

Рассмотрим теперь работу с пропущенными значениями на примере набора данных из репозитария UCI с информацией о пациентах с раком груди. 

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/'+\
      'breast-cancer-wisconsin/breast-cancer-wisconsin.data'

data = pd.read_csv(url, header=None)
data.columns = ['Sample code', 'Clump Thickness', 
                'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                'Marginal Adhesion', 'Single Epithelial Cell Size', 
                'Bare Nuclei', 'Bland Chromatin',
                'Normal Nucleoli', 'Mitoses','Class']

data = data.drop(['Sample code'],axis=1) # удаляем ненужный столбец
print('Число записей = %d' % (data.shape[0]))
print('Число признаков = %d' % (data.shape[1]))
data.head()

В наборах данных репозитария UCI пропущенные значения часто кодируются как символьная строка '?'. Первая задача состоит в конвертации пропущенных значений в значение NaNs (NaN - Not a Number). 

In [None]:
data = data.replace('?', np.NaN) # заменим '?' на np.NaN

Далее подсчитаем количество пропущенных значений в каждом столбце набора данных.

In [None]:
print('Число записей = %d' % (data.shape[0]))
print('Число признаков = %d' % (data.shape[1]))

print('Число пропущенных значений:')
for col in data.columns:
    print('\t%s: %d' % (col,data[col].isna().sum()))

Среди всех столбцов только столбец 'Bare Nuclei' содержит пропущенные  значения. Заменим пропущенные значения в столбце 'Bare Nuclei' на медиану столбца при помощи метода `fillna()` (значения до и после замены показаны на подмножестве записей).

In [None]:
data2 = data['Bare Nuclei']

print('До замены отсутствующих значений:')
print(data2[20:25])
data2 = data2.fillna(data2.median())

print('\nПосле замены отсутствующих значений:')
print(data2[20:25])

Вместо замены пропущенных значений можно удалить записи (строки), содержащие пропущенные значения. Для этого можно использовать метод `dropna()`:

In [None]:
print('Число записей в исходных данных = %d' % (data.shape[0]))

data2 = data.dropna()
print('Число записей после удаления отсутствующих значений = %d' % \
      (data2.shape[0]))

### Выбросы

Выбросами (outliers) называются записи (строки) с характеристиками, которые существенно отличаются от характеристик остальных записей набора данных. 

Ниже мы изобразим диаграммы размаха (boxplot) столбцов, чтобы найти столбцы таблицы, которые содержат выбросы. Так как столбец 'Bare Nuclei' идентифицирован Pandas как текстовый (из-за пропущенных  значений, представленных строками '?'), нам придется конвертировать столбец в числовые значения при помощи функции `pd.to_numeric()` или метода `astype()` для того, чтобы использовать диаграмму размаха. В противном случае столбец не будет отображаться на рисунке.

In [None]:
data2['Bare Nuclei']

In [None]:
data2 = data.drop(['Class'],axis=1)
data2['Bare Nuclei'] = pd.to_numeric(data2['Bare Nuclei'])
data2.boxplot(figsize=(20,3),rot=45); # rot=45

Диаграммы размаха показывают, что только пять столбцов (Marginal Adhesion, Single Epithetial Cell Size, Bland Cromatin, Normal Nucleoli, Mitoses) содержат ненормально большие значения. 

Чтобы убрать выбросы, можно посчитать стандартизованную оценку (Z-score) для каждого признака и убрать записи, содержащие атрибуты с ненормально высоким или низким Z-score (например, $Z>3$ или $Z<-3$). Для нормального распределения вероятность отклонения случайной величины от своего математического ожидания более чем на три стандартных отклонения практически равна нулю (правило трех сигм).

Следующий код показывает результаты стандартизации стоблцов с данными. Отсутствующие значения (NaN) не затрагиваются процессом стандартизации. 

In [None]:
Z = (data2-data2.mean())/data2.std()
Z[20:25]

Следующий код показывает результаты удаления строк, для которых $Z>3$ или $Z<-3$. Число 9 соответствует количеству столбцов в Z.

In [None]:
print('Число записей до удаления выбросов = %d' % (Z.shape[0]))

Z2 = Z.loc[((Z >= -3).sum(axis=1)==9) & ((Z <= 3).sum(axis=1)==9),:]
print('Число записей после удаления выбросов = %d' % (Z2.shape[0]))

### Дублирующиеся данные

Некоторые наборы данных, особенно полученные слиянием данных из нескольких источников, могут содержать дублирующиеся записи. 

Создадим синтетический датафрейм с дублирующимися строками:

In [None]:
data_dup = pd.DataFrame({'c1': ['x'] * 3 + ['y'] * 4, 
                         'c2': [1, 1, 2, 3, 3, 4, 4]})
data_dup

Определим, какие строки являются дублирующимися, то есть какие строки уже ранее встречались в датафрейме:

In [None]:
data_dup.duplicated()

Удалим дублирующиеся записи (строки), каждый раз оставляя первую из дублирующихся записей:

In [None]:
data_dup.drop_duplicates()

Удалим дублирующиеся записи, каждый раз оставляя последнюю из дублирующихся записей:

In [None]:
data_dup.drop_duplicates(keep='last')

Добавим новый столбец и отследим дублирующиеся записи:

In [None]:
data_dup['c3'] = range(7)
data_dup

In [None]:
data_dup.duplicated()

Теперь дублирующихся записей вообще нет, так как в столбце `c3` все значения отличаются. Но можно найти и удалить дублирующиеся записи с учетом значений в столбцах `c1` и `c2`, результаты будут выглядеть так:

In [None]:
data_dup.drop_duplicates(['c1', 'c2'])

Подсчитаем дублирующиеся записи в наборе данных с информацией о пациентах:

In [None]:
dups = data.duplicated()
print('Число дублирующихся записей = %d' % (dups.sum()))
data.loc[[11,28]]

Метод `duplicated()` возвращает булевский массив, который показывает является ли запись дубликатом какой-либо предыдущей записи в таблице. Результат означает, что в наборе данных пациентов с раком груди имеется 236 дублирующихся записей. Например, строка с индексом 11 имеет те же значения признаков, что и строка с индексом 28. 

Хотя дублирующиеся записи могут соответствовать данным различных пациентов, допустим, что дублирующиеся записи  соответствуют одному и тому же пациенту и удалим их:

In [None]:
print('Число записей до удаления дубликатов = %d' % (data.shape[0]))
data2 = data.drop_duplicates()
print('Число записей после удаления дубликатов = %d' % (data2.shape[0]))

## Трансформация (преобразование) данных

#### Замена значений

1) метод `map()`

Создадим два объекта Series для иллюстрации процесса сопоставления значений:

In [None]:
x = pd.Series({"r1": 1, "r2": 2, "r3": 3})
x

In [None]:
y = pd.Series({1: "a", 2: "b", 3: "c"})
y

Сопоставим индексам объекта  `x` значения объекта `y`:

In [None]:
x.map(y)

Если между значением объекта `y` и индексной меткой объекта `x` не будет найдено соответствие, будет выдано значение NaN:

In [None]:
y.loc[1:2]

In [None]:
x.map(y.loc[1:2])

2) метод `replace()`

In [None]:
x.replace(2,2022) # заменяем 2 на 2022

In [None]:
x.replace([1,3],[111,333]) # заменяем значения 1, 3 на 111, 333

In [None]:
x.replace({1:2021, 2:2022}) # замена по словарю

#### Применение функций к данным

1) метод `apply()` применяется к строкам/столбцам

In [None]:
s = pd.Series(np.arange(0, 5))
s

In [None]:
s.apply(lambda v: v * 3)

Создадим датафрейм, чтобы проиллюстрировать применение операции суммирования к каждому столбцу:

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['a', 'b', 'c'])
df

Вычислим сумму элементов в каждом столбце:

In [None]:
df.apply(lambda col: col.sum())

Вычислим сумму элементов в каждой строке:

In [None]:
df.apply(lambda row: row.sum(), axis=1)

Создадим столбец `d` путем умножения столбцов `a` и `b`:

In [None]:
df['d'] = df.apply(lambda row: row.a * row.b, axis=1)
df

А теперь получим столбец `r` путем сложения столбцов `c` и `d`:

In [None]:
df['r'] = df.apply(lambda row: row.c + row.d, axis=1)
df

2) метод `applymap()` применяется ко всем элементам датафрейма:

In [None]:
df.applymap(lambda x: np.exp(x)/10)

### Стандартизация и нормализация признака

Стандартизацией случайной величины $X$ называют ее линейное преобразование, приводящее к случайной величине с математическим ожиданием 0 и стандартным отклонением 1:

$\tilde{X}=\frac{X-\mathbb{E}\left[X\right]}{\sqrt{\mathbb{V}\left[X\right]}},$

где $\mathbb{E}$ – операция вычисления математического ожидания, $\mathbb{V}$ – операция вычисления дисперсии. 

Стандартизация набора данных является существенным условием для применения многих алгоритмов машинного обучения, а именно, алгоритмы дают приемлемый результат, только если отдельные признаки распределены примерно как стандартные нормальные величины (с нулевым матожиданием и единичной дисперсией).

Для стандартизации признаков набора данных может быть использована функция `scale()` из модуля `preprocessing`:

In [None]:
from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X)
print(X_scaled)

Стандартизованный набор данных имеет признаки с нулевыми средними и единичной дисперсией:

In [None]:
print(X_scaled.mean(axis=0))
print(X_scaled.std(axis=0))

Также модуль preprocessing содержит класс `StandardScaler`, который позволяет сохранить математическое ожидание и стандартное отклонение обучающей выборки и затем применять то же преобразование к другим выборкам. 

Альтернативным вариантом нормализации является масштабирование признака между заданным минимальным и максимальным значениями (нормализация). Этот эффект может быть достигнут при помощи функций `MinMaxScaler()` или `MaxAbsScaler()`: 

In [None]:
X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_minmax = min_max_scaler.fit_transform(X)
X_minmax

Функция `MaxAbsScaler()` используется аналогично, но масштабирует данные в диапазон $\left[-1,\,1\right]$.

### Семплирование данных

Семплирование (от англ. sample — выборка), или методы управления выборкой данных, – это подход, направленный на:

1. сокращение объема данных для анализа данных и масштабирования алгоритмов для приложений с большими данными

2. количественную оценку неопределенностей из-за различного распределения данных

Существуют различные методы выборки данных, такие как выборка без замены, когда каждый выбранный экземпляр удаляется из набора данных, и выборка с заменой, где каждый выбранный экземпляр не удаляется, что позволяет выбирать его более одного раза.

В примере ниже мы применим выборку с заменой и без замены с набору данных пациентов с раком груди.

Выведем первые пять записей набора:

In [None]:
data.head()

Далее данные для выборки размера 3 (без замены) выбираются случайным образом из исходных данных.

In [None]:
sample = data.sample(n=3)
sample

В следующем примере мы случайным образом выбираем 1% данных (без замены) и выводим выбранные записи. Параметр `random_state` задает начальное значение для генератора случайных чисел. 

In [None]:
sample = data.sample(frac=0.01, random_state=1)
sample

Наконец, выполним выборку с заменой размером, равным 1% всех данных. Можно увидеть повторяющиеся записи в выборке, если увеличить ее размеры.

In [None]:
sample = data.sample(frac=0.01, replace=True, random_state=1)
sample

### Дискретизация данных

Дискретизация – это этап препроцессинга, который часто используется при преобразовании непрерывного признака в категориальный. 

Пример ниже иллюстрирует два простых, но часто применяемых метода дискретизации (равной ширины,  равных частот) для признака 'Clump Thickness' набора данных пациентов с раком груди.

Вначале нарисуем гистограмму, которая показывает распределение значений признака. Метод `value_counts()` также может быть использован, чтобы подсчитать частоты каждого значения признака.

In [None]:
data['Clump Thickness'].hist(bins=10)
data['Clump Thickness'].value_counts(sort=False)

При использовании метода равной ширины можно задействовать функцию `cut()`, чтобы дискретизировать признак в 4 бина, имеющих равную ширину. Метод `value_counts()` может быть использован для определения числа записей в каждом из бинов.

In [None]:
bins = pd.cut(data['Clump Thickness'],4)
bins.value_counts(sort=False)

При использовании метода равных частот можно задействовать функцию `qcut()` для разделения значений признака на 4 бина, имеющих примерно равное число записей. 

In [None]:
bins = pd.qcut(data['Clump Thickness'],4)
bins.value_counts(sort=False)

Дискретизация также возможна при помощи средств библиотеки scikit-learn.

### Кодирование категориальных признаков

В большинстве наборов данных присутствуют категориальные признаки, которые содержат значения в текстовом формате. Примерами являются цвета (“Red”, “Green”, “Yellow”, “Blue”), размеры (“Small”, “Medium”, “Large”, “Extra Large”), географические обозначения (страны, города и т.п.). Независимо от назначения категориальных признаков возникает вопрос, как использовать категориальные признаки при анализе данных. Многие алгоритмы машинного обучения поддерживают категориальные значения без необходимости каких-либо манипуляций с данными, однако есть и такие алгоритмы, которые требуют преобразования текстовых значений в числовые для дальнейшей обработки.

#### Набор данных

Рассмотрим набор данных Automobile из репозитария UCI, содержащий как категориальные, так и непрерывные признаки. 

Импортируем данные, выполняя попутно обработку пропущенных значений:

In [None]:
# определяем метки столбцов
headers = ["symboling", "normalized_losses", "make", "fuel_type", "aspiration",
    "num_doors", "body_style", "drive_wheels", "engine_location",
    "wheel_base", "length", "width", "height", "curb_weight",
    "engine_type", "num_cylinders", "engine_size", "fuel_system",
    "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
    "city_mpg", "highway_mpg", "price"]
# считываем CSV файл и конвертируем значения "?" в NaN
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
      "autos/imports-85.data"
df = pd.read_csv(url, header=None, names=headers, na_values="?" )
df.head()

Чтобы понять, с какими типами данным мы имеем дело, рассмотрим свойство

In [None]:
df.dtypes

Так как нас интересуют только категориальные признаки, оставим в наборе столбцы с типом `“object”`. Pandas содержит удобный метод `select_dtypes()`, который можно использовать, чтобы оставить в наборе только столбцы с типом `“object”` (категориальные признаки):

In [None]:
obj_df = df.select_dtypes(include=['object']).copy()
obj_df.head()

Построенный набор содержит несколько строк с пропущенными значениями, которые нужно заполнить:

In [None]:
obj_df[obj_df.isnull().any(axis=1)]

В наборе наиболее часто встречается значение "four" (4 двери):

In [None]:
obj_df["num_doors"].value_counts()

Для простоты заполним пропущенные значения этим значением:

In [None]:
obj_df = obj_df.fillna({"num_doors": "four"})
obj_df[obj_df.isnull().any(axis=1)]

Теперь набор не содержит пропущенных значений и мы можем приступить к кодированию категориальных значений.

#### Замена значений признаков

В двух столбцах набора данных текстовые значения представляют собой числа, а именно, число цилиндров в двигателе и число дверей в автомобиле. 

Признак "num_cylinders" принимает 7 значений, которые легко преобразуются в целые числа:

In [None]:
obj_df["num_cylinders"].value_counts()

Метод `replace()` из Pandas имеет множество опций, в частности, опцию словаря, содержащего названия столбцов и словари для отображения старых значений в новые значения.

Словарь для преобразования признаков "num_doors" и "num_cylinders" в числовые значения задается следующим образом:

In [None]:
cleanup_nums = {"num_doors": {"four": 4, "two": 2},
    "num_cylinders": {"four": 4, "six": 6, "five": 5, "eight": 8,
    "two": 2, "twelve": 12, "three":3 }}

Для преобразования признаков в числовые значения выполним код: 

In [None]:
obj_df.replace(cleanup_nums, inplace=True)
obj_df.head()

Pandas автоматически преобразует тип признаков в числовой (int64):

In [None]:
obj_df.dtypes

Описанный подход работает в тех случаях, когда имеется понятный способ интерпретации текстовых значений как числовых.

#### Кодирование меток

Кодирование меток (label encoding) – это способ конвертации значений в столбцах в числа.

Например, столбец body_style содержит 5 различных значений. Можно закодировать их так: 

    convertible -> 0  
    hardtop -> 1  
    hatchback -> 2  
    sedan -> 3  
    wagon -> 4  

Можно использовать Pandas, чтобы преобразовать столбец в категорию (категория – это тип данных в Pandas, принимающий несколько значений), а потом использовать значения категории для кодирования меток:

In [None]:
obj_df["body_style"] = obj_df["body_style"].astype('category')
obj_df.dtypes

Далее можно присвоить закодированные значения признака новому столбцу "body_style_cat" используя свойство `cat.codes`:

In [None]:
obj_df["body_style_cat"] = obj_df["body_style"].cat.codes
obj_df[['body_style','body_style_cat']].head()

Особенностью этого подхода является то, что появляется возможность использовать преимущества категорий Pandas (компактность данных, возможность упорядочения, поддержка визуализации), при этом категории могут быть легко конвертированы в числовые значения для дальнейшего анализа.

#### Прямое кодирование (One Hot Encoding)

Кодирование меток имеет преимущество в виде простоты реализации и недостаток, состоящий в том, что числовое значение может быть некорректно интерпретировано алгоритмами машинного обучения. Например, значение 0, очевидно, меньше значения 2, но соответствует ли эта зависимость реальной ситуации для текстовых значений? 

Альтернативный подход (прямое кодирование) состоит в том, чтобы конвертировать каждую категорию в новый столбец, принимающий значения 1 или 0 (True/False). Преимуществом этого подхода является то, что между категориальными значениями не устанавливаются несуществующие связи, а недостатком – что в наборе данных появляются дополнительные столбцы. 

Pandas поддерживает этот подход в функции `get_dummies()`, которая создает новые столбцы вида “столбец_значение”.

Рассмотрим пример для столбца drive_wheels со значениями 4wd , fwd, rwd. Используя `get_dummies()` мы конвертируем этот столбец в три столбца со значениями 1 или 0, соответствующими правильному значению исходного признака (столбца):

In [None]:
pd.get_dummies(obj_df, columns=["drive_wheels"]).head()

Столбец "drive_wheels" пропал, при этом новый набор данных содержит три новых столбца:

• drive_wheels_4wd  
• drive_wheels_rwd  
• drive_wheels_fwd  

В функцию `get_dummies()` можно передать несколько столбцов с категориальными признаками, а также передать префиксы для именования новых столбцов с целью упростить последующий анализ данных:

In [None]:
pd.get_dummies(obj_df, columns=["body_style", "drive_wheels"], \
               prefix=["body", "drive"]).head()

Прямое кодирование является очень полезным инструментом, однако может приводить к резкому увеличению числа столбцов в наборе, если категориальные признаки имеют большое число различных значений. 

#### Двоичное кодирование, управляемое пользователем 

В зависимости от особенностей набора данных можно использовать различные комбинации кодирования меток и прямого кодирования, которые в наибольшей степени соответствуют целям дальнейшего анализа. 

Для иллюстрации двоичного кодирования, управляемого пользователем (custom binary encoding), рассмотрим следующий пример. В наборе данных имеется столбец engine_type (тип двигателя), который содержит несколько различных значений:

In [None]:
obj_df["engine_type"].value_counts()

Допустим, что требуется выделить в отдельную группу все двигатели с верхней камерой (Overhead Cam или OHC). Другими словами, различные версии OHC эквивалентны для анализа. В это случае можно использовать свойство `str` и функцию `np.where`, чтобы создать новый столбец как индикатор того, что двигатель автомобиля имеет тип OHC.

In [None]:
obj_df["OHC_Code"] = np.where(obj_df["engine_type"].str.contains("ohc"), 1, 0)
obj_df["OHC_Code"].value_counts()

В результате получаем набор данных, включающий столбец OHC_Code (показываем в наборе только три столбца):

In [None]:
obj_df[["make", "engine_type", "OHC_Code"]].head()

Данный подход является по-настоящему полезным, если имеется возможность консолидировать бинарные значения (да/нет) в новом столбце. 

#### Возможности кодирования в библиотеке Scikit-Learn

Библиотека scikit-learn также содержит функцонал для кодирования текстовых признаков.

Например, чтобы кодировать метки для производителей автомобиля, используем объект `LabelEncoder` и метод `fit_transform()` для столбца с данными:

In [None]:
from sklearn.preprocessing import LabelEncoder
lb_make = LabelEncoder()
obj_df["make_code"] = lb_make.fit_transform(obj_df["make"])
obj_df[["make", "make_code"]].head(11)

Scikit-learn также поддерживает бинарное кодирование при помощи объекта `LabelBinarizer`. Можно использовать процедуру, аналогичную приведенной выше, чтобы преобразовать данные, но требуются некоторые дополнительные шаги.

In [None]:
from sklearn.preprocessing import LabelBinarizer
lb_style = LabelBinarizer()
lb_results = lb_style.fit_transform(obj_df["body_style"])
pd.DataFrame(lb_results, columns=lb_style.classes_).head()

На следующем шаге нужно включить эти данные в исходный набор данных.

## Отбор признаков 

Набор признаков, используемых для обучения модели, оказывает значительное влияние на качество результатов. Присутствие в наборе данных малоинформативных признаков приводит к снижению точности многих моделей, особенно моделей регрессии.

Отбор признаков (feature selection) – это процесс выбора признаков, обеспечивающий более высокое качество модели машинного обучения.

Отбор признаков перед построением модели обеспечивает следующие преимущества:

• Уменьшение переобучения. Чем меньше избыточных данных, тем меньше возможностей для модели принимать решения на основе «шума».

• Повышение точности. Чем меньше противоречивых данных, тем выше точность.

• Сокращение времени обучения. Чем меньше данных, тем быстрее обучается модель.

Будем работать с набором данных, содержащим информацию о качество вина. 

### Удаление признаков с низкой дисперсией

Простейшим подходом к отбору признаков является исключение признаков с низкой дисперсией. Если дисперсия признака равна нулю, то признак для всех записей имеет одно и то же значение и может не приниматься во внимание при анализе данных. Если дисперсия признака близка к нулю, то признак принимает значения, близкие к некоторому (среднему) значению и, скорее всего, является несущественным. 

В качестве примера рассмотрим гипотетический набор данных с булевыми признаками и допустим, что мы хотим удалить все признаки, в которых нули или единицы составляют более чем 80% значений. Булевы признаки могут быть интепретированы как случайные величины с распределением Бернулли, имеющие дисперсию

$V\left[X\right]=p\,\left(1-p\right),$

поэтому при отборе признаков можем использовать пороговое значение $0.8\,(1-0.8)$:

In [None]:
from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1], 
     [0, 1, 0], 
     [1, 0, 0], 
     [0, 1, 1], 
     [0, 1, 0], 
     [0, 1, 1]]
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
sel.fit_transform(X)

Как и ожидалось, метод `VarianceThreshold` удалил первый столбец, для которого вероятность нулевого значения $p=\frac{5}{6}>0.8$.

### Одномерный отбор признаков

Признаки, имеющие наиболее выраженную взаимосвязь с целевой переменной, могут быть отобраны с помощью статистических критериев. Библиотека scikit-learn содержит класс `SelectKBest`, реализующий одномерный отбор признаков (univariate feature selection). Этот класс можно применять совместно с различными статистическими критериями для отбора заданного количества признаков.

В примере ниже используется критерий хи-квадрат (chi-squared test) для неотрицательных признаков, чтобы отобрать 4 лучших признака.

In [None]:
# отбор признаков при помощи одномерных статистических тестов 
from sklearn.feature_selection import SelectKBest,chi2

# загрузка данных - качество вина
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
      "wine-quality/winequality-red.csv"
df = pd.read_csv(url,sep=";")
print("\nИсходный набор данных:\n",df.head())
array = df.values
X = array[:,0:11] # входные переменные (11 признаков)
Y = array[:,11]   # выходная переменная - качество (оценка между 0 и 10)

# отбор признаков
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

# оценки признаков
print("\nОценки признаков:\n",fit.scores_)

cols = test.get_support(indices=True)
df_new = df.iloc[:,cols]
print("\nОтобранные признаки:\n",df_new.head())

Мы видим оценки для каждого признака и 4 отобранных признака (с наивысшими оценками): volatile acidity, free sulfur dioxide, total sulfur dioxide и alcohol.

Если выходная (зависимая) переменная представляет собой класс, то можно использовать статистические критерии `chi2` или `f_classif`. Если выходная (зависимая) переменная представляет собой признак, принимающий непрерывные значения, то следует использовать статистический критерий `f_regression`.

### Отбор на основе важности признаков

Ансамблевые алгоритмы на основе деревьев решений, такие как случайный лес (random forest), позволяют оценить важность признаков.

В представленном ниже примере мы обучаем классификатор `ExtraTreesClassifier`, чтобы с его помощью определить важность признаков.

In [None]:
# важность признаков с классификатором Extra Trees
from sklearn.ensemble import ExtraTreesClassifier

# загрузка данных - качество вина
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
      "wine-quality/winequality-red.csv"
df = pd.read_csv(url, sep=";")

array = df.values
X = array[:,0:11] # входные переменные (11 признаков)
Y = array[:,11]   # выходная переменная - качество (оценка между 0 и 10)

# отбор признаков
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)

Мы получили оценки для каждого признака. Чем больше значение оценки, тем важнее признак. Таким образом, согласно данному методу отбора, двумя наиболее важными признаками являются два последних признака (total sulfur dioxide и sulphates).

### Метод главных компонент

Метод главных компонент (principal component analysis, PCA) позволяет уменьшить размерность данных с помощью преобразования на основе линейной алгебры. Пользователь может задать требуемое количество измерений (главных компонент) в результирующих данных.

Прочитаем набор данных "Ирисы" и сократим его размерность до двух:

In [None]:
from sklearn.decomposition import PCA 

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
      "iris/iris.data"

# считываем данные в объект data frame
my_data = pd.read_csv( url, header=None, usecols=(0,1,2,3) )

pca = PCA(n_components=2)

pcad = pca.fit_transform(my_data) # numpy array

print( "*** Первые 5 строк данных:" )
for x in range(0,5):
  print( pcad[x] )  

print( "*** Дисперсии компонент:\n", pca.explained_variance_ratio_ )

Определим уровень объясняемой дисперсии для различных значений параметра `n_components`: 

In [None]:
for r in range(1,5):
  pca = PCA( n_components = r )
  pca.fit( my_data )
  print( "r =",r,"\tДисперсия =",
        sum(pca.explained_variance_ratio_)*100,"%" )

В примере ниже выделим 3 главных компоненты с помощью PCA.

In [None]:
# загрузка данных - качество красного вина
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
      "wine-quality/winequality-red.csv"
df = pd.read_csv(url, sep=";")

array = df.values
X = array[:,0:11] # входные переменные (11 признаков)

# главные компоненты
pca = PCA(n_components=3)
fit = pca.fit(X)
features = fit.transform(X)

# результаты
print("Объясняемая дисперсия:", sum(fit.explained_variance_ratio_)*100)
print(features[0:5,:])

Результат преобразования (3 главных компоненты) совсем не похож на исходные данные и содержит отрицательные значения.

## Вычисления с данными датафрейма

Чтобы получить сводку статистик для числовых столбцов датафрейма, можно воспользоваться методом `describe()`:

In [None]:
df.describe()

Можно вычислить сводку статистик для отдельного столбца, например, `fixed acidity`:

In [None]:
df['fixed acidity'].describe()

Полезная информация о датафрейме также может быть получена при помощи метода `info()`:

In [None]:
df.info()

Для нечислового столбца получаем при помощи `describe()` такую статистику:

In [None]:
obj_df.make.describe()

Можно также вычислить нормализованные частоты:

In [None]:
obj_df.make.value_counts(normalize=True)

Чтобы определить минимальные значения для столбцов числового датафрейма, можно воспользоваться методом `min()`:

In [None]:
df.min()

Индексы для минимальных значений определяются при помощи метода `idxmin()`:

In [None]:
df.idxmin()

Для максимальных значений используются методы `max()` и `idxmax()`. 

Для вычисления минимальных/максимальных значений по строкам применяется ключ `axis=1`:

In [None]:
df.max(axis=1)

Для вычисления средних значений и медиан используются методы `mean()` и `median()`:

In [None]:
df.median()

In [None]:
df.mean(axis=1).head()

Для вычисления дисперсии и стандартного отклонения используем методы `var()` и `std()`:

In [None]:
df.var()

In [None]:
df.std(axis=1).tail()

Для вычисления ковариации и корреляции между двумя столбцами можно использовать методы `cov()` и `corr()`:

In [None]:
df['fixed acidity'].cov(df['volatile acidity'])

In [None]:
df.alcohol.corr(df.quality)

Также можно вычислить матрицы ковариаций и корреляций признаков:

In [None]:
df.cov()

In [None]:
df.corr()

Чтобы отобрать из датафрейма со столбцами разных типов только числовые столбцы, можно использовать метод `select_dtypes()`:

In [None]:
obj_df.select_dtypes(include=np.number)

## Визуализация данных

Основной библиотекой визуализации данных является библиотека Matplotlib. Библиотека Pandas имеет встроенный интерфейс для обращения к Matplotlib.

Загрузим с локального диска два датасета с данными:

In [None]:
sp500 = pd.read_csv("sp500.csv",
                    index_col='Symbol',
                    usecols=['Symbol', 'Sector', 'Price',
                             'Book Value', 'Market Cap',
                             'Dividend Yield'])
sp500

In [None]:
omh = pd.read_csv('omh.csv', parse_dates=['Date'])
omh.set_index('Date', inplace=True)
omh.head()

Нарисуем график цены акций Microsoft:

In [None]:
omh.MSFT.plot();

Цены акций Microsoft и Apple на одном графике:

In [None]:
omh.plot();

Так как цены акций имеют разный масштаб, можно выполнить нормализацию цен:

In [None]:
omh_copy =  (omh - omh.mean())/omh.std()
omh_copy.plot();

Можно задать желаемые размеры графика:

In [None]:
omh_copy.plot(figsize=(10, 5));

Заголовок может быть задан при помощи параметра `title` метода `plot()`, а подписи осей `x` и `y` могут быть заданы обращением к Matplotlib:

In [None]:
import matplotlib.pyplot as plt 

omh_copy.plot(title='Цены акций после нормировки', figsize=(10, 5))
plt.xlabel('Дата')
plt.ylabel('Цена');

Можно изменить элементы легенды, соответствующие именам столбцов датафрейма:

In [None]:
ax = omh_copy.plot(figsize=(10, 5))
ax.legend(['Microsoft', 'Apple']);

Можно изменить расположение легенды:

In [None]:
ax = omh_copy.plot(figsize=(10, 5))
ax.legend(loc='upper center');

Можно вообще отключить легенду:

In [None]:
omh_copy.plot(figsize=(10, 5), legend=False);

Изменим цвета линий графика:

In [None]:
omh_copy.plot(style={'MSFT': 'b', 'AAPL': 'g'}); 

Используем различные стили линий и увеличим толщину линий:

In [None]:
omh_copy.plot(style={'MSFT': 'b--', 'AAPL': 'g:'}, lw=3);

Можно добавить маркеры линий:

In [None]:
omh_copy.plot(style={'MSFT': 'b--^', 'AAPL': 'g:o'});

Из Pandas можно нарисовать различные виды графиков.

* столбчатая диаграмма (bar)

In [None]:
s = sp500.Sector.value_counts()
s.plot(kind='bar');

Сократим данные для визуализации, отбросив, в частности, малочисленные сектора:

In [None]:
small_sectors = s[-4:].index.values

Вычислим квантили 95%:

In [None]:
sp500.quantile(0.95)

Создадим усеченную копию данных так:

In [None]:
idx = (~sp500.Sector.isin(small_sectors)) \
    & (sp500.Price < 184) \
    & (sp500['Book Value'] < 66) \
    & (sp500['Market Cap'] < 134) \
    & (sp500['Dividend Yield'] < 4.5)

sp500_cut = sp500.loc[idx].copy()
sp500_cut.shape

Построим столбчатую диаграмму для средних и медиан:

In [None]:
df = sp500_cut.groupby('Sector').Price.agg(['mean', 'median'])
df.plot(kind='bar', figsize=(10, 5));

Пример вертикально состыкованной столбчатой диаграммы:

In [None]:
df.plot(kind='bar', stacked=True, figsize=(10, 5));

Горизонтально состыкованная столбчатая диаграмма имеет вид:

In [None]:
df.plot(kind='barh', stacked=True, figsize=(10, 5));

* гистограмма

In [None]:
sp500_cut.Price.hist();

In [None]:
sp500_cut.Price.hist(bins = 50);

Для датафрейма получается 4 гистограммы:

In [None]:
sp500_cut.hist(figsize=(12,8));

Можно наложить несколько гистограмм при помощи модуля pyplot: 

In [None]:
plt.figure(figsize=(12, 6))
plt.hist(sp500_cut.Price, alpha=0.75, label='Price')
plt.hist(sp500_cut['Book Value'], alpha=0.75, label='Book Value')
plt.legend(loc='upper right');

In [None]:
s = sp500_cut.Price
s.hist(density=True)
s.plot(kind='kde', lw=20, alpha=0.75, figsize=(10,6));

* диаграмма размаха (boxplot)

In [None]:
sp500_cut[['Price','Book Value']].boxplot(figsize = (14, 7));

* диаграмма рассеяния (scatter plot)

In [None]:
sp500_cut.plot(kind='scatter',x='Price',y='Book Value',figsize=(10,6));

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(sp500_cut, alpha=0.4, figsize=(9, 9), diagonal='kde');

* тепловая карта (heat map)

In [None]:
corr_matrix = sp500_cut.corr()
corr_matrix

In [None]:
plt.figure(figsize=(7, 7))
plt.imshow(corr_matrix, cmap='Greens')
plt.colorbar()  # добавим шкалу интенсивности цвета

plt.xticks(range(len(corr_matrix.columns)), corr_matrix.columns)
plt.yticks(range(len(corr_matrix)), corr_matrix.index);

Приведем пример визуализации набора данных со сниженной размерностью (разными цветами) при помощи Matplotlib:

In [None]:
data = np.genfromtxt( "iris.csv", delimiter=",", usecols=(0,1,2,3) ) 
target = np.genfromtxt( "iris.csv", delimiter=",", usecols=(4), dtype=str )

pca = PCA(n_components=2)
pcad = pca.fit_transform( data )

plt.figure( figsize=(8, 6), dpi=200 )
plt.plot(pcad[target=="Iris-setosa",0],
         pcad[target=="Iris-setosa",1],"bo") 
plt.plot(pcad[target=="Iris-versicolor",0],
         pcad[target=="Iris-versicolor",1],"r.") 
plt.plot(pcad[target=="Iris-virginica",0],
         pcad[target=="Iris-virginica",1],"g+");

### Задание на лабораторную работу №1

#### Задание (10 баллов)

Для закрепленного за Вами варианта лабораторной работы:

1.	Используя функционал библиотеки Pandas, cчитайте заданный набор данных из репозитария UCI. Набор данных задан ссылкой на страницу набора данных и названием файла с данными, который доступен из папки с данными (data folder). 

2.	Проведите исследование набора данных, выявляя числовые признаки. Если какие-то из числовых признаков были неправильно классифицированы, то преобразуйте их в числовые. Если в наборе для числовых признаков присутствуют пропущенные значения ('?'), то заполните их медианными значениями признаков.

3.	Определите столбец, содержащий метку класса (отклик). Если столбец, содержащий метку класса (отклик), принимает более 10 различных значений, то выполните дискретизацию этого столбца, перейдя к 4-5 диапазонам значений. 

4.	При помощи класса `SelectKBest` библиотеки scikit-learn найдите в наборе два признака, имеющих наиболее выраженную взаимосвязь с (дискретизированным) столбцом с меткой класса (откликом). Используйте для параметра `score_func` значения `chi2` или `f_classif`. 

5.	Для найденных признаков и (дискретизированного) столбца с меткой класса (откликом) вычислите матрицу корреляций и визуализируйте ее в виде тепловой карты (heat map). 

6.	Визуализируйте набор данных в виде диаграммы рассеяния на плоскости с координатами, соответствующими найденным признакам, отображая точки различных классов разными цветами. Подпишите оси и рисунок, создайте легенду набора данных.

7.	Оставляя в наборе данных только числовые признаки, найдите и выведите на экран размерность метода главных компонент (параметр `n_components`), для которой доля объясняемой дисперсии будет не менее 97.5%.

8.	Пользуясь методом главных компонент (PCA), снизьте размерность набора данных до двух признаков и изобразите полученный набор данных в виде диаграммы рассеяния на плоскости, образованной двумя полученными признаками, отображая точки различных классов разными цветами. Подпишите оси и рисунок, создайте легенду набора данных.
