ЛАБОРАТОРНАЯ РАБОТА 7. РАЗРАБОТКА ЕДИНОГО ШАБЛОНА ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ

Цели и задачи

Цель лабораторной работы: изучение теоретических принципов и инструментальных редств для построения пайплайна для предварительной обработки данных.
Основные задачи:
–	предварительная обработка данных;
–	изучение библиотек для предварительной обработки данных;
–	масштабирование признаков;
–	представление категориальных данных;
–	построение пайплайна для предварительной обработки данных.

Теоретическое обоснование

Для решения задач машинного обучения часто приходится повторять различные блоки кода, которые являются единоообразными для разных задач, принадлежащих одному классу (регрессия, классификация, кластеризация и т.д.). Данное обстоятельство приводит к повторяющемуся шаблонному коду.
Такой код называется boilerplate-код или просто boilerplate. С другой стороны, единообразная последовательность действий, которую выполняет разработчик при решении задач машинного обучения часто называется пайплайном (machine learning pipeline).
Рассмотрим простейший пайплан для решения задачи регрессии. Для решения задачи регрессии небходимо реализовать (в общем случае) следующие стадии:
1.	Загрузка набора данных.
2.	Заполнение пропусков данных в соответствии с выбранной стратегией.
3.	Масштабирование признаков.
4.	Обработка категоривальных признаков.
5.	Разделение на тестовую и тренировочную выборку.
6.	Обучение модели.
7.	Интерпретация и визуализация результатов.

Заполнение пропусков в данных missingvalues = SimpleImputer(missing_values = np.nan, strategy = 'mean',
verbose = 0) missingvalues = missingvalues.fit(X[:, 1:3])
X[:, 1:3]=missingvalues.transform(X[:, 1:3])

Масштабирование признаков (standartisation и normalization) from sklearn.preprocessing import StandardScaler

Разделение на тестовую и обучающую выборки: from sklearn.model_selection import train_test_split from sklearn.cross_validation import train_test_split

Перед выполнением лабораторной работы необходимо ознакомиться с
базовыми принципами языка Python, используя следующие источники: [1-5].

Оборудование и материалы

Для выполнения лабораторной работы рекомендуется использовать персональный компьютер со следующими программными средствами разработки (выбрать один или несколько програмных продуктов для практической реализации задач лабораторной работы): MS Visual Studio 2013 и выше; среда разработки Java, интерпретатор Python (Jupyter Notebook).

Методика и порядок выполнения работы

Для тестирования универсального пайплайна будет использоваться модель линейоной регрессии (LinearRegression из библиотеки sklearn).

Постановка задачи.
Устовие. Построить пайплайн, реализующий первичную обработку данных.
Решение. Для решения задачи необходимо написать скрипт на яыке Python (рисунок 7.1).



In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('Data.csv')
dataset.head()

In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values
print ("Матрица признаков"); print(X)
print ("Зависимая переменная"); print(y)

In [None]:
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])
print(x)

In [None]:
from sklearn.preprocessing import LabelEncoder
labelencoder_y = LabelEncoder()
print("Зависимая переменная до обработки")
print(y)
y = labelencoder_y.fit_transform(y)
print("Зависимая переменная после обработки")
print(y)

In [None]:
from sklearn.preprocessing import OneHotEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
print("Перекодировка категориального признака")
print(X)

Индивидуальное задание
1.	Подберите набор данных на ресурсах [5-7] и согласуйте свой выбор с преподавателем. Студент может предложить набор данных в соответствии с тематикой магистерского исследования.
2.	Реализуйте первичную обработку данных загруженного набора. Выполните полный спектр операций для загруженного набора данны: загрузка, визуализация, обработка пропущенных значений, обработка категориальных данных и разделение выборки на тестовую и тренировочную.

Содержание отчета и его форма

Отчет по лабораторной работе должен содержать:
1.	Номер и название лабораторной работы; задачи лабораторной работы.
2.	Реализация каждого пункта подраздела «Индивидуальное задание» с приведением исходного кода программы, диаграмм и графиков для визуализации данных.
3.	Ответы на контрольные вопросы.
4.	Экранные формы (консольный вывод) и листинг программного кода с комментариями, показывающие порядок выполнения лабораторной работы, и результаты, полученные в ходе её выполнения.
Отчет о выполнении лабораторной работы сдается преподавателю.

Контрольные вопросы

1.	Какая библиотека python предназначена для управления наборами данных: numpy, pandas, sklearn, opencv, matplotlib?
2.	Какая стратегия является нежелательной при обработке пропусков в данных?
а) замена пропущенных значений в столбце медианным значением по
данному столбцу;
б) удаление строк, содержащих пропуски в данных;
в) замена пропущенных значений в столбце средним арифметическим
значением по данному столбцу;
	г) 	замена 	пропущенных 	значений 	в 	столбце 	наиболее 	часто
встречающимся значением по данному столбцу;
3.	Обоснуйте ответ на следующую проблему предварительной обработки данных: имеется независимая категориальная переменная y, которая представляет собой категориальный признак, опеределнный на домене {C#, Java, Python, R}. Нужно ли применять к данному целевому признаку OneHotEncoder?
4.	Поясните принцип разбиения набора данных на обучающую и тестовую выборку. Какое соотношение «тестовая:обучающая» наиболее оптимально: 20:80, 50:50, 25:75, 5:95, 40:30?
5.	Какой код лучше использовать при загрузке данных из csv-файла?
а) dataset = read_csv(“data.csv”)
б) dataset = import(“data.csv”)
в) dataset = read.csv(“data.csv”)
г) dataset = import.csv(“data.csv”)
д) dataset = read_xls(“data.csv”)

Список литературы

Для выполнения лабораторной работы, при подготовке к защите, а также для ответа на контрольные вопросы рекомендуется использовать следующие
источники: [1, 2, 5-7].


