Цель машинного обучения – анализ данных.
Данные – зарегистрированная информация; представление фактов,
понятий или инструкций в форме, приемлемой для общения,
интерпретации, или обработки человеком или с помощью автоматических
средств (ISO/IEC/IEEE 24765-2010).
Данные в машинном обучении – это представление информации об
исследуемой задаче в виде множеств исследуемых объектов и множеств их
характеристик, на основе которых строятся модели, разрабатываются
подходы, методы и алгоритмы анализа для принятия решений.
Качество данных – важный аспект машинного обучения.
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer)
очень важно обладать правильными данными, что гарантирует
эффективность обработки и построении прогнозов.
Остановимся на основных этапах решения задач машинного
обучения.
Этапы решения задач машинного обучения:
1. Постановка задачи.
2. Сбор и подготовка данных.
3. Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:
- структурирование – приведение данных к табличному (матричному)
виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными
значениями, если нет возможности заполнения и устранения
противоречивости;
- нормализация – приведение числовых значений к определенному
диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой
форме.


1.1. Теоретический материал – Библиотека NumPy
NumPy (NumericalPython) - это библиотека Python с открытым
исходным кодом, которая используется практически во всех областях науки
и техники. Это универсальный стандарт для работы с числовыми данными в
Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью
командной строки:
 pip install numpy
Чтобы начать использовать NumPy необходимо импортировать
соответствующую библиотеку:
 import numpy as np
Основным объектом NumPy является однородный многомерный
массив (в numpy называется numpy.ndarray). Это многомерный массив
элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива.
ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк
и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно
произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно
определить dtype, используя стандартные типы данных Python. NumPy здесь
предоставляет целый букет возможностей, как встроенных, например: bool_,
character, int8, int16, int32, int64, float8, float16, float32, float64, complex64,
object_, так и возможность определить собственные типы данных, в том
числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива.
Обычно не нужно использовать этот атрибут, так как обращаться к
элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной
документации https://numpy.org/doc/stable/user/absolute_beginners.html

1.2.1 Пример
Создать массив 5x2. Создать массив 5x2. Вывести все значения массива,
значение элемента с индексом (3,1) и второй столбец. Индексация
начинается с нуля.

In [1]:
import numpy as np

x = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


1.2.2 Пример
Пример. Выполнить следующее:
1. Создать вектор (одномерный массив) размера 10, заполненный
нулями.
2. Создать вектор размера 10, заполненный единицами.
3. Создать вектор размера 10, заполненный заданным числом.
4. Создать вектор со значениями от 10 до 19.

In [2]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20)
print(a, '\n', b, '\n', c, '\n', d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


1.2.3 Пример
Создать массив 10x10 со случайными значениями, найти минимум,
максимум и среднее значение.

In [3]:
Z = np.random.random((10, 10))
Zmin, Zmax, Zmean = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)

0.011838722533769941 0.9999714643933953 0.49295145949838526


1.2.4 Пример
Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице
местами.

In [4]:
A = np.arange(25).reshape(5, 5)
A[[0, 1]] = A[[1, 0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


1.2.5 Пример
Выяснить результат следующих выражений:
0 * np.nan
np.nan == np.nan
np.inf > np.nan
np.nan - np.nan
0.3 == 3 * 0.1

In [5]:
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.nan - np.nan)
print(0.3 == 3 * 0.1)

nan
False
False
nan
False


1.2.6 Пример
Отсортировать массив.

In [6]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


1.3.1 Задание
Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и
единицами.

In [7]:
chess = np.indices((8, 8)).sum(axis=0) % 2
print(chess)

[[0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]]


1.3.2 Задание
Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания
необходимо использовать функцию arrange

In [16]:
import numpy as np

x = np.zeros((5, 5))
x += np.arange(5)
print(x)

[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]


1.3.3 Задание
Создать массив 3x3x3 со случайными значениями.

In [18]:
x = np.random.random((3, 3, 3))
print(x)

[[[0.98719246 0.42513533 0.37923737]
  [0.90374845 0.06306549 0.95419706]
  [0.22809537 0.39209546 0.99764095]]

 [[0.40545782 0.44054711 0.71227032]
  [0.88832698 0.53031808 0.18084996]
  [0.31669251 0.46515023 0.06724122]]

 [[0.37774715 0.98759011 0.70400213]
  [0.28720923 0.89213977 0.06619006]
  [0.2247096  0.53807051 0.67603357]]]


1.3.4 Задание
Создать матрицу с 0 внутри, и 1 на границах

In [19]:
x = np.ones((10, 10))
x[1:-1, 1:-1] = 0
print(x)

[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]


1.3.5 Задание
Создайте массив и отсортируйте его по убыванию.

In [23]:
x = np.random.random(10)
x = -np.sort(-x)
print(x)

[0.91712874 0.80382687 0.76355054 0.65022584 0.43323769 0.26397544
 0.26279933 0.26271581 0.15479264 0.03293525]


1.3.6 Задание
Создайте матрицу, выведите ее форму, размер и размерность

In [25]:
x = np.random.random((2, 2))
print(x.shape)
print(x.size)
print(x.ndim)

(2, 2)
4
2


2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения
является введение исходных данных в систему. Исходные данные могут
вводиться вручную, содержаться в файле или храниться в интернете в какомлибо формате. Кроме того, часто требуется получить данные из нескольких
источников.
Библиотека pandas – это удобный и быстрый инструмент для работы
с данными, обладающий большим функционалом. Если очень кратко, то
pandas – это библиотека, которая предоставляет очень удобные с точки
зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите
командной строке:
 pip install pandas
Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных:
Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как
таблицу с одной строкой. С Series можно работать как с обычным массивом
(обращаться по номеру индекса), и как с ассоциированным массивом, когда
можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на
обычную таблицу, что выражается в способе ее создания и работе с ее
элементами

2.2.1 Пример
Создать Series из списка Python, словаря Python, и массива Numpy
(установить буквенные метки для последнего).

In [28]:
import pandas as pd

lst = [1, 2, 3, 4, 5]
d = {'a': 1, 'b': 2, 'c': 3}
ndarr = np.array([1, 2, 3, 4, 5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


2.2.2 Пример
Дано два Series. Напечатать их первые элементы и все элементы после
третьего (во втором фрейме).

In [29]:
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


2.2.3 Пример
Создайте новый фрейм данных.

In [30]:
dataframe = pd.DataFrame()
dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


2.2.4 Пример
Загрузите фрейм данных по ссылке:
https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv

In [33]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)
dataframe.head(10)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,"Anderson, Mr Harry",1st,47.0,male,1,0
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
7,"Andrews, Mr Thomas, jr",1st,39.0,male,0,0
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0


2.2.5 Пример
Пронализировать характеристики фрейма данных.

In [36]:
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


2.2.6 Пример
Выберите индивидуальные данные или срезы фрейма данных.

In [35]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


2.2.7 Пример
Требуется отобрать строки фрейма данных на основе некоторого
условия. Необходимо сформировать новый фрейм данных из пассажиров
первого класса.

In [37]:
dataframe[dataframe['PClass'] == '1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


2.3.1 Задание
Найдитe евклидово расстояние между двумя Series (точками) a и b, не
используя встроенную формулу.

In [38]:
from math import sqrt

a = pd.Series([1, 2, 3, 4, 5])
b = pd.Series([10, 20, 30, 40, 50])

def evk(y, z):
    res = 0
    for i in range(len(y)):
        res += (y[i] - z[i]) ** 2
    return sqrt(res)

print(evk(a,b))

66.74578638386096


2.3.2 Задание
Найдите в Интернете ссылку на любой csv файл и сформируйте из него
фрейм данных (например, коллекцию фреймов данных можно найти
здесь: https://github.com/akmand/datasets)