## Рабочая тетрадь 2. Сбор и подготовка данных

### Библиотека Numpy
**Цель машинного обучения** – анализ данных. 

**Данные** – зарегистрированная информация; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (ISO/IEC/IEEE 24765-2010).

**Данные в машинном обучении** – это представление информации об исследуемой задаче в виде множеств исследуемых объектов и множеств их характеристик, на основе которых строятся модели, разрабатываются подходы, методы и алгоритмы анализа для принятия решений. Качество данных – важный аспект машинного обучения.     
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer) очень важно обладать правильными данными, что гарантирует эффективность обработки и построении прогнозов.
Качество данных – важный аспект машинного обучения. Приведем основные требования к данным:
* доступность;
* точность;
* полнота;
* непротиворечивость;
* однозначность;
* релевантность;
* надежность;
* своевременность;
* взаимосвязанность.

Остановимся на основных этапах решения задач машинного обучения. 
Этапы решения задач машинного обучения:
1.	Постановка задачи. 
2.	Сбор и подготовка данных.
3.	Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:

- структурирование – приведение данных к табличному (матричному) виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными значениями, если нет возможности заполнения и устранения противоречивости;
- нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой форме.

***NumPy*** (**Num**erical**Py**thon) - это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки:
```
pip install numpy
```
Наиболее важные атрибуты объектов ndarray:
* `ndarray.ndim` - число измерений (чаще их называют "оси") массива.

* `ndarray.shape` - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

* `ndarray.size` - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.

* `ndarray.itemsize` - размер каждого элемента массива в байтах.

* `ndarray.data` - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html



***Пример.*** Создать массив 5x2. Вывести все значения массива, значение элемента с индексом (3,1) и второй столбец. Индексация начинается с нуля.

In [None]:
import numpy as np
x = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


***Пример.*** Выполнить следующее:
1. Создать вектор (одномерный массив) размера 10, заполненный нулями
2. Создать вектор размера 10, заполненный единицами
3. Создать вектор размера 10, заполненный заданным числом
4. Создать вектор со значениями от 10 до 20

In [None]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20)
print(a, "\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


***Пример.*** Создать массив 10x10 со случайными значениями, найти минимум, максимум и среднее значение

In [None]:
Z = np.random.random((10,10))
Zmin, Zmax, Zmean = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)

0.008124935749926343 0.9825412921032275 0.47231316904234677


***Пример.*** Поменять 2 строки в матрице

In [None]:
A = np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


***Пример.*** Выяснить результат следующих выражений. 
```
0 * np.nan
np.nan == np.nan
np.inf > np.nan
np.nan - np.nan
0.3 == 3 * 0.1
```

In [None]:
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.nan - np.nan)
print(0.3 == 3 * 0.1)

nan
False
False
nan
False


***Пример.*** Отсортировать заданный массив по воздрастанию

In [None]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


***Задание.*** Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и единицами.

In [None]:
Z = np.zeros((8,8), dtype=int)
Z[1::2,::2] = 1
Z[::2,1::2] = 1
print(Z)

[[0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]]


***Задание.*** Создать 5x5 матрицу со значениями в строках от 0 до 4.

In [None]:
Z = np.zeros((5,5))
Z += np.arange(5)
print(Z)

[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]


***Задание.*** Создать массив 3x3x3 со случайными значениями

In [None]:
Z = np.random.random((3,3,3))
print(Z)

[[[0.23576871 0.56813757 0.69139453]
  [0.40322315 0.96835921 0.84966855]
  [0.88703252 0.53898585 0.59396437]]

 [[0.72570455 0.70542054 0.11545854]
  [0.82283376 0.55949029 0.75206449]
  [0.5217406  0.9745604  0.95257349]]

 [[0.83814357 0.792116   0.02300274]
  [0.29772071 0.9084902  0.13207039]
  [0.56919109 0.03015431 0.72314721]]]


***Задание.*** Создать матрицу с 0 внутри, и 1 на границах

In [None]:
Z = np.ones((10,10))
Z[1:-1,1:-1] = 0
print(Z)

[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]


***Задание.*** Требуется описать форму, размер и размерность матрицы.

In [None]:
import numpy as np
matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

print(matrix.shape)
print(matrix.size)
print(matrix.ndim)

(3, 4)
12
2


***Задание.*** Отсортировать массив по убыванию

In [None]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(np.sort(arr)[::-1])

[8 7 6 5 4 3 2 1]


## Библиотека Pandas

Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком-либо формате. Кроме того, часто требуется получить данные из нескольких источников.
***Библиотека pandas*** – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. 
Библиотека pandas присутствует в стандартной поставке Anaconda. Если же ее там нет, то его можно установить отдельно. Для этого введите командной строке:
```
pip install pandas
```
Для импорта библиотеки используйте команду:
```
import pandas as pd
```
Библиотека pandas предоставляет две ключевые структуры данных: Series и DataFrame. 
***Series*** – это одномерная структура данных, ее можно представить, как таблицу с одной строкой. С Series можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных. 
***DataFrame*** – это двумерная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами. 
Приведем несколько примеров.

***Пример.*** Создать Series из списка Python, словаря Python, и массива Numpy (установить буквенные метки для последнего). 

In [None]:
import pandas as pd
lst = [1, 2, 3, 4, 5]
d = {'a':1, 'b':2, 'c':3}
ndarr = np.array([1, 2, 3, 4, 5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int64


***Пример.*** Создать Series из массива Numpy с буквенными метками.

In [None]:
ndarr = np.array([1, 2, 3, 4, 5])
s = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
print(s)

a    1
b    2
c    3
d    4
e    5
dtype: int64


***Пример.*** Создать Series из словаря Python

In [None]:
d = {'a':1, 'b':2, 'c':3}
s = pd.Series(d)
print(s)

a    1
b    2
c    3
dtype: int64


***Пример.*** Дано два Series. Напечатать их первые элементы и все элементы после третьего (во втором фрейме).  

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1['a'])
print(s2[0])
print(s2[1:])

1
5
1    4
2    3
3    2
4    1
dtype: int64


***Пример.*** Требуется создать новый фрейм данных

In [None]:
dataframe = pd.DataFrame()
dataframe['Имя'] = ['Джеки Джексон', 'Стивен Стивенсон'] 
dataframe['Возраст'] = [38, 25]
dataframe['Водитель'] = [True, False]
dataframe


Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


***Пример.*** Загрузить фрейм из данных по ссылке: https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv

In [None]:
# Создать URL-адрес
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
# Загрузить данные
dataframe = pd.read_csv(url)
# Показать пять строк 
dataframe.head(5)


Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [None]:
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
dataframe.tail(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1310,"Zenni, Mr Philip",3rd,22.0,male,0,0
1311,"Lievens, Mr Rene",3rd,24.0,male,0,0
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


In [None]:
dataframe.shape

(1313, 6)

In [None]:
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


Более подробно с возможностями работы с фреймами данных можно узнать по ссылке https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

***Пример.*** Требуется выбрать индивидуальные данные или срезы фрейма данных. Для выбора одной или нескольких строк либо значений использовать методы 1ос или iloc.

In [None]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


***Пример.*** Требуется отобрать строки фрейма данных на основе некоторого условия. Необходимо сформировать новый фрейм данных из пассажиров первого класса.

In [None]:
dataframe[dataframe['PClass'] == '1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


***Задание.*** Найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу?
Ввод:
```
a = pd.Series([2, 4, 6, 8])
b = pd.Series([1, 3, 5, 7])
```
Вывод:
```
2.0
```

In [None]:
a = pd.Series([2, 4, 6, 8])
b = pd.Series([1, 3, 5, 7])

sum((a - b)**2)**.5

np.linalg.norm(a-b)

2.0

***Задание.***  Найдите в Интернете ссылку на любой csv файл и сформируйте из него фрейм данных (например, коллекцию фреймов данный можно найти здесь: https://github.com/akmand/datasets).

In [None]:
url = 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
df.head(2)

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [None]:
df.tail(3)

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [None]:
df.shape

(150, 5)

In [None]:
df.iloc[1:4]

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa


In [None]:
df[df['species'] == 'setosa'].head(3)

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


## Нормализация данных
Количественные данные что-то измеряют – будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является численное (например, 150 студентов, 529 392 рублей продаж).

***Нормализация данных*** — это общепринятая задача предобработки в машинном самообучении. Многие алгоритмы, описываемые далее в этой книге, исходят из того, что все признаки находятся на одинаковой шкале, как правило, от 0 до 1 или от -1 до 1. 
Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону.

На практике наиболее распространены следующие методы нормализации признаков:

* ***Минимакс*** – линейное преобразование данных в диапазоне [0..1], где минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно;
* ***Z-масштабирование*** данных на основе среднего значения и стандартного отклонения: деление разницы между переменной и средним значением на стандартное отклонение;
<img src = 'https://www.bigdataschool.ru/wp-content/uploads/2019/05/%D0%BD%D1%84.png'>

При масштабировании данных будем использовать одну из популярных библиотек машинного обучения ***Scikit-learn***. Библиотека содержит пакет `sklearn.preprocessing`, который предоставляет возможности для нормализации данных.
Следует отметить, что в целом алгоритмы обучения выигрывают от стандартизации набора данных. 


In [None]:
# Загрузить библиотеки 
import numpy as np
from sklearn import preprocessing

# Создать признак
feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
# Создать шкалировщик
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

# Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)

#Показать прошкалированный признак
scaled_feature


array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [None]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
# Создать шкалировщик
scaler = preprocessing.StandardScaler()
# Преобразовать признак
standardized = scaler.fit_transform(x)
# Показать признак 
standardized


array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Мы можем увидеть эффект стандартизации, обратившись к среднему значению и стандартному отклонению результата нашего решения:

In [None]:
print("Среднее:", round(standardized.mean())) 
print("Стандартное отклонение:", standardized.std())

Среднее: 0
Стандартное отклонение: 1.0


Дан фрейм данных
```
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                           'B':[103.02,107.26,110.35,114.23,114.68],
                           'C':['big','small','big','small','small']})
```
Необходимо масштабировать его числовые столбцы.


In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                       'B':[103.02,107.26,110.35,114.23,114.68],
                       'C':['big','small','big','small','small']})

dfTest[['A', 'B']] = scaler.fit_transform(dfTest[['A', 'B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


Задача. Загрузить фрейм данных по ссылке https://raw.githubusercontent.com/akmand/datasets/master/iris.csv.
Необходимо выполнить нормализацию первого числового признака (sepal_length_cm) с использованием минимаксного преобразования, а второго (sepal_width_cm) с задействовнием z-масштабирования.

In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

url = 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
scaler1 = MinMaxScaler()
scaler2 = StandardScaler()
df = pd.read_csv(url)
df[['sepal_length_cm']] = scaler1.fit_transform(df[['sepal_length_cm']])
df[['sepal_width_cm']] = scaler2.fit_transform(df[['sepal_width_cm']])
df




Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,0.222222,1.032057,1.4,0.2,setosa
1,0.166667,-0.124958,1.4,0.2,setosa
2,0.111111,0.337848,1.3,0.2,setosa
3,0.083333,0.106445,1.5,0.2,setosa
4,0.194444,1.263460,1.4,0.2,setosa
...,...,...,...,...,...
145,0.666667,-0.124958,5.2,2.3,virginica
146,0.555556,-1.281972,5.0,1.9,virginica
147,0.611111,-0.124958,5.2,2.0,virginica
148,0.527778,0.800654,5.4,2.3,virginica
