# Рабочая тетрадь №2
**Цель** машинного обучения – **анализ данных**.

Данные – зарегистрированная информация; представление фактов,
понятий или инструкций в форме, приемлемой для общения,
интерпретации, или обработки человеком или с помощью автоматических
средств (ISO/IEC/IEEE 24765-2010).
Данные в машинном обучении – **это представление информации об
исследуемой задаче в виде множеств исследуемых объектов и множеств их характеристик**, на основе которых строятся модели, разрабатываются подходы, методы и алгоритмы анализа для принятия решений.
**Качество данных** – важный аспект машинного обучения.
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer)
очень важно обладать правильными данными, что гарантирует
эффективность обработки и построении прогнозов. Ниже
представлены основные требования к данным

- доступность
- точность
- полнота
- непротиворечивость
- однозначность
- релевантность
- надежность
- своевременность
- взаимосвязанность


Остановимся на основных этапах решения задач машинного
обучения.
Этапы решения задач машинного обучения:
1. Постановка задачи.
2. Сбор и подготовка данных.
3. Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:
- структурирование – приведение данных к табличному (матричному)
виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными
значениями, если нет возможности заполнения и устранения
противоречивости;
- нормализация – приведение числовых значений к определенному
диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой
форме.

NumPy (NumericalPython) - это библиотека Python с открытым
исходным кодом, которая используется практически во всех областях науки
и техники. Это универсальный стандарт для работы с числовыми данными в Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью
командной строки:
> pip install numpy

Чтобы начать использовать NumPy необходимо импортировать
соответствующую библиотеку:
 import numpy as np
Основным объектом NumPy является однородный многомерный
массив (в numpy называется numpy.ndarray). Это многомерный массив
элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива.
ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк
и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно
произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно
определить dtype, используя стандартные типы данных Python. NumPy здесь
предоставляет целый букет возможностей, как встроенных, например: bool_,
character, int8, int16, int32, int64, float8, float16, float32, float64, complex64,
object_, так и возможность определить собственные типы данных, в том
числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива.
Обычно не нужно использовать этот атрибут, так как обращаться к
элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной
документации https://numpy.org/doc/stable/user/absolute_beginners.html

## 1.2.1
### Пример
> Задача: Создать массив 5x2. Создать массив 5x2. Вывести все значения массива, значение элемента с индексом (3,1) и второй столбец. Индексация начинается с нуля. Решение:

In [2]:
import numpy as np
x = np.array([[1,2], [3, 4], [5,6], [7,8], [9,10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


## 1.2.2 
### Пример
 >  Выполнить следующее:
  1.Создать вектор (одномерный массив) размера 10, заполненный нулями. 
  2.Создать вектор размера 10, заполненный единицами.
  3.Создать вектор размера 10, заполненный заданным числом.
  4.Создать вектор со значениями от 10 до 19.

In [3]:
import numpy as np
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20)
print(a, "\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


## 1.2.3
### Пример
> Создать массив 10x10 со случайными значениями, найти минимум, максимум и среднее значение.

In [4]:
import numpy as np
Z = np.random.random((10, 10))
Zmin, Zmax, Zmean = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)

0.007052053597290553 0.9995316129107218 0.5200777273234815


## 1.2.4
### Пример 
> Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице местами.

In [5]:
import numpy as np
A = np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


## 1.2.5
### Пример
> Выяснить результат следующих выражений:

> 0 * np.nan

> np.nan == np.nan

> np.inf > np.nan

> np.nan - np.nan

> 0.3 == 3 * 0.1

In [6]:
import numpy as np
print(0 * np.nan) # любая операция с nan дает nan
print(np.nan == np.nan) # nan не равен никакому другому значению, даже самому себе
print(np.inf > np.nan) #несравнимы
print(np.nan - np.nan) 
print(0.3 == 3 * 0.1) #IEEE 


nan
False
False
nan
False


## 1.2.6
## Пример
> Отсортировать массив

In [9]:
arr = np.array([2,1,5,3,7,4,6])
print(np.sort(arr))

[1 2 3 4 5 6 7]


## 1.3.1
> Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и единицами.


In [15]:
import numpy as np
arr = np.zeros(64).reshape(8, 8) # возвращает число строк в массиве
for i in range(arr.shape[0]):
    for j in range(arr.shape[0]):
        if (i + j) % 2 == 0:
            arr[i, j] = 1
print(arr)

[[1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]]


## 1.3.2
> Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания необходимо использовать функцию arange.


In [25]:
import numpy as np

arr = np.arange(25).reshape(5, 5)

for i in range(5):
    arr[i, :] = i

print(arr)

[[0 0 0 0 0]
 [1 1 1 1 1]
 [2 2 2 2 2]
 [3 3 3 3 3]
 [4 4 4 4 4]]


## 1.3.3
> Создать массив 3х3х3 со случайными значениями

In [17]:
import numpy as np
arr = np.random.random((3, 3, 3))
arr.reshape(3,3,3)
print(arr)

[[[0.94693366 0.67321346 0.62572735]
  [0.34789824 0.19443547 0.45729337]
  [0.43261401 0.57312317 0.58921119]]

 [[0.98968557 0.06413089 0.71684569]
  [0.80546338 0.5315006  0.74257991]
  [0.18836107 0.60421344 0.99602013]]

 [[0.07162674 0.52028986 0.99907507]
  [0.52982083 0.84338325 0.39354371]
  [0.04786321 0.76657869 0.50206907]]]


## 1.3.4
> Создать матрицу с 0 внутри и 1 на границах

In [18]:
import numpy as np

arr = np.zeros((5, 5))

arr[0,:] = 1
arr[-1,:] = 1
arr[:,0] = 1
arr[:,-1] = 1

print(arr)

[[1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1.]]


## 1.3.5
> Создайте матрицу, выведите ее форму, размер и размерность

In [26]:
import numpy as np

matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print("Форма матрицы:", matrix.shape)

print("Размер матрицы:", matrix.size)

print("Размерность матрицы:", matrix.ndim)


Форма матрицы: (3, 3)
Размер матрицы: 9
Размерность матрицы: 2


## 2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения
является введение исходных данных в систему. Исходные данные могут
вводиться вручную, содержаться в файле или храниться в интернете в какомлибо формате. Кроме того, часто требуется получить данные из нескольких
источников.
Библиотека pandas – это удобный и быстрый инструмент для работы
с данными, обладающий большим функционалом. Если очень кратко, то
pandas – это библиотека, которая предоставляет очень удобные с точки
зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите
командной строке:
> pip install pandas

Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных:
Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как
таблицу с одной строкой. С Series можно работать как с обычным массивом
(обращаться по номеру индекса), и как с ассоциированным массивом, когда
можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на
обычную таблицу, что выражается в способе ее создания и работе с ее
элементами

## 2.2.1
### Пример

>Создать Series из списка Python, словаря Python, и массива Numpy
(установить буквенные метки для последнего)

In [27]:
import pandas as pd
lst = [1, 2, 3, 4, 5]
d = {'a': 1, 'b': 2, 'c':3}
ndarr = np.array([1,2,3,4,5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


## 2.2.2
### Пример
> Дано два Series. Напечатать их первые элементы и все элементы после
третьего (во втором фрейме).

In [33]:
import pandas as pd
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64
