Цель машинного обучения – анализ данных. 
Данные – зарегистрированная информация; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (ISO/IEC/IEEE 24765-2010).
Данные в машинном обучении – это представление информации об исследуемой задаче в виде множеств исследуемых объектов и множеств их характеристик, на основе которых строятся модели, разрабатываются подходы, методы и алгоритмы анализа для принятия решений.
Качество данных – важный аспект машинного обучения.     
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer) очень важно обладать правильными данными, что гарантирует эффективность обработки и построении прогнозов. 



Остановимся на основных этапах решения задач машинного обучения. 
Этапы решения задач машинного обучения:
1. Постановка задачи. 
2. Сбор и подготовка данных.
3. Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:
- структурирование – приведение данных к табличному (матричному) виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными значениями, если нет возможности заполнения и устранения противоречивости;
- нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой форме.

In [53]:
import numpy as np
import random
import pandas as pd

Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и единицами.

In [17]:
a = np.array([[(i+j)%2 for i in range(8)] for j in range(8)])
a

array([[0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0]])

Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания необходимо использовать функцию arrange.

In [23]:
a = np.arange(25).reshape(5, 5) % 5
a

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

Создать массив 3x3x3 со случайными значениями.

In [33]:
a = np.random.random((3,3,3))
a

array([[[0.45592602, 0.6854152 , 0.6377648 ],
        [0.00579509, 0.35955955, 0.82641117],
        [0.86252665, 0.22586095, 0.09865377]],

       [[0.57008133, 0.53999355, 0.96521677],
        [0.00353357, 0.56059674, 0.0567529 ],
        [0.49071968, 0.52813151, 0.77127584]],

       [[0.74570165, 0.40480501, 0.17707313],
        [0.14721778, 0.22855789, 0.78442431],
        [0.50686705, 0.48426089, 0.0117504 ]]])

Создать матрицу с 0 внутри, и 1 на границах.

In [35]:
a = np.array([[1 if (i % 7) == 0 or (j % 7) == 0 else 0 for i in range(8)] for j in range(8)])
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

Создайте массив и отсортируйте его по убыванию.

In [47]:
a = np.random.randint(100, size=(10, 10))
a = np.sort(a, axis=None).reshape(10, 10)
a

array([[ 3,  3,  4,  6,  7,  7,  8,  8,  9, 10],
       [10, 12, 12, 13, 14, 15, 15, 16, 18, 18],
       [19, 19, 20, 21, 21, 24, 25, 28, 29, 32],
       [33, 33, 34, 34, 36, 39, 39, 40, 42, 43],
       [45, 46, 49, 49, 49, 52, 52, 52, 53, 53],
       [55, 55, 55, 56, 58, 59, 59, 60, 60, 61],
       [61, 63, 64, 64, 65, 66, 68, 68, 69, 72],
       [72, 73, 73, 73, 77, 79, 80, 81, 81, 82],
       [83, 83, 85, 85, 86, 86, 88, 88, 89, 90],
       [91, 91, 91, 92, 95, 96, 96, 97, 98, 99]])

Создайте матрицу, выведите ее форму, размер и размерность.

In [52]:
a = np.random.randint(200, size=(10, 10))
print(a.shape)
print(a.size)
print(a.ndim)

(10, 10)
100
2


Найдите евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу.

In [64]:
import math
a = pd.Series([25, 13, 44])
b = pd.Series([834, 91, 9])
s = np.sqrt(sum(pow(a[i]-b[i], 2) for i in range(len(a))))
print(s)
distance = math.dist(a, b) # проверка
print(distance)

813.5047633542166
813.5047633542166
