Цель машинного обучения – анализ данных. 
Данные – зарегистрированная информация; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (ISO/IEC/IEEE 24765-2010).
Данные в машинном обучении – это представление информации об исследуемой задаче в виде множеств исследуемых объектов и множеств их характеристик, на основе которых строятся модели, разрабатываются подходы, методы и алгоритмы анализа для принятия решений.
Качество данных – важный аспект машинного обучения.     
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer) очень важно обладать правильными данными, что гарантирует эффективность обработки и построении прогнозов. 



Остановимся на основных этапах решения задач машинного обучения. 
Этапы решения задач машинного обучения:
1. Постановка задачи. 
2. Сбор и подготовка данных.
3. Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:
- структурирование – приведение данных к табличному (матричному) виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными значениями, если нет возможности заполнения и устранения противоречивости;
- нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой форме.

In [1]:
import numpy as np
import random
import pandas as pd

Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и единицами.

In [2]:
a = np.array([[(i+j)%2 for i in range(8)] for j in range(8)])
a

array([[0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0]])

Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания необходимо использовать функцию arrange.

In [3]:
a = np.arange(25).reshape(5, 5) % 5
a

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

Создать массив 3x3x3 со случайными значениями.

In [4]:
a = np.random.random((3,3,3)).round(3)
a

array([[[0.551, 0.643, 0.344],
        [0.023, 0.849, 0.784],
        [0.957, 0.562, 0.205]],

       [[0.737, 0.918, 0.713],
        [0.672, 0.512, 0.072],
        [0.353, 0.095, 0.131]],

       [[0.522, 0.712, 0.922],
        [0.944, 0.927, 0.302],
        [0.23 , 0.366, 0.071]]])

Создать матрицу с 0 внутри, и 1 на границах.

In [5]:
a = np.array([[1 if (i % 7) == 0 or (j % 7) == 0 else 0 for i in range(8)] for j in range(8)])
a

array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 0, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

Создайте массив и отсортируйте его по убыванию.

In [26]:
a = np.random.randint(100, size=(10, 10))
a = np.sort(a, axis=None).reshape(10, 10)
a = np.flip(a)
a

array([[99, 99, 97, 94, 93, 93, 92, 92, 92, 89],
       [88, 87, 86, 84, 84, 82, 81, 79, 77, 76],
       [74, 72, 70, 70, 69, 68, 68, 68, 67, 66],
       [64, 63, 62, 62, 60, 60, 60, 60, 59, 58],
       [58, 55, 54, 54, 53, 52, 51, 50, 50, 49],
       [47, 44, 43, 43, 43, 43, 40, 38, 38, 37],
       [35, 32, 31, 29, 29, 28, 28, 27, 26, 26],
       [24, 24, 23, 23, 22, 22, 22, 19, 19, 17],
       [17, 17, 16, 15, 13, 13, 12, 11, 10,  9],
       [ 9,  8,  8,  7,  7,  4,  1,  1,  1,  0]])

Создайте матрицу, выведите ее форму, размер и размерность.

In [7]:
a = np.random.randint(200, size=(10, 10))
print(a.shape)
print(a.size)
print(a.ndim)

(10, 10)
100
2


Найдите евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу.

In [8]:
import math
a = pd.Series([25, 13, 44])
b = pd.Series([834, 91, 9])
s = np.sqrt(sum(pow(a[i]-b[i], 2) for i in range(len(a))))
print(s)
distance = math.dist(a, b) # проверка
print(distance)

813.5047633542166
813.5047633542166


Найдите в Интернете ссылку на любой csv файл и сформируйте из него фрейм данных.

In [9]:
df = pd.read_csv('titanic.csv')
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Проделайте с получившемся из предыдущего задания фреймом данных те же действия, что и в примерах 2.2.5-2.2.7.
1. Пронализировать характеристики фрейма данных.
2. Выберите индивидуальные данные или срезы фрейма данных.
3. Требуется отобрать строки фрейма данных на основе некоторого условия.

In [10]:
print(df.info())
print(df.shape)
print(df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None
(891, 12)
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842 

In [11]:
df.loc[::5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
20,21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
870,871,0,3,"Balkic, Mr. Cerin",male,26.0,0,0,349248,7.8958,,S
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [12]:
df[df['Age'] > 30].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [13]:
import sklearn.preprocessing

Загрузить фрейм данных по ссылке:
https://raw.githubusercontent.com/akmand/datasets/master/iris.csv.
Необходимо выполнить нормализацию первого числового признака (sepal_length_cm) с использованием минимаксного преобразования, а второго (sepal_width_cm) с задействованием z-масштабирования.

In [14]:
iris = pd.read_csv('iris.csv')
iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [15]:
from sklearn.preprocessing import MinMaxScaler

In [16]:
iris[['sepal.length']] = MinMaxScaler().fit_transform(iris[['sepal.length']])
iris['sepal.length']

0      0.222222
1      0.166667
2      0.111111
3      0.083333
4      0.194444
         ...   
145    0.666667
146    0.555556
147    0.611111
148    0.527778
149    0.444444
Name: sepal.length, Length: 150, dtype: float64

In [17]:
import scipy.stats as stats

In [18]:
iris[['sepal.width']] = stats.zscore(iris[['sepal.width']])
iris[['sepal.width']]

Unnamed: 0,sepal.width
0,1.019004
1,-0.131979
2,0.328414
3,0.098217
4,1.249201
...,...
145,-0.131979
146,-1.282963
147,-0.131979
148,0.788808
