# Баранов Арсений Юрьевич БФБО-05-23

## Теоритический материал
~~~
Цель машинного обучения – анализ данных.
Данные – зарегистрированная информация; представление фактов,
понятий или инструкций в форме, приемлемой для общения,
интерпретации, или обработки человеком или с помощью автоматических
средств (ISO/IEC/IEEE 24765-2010).
Данные в машинном обучении – это представление информации об
исследуемой задаче в виде множеств исследуемых объектов и множеств их
характеристик, на основе которых строятся модели, разрабатываются
подходы, методы и алгоритмы анализа для принятия решений.
Качество данных – важный аспект машинного обучения.
Для Аналитика (Data Scientist, Data Analyst, Data Mining Engineer)
очень важно обладать правильными данными, что гарантирует
эффективность обработки и построении прогнозов. На рисунке 1
представлены основные требования к данным. 
~~~
![image.png](attachment:image.png)

Остановимся на основных этапах решения задач машинного
обучения.
Этапы решения задач машинного обучения:
1. Постановка задачи.
2. Сбор и подготовка данных.
3. Предобработка данных и выделение ключевых признаков.
4. Выбор алгоритмов машинного обучения.
5. Обучение модели (моделей).
6. Оценка качества.
7. Эксплуатация модели.
При подготовке данных можно применять следующие операции:
- структурирование – приведение данных к табличному (матричному)
виду;
- заполнение пропусков;
- отбор – исключение записей с отсутствующими или некорректными
значениями, если нет возможности заполнения и устранения
противоречивости;
- нормализация – приведение числовых значений к определенному
диапазону, например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой
форме.

## Теоретический материал – Библиотека NumPy
~~~
NumPy (NumericalPython) - это библиотека Python с открытым
исходным кодом, которая используется практически во всех областях науки
и техники. Это универсальный стандарт для работы с числовыми данными в
Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью
командной строки:
 pip install numpy
Чтобы начать использовать NumPy необходимо импортировать
соответствующую библиотеку:
 import numpy as np
Основным объектом NumPy является однородный многомерный
массив (в numpy называется numpy.ndarray). Это многомерный массив
элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива.
ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк
и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно
произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно
определить dtype, используя стандартные типы данных Python. NumPy здесь
предоставляет целый букет возможностей, как встроенных, например: bool_,
character, int8, int16, int32, int64, float8, float16, float32, float64, complex64,
object_, так и возможность определить собственные типы данных, в том
числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива.
Обычно не нужно использовать этот атрибут, так как обращаться к
элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной
документации https://numpy.org/doc/stable/user/absolute_beginners.html
~~~

## Пример 1
Задача:
Создать массив 5x2. Создать массив 5x2. Вывести все значения массива,
значение элемента с индексом (3,1) и второй столбец. Индексация
начинается с нуля.

In [None]:
import numpy as np
x = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(x)
print(x[3][1])
print(x[:,1])
print(x.shape)

## Пример 2
Задача:
Пример. Выполнить следующее:
1. Создать вектор (одномерный массив) размера 10, заполненный
нулями.
2. Создать вектор размера 10, заполненный единицами
3. Создать вектор размера 10, заполненный заданным числом
4. Создать вектор со значениями от 10 до 49

In [None]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20) # Массив от 10 до (20 - 1)
print(a, "\n", b, "\n", c, "\n", d)

## Пример 3
Задача:
Создать массив 10x10 со случайными значениями, найти минимум,
максимум и среднее значение

In [None]:
Z = np.random.random((10, 10))
Zmin, Zmax, Zmean, = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)
print(Z)

## Пример 4
Задача:
Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице
местами

In [None]:
A = np.arange(30).reshape(5, 6)
print(A)
A[[0, 3]] = A[[3, 0]]
print(A)

## Пример 5
Задача:
Выяснить результат следующих выражений:
0 * np.nan
np.nan == np.nan
np.inf > np.nan
np.nan - np.nan
0.3 == 3 * 0.1

In [None]:
print(np.nan)
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.nan - np.nan)
print(0.3 == 3 * 0.1)
print(3 * 0.1)

## Пример 6
Задача:
Отсортировать массив

In [None]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(arr)
print(np.sort(arr))

In [None]:
l = [2, 1, 5, 3, 7, 4, 6, 8]
print(sorted(l))

## Задание 1
Задача:
Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и
единицами

In [None]:
l = np.zeros((8, 8))
l[0::2, 1::2] = 1
l[1::2, 0::2] = 1
l

## Задание 2
Задача:
Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания
необходимо использовать функцию arrange. !Ошибка "arange"!

In [None]:
matrix = np.zeros((5, 5))
for i in range(5):
    matrix[i] = np.arange(5)
print(matrix)

## Задание 3
Задача:
Создать массив 3x3x3 со случайными значениями

In [None]:
l = np.random.random((3, 3, 3))
l

## Задание 4
Задача:
Создать матрицу с 0 внутри, и 1 на границах

In [None]:
l = np.zeros((4, 4))
l[0, 0::] = 1
l[-1, 0::] = 1
l[0::, 0] = 1
l[0::, -1] = 1
l

## Задание 5
Создайте массив и отсортируйте его по убыванию

In [None]:
l = [4, 5, 2, 7, 8, 2, 6, 6]
l.sort(reverse = 1)
l

## Задание 6
Создайте матрицу, выведите его форму, размер и размерность

In [None]:
m = np.array([[1, 2, 3], [6, 5, 3], [9, 102, -1]])
c = t = 0
for i in range(len(m)):
    c += 1
for i in range(len(m[0])):
    t += 1
if c == t:
    print("Квадрат")
else:
    print("Прямоугольник")
print("Размер матрицы", c * t)
print("Строк", c, "Таблиц", t)

## Теоретический материал – Библиотека Pandas
~~~
Первым шагом в любом начинании в области машинного обучения
является введение исходных данных в систему. Исходные данные могут
вводиться вручную, содержаться в файле или храниться в интернете в какомлибо формате. Кроме того, часто требуется получить данные из нескольких
источников.
Библиотека pandas – это удобный и быстрый инструмент для работы
с данными, обладающий большим функционалом. Если очень кратко, то
pandas – это библиотека, которая предоставляет очень удобные с точки
зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите
командной строке:
 pip install pandas
Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных:
Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как
таблицу с одной строкой. С Series можно работать как с обычным массивом
(обращаться по номеру индекса), и как с ассоциированным массивом, когда
можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на
обычную таблицу, что выражается в способе ее создания и работе с ее
элементами.
~~~

## Пример 1
Задача:
Создать Series из списка Python, словаря Python, и массива Numpy
(установить буквенные метки для последнего). 

In [4]:
import pandas as pd
import numpy as np

lst = [1, 2, 3, 4, 5]
d = {"a":1, "b":2, "c":3}
ndarr = np.array([1, 2, 3, 4, 5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ["a", "b", "c", "d", "e"])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


## Пример 2
Задача:
Дано два Series. Напечатать их первые элементы и все элементы после
третьего (во втором фрейме).

In [5]:
s1 = pd.Series([1, 2, 3, 4, 5], ["a", "b", "c", "d", "e"])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1["a"])
print(s2[0])
print(s2[1:])

1
5
1    4
2    3
3    2
4    1
dtype: int64


## Пример 3
Задача:
Создайте новый фрейм данных.

In [6]:
dt = pd.DataFrame()
dt["Имя"] = ["Джеки Джексон", "Стивен Стивенсон"]
dt["Возраст"] = [38, 25]
dt["Водитель"] = [True, False]
dt

Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


## Пример 4
Задача:
Загрузите фрейм данных по ссылке:
https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titani
c.csv

In [8]:
url = "https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv"
dt = pd.read_csv(url)
dt.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## Пример 5
Задача:
Провести анализ датафрэйма.

~~~
Одна из самых простых вещей, которые мы можем сделать после
загрузки данных, – это взглянуть на первые несколько строк с помощью
метода head. На последние строки можно посмотреть с помощью функции
tail. Мы также можем взглянуть на количество строк и столбцов:
dataframe.shape. Кроме того, используя метод describe, мы можем
получить описательную статистику для любых числовых столбцов.
~~~
~~~
Более подробно с возможностями работы с фреймами данных
можно узнать по ссылке ниже:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
~~~

In [11]:
print(dt.head(2))
print(dt.tail(3))
print(dt.shape)
print(dt.describe())

                           Name PClass   Age     Sex  Survived  SexCode
0  Allen, Miss Elisabeth Walton    1st  29.0  female         1        1
1   Allison, Miss Helen Loraine    1st   2.0  female         0        1
                  Name PClass   Age   Sex  Survived  SexCode
1310  Zenni, Mr Philip    3rd  22.0  male         0        0
1311  Lievens, Mr Rene    3rd  24.0  male         0        0
1312    Zimmerman, Leo    3rd  29.0  male         0        0
(1313, 6)
              Age     Survived      SexCode
count  756.000000  1313.000000  1313.000000
mean    30.397989     0.342727     0.351866
std     14.259049     0.474802     0.477734
min      0.170000     0.000000     0.000000
25%     21.000000     0.000000     0.000000
50%     28.000000     0.000000     0.000000
75%     39.000000     1.000000     1.000000
max     71.000000     1.000000     1.000000


## Пример 6
Задача:
Выберите индивидуальные данные или срезы фрейма данных.

In [13]:
# Для выбора одной или нескольких строк либо значений использовать методы 
# 1ос или iloc
dt.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


## Пример 7
Задача:
Требуется отобрать строки фрейма данных на основе некоторого условия.
Необходимо сформировать новый фрейм данных из пассажиров первого
класса.

In [14]:
dt[dt["PClass"] == "1st"].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


# Задание 1
Евклидово расстояние меду двумя Series a and b, не используя встроенную формулу

In [1]:
import pandas as pd
a = pd.Series(list(map(int, input().split(" "))))
b = pd.Series(list(map(int, input().split(" "))))
evk = ((a[0] - b[0]) ** 2 + (a[1] - b[1]) ** 2 + (a[2] - b[2]) ** 2) * 0.5
evk

1 2 3
3 2 1


4.0

## Задание 2
Задача:
Найдите в Интернете ссылку на любой csv файл и сформируйте из него
фрейм данных (например, коллекцию фреймов данный можно найти
здесь: https://github.com/akmand/datasets) 

In [18]:
url = "https://people.sc.fsu.edu/~jburkardt/data/csv/oscar_age_male.csv"
dt = pd.read_csv(url)
dt.head()

Unnamed: 0,Index,"""Year""","""Age""","""Name""","""Movie"""
1,1928,44,"""Emil Jannings""","""The Last Command","The Way of All Flesh"""
2,1929,41,"""Warner Baxter""","""In Old Arizona""",
3,1930,62,"""George Arliss""","""Disraeli""",
4,1931,53,"""Lionel Barrymore""","""A Free Soul""",
5,1932,47,"""Wallace Beery""","""The Champ""",


## Задание 3
Задача:
Проделайте с получившемся из предыдущего задания фреймом
данных те же действия, что и в примерах 2.2.5-2.2.7

In [19]:
print(dt.head(2))
print(dt.tail(3))
print(dt.shape)
print(dt.describe())

   Index   "Year"             "Age"              "Name"  \
1   1928       44   "Emil Jannings"   "The Last Command   
2   1929       41   "Warner Baxter"    "In Old Arizona"   

                  "Movie"  
1   The Way of All Flesh"  
2                     NaN  
    Index   "Year"                   "Age"                         "Name"  \
87   2014       44   "Matthew McConaughey"           "Dallas Buyers Club"   
88   2015       33        "Eddie Redmayne"   "The Theory of Everything"\t   
89   2016       41     "Leonardo DiCaprio"                 "The Revenant"   

    "Movie"  
87      NaN  
88      NaN  
89      NaN  
(89, 5)
             Index     "Year"
count    89.000000  89.000000
mean   1972.000000  43.876404
std      25.836021   8.818653
min    1928.000000  29.000000
25%    1950.000000  38.000000
50%    1972.000000  42.000000
75%    1994.000000  49.000000
max    2016.000000  76.000000


In [22]:
dt.iloc[5:10]

Unnamed: 0,Index,"""Year""","""Age""","""Name""","""Movie"""
6,1933,35,"""Fredric March""","""Dr. Jekyll and Mr. Hyde""",
7,1934,34,"""Charles Laughton""","""The Private Life of Henry VIII""",
8,1935,34,"""Clark Gable""","""It Happened One Night""",
9,1936,49,"""Victor McLaglen""","""The Informer""\t",
10,1937,41,"""Paul Muni""","""The Story of Louis Pasteur""\t",


In [35]:
dt[dt['Index'] == 1933].head(2)

Unnamed: 0,Index,"""Year""","""Age""","""Name""","""Movie"""
6,1933,35,"""Fredric March""","""Dr. Jekyll and Mr. Hyde""",


# Теоретический материал – Работа с числовыми данными
~~~
Количественные данные что-то измеряют – будь то размер класса,
ежемесячные продажи или оценки учащихся. Естественным способом
представления этих величин является численным (например, 150 студентов, $529 392 продаж).
Нормализация данных — это общепринятая задача предобработки в
машинном обучении. Многие алгоритмы предполагают, что все признаки
находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.
Существует множество способов нормализации значений признаков,
чтобы масштабировать их к единому диапазону и использовать в различных
моделях машинного обучения. В зависимости от используемой функции, их
можно разделить на 2 большие группы: линейные и нелинейные. При
нелинейной нормализации в расчетных соотношениях используются
функции логистической сигмоиды или гиперболического тангенса. В
линейной нормализации изменение переменных осуществляется
пропорционально, по линейному закону.
На практике наиболее распространены следующие методы
нормализации признаков:
• Минимакс – линейное преобразование данных в диапазоне [0..1], где
минимальное и максимальное масштабируемые значения
соответствуют 0 и 1 соответственно;
• Z-масштабирование данных на основе среднего значения и
стандартного отклонения: производят деление разницы между
~~~
![image.png](attachment:image.png)
~~~
переменной и средним значением на стандартное отклонение.
При масштабировании данных мы будем использовать одну из
популярных библиотек машинного обучения Scikit-learn. Библиотека
содержит пакет sklearn.preprocessing, который предоставляет широкие
возможности для нормализации данных. Следует отметить, что в целом
алгоритмы обучения выигрывают от стандартизации набора данных.
~~~

## Пример 1
Задача:
Прошкалируйте числовой признак в диапазоне между двумя значениями.

In [37]:
from sklearn import preprocessing

feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))
scaled_feature = minmax_scale.fit_transform(feature)
scaled_feature

array([[0. ],
       [0.4],
       [0.5],
       [0.6],
       [1. ]])

## Пример 2
Задача:
Преобразуйте признак, чтобы он имел среднее значение 0 и стандартное
отклонение 1.

In [47]:
x = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
scaler = preprocessing.StandardScaler()
sta = scaler.fit_transform(x)
sta
#Мы можем увидеть эффект стандартизации, обратившись к среднему
#значению и стандартному отклонению результата нашего решения:

array([[-1.26687088],
       [-0.39316683],
       [-0.17474081],
       [ 0.0436852 ],
       [ 1.79109332]])

In [48]:
print("Средне:", round(sta.mean()))
print("Стандартное отклонение", sta.std())

Средне: 0
Стандартное отклонение 1.0


## Пример 3
~~~
Задача:
Дан фрейм данных
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
 'B':[103.02,107.26,110.35,114.23,114.68],
 'C':['big','small','big','small','small']})
Необходимо масштабировать его числовые столбцы.
~~~

In [51]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dfTest = pd.DataFrame({"A": [14.00, 90.20, 90.95, 96.27, 91.21], 
                       "B":[103.02, 107.26, 110.35, 114.23, 114.68],
                      "C":["big", "small", "big", "small", "small"]})

dfTest[["A", "B"]] = scaler.fit_transform(dfTest[["A", "B"]])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


## Задание 2
Загрузить фрейм данных по ссылке:
https://raw.githubusercontent.com/akmand/datasets/master/iris.csv.
Необходимо выполнить нормализацию первого числового признака
(sepal_length_cm) с использованием минимаксного преобразования, а
второго (sepal_width_cm) с задействованием z-масштабирования.

In [68]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

url = "https://raw.githubusercontent.com/akmand/datasets/master/iris.csv"
df = pd.read_csv(url)

# Делаем скаляры
zsca = StandardScaler()
mmsca = MinMaxScaler()
df["sepal_length_cm"] = mmsca.fit_transform(df[["sepal_length_cm"]])
df["sepal_width_cm"] = zsca.fit_transform(df[["sepal_width_cm"]])
df.head()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,0.222222,1.032057,1.4,0.2,setosa
1,0.166667,-0.124958,1.4,0.2,setosa
2,0.111111,0.337848,1.3,0.2,setosa
3,0.083333,0.106445,1.5,0.2,setosa
4,0.194444,1.26346,1.4,0.2,setosa
