### 1.1. Теоретический материал – Библиотека NumPy 
NumPy (NumericalPython) - это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python. 
Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки: 
    pip install numpy 
Чтобы начать использовать NumPy необходимо импортировать соответствующую библиотеку:     
    import numpy as np 
Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа. 
Наиболее важные атрибуты объектов ndarray: 
ndarray.ndim - число измерений (чаще их называют "оси") массива. 
ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim. 
ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape. 
ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные. 
ndarray.itemsize - размер каждого элемента массива в байтах. 
ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов. 
Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html  

### 1.2.1 Пример 
Создать массив 5x2. Создать массив 5x2. Вывести все значения массива, значение элемента с индексом (3,1) и второй столбец. Индексация начинается с нуля. 

In [1]:
import numpy as np
x=np.array([[1,2], [3,4], [5,6], [7,8], [9,10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


### 1.2.2 Пример
Выполнить следующее: 
1. Создать вектор (одномерный массив) размера 10, заполненный нулями. 
2. Создать вектор размера 10, заполненный единицами.
3. Создать вектор размера 10, заполненный заданным числом.
4. Создать вектор со значениями от 10 до 19.

In [2]:
a=np.zeros(10)
b=np.ones(10)
c=np.full(10,5)
d=np.arange(10,20)
print(a, "\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


### 1.2.3 Пример
Создать массив 10x10 со случайными значениями, найти минимум, максимум и среднее значение.

In [3]:
Z=np.random.random((10,10))
Zmin, Zmax, Zmean= Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax,  Zmean)

0.010008884351169978 0.990229616336593 0.48446902213676596


### 1.2.4 Пример
Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице местами.

In [4]:
A=np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


### 1.2.5 Пример
Задача: Выяснить результат следующих выражений: 
0 * np.nan 
np.nan == np.nan 
np.inf > np.nan 
np.nan - np.nan 
0.3 == 3 * 0.1

In [5]:
print(0 * np.nan )
print(np.nan == np.nan )
print(np.inf > np.nan )
print(np.nan - np.nan )
print(0.3 == 3 * 0.1)


nan
False
False
nan
False


### 1.2.6 Пример
Отсортировать массив.

In [6]:
arr= np.array([2,1,5,3,7,4,6,8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


### 1.3.1 Задание
Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и единицами.

In [7]:
matrix = np.zeros((8,8), dtype=int)
for i in range(len(matrix)):
    for j in range(len(matrix)):
        if (i+j)%2==0:
            matrix[i][j]=1

print(matrix)

[[1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]]


### 1.3.2 Задание
Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания необходимо использовать функцию arrange.

In [8]:
matrix_random = np.zeros((5,5), dtype=int)
matrix_random+=np.arange(5)
print(matrix_random)

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


### 1.3.3 Задание
Создать массив 3x3x3 со случайными значениями.

In [9]:
matrix_random_2=np.random.random((3,3,3))
print(matrix_random_2)

[[[0.21124708 0.02006054 0.04368792]
  [0.35722042 0.70922092 0.71155145]
  [0.62512573 0.03707524 0.69986874]]

 [[0.81801274 0.20026211 0.57101397]
  [0.94152385 0.61443099 0.0102744 ]
  [0.08407508 0.25219679 0.85703862]]

 [[0.18020423 0.02660933 0.96791605]
  [0.48163111 0.31770085 0.03162529]
  [0.17401605 0.89465377 0.40681801]]]


### 1.3.4 Задание
Создать матрицу с 0 внутри, и 1 на границах.

In [10]:
matrix_2 = np.zeros((5,5), dtype=int)
matrix_2[0,:] = 1
matrix_2[-1,:] = 1
matrix_2[:,0]=1
matrix_2[:,-1]=1            

print(matrix_2)

[[1 1 1 1 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 1 1 1 1]]


### 1.3.5 Задание
Создайте массив и отсортируйте его по убыванию.

In [11]:
sort_matrix=np.random.randint(0,10,size=(10))
sorted_matrix=np.sort(sort_matrix)[::-1]
print(f"Исходный массив: {sort_matrix}")
print(f"Отсортированный массив: {sorted_matrix}")

Исходный массив: [8 2 4 4 2 2 5 0 4 1]
Отсортированный массив: [8 5 4 4 4 2 2 2 1 0]


### 1.3.6 Задание
Создайте матрицу, выведите ее форму, размер и размерность.

In [12]:
new_matrix = np.random.randint(0, 10, size=(3, 4))
print("Матрица:")
print(matrix)
# Выводим форму матрицы
print("\nФорма матрицы:", matrix.shape)
# Выводим размер матрицы (количество элементов)
print("Размер матрицы:", matrix.size)
# Выводим размерность матрицы
print("Размерность матрицы:", matrix.ndim)

Матрица:
[[1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]]

Форма матрицы: (8, 8)
Размер матрицы: 64
Размерность матрицы: 2


### 2.1. Теоретический материал – Библиотека Pandas 
Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком-либо формате. Кроме того, часто требуется получить данные из нескольких источников. 
Библиотека pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. 
Библиотека pandas присутствует в стандартной поставке Anaconda. Если же ее там нет, то его можно установить отдельно. Для этого введите командной строке: 
pip install pandas 
Для импорта библиотеки используйте команду: 
import pandas as pd 
Библиотека pandas предоставляет две ключевые структуры данных: Series и DataFrame. 
Series – это одномерная структура данных, ее можно представить, как таблицу с одной строкой. С Series можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных. 
DataFrame – это двумерная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами.

### 2.2.1 Пример
Создать Series из списка Python, словаря Python, и массива Numpy (установить буквенные метки для последнего).

In [13]:
import pandas as pd
lst=[1,2,3,4,5]
d={'a':1,'b':2,'c':3}
ndarr = np.array([1,2,3,4,5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


#### 2.2.2 Пример
Дано два Series. Напечатать их первые элементы и все элементы после третьего (во втором фрейме).

In [14]:
s1=pd.Series([1,2,3,4,5], ['a', 'b', 'c', 'd', 'e'])
s2=pd.Series([5,4,3,2,1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


2.2.3 Пример
Создайте новый фрейм данных.

In [15]:
data = {
    'Имя' : ['Джеки Джексон', 'Стивен Стивенсон'],
    'Возраст' : [38,25],
    'Водитель' : [True, False],
}
dataframe = pd.DataFrame(data)
print(dataframe)

                Имя  Возраст  Водитель
0     Джеки Джексон       38      True
1  Стивен Стивенсон       25     False


### 2.2.4 Пример
Загрузите фрейм данных по ссылке: 
https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv

In [16]:
# url='https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
# 404 HTTP Error
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
dataframe_1=pd.read_csv(url)
print(dataframe_1.head(5))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### 2.2.5 Пример
Пронализировать характеристики фрейма данных.

In [17]:
print(dataframe_1.head(2))
print(dataframe_1.tail(3))
print(dataframe_1.shape)
dataframe_1.describe()

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   

   Parch     Ticket     Fare Cabin Embarked  
0      0  A/5 21171   7.2500   NaN        S  
1      0   PC 17599  71.2833   C85        C  
     PassengerId  Survived  Pclass                                      Name  \
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   
889          890         1       1                     Behr, Mr. Karl Howell   
890          891         0       3                       Dooley, Mr. Patrick   

        Sex   Age  SibSp  Parch      Ticket   Fare Cabin Embarked  
888  female   NaN      1      2  W./C. 6607  23.45   NaN        S  
889    male  26.0      0      0      111369  30.00  C148        

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 2.2.6 Пример
Выберите индивидуальные данные или срезы фрейма данных.

In [18]:
dataframe_1.iloc[1:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


### 2.2.7 Пример
Требуется отобрать строки фрейма данных на основе некоторого условия. Необходимо сформировать новый фрейм данных из пассажиров первого класса.

In [19]:
dataframe_1[dataframe_1['Pclass'] == 1].head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


### 2.3.1 Задание
Найдите евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу.

In [20]:
ser1 = pd.Series([1,2,3,4,5])
ser2 = pd.Series([6,7,8,9,10])
euclidean_distance = np.sqrt(np.sum((np.array(ser1) - np.array(ser2))**2))
print(euclidean_distance)

11.180339887498949


### 2.3.2 Задание
Найдите в Интернете ссылку на любой csv файл и сформируйте из него фрейм данных (например, коллекцию фреймов данных можно найти здесь: https://github.com/akmand/datasets).

In [21]:
import pandas as pd

# Замените URL на актуальный путь к CSV-файлу
url = "https://raw.githubusercontent.com/akmand/datasets/main/airlines.csv"

# Загрузка данных в DataFrame
df = pd.read_csv(url, sep=',')

# Вывод первых нескольких строк DataFrame
print(df.head())


  Airline  Flight AirportFrom AirportTo  DayOfWeek  Time  Length  Delay
0      CO     269         SFO       IAH          3    15     205      1
1      US    1558         PHX       CLT          3    15     222      1
2      AA    2400         LAX       DFW          3    20     165      1
3      AA    2466         SFO       DFW          3    20     195      1
4      AS     108         ANC       SEA          3    30     202      0


### 2.3.3 Задание
Проделайте с получившемся из предыдущего задания фреймом данных те же действия, что и в примерах 2.2.5-2.2.7.

In [22]:
print(df.head(2))
print(df.tail(3))
print(df.shape)
df.describe()



  Airline  Flight AirportFrom AirportTo  DayOfWeek  Time  Length  Delay
0      CO     269         SFO       IAH          3    15     205      1
1      US    1558         PHX       CLT          3    15     222      1
       Airline  Flight AirportFrom AirportTo  DayOfWeek  Time  Length  Delay
539380      FL     609         SFO       MKE          5  1439     255      0
539381      UA      78         HNL       SFO          5  1439     313      1
539382      US    1442         LAX       PHL          5  1439     301      1
(539383, 8)


Unnamed: 0,Flight,DayOfWeek,Time,Length,Delay
count,539383.0,539383.0,539383.0,539383.0,539383.0
mean,2427.92863,3.929668,802.728963,132.202007,0.445442
std,2067.429837,1.914664,278.045911,70.117016,0.497015
min,1.0,1.0,10.0,0.0,0.0
25%,712.0,2.0,565.0,81.0,0.0
50%,1809.0,4.0,795.0,115.0,0.0
75%,3745.0,5.0,1035.0,162.0,1.0
max,7814.0,7.0,1439.0,655.0,1.0


In [23]:
df.iloc[1:4]

Unnamed: 0,Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,Delay
1,US,1558,PHX,CLT,3,15,222,1
2,AA,2400,LAX,DFW,3,20,165,1
3,AA,2466,SFO,DFW,3,20,195,1


In [24]:
df[df['Length'] == 205].head(2)


Unnamed: 0,Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,Delay
0,CO,269,SFO,IAH,3,15,205,1
219,AA,1878,SMF,DFW,3,360,205,0


###3.1. Теоретический материал – Работа с числовыми данными 
Количественные данные что-то измеряют – будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является численным (например, 150 студентов, $529 392 продаж). Нормализация данных — это общепринятая задача предобработки в машинном обучении. Многие алгоритмы предполагают, что все признаки находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1. Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону. На практике наиболее распространены следующие методы нормализации признаков:  Минимакс – линейное преобразование данных в диапазоне [0..1], где минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно;  Z-масштабирование данных на основе среднего значения и стандартного отклонения: производят деление разницы между переменной и средним значением на стандартное отклонение.
При масштабировании данных мы будем использовать одну из популярных библиотек машинного обучения Scikit-learn. Библиотека содержит пакет sklearn.preprocessing, который предоставляет широкие возможности для нормализации данных. Следует отметить, что в целом алгоритмы обучения выигрывают от стандартизации набора данных.

### 3.2.1. Пример
Прошкалируйте числовой признак в диапазон между двумя значениями.

In [25]:
# Загрузить библиотеки
import numpy as np
from sklearn import preprocessing
# Создать признак
feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
# Создать шкалировщик
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

# Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)
#Показать прошкалированный признак
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

### 3.2.2. Пример
Преобразуйте признак, чтобы он имел среднее значение 0 и стандартное отклонение 1.

In [26]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
# Создать шкалировщик
scaler = preprocessing.StandardScaler()
# Преобразовать признак
standardized = scaler.fit_transform(x)
# Показать признак
standardized



array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [27]:
print("Среднее:", round(standardized.mean())) 
print("Стандартное отклонение: ", standardized.std())

Среднее: 0
Стандартное отклонение:  1.0


### 3.2.3. Пример
Дан фрейм данных
<pre>
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
'B':[103.02,107.26,110.35,114.23,114.68],
'C':['big','small','big','small','small']})
</pre>
Необходимо масштабировать его числовые столбцы.

In [28]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
'B':[103.02,107.26,110.35,114.23,114.68],
'C':['big','small','big','small','small']})
dfTest[['A', 'B']] = scaler.fit_transform(dfTest[['A', 'B']]) 
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


### 3.3.2 Задание
Загрузить фрейм данных по ссылке:
https://raw.githubusercontent.com/akmand/datasets/master/iris.csv.
Необходимо выполнить нормализацию первого числового признака (sepal_length_cm) с использованием минимаксного преобразования, а второго (sepal_width_cm) с задействованием z-масштабирования.

In [29]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

url= 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
dataf = pd.read_csv(url)

min_max_scale = MinMaxScaler()
dataf[['sepal_length_cm']]=min_max_scale.fit_transform(dataf[['sepal_length_cm']])
z_scaler=StandardScaler()
dataf[['sepal_width_cm']] = z_scaler.fit_transform(dataf[['sepal_width_cm']])

print(dataf)

     sepal_length_cm  sepal_width_cm  petal_length_cm  petal_width_cm  \
0           0.222222        1.032057              1.4             0.2   
1           0.166667       -0.124958              1.4             0.2   
2           0.111111        0.337848              1.3             0.2   
3           0.083333        0.106445              1.5             0.2   
4           0.194444        1.263460              1.4             0.2   
..               ...             ...              ...             ...   
145         0.666667       -0.124958              5.2             2.3   
146         0.555556       -1.281972              5.0             1.9   
147         0.611111       -0.124958              5.2             2.0   
148         0.527778        0.800654              5.4             2.3   
149         0.444444       -0.124958              5.1             1.8   

       species  
0       setosa  
1       setosa  
2       setosa  
3       setosa  
4       setosa  
..         ...  
145 