# 1.1. Теоретический материал – Библиотека NumPy
NumPy (NumericalPython) - это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки:
 pip install numpy
Чтобы начать использовать NumPy необходимо импортировать соответствующую библиотеку:
import numpy as np
Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива. ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html

In [29]:
#1.2.1 Пример
import numpy as np
x = np.array ([[1,2],[3,4],[5,6],[7,8],[9,10]])
print(x)
print (x[3][1])
print (x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


In [30]:
# 1.2.2 Пример
a = np.zeros(10)
b = np.ones (10)
c = np.full(10,5)
d = np.arange(10,20)
print (a,"\n",b,"\n",c,"\n",d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


In [31]:
# 1.2.3 Пример
Z = np.random.random((10,10))
Zmin,Zmax,Zmean= Z.min() , Z.max(), Z.mean()
print (Zmin,Zmax,Zmean)

0.002595868162640236 0.9933774050128972 0.4762205940790406


In [32]:
A = np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print (A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [33]:
# 1.2.5 Пример
print (0 * np.nan)
print (np.nan == np.nan)
print (np.inf >np.nan)
print (np.nan-np.nan)
print (0.3 == 3*0.1)

nan
False
False
nan
False


In [34]:
# 1.2.6 Пример
arr = np.array([2,1,5,3,7,6,4,8])
print (np.sort(arr))

[1 2 3 4 5 6 7 8]


In [35]:
#1.3.1 Задание
arr = np.ones(64).reshape(8,8)

for i in range(8):
    for j in range(8):
        if(i%2==0):
            if(j%2==0):
                arr[i][j]=0
        else:
             if(j%2!=0):
                    arr[i][j]=0
                    
        
print (arr)

[[0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]]


In [36]:
#1.3.2 Задание
arr = np.arange(10).reshape(2,5)%5
answ = np.arange(10).reshape(2,5)%5
answ = np.concatenate((answ,arr),axis=0)
print (answ)

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


In [37]:
#1.3.3 Задание
arr = np.random.random((3,3,3))
print(arr)

[[[0.72977757 0.69269364 0.41279356]
  [0.0465429  0.36033066 0.48154362]
  [0.03207648 0.47532374 0.6942619 ]]

 [[0.089238   0.57480842 0.60939303]
  [0.8440603  0.66851924 0.21476242]
  [0.38887782 0.57427768 0.44689062]]

 [[0.71813605 0.33923168 0.4295252 ]
  [0.66974263 0.17622319 0.07913109]
  [0.19593221 0.57007432 0.67617926]]]


In [38]:
#1.3.4 Задание
arr_1 = np.ones((3,3))
arr_1[1][1]=0
print(arr_1)


[[1. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]


In [39]:
#1.3.5 Задание
arr =[2,5,4,7,4,8,3,0,7,4]
arr.sort(reverse = True)
print(arr)

[8, 7, 7, 5, 4, 4, 4, 3, 2, 0]


In [40]:
#1.3.6 Задание
b = np.array([[1,2,3],[4,5,6]])
ans = np.shape(b)
if(ans[0]==ans[1]):
    print("square")
else: print ("rectangle")
print ("S =", ans[0]*ans[1])
print (ans[0],"*",ans[1])


rectangle
S = 6
2 * 3


# 2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком- либо формате. Кроме того, часто требуется получить данные из нескольких источников.
Библиотека pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите командной строке:
 pip install pandas
Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных: Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как таблицу с одной строкой. С Series можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами.

In [41]:
#2.2.1 Пример
import pandas as pd
lst = [1,2,3,4,5]
d = {'a':1,'b':2,'c':3}
ndarr = np.array([1,2,3,4,5])
s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr,['a','b','c','d','e'])
print (s1)
print (s2)
print (s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


In [42]:
#2.2.2 Пример
s1 = pd.Series([1,2,3,4,5],['a','b','c','d','e'])
s2 = pd.Series([5,4,3,2,1])
print(s1['a'])
print (s2[0])
print (s2[3:])

1
5
3    2
4    1
dtype: int64


In [43]:
#2.2.3 Пример
dataframe = pd.DataFrame()
dataframe['Name'] = ['Jacky Jackson','Stiven Stivenson']
dataframe['Age'] = [38,25]
dataframe['Driver'] = [True,False]
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Stiven Stivenson,25,False


In [44]:
#2.2.4 Пример
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [80]:
#2.2.5 Пример
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()


(150, 5)


In [46]:
#2.2.6 Пример
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [47]:
#2.2.7 Пример
dataframe[dataframe['PClass']=='1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [48]:
#2.3.1 Задание
import numpy as np
  
  

x = pd.Series([1, 2, 3, 4, 5])
y = pd.Series([6, 7, 8, 9, 10])
  

p1 = np.sum([(a**2) for a in x])
p2 = np.sum([(b**2) for b in y])
p3 = -1 * np.sum([(2 * a*b) for (a, b) in zip(x, y)])
dist = np.sqrt(np.sum(p1 + p2 + p3))
  
print("Series 1:\n", x)
print("Series 2:\n", y)
print("Euclidean distance between two series is:", dist)

Series 1:
 0    1
1    2
2    3
3    4
4    5
dtype: int64
Series 2:
 0     6
1     7
2     8
3     9
4    10
dtype: int64
Euclidean distance between two series is: 11.180339887498949


In [52]:
#2.3.2 Задание
url = 'https://raw.githubusercontent.com/akmand/datasets/main/carvana_kicks_clean.csv'
dataframe = pd.read_csv(url)
dataframe.head(10)

Unnamed: 0,VehicleAge,Make,Model,Trim,SubModel,Transmission,WheelType,VehOdo,Size,TopThreeAmericanName,...,MMRAcquisitionAuctionCleanPrice,MMRAcquisitionRetailAveragePrice,MMRAcquisitonRetailCleanPrice,MMRCurrentAuctionAveragePrice,MMRCurrentAuctionCleanPrice,MMRCurrentRetailAveragePrice,MMRCurrentRetailCleanPrice,VehBCost,WarrantyCost,IsBadBuy
0,3,MAZDA,MAZDA3,i,4D SEDAN I,AUTO,Alloy,89046,MEDIUM,OTHER,...,9829,11636,13600,7451,8552,11597,12409,7100.0,1113,0
1,5,DODGE,1500 RAM PICKUP 2WD,ST,QUAD CAB 4.7L SLT,AUTO,Alloy,93593,LARGE TRUCK,CHRYSLER,...,8383,10897,12572,7456,9222,11374,12791,7600.0,1053,0
2,4,DODGE,STRATUS V6,SXT,4D SEDAN SXT FFV,AUTO,Covers,73807,MEDIUM,CHRYSLER,...,4760,6943,8457,4035,5557,7146,8702,4900.0,1389,0
3,5,DODGE,NEON,SXT,4D SEDAN,AUTO,Alloy,65617,COMPACT,CHRYSLER,...,2675,4658,5690,1844,2646,4375,5518,4100.0,630,0
4,4,FORD,FOCUS,ZX3,2D COUPE ZX3,MANUAL,Covers,69367,COMPACT,FORD,...,5054,7723,8707,3247,4384,6739,7911,4000.0,1020,0
5,5,MITSUBISHI,GALANT 4C,ES,4D SEDAN ES,AUTO,Covers,81054,MEDIUM,OTHER,...,4908,6706,8577,4709,5827,8149,9451,5600.0,594,0
6,5,KIA,SPECTRA,EX,4D SEDAN EX,AUTO,Covers,65328,MEDIUM,OTHER,...,4038,6240,8496,2980,4115,6230,8603,4200.0,533,0
7,4,FORD,TAURUS,SE,4D SEDAN SE,AUTO,Covers,65805,MEDIUM,FORD,...,4342,6667,7707,3713,4578,6942,8242,4500.0,825,0
8,2,KIA,SPECTRA,EX,4D SEDAN EX,AUTO,Covers,49921,MEDIUM,OTHER,...,7274,9687,10624,6417,7371,9637,10778,5600.0,482,0
9,2,FORD,FIVE HUNDRED,SEL,4D SEDAN SEL,AUTO,Alloy,84872,LARGE,FORD,...,9752,11734,13656,9167,10988,12580,14845,7700.0,1633,0


In [56]:
#2.3.3 Задание
#dataframe.head(2)
#dataframe.tail(3)
#dataframe.shape
#dataframe.describe()
#dataframe.iloc[1:4]
dataframe[dataframe['Make']=='DODGE'].head(10)

Unnamed: 0,VehicleAge,Make,Model,Trim,SubModel,Transmission,WheelType,VehOdo,Size,TopThreeAmericanName,...,MMRAcquisitionAuctionCleanPrice,MMRAcquisitionRetailAveragePrice,MMRAcquisitonRetailCleanPrice,MMRCurrentAuctionAveragePrice,MMRCurrentAuctionCleanPrice,MMRCurrentRetailAveragePrice,MMRCurrentRetailCleanPrice,VehBCost,WarrantyCost,IsBadBuy
1,5,DODGE,1500 RAM PICKUP 2WD,ST,QUAD CAB 4.7L SLT,AUTO,Alloy,93593,LARGE TRUCK,CHRYSLER,...,8383,10897,12572,7456,9222,11374,12791,7600.0,1053,0
2,4,DODGE,STRATUS V6,SXT,4D SEDAN SXT FFV,AUTO,Covers,73807,MEDIUM,CHRYSLER,...,4760,6943,8457,4035,5557,7146,8702,4900.0,1389,0
3,5,DODGE,NEON,SXT,4D SEDAN,AUTO,Alloy,65617,COMPACT,CHRYSLER,...,2675,4658,5690,1844,2646,4375,5518,4100.0,630,0
12,4,DODGE,CARAVAN GRAND FWD V6,SE,MINIVAN 3.3L,AUTO,Alloy,79315,VAN,CHRYSLER,...,5380,7910,10108,4807,6077,8523,10124,5400.0,1623,1
14,3,DODGE,CARAVAN GRAND FWD V6,SXT,MINIVAN 3.8L,AUTO,Alloy,74722,VAN,CHRYSLER,...,9730,10743,14066,7952,9910,12131,13836,6900.0,1623,0
27,5,DODGE,1500 RAM PICKUP 2WD,ST,QUAD CAB 4.7L SLT,AUTO,Alloy,76173,LARGE TRUCK,CHRYSLER,...,8051,10378,12443,7159,8934,11135,12560,8800.0,920,0
28,5,DODGE,DURANGO 4WD V8,SLT,4D SUV 5.7L SLT,AUTO,Alloy,65393,MEDIUM SUV,CHRYSLER,...,8582,11805,13250,7863,10109,12295,15807,8400.0,1411,0
29,4,DODGE,CARAVAN GRAND FWD V6,SXT,MINIVAN 3.8L SXT,AUTO,Alloy,80064,VAN,CHRYSLER,...,7255,9587,11288,6175,7792,9768,11489,5600.0,1763,0
39,3,DODGE,CALIBER,SXT,4D WAGON SXT,AUTO,Covers,65403,MEDIUM,CHRYSLER,...,8656,11086,12363,7937,9147,11415,12506,6700.0,825,0
42,6,DODGE,1500 RAM PICKUP 2WD,ST,QUAD CAB 5.7L,AUTO,Alloy,52774,LARGE TRUCK,CHRYSLER,...,8015,10954,12342,7871,9234,11975,13004,11335.0,754,0


# 3.1. Теоретический материал – Работа с числовыми данными
Количественные данные что-то измеряют – будь то размер класса,
ежемесячные продажи или оценки учащихся. Естественным способом
представления этих величин является численным (например, 150 студентов,
$529 392 продаж).
Нормализация данных — это общепринятая задача предобработки в
машинном обучении. Многие алгоритмы предполагают, что все признаки
находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.
Существует множество способов нормализации значений признаков,
чтобы масштабировать их к единому диапазону и использовать в различных
моделях машинного обучения. В зависимости от используемой функции, их
можно разделить на 2 большие группы: линейные и нелинейные. При
нелинейной нормализации в расчетных соотношениях используются
функции логистической сигмоиды или гиперболического тангенса. В
линейной нормализации изменение переменных осуществляется
пропорционально, по линейному закону.
На практике наиболее распространены следующие методы
нормализации признаков:
 Минимакс – линейное преобразование данных в диапазоне [0..1], где
минимальное и максимальное масштабируемые значения
соответствуют 0 и 1 соответственно;
 Z-масштабирование данных на основе среднего значения и
стандартного отклонения: производят деление разницы между
переменной и средним значением на стандартное отклонение.
![image.png](attachment:image.png)
При масштабировании данных мы будем использовать одну из
популярных библиотек машинного обучения Scikit-learn. Библиотека
содержит пакет sklearn.preprocessing, который предоставляет широкие
возможности для нормализации данных. Следует отметить, что в целом
алгоритмы обучения выигрывают от стандартизации набора данных

In [63]:
#3.2.1. Пример
import numpy as np
from sklearn import preprocessing
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0,1))
scaled_feature = minmax_scale.fit_transform(feature)
scaled_feature
print("Midle",round(standardaizer.mean()))
print("Midle scale" , standardaizer.std())

Midle 0
Midle scale 1.0


In [62]:
#3.2.2. Пример
x = np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])
scaler = preprocessing.StandardScaler()
standardaizer = scaler.fit_transform(x)
standardaizer

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [71]:
#3.2.3. Пример
scaler = preprocessing.MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                       'B':[103.02,107.26,110.35,114.23,114.68],
                       'C':['big','small','big','small','small']})
dfTest[['A','B']]=scaler.fit_transform(dfTest[['A','B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


In [86]:
#3.3.2 Задание
url = 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
dataframe = pd.read_csv(url)
scaler = preprocessing.MinMaxScaler(feature_range = (-1,1))
scaler1 = preprocessing.StandardScaler()
dataframe[['sepal_length_cm']] = scaler.fit_transform(dataframe[['sepal_length_cm']])
dataframe[['sepal_width_cm']] = scaler1.fit_transform(dataframe[['sepal_width_cm']])
dataframe

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,-0.555556,1.032057,1.4,0.2,setosa
1,-0.666667,-0.124958,1.4,0.2,setosa
2,-0.777778,0.337848,1.3,0.2,setosa
3,-0.833333,0.106445,1.5,0.2,setosa
4,-0.611111,1.263460,1.4,0.2,setosa
...,...,...,...,...,...
145,0.333333,-0.124958,5.2,2.3,virginica
146,0.111111,-1.281972,5.0,1.9,virginica
147,0.222222,-0.124958,5.2,2.0,virginica
148,0.055556,0.800654,5.4,2.3,virginica
