NumPy (NumericalPython) - это библиотека Python с открытым
исходным кодом, которая используется практически во всех областях науки
и техники. Это универсальный стандарт для работы с числовыми данными в
Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью
командной строки:
 pip install numpy
Чтобы начать использовать NumPy необходимо импортировать
соответствующую библиотеку:
 import numpy as np
Основным объектом NumPy является однородный многомерный
массив (в numpy называется numpy.ndarray). Это многомерный массив
элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива.
ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк
и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно
произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно
определить dtype, используя стандартные типы данных Python. NumPy здесь
предоставляет целый букет возможностей, как встроенных, например: bool_,
character, int8, int16, int32, int64, float8, float16, float32, float64, complex64,
object_, так и возможность определить собственные типы данных, в том
числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива.
Обычно не нужно использовать этот атрибут, так как обращаться к
элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной
документации https://numpy.org/doc/stable/user/absolute_beginners.html

1.2.1 Пример

In [1]:
import numpy as np
x = np.array([[1,2], [3,4], [5,6], [7,8], [9,10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


1.2.2 Пример

In [4]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10,5)
d = np.arange(10,20)
print(a, "\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


1.2.3 Пример

In [5]:
Z = np.random.random((10,10))
Zmin, Zmax, Zmean = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)

0.0054054784487168606 0.9557606388825332 0.49448054054296375


1.2.4 Пример

In [6]:
A = np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


1.2.5 Пример

In [7]:
print(0*np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.nan - np.nan)
print(0.3 == 3*0.1)

nan
False
False
nan
False


1.2.6 Пример

In [8]:
arr = np.array([2,1,5,3,7,4,6,8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


1.3.1 Задание

In [9]:
import numpy as np
Z = np.zeros((8,8), dtype = int)
Z[1::2, ::2] = 1
Z[::2, 1::2] = 1
print(Z)

[[0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]]


1.3.2 Задание

In [10]:
import numpy as np
Z = np.zeros((5,5), dtype = int)
Z += np.arange(5)
print(Z)

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


1.3.3 Задание

In [11]:
import numpy as np
Z = np.random.random((3, 3, 3))
print(Z)

[[[0.84482942 0.11674583 0.86343509]
  [0.7440858  0.51035892 0.6998351 ]
  [0.59381921 0.56576282 0.37114201]]

 [[0.18416892 0.26172884 0.08737744]
  [0.48576814 0.57903021 0.38910374]
  [0.63751814 0.55767207 0.2098829 ]]

 [[0.20049538 0.89046204 0.69869669]
  [0.15890008 0.1965343  0.36048521]
  [0.91106734 0.50815374 0.16121048]]]


1.3.4 Задание

In [12]:
import numpy as np
Z = np.ones((5,5), dtype=int)
Z[1:-1:,1:-1:] = 0
print(Z)

[[1 1 1 1 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 1 1 1 1]]


1.3.5 Задание

In [14]:
import numpy as np
Z = np.array(range(14))
Z.sort()
Z = Z[::-1]
print(Z)

[13 12 11 10  9  8  7  6  5  4  3  2  1  0]


1.3.6 Задание

In [15]:
import numpy as np
Z = np.random.random((5,5))
print("Форма матрицы:")
print(Z.shape)
print("Размер матрицы:")
print(Z.size)
print("Размерность матрицы:")
print(Z.ndim)

Форма матрицы:
(5, 5)
Размер матрицы:
25
Размерность матрицы:
2


2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения
является введение исходных данных в систему. Исходные данные могут
вводиться вручную, содержаться в файле или храниться в интернете в какомлибо формате. Кроме того, часто требуется получить данные из нескольких
источников.
Библиотека pandas – это удобный и быстрый инструмент для работы
с данными, обладающий большим функционалом. Если очень кратко, то
pandas – это библиотека, которая предоставляет очень удобные с точки
зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите
командной строке:
 pip install pandas
Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных:
Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как
таблицу с одной строкой. С Series можно работать как с обычным массивом
(обращаться по номеру индекса), и как с ассоциированным массивом, когда
можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на
обычную таблицу, что выражается в способе ее создания и работе с ее
элементами.

2.2.1 Пример

In [16]:
import pandas as pd
lst = [1,2,3,4,5]
d = {'a':1, 'b':2, 'c':3}
ndarr = np.array([1,2,3,4,5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


2.2.2 Пример

In [17]:
s1 = pd.Series([1,2,3,4,5], ['a','b', 'c', 'd', 'e'])
s2 = pd.Series([5,4,3,2,1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


2.2.3 Пример

In [18]:
dataFrame = pd.DataFrame()
dataFrame['Имя'] = ['Джеки Джексон', 'Стивен Стивенсон']
dataFrame['Возраст'] = [38,25]
dataFrame['Водитель'] = [True, False]
dataFrame

Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


2.2.4 Пример

In [22]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataFrame = pd.read_csv(url)
dataFrame.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


2.2.5 Пример

In [28]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataFrame = pd.read_csv(url)
dataFrame.head(2)
dataFrame.tail(3)
dataFrame.shape
dataFrame.describe()


Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


2.2.6 Пример

In [25]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataFrame = pd.read_csv(url)

dataFrame.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


2.2.7 Пример

In [29]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataFrame = pd.read_csv(url)

dataFrame[dataFrame['PClass'] == '1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


2.3.1 Задание

In [30]:
import pandas as pd

print(sum((pd.Series([1, 2, 3, 4])-pd.Series([5, 6, 7, 8]))**2)**.5)

8.0


2.3.2 Задание

In [31]:
import pandas as pd

url = "https://raw.githubusercontent.com/akmand/datasets/main/baby_names_2000.csv"

dataframe = pd.read_csv(url)
dataframe.head(5)

Unnamed: 0,year,name,gender,count
0,2000,Emily,F,25956
1,2000,Hannah,F,23082
2,2000,Madison,F,19968
3,2000,Ashley,F,17997
4,2000,Sarah,F,17702


2.3.3 Задание

In [32]:
import pandas as pd

url = "https://raw.githubusercontent.com/akmand/datasets/main/baby_names_2000.csv"

#Как в 2.2.5
dataframe = pd.read_csv(url)
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()

#Как в 2.2.6
dataframe.iloc[1:4]

#Как в 2.2.7
dataframe[dataframe['name'] == 'Jennifer'].head(2)

Unnamed: 0,year,name,gender,count
25,2000,Jennifer,F,9386
20489,2000,Jennifer,M,32


3.1. Теоретический материал – Работа с числовыми данными
Количественные данные что-то измеряют – будь то размер класса,
ежемесячные продажи или оценки учащихся. Естественным способом
представления этих величин является численным (например, 150 студентов,
$529 392 продаж).
Нормализация данных — это общепринятая задача предобработки в
машинном обучении. Многие алгоритмы предполагают, что все признаки
находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.
Существует множество способов нормализации значений признаков,
чтобы масштабировать их к единому диапазону и использовать в различных
моделях машинного обучения. В зависимости от используемой функции, их
можно разделить на 2 большие группы: линейные и нелинейные. При
нелинейной нормализации в расчетных соотношениях используются
функции логистической сигмоиды или гиперболического тангенса. В
линейной нормализации изменение переменных осуществляется
пропорционально, по линейному закону.
На практике наиболее распространены следующие методы
нормализации признаков:
 Минимакс – линейное преобразование данных в диапазоне [0..1], где
минимальное и максимальное масштабируемые значения
соответствуют 0 и 1 соответственно;
 Z-масштабирование данных на основе среднего значения и
стандартного отклонения: производят деление разницы между
переменной и средним значением на стандартное отклонение.
При масштабировании данных мы будем использовать одну из
популярных библиотек машинного обучения Scikit-learn. Библиотека
содержит пакет sklearn.preprocessing, который предоставляет широкие
возможности для нормализации данных. Следует отметить, что в целом
алгоритмы обучения выигрывают от стандартизации набора данных.

3.2.1 Пример

In [1]:
import numpy as np
from sklearn import preprocessing

feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])

minmax_scale = preprocessing.MinMaxScaler(feature_range= (0,1))

scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

3.2.2 Пример

In [5]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])

scaler = preprocessing.StandardScaler()

standardized = scaler.fit_transform(x)

print(standardized)
print("Среднее: ", round(standardized.mean()))
print("Стандартное отклонение: ", standardized.std())

[[-0.76058269]
 [-0.54177196]
 [-0.35009716]
 [-0.32271504]
 [ 1.97516685]]
Среднее:  0
Стандартное отклонение:  1.0


3.2.3 Пример

In [6]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                         'B':[103.02,107.26,110.35,114.23,114.68],
                         'C':['big','small','big','small','small']})
dfTest[['A', 'B']] = scaler.fit_transform(dfTest[['A', 'B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


3.3.2 Задание

In [7]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

url = "https://raw.githubusercontent.com/akmand/datasets/master/iris.csv"
dataframe = pd.read_csv(url)


scalerM = MinMaxScaler()
dataframe[['sepal_length_cm']] = scalerM.fit_transform(dataframe[['sepal_length_cm']])


scalerZ = StandardScaler()
dataframe[['sepal_width_cm']] = scalerZ.fit_transform(dataframe[['sepal_width_cm']])

dataframe

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,0.222222,1.032057,1.4,0.2,setosa
1,0.166667,-0.124958,1.4,0.2,setosa
2,0.111111,0.337848,1.3,0.2,setosa
3,0.083333,0.106445,1.5,0.2,setosa
4,0.194444,1.263460,1.4,0.2,setosa
...,...,...,...,...,...
145,0.666667,-0.124958,5.2,2.3,virginica
146,0.555556,-1.281972,5.0,1.9,virginica
147,0.611111,-0.124958,5.2,2.0,virginica
148,0.527778,0.800654,5.4,2.3,virginica
