# Рабочая тетрадь 2. Основы Python. Библиотеки

## Ломоносов Георгий Алексеевич

### 1.1 Библиотека NumPy

NumPy (NumericalPython) - это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python.

Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки:
<div style="margin-left: 25px">pip install numpy</div>

Чтобы начать использовать NumPy необходимо импортировать соответствующую библиотеку:
<div style="margin-left: 25px">import numpy as np</div>

Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
<p>ndarray.ndim - число измерений (чаще их называют "оси") массива.</p>
<p>ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.</p>
<p>ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.</p>
<p>ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.</p>
<p>ndarray.itemsize - размер каждого элемента массива в байтах.</p>
<p>ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.</p>

Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html 


#### 1.2.1 Пример

##### Решение

In [5]:
import numpy as np
x = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


#### 1.2.2 Пример

##### Решение

In [2]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20)
print(a, "\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


#### 1.2.3 Пример

##### Решение

In [8]:
Z = np.random.random((10, 10))
Zmin, Zmax, Zmean = Z.min(), Z.max(), Z.mean()
print(Zmin, Zmax, Zmean)

0.008204838620968324 0.9954069604371883 0.43979949973324767


#### 1.2.4 Пример

##### Решение

In [4]:
A = np.arange(25).reshape(5, 5)
A[[0, 1]] = A[[1, 0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


#### 1.2.5 Пример

##### Решение

In [5]:
print(0 * np.nan)
print(np.nan == np.nan)
print(np.inf > np.nan)
print(np.nan - np.nan)
print(0.3 == 3 * 0.1)

nan
False
False
nan
False


#### 1.2.6 Пример

##### Решение

In [6]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


#### 1.3.1 Задание

##### Решение

In [3]:
import numpy as np


arr = np.zeros((8, 8), dtype=int)
arr[1::2, ::2] = 1
arr[::2, 1::2] = 1
print(arr)

[[0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]]


#### 1.3.2 Задание

##### Решение

In [19]:
arr = [np.arange(5)] * 5
print(*arr, sep='\n')

[0 1 2 3 4]
[0 1 2 3 4]
[0 1 2 3 4]
[0 1 2 3 4]
[0 1 2 3 4]


#### 1.3.3 Задание

##### Решение

In [20]:
arr = np.random.random((3,3,3))
print(arr)

[[[0.70675506 0.61054612 0.03513132]
  [0.17038303 0.48385463 0.7877788 ]
  [0.80223017 0.66341763 0.46396786]]

 [[0.26159801 0.43916625 0.60671727]
  [0.61469369 0.39806082 0.82179027]
  [0.66616832 0.84208874 0.51699744]]

 [[0.11782882 0.15942282 0.77148903]
  [0.30927297 0.77636585 0.82064761]
  [0.62636379 0.81559676 0.55228503]]]


#### 1.3.5 Задание

##### Решение

In [31]:
arr = np.zeros((5, 5), dtype=int)
arr[0, ::] = 1
arr[::, 0] = 1
arr[::, -1] = 1
arr[-1, ::] = 1
print(arr)

[[1 1 1 1 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 0 0 0 1]
 [1 1 1 1 1]]


#### 1.3.5 Задание

##### Решение

In [39]:
arr = list(sorted(np.random.randint(([5] * 10)), reverse=True))
print(arr)

[4, 4, 3, 3, 3, 3, 2, 0, 0, 0]


#### 1.3.6 Задание

##### Решение

In [42]:
arr = np.zeros((5, 5))
print(arr.shape)
print(arr.size)
print('Квадратичная' if len(set(arr.shape)) == 1 else 'Неквадратичная', end=' ')
print('матрица')

(5, 5)
25
Квадратичная матрица


### Библиотека Pandas

<p>Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком-либо формате. Кроме того, часто требуется получить данные из нескольких источников.</p>
<p>Библиотека pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними.</p>
<p>Библиотека pandas присутствует в стандартной поставке Anaconda. Если же ее там нет, то его можно установить отдельно. Для этого введите командной строке:</p>
<div style="margin-left: 25px">pip install pandas</div>
<p>Для импорта библиотеки используйте команду:
<div style="margin-left: 25px">import pandas as pd</div></p>
<p>Библиотека pandas предоставляет две ключевые структуры данных: Series и DataFrame.</p> 
<p><b>Series</b> – это одномерная структура данных, ее можно представить, как таблицу с одной строкой. С Series можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных.</p> 
<p><b>DataFrame</b> – это двумерная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами.</p>


#### 2.2.1 Пример

##### Решение

In [4]:
import pandas as pd
lst = [1, 2, 3, 4, 5]
d = {'a': 1, 'b': 2, 'c': 3}
ndarr = np.array([1, 2, 3, 4, 5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


#### 2.2.2 Пример

##### Решение

In [44]:
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


#### 2.2.3 Пример

##### Решение

In [6]:
dataframe = pd.DataFrame()
dataframe['Имя'] = ['Джеки Джексон', 'Стивен Стивенсон']
dataframe['Возраст'] = [38, 25]
dataframe['Водитель'] = [True, False]
dataframe

Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


#### 2.2.4 Пример

##### Решение

In [8]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


#### 2.2.5 Пример

##### Решение

Одна из самых простых вещей, которые мы можем сделать после загрузки данных, – это взглянуть на первые несколько строк с помощью метода head. На последние строки можно посмотреть с помощью функции tail. Мы также можем взглянуть на количество строк и столбцов: dataframe.shape. Кроме того, используя метод describe, мы можем получить описательную статистику для любых числовых столбцов.

In [14]:
dataframe.head(2)
dataframe.tail(3)
print(dataframe.shape)
dataframe.describe()

(1313, 6)


Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [15]:
dataframe.head(20)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,"Anderson, Mr Harry",1st,47.0,male,1,0
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
7,"Andrews, Mr Thomas, jr",1st,39.0,male,0,0
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0


In [16]:
dataframe['Age'].median()

28.0

In [18]:
dataframe['Age'] = dataframe['Age'].fillna(28.0)
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,1313.0,1313.0,1313.0
mean,29.380716,0.342727,0.351866
std,10.881539,0.474802,0.477734
min,0.17,0.0,0.0
25%,26.0,0.0,0.0
50%,28.0,0.0,0.0
75%,30.0,1.0,1.0
max,71.0,1.0,1.0


Более подробно с возможностями работы с фреймами данных можно узнать по ссылке ниже:  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

#### 2.2.6 Пример

##### Решение

Для выбора одной или нескольких строк, либо значений, можно использовать методы 1ос или iloc.

In [10]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


#### 2.2.7 Пример

##### Решение

In [11]:
dataframe[dataframe['PClass'] == '1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


#### 2.3.1 Задание

##### Решение

In [6]:
import numpy as np
import pandas as pd
from math import *

a = np.random.randint((10, 10))
b = np.random.randint((10, 10))
print(f'Первая точка: {a}\nВторая точка: {b}')

s1 = pd.Series(a)
s2 = pd.Series(b)

dist = sqrt((s2[0] - s2[1]) ** 2 + (s2[1] - s1[1]) ** 2)
print(f'Евклидово расстояние: {dist}')

Первая точка: [6 3]
Вторая точка: [4 2]
Евклидово расстояние: 2.23606797749979


#### 2.3.2 Задание

##### Решение

In [14]:
url = 'https://github.com/akmand/datasets/blob/master/australian.csv'
dataframe = pd.read_csv(url, sep='delimiter', header=None, engine='python')
dataframe.head(6)

Unnamed: 0,0
0,<!DOCTYPE html>
1,"<html lang=""en"" data-color-mode=""auto"" data-li..."
2,<head>
3,"<meta charset=""utf-8"">"
4,"<link rel=""dns-prefetch"" href=""https://github...."
5,"<link rel=""dns-prefetch"" href=""https://avatars..."


#### 2.3.3 Задание

##### Решение

In [15]:
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()

dataframe.iloc[1:4]

dataframe[dataframe[0] == '<!DOCTYPE html>'].head(2)

Unnamed: 0,0
0,<!DOCTYPE html>


### 3.1 Работа с числовыми данными

<p>Количественные данные что-то измеряют – будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является численным (например, 150 студентов, $529 392 продаж).</p>
<p>Нормализация данных — это общепринятая задача предобработки в машинном обучении. Многие алгоритмы предполагают, что все признаки находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.</p> 
<p>Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону.</p>
<p>На практике наиболее распространены следующие методы нормализации признаков:</p>
<div style="margin-left: 25px"><b>Минимакс</b>– линейное преобразование данных в диапазоне [0..1], где минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно;</div>
<div style="margin-left: 25px"><b>Z-масштабирование данных</b> на основе среднего значения и стандартного отклонения: производят деление разницы между переменной и средним значением на стандартное отклонение.</div>
 
<p>При масштабировании данных мы будем использовать одну из популярных библиотек машинного обученияScikit-learn. Библиотека содержит пакет sklearn.preprocessing, который предоставляет широкие возможности для нормализации данных. Следует отметить, что в целом алгоритмы обучения выигрывают от стандартизации набора данных.</p>

#### 3.2.1 Пример

##### Решение

In [16]:
import numpy as np
from sklearn import preprocessing

feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])

minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [19]:
import numpy as np
from sklearn import preprocessing

feature = np.array([[20], [34], [27], [45], [19]])

minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.03846154],
       [0.57692308],
       [0.30769231],
       [1.        ],
       [0.        ]])

#### 3.2.2 Пример

##### Решение

In [17]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])

scaler = preprocessing.StandardScaler()

standardized = scaler.fit_transform(x)

standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [20]:
x = np.array([[20], [34], [27], [45], [19]])

scaler = preprocessing.StandardScaler()

standardized = scaler.fit_transform(x)

standardized

array([[-0.93225464],
       [ 0.51791924],
       [-0.2071677 ],
       [ 1.65734158],
       [-1.03583849]])

In [18]:
print("Среднее: ", round(standardized.mean()))
print("Стандартное отклонение: ", standardized.std())

Среднее:  0
Стандартное отклонение:  1.0


#### 3.2.3 Пример

##### Решение

In [3]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                      'B':[103.02,107.26,110.35,114.23,114.68],
                      'C':['big', 'small', 'big', 'small', 'small']})

dfTest[['A', 'B']] = scaler.fit_transform(dfTest[['A', 'B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


#### 3.3.2 Задание

##### Решение

In [16]:
from sklearn import preprocessing


url = 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
data = pd.read_csv(url)

first = [[item] for item in data['sepal_length_cm']]
second = [[item] for item in data['sepal_width_cm']]

minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
minmax_scaled = minmax_scale.fit_transform(first)

standard_scale = preprocessing.StandardScaler()
standardized = standard_scale.fit_transform(second)

print('Минимакс преобразование:\n', minmax_scaled)
print('-' * 20)
print('Z-преобразование:\n', standardized)

Минимакс преобразование:
 [[0.22222222]
 [0.16666667]
 [0.11111111]
 [0.08333333]
 [0.19444444]
 [0.30555556]
 [0.08333333]
 [0.19444444]
 [0.02777778]
 [0.16666667]
 [0.30555556]
 [0.13888889]
 [0.13888889]
 [0.        ]
 [0.41666667]
 [0.38888889]
 [0.30555556]
 [0.22222222]
 [0.38888889]
 [0.22222222]
 [0.30555556]
 [0.22222222]
 [0.08333333]
 [0.22222222]
 [0.13888889]
 [0.19444444]
 [0.19444444]
 [0.25      ]
 [0.25      ]
 [0.11111111]
 [0.13888889]
 [0.30555556]
 [0.25      ]
 [0.33333333]
 [0.16666667]
 [0.19444444]
 [0.33333333]
 [0.16666667]
 [0.02777778]
 [0.22222222]
 [0.19444444]
 [0.05555556]
 [0.02777778]
 [0.19444444]
 [0.22222222]
 [0.13888889]
 [0.22222222]
 [0.08333333]
 [0.27777778]
 [0.19444444]
 [0.75      ]
 [0.58333333]
 [0.72222222]
 [0.33333333]
 [0.61111111]
 [0.38888889]
 [0.55555556]
 [0.16666667]
 [0.63888889]
 [0.25      ]
 [0.19444444]
 [0.44444444]
 [0.47222222]
 [0.5       ]
 [0.36111111]
 [0.66666667]
 [0.36111111]
 [0.41666667]
 [0.52777778]
 [0.3611