# 6.1. Модули math и numpy

In [3]:
import math
# Степенные и логарифмические функции. Некоторые из функций:

# math.exp(x) – возвращает значение экспоненциальной функции ex:

print(math.exp(3.5))  # 33.11545195869231
# math.log(x, base) – возвращает значение логарифма от x по основанию base. Если значение аргумента base не задано, то вычисляется натуральный логарифм. Вычисление производится по формуле log(x) / log(base):

print(math.log(10))  # 2.302585092994046
print(math.log(10, 2))  # 3.3219280948873626
# math.pow(x, y) – возвращает значение x в степени y. В отличие от операции ** происходит преобразование обоих аргументов в вещественные числа:

print(math.pow(2, 10))  # 1024.0
print(math.pow(4.5, 3.7))  # 261.1477575641718

33.11545195869231
2.302585092994046
3.3219280948873626
1024.0
261.1477575641718


In [4]:
# Тригонометрические функции. Доступны функции синус (sin(x)), косинус (cos(x)), тангенс (tan(x)),
#  арксинус (asin(x)), арккосинус (acos(x)), арктангенс (atan(x)). Обратите внимание: угол задаётся
#  и возвращается в радианах. Имеются особенные функции:

# math.dist(p, q) – возвращает Евклидово расстояние между точками p и q, заданными как итерируемые объекты одной длины:

print(math.dist((0, 0, 0), (1, 1, 1)))  # 1.7320508075688772
# math.hypot(*coordinates) – возвращает длину многомерного вектора с координатами, 
# заданными в позиционных аргументах coordinates, и началом в центре системы координат. 
# Для двумерной системы координат функция возвращает длину гипотенузы прямоугольного треугольника по теореме Пифагора:

print(math.hypot(1, 1, 1))  # 1.7320508075688772
print(math.hypot(3, 4))  # 5.0

# Функции преобразования угла. Доступны функции:

# math.degrees(x) – преобразует угол из радиан в градусы:

print(round(math.sin(math.radians(30)), 1))  # 0.5

# math.radians(x) – преобразует угол из градусов в радианы.

print(round(math.degrees(math.asin(0.5)), 1))  # 30.0
# Гиперболические функции. Доступны функции acosh(x), asinh(x), atanh(x), cosh(x), sinh(x), tanh(x).

# Специальные функции. Среди специальных функций интерес представляет Гамма-функция.
#  Она описывает гладкую непрерывную функцию f(x) = (x - 1)!, график которой проходит через точки, 
# соответствующие значениям функции факториала для целых чисел. Другими словами, 
# Гамма-функция интерполирует значения факториала для вещественных чисел:

print(math.gamma(3))  # 2.0
print(math.gamma(3.5))  # 3.323350970447842
print(math.gamma(4))  # 6.0
 
# В библиотеке math можно воспользоваться значениями числа Пи (math.pi) и экспоненты (math.e).

# Язык программирования Python удобен для быстрого создания программ с целью проверки какой-либо идеи. 
# Однако зачастую его используют и в решении научных задач, а также при анализе больших данных и машинном обучении. 
# Возникает вопрос: каким образом может быстро обрабатывать много данных интерпретируемая, 
# а не скомпилированная программа? Оказывается, что в решении некоторых математических 
# задач программы на Python могут быть такими же быстрыми, как и программы, созданные на компилируемых языках.

1.7320508075688772
1.7320508075688772
5.0
0.5
30.0
2.0
3.323350970447842
6.0


## Библиотека numpy является нестандартной библиотекой.

In [5]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
print(f"a[0] = {a[0]}")
print(f"b[0] = {b[0]}")

a[0] = 1
b[0] = [1 2]


В терминологии numpy `массив a имеет одну ось (термин "axis" из документации) длиной 4 элемента`, а массив `b имеет 2 оси`: первая имеет длину 4, а длина второй оси равна 2.

Массивы numpy являются объектами класса ndarray. Наиболее важными атрибутами класса ndarray являются:

ndarray.ndim – размерность (количество осей) массива;

ndarray.shape – кортеж, значения которого содержат количество элементов по каждой из осей массива;

ndarray.size – общее количество элементов массива;

ndarray.dtype – объект, описывающий тип данных элементов массива;

ndarray.itemsize – размер памяти в байтах, занимаемый одним элементом массива.

In [6]:
import numpy as np

a = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
print(f"a.ndim = {a.ndim}, a.shape = {a.shape}, a.size = {a.size}, a.dtype = {a.dtype}")

a.ndim = 2, a.shape = (4, 2), a.size = 8, a.dtype = int64


Покажем на примере, что произойдёт, если попытаться записать значение не из диапазона для типа данных. Для этого создадим массив типа uint8 – целые числа без знака размером 8 бит. Диапазон значений для этого типа от 0 до 255. Тип данных можно указать через именованный аргумент dtype при создании массива:

In [7]:
a = np.array([1, 2, 3], dtype="uint8")
a[0] = 256
print(a)

[0 2 3]


For the old behavior, usually:
    np.array(value).astype(dtype)`
will give the desired result (the cast overflows).
  a[0] = 256


В примере для массива a был выбран тип данных float64, так как исходный список содержит вещественное число.` Для массива b был выбран тип данных <U32`, который может хранить строки в кодировке Unicode длиной 32 символа. Такой тип данных был выбран, поскольку в исходной коллекции есть элемент-строка.

In [8]:
a = np.array([1, 2.5, 3])
print(a)
print(a.dtype)
b = np.array(['text', 1, 2.5])
print(b)
print(b.dtype)

[1.  2.5 3. ]
float64
['text' '1' '2.5']
<U32


Для создания массива из нулей используется функция np.zeros(), который принимает кортеж с количеством чисел, соответствующим количеству осей массива, а значения в кортеже – количество элементов по каждой из осей.

In [10]:
a = np.zeros((4, 3))
print(a)
print()
a = np.zeros((4, 3), dtype="int32")
print(a)
a = np.ones((4, 3))
print(a)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


Для создания массива, заполненного значениями из диапазона, используется функция `np.arange()`. Эта функция похожа на стандартную функцию range(), но возвращает массив и может создавать диапазон значений из вещественных чисел.

In [11]:
a = np.arange(1, 10)
print(a)
print()
a = np.arange(1, 5, 0.4)
print(a)

[1 2 3 4 5 6 7 8 9]

[1.  1.4 1.8 2.2 2.6 3.  3.4 3.8 4.2 4.6]


In [12]:
# Функция np.linspace() создаёт массив из заданного количества вещественных 
# равномерно-распределённых значений из указанного диапазона.
a = np.linspace(1, 5, 10)  # задаётся начало, конец диапазона и количество значений
print(a)


[1.         1.44444444 1.88888889 2.33333333 2.77777778 3.22222222
 3.66666667 4.11111111 4.55555556 5.        ]


In [13]:
a = np.zeros((4, 3), dtype="uint8")
print(a)
print()
a = a.reshape((2, 6))
print(a)

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]

[[0 0 0 0 0 0]
 [0 0 0 0 0 0]]


In [None]:
# Если при изменении размерности в функции reshape() указать значение -1 по одной 
# или нескольким осям, то значения размерности рассчитаются автоматически:
a = np.zeros((4, 3), dtype="uint8")
print(a)
print()
a = a.reshape((2, 3, -1))
print(a)

In [14]:
# Метод resize() меняет размерность исходного массива:

a = np.zeros((4, 3), dtype="uint8")
print(a)
print()
a.resize((2, 2, 3))
print(a)

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]

[[[0 0 0]
  [0 0 0]]

 [[0 0 0]
  [0 0 0]]]


In [15]:
a = np.array([9, 8, 7])
b = np.array([1, 2, 3])
print(a + b)
print(a - b)
print(a * b)
print(a / b)

[10 10 10]
[8 6 4]
[ 9 16 21]
[9.         4.         2.33333333]


## Для умножения матриц используется операция @ или функция dot:

In [16]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
b = np.array([[0, 0, 1],
              [0, 1, 0],
              [1, 0, 0]])
print(a @ b)

[[3 2 1]
 [6 5 4]
 [9 8 7]]


In [17]:
# Матрицы можно транспонировать функцией transpose() и поворачивать функцией rot90(). 
# При повороте можно указать направление поворота вторым аргументом:

a = np.arange(1, 13).reshape(4, 3)
print(a)
print("Транспонирование")
print(a.transpose())
print("Поворот вправо")
print(np.rot90(a))
print("Поворот влево")
print(np.rot90(a, -1))

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
Транспонирование
[[ 1  4  7 10]
 [ 2  5  8 11]
 [ 3  6  9 12]]
Поворот вправо
[[ 3  6  9 12]
 [ 2  5  8 11]
 [ 1  4  7 10]]
Поворот влево
[[10  7  4  1]
 [11  8  5  2]
 [12  9  6  3]]


In [18]:
a = np.array([[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9]])
print(a.sum())
print(a.min())
print(a.max())

45
1
9


In [19]:
# Дополнительно в указанных функциях можно указать номер оси (индексация с 0), на которой будет работать функция:

a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
print(a.sum(axis=0))  # сумма чисел в каждом столбце
print(a.sum(axis=1))  # сумма чисел в каждой строке
print(a.min(axis=0))  # минимум по столбцам
print(a.max(axis=1))  # максимум по строкам

[12 15 18]
[ 6 15 24]
[1 2 3]
[3 6 9]


# срезы

In [20]:
a = np.arange(1, 13).reshape(3, 4)
print(a)
print()
print(a[:2, 2:])
print()
print(a[:, ::2])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[3 4]
 [7 8]]

[[ 1  3]
 [ 5  7]
 [ 9 11]]


In [22]:
# цикл FOR для прохождения по массиву

a = np.arange(1, 13).reshape(3, 4)
print(a)
for row in a:
    print(row)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[1 2 3 4]
[5 6 7 8]
[ 9 10 11 12]


#### Для линеаризации многомерного массива можно использовать атрибут flat, который является итератором, возвращающим последовательно значения массива:

In [21]:
a = np.arange(1, 13).reshape(3, 4)
print(a)
print()
print("; ".join(str(el) for el in a.flat))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12


In [23]:
import numpy as np
from time import time

t = time()
print(f"Результат итератора: {sum(x ** 0.5 for x in range(10 ** 7))}.")
print(f"{time() - t} с.")
t = time()
print(f"Результат numpy: {np.sqrt(np.arange(10 ** 7)).sum()}.")
print(f"{time() - t} с.")

Результат итератора: 21081849486.439312.
1.0495250225067139 с.
Результат numpy: 21081849486.442448.
0.04241490364074707 с.


# 6.2. Модуль pandas
В библиотеке pandas определены два класса объектов для работы с данными:

Series – одномерный массив, который может хранить значения любого типа данных.
DataFrame – двумерный массив (таблица), в котором столбцами являются объекты класса Series.
Создать объект класса Series можно следующим образом:

s = pd.Series(data, index=index)

В качестве data могут выступать: массив numpy, словарь, число. В аргумент index передаётся список меток осей. Метка может быть числом, но чаще используются метки-строки.

Если data является массивом numpy, то index должен иметь такую же длину, как и data. Если аргумент index не передаётся, то по умолчанию для index автоматически назначается список [0, ..., len(data) - 1]:

In [6]:
import pandas as pd
import numpy as np
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print(s)
print(5*'--*--')
s = pd.Series(np.linspace(0, 1, 5))
print(s)

a    0
b    1
c    2
d    3
e    4
dtype: int64
--*----*----*----*----*--
0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64


Если `data задаётся словарём`, `а index не передаётся`, `то в качестве индекса используются ключи словари`. Если index передаётся, то его длина может не совпадать с длиной словаря data. В таком случае, по индексам, для которых нет ключа с соответствующим значением в словаре, будут храниться значения NaN – стандартное обозначение отсутствия данных в библиотеке pandas.

In [10]:
d = {"a": 10, "b": 20, "c": 30, "g": 40}
print(pd.Series(d))
print(5*'--*--')
print(pd.Series(d, index=["a", "b", "c", "d"]))
print(5*'--*--')
index = ["a", "b", "c"]
print(pd.Series(5, index=index))

a    10
b    20
c    30
g    40
dtype: int64
--*----*----*----*----*--
a    10.0
b    20.0
c    30.0
d     NaN
dtype: float64
--*----*----*----*----*--
a    5
b    5
c    5
dtype: int64


In [11]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print("Выбор одного элемента")
print(s["a"])
print("Выбор нескольких элементов")
print(s[["a", "d"]])
print("Срез")
print(s[1:])
print("Поэлементное сложение")
print(s + s)

Выбор одного элемента
0
Выбор нескольких элементов
a    0
d    3
dtype: int64
Срез
b    1
c    2
d    3
e    4
dtype: int64
Поэлементное сложение
a    0
b    2
c    4
d    6
e    8
dtype: int64


In [12]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print("Фильтрация")
print(s[s > 2])

Фильтрация
d    3
e    4
dtype: int64


Объекты Series имеют атрибут name со значением имени набора данных, а также атрибут index.name с именем для индексов:



In [13]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
s.name = "Данные"
s.index.name = "Индекс"
print(s)

Индекс
a    0
b    1
c    2
d    3
e    4
Name: Данные, dtype: int64


### Объект класса `DataFrame` работает с двумерными табличными данными. Создать DataFrame `проще всего из словаря Python `следующим образом:



In [14]:
students_marks_dict = {"student": ["Студент_1", "Студент_2", "Студент_3"],
                       "math": [5, 3, 4],
                       "physics": [4, 5, 5]}
students = pd.DataFrame(students_marks_dict)
print(students)

     student  math  physics
0  Студент_1     5        4
1  Студент_2     3        5
2  Студент_3     4        5


In [15]:
print(students.index)
print(students.columns)

RangeIndex(start=0, stop=3, step=1)
Index(['student', 'math', 'physics'], dtype='object')


In [16]:
students.index = ["A", "B", "C"]
print(students)

     student  math  physics
A  Студент_1     5        4
B  Студент_2     3        5
C  Студент_3     4        5


Для доступа к записям таблицы по строковой метке используется атрибут `loc`. При использовании строковой метки доступна операция `среза`:

In [18]:
print(students.loc["B":])
print(type(students["student"]))

     student  math  physics
B  Студент_2     3        5
C  Студент_3     4        5
<class 'pandas.core.series.Series'>


# 6.3. Модуль requests

Давайте подумаем о том, каким образом данные передаются от одного устройства другому в компьютерных сетях. Данные изначально представлены в виде последовательности байт. А между устройствами эти байты уже передаются в виде физического сигнала различной природы: электричество, радиоволна, свет и др. Всего выделяют 7 уровней, которые проходят данные, начиная с представления в виде байтов и заканчивая физическим сигналом.

Эти уровни передачи определены в стандарте OSI (The Open Systems Interconnection model, модель взаимодействия открытых систем). На каждом уровне описаны протоколы, по которым происходит обмен данными. Протокол – это набор правил, который определяет процесс обмена данными между различными устройствами или программами.

Давайте сделаем первый запрос к Static API. Для этого надо открыть документацию и понять каким должен быть запрос. Запрос к Static API имеет следующий формат: https://static-maps.yandex.ru/1.x/?{параметры URL}. Воспользуемся примерами использования и выполним в браузере следующий запрос:
https://static-maps.yandex.ru/1.x/?ll=37.677751,55.757718&spn=0.016457,0.00619&l=map

Параметр ll отвечает за координаты центра карты (через запятую указываются долгота и широта в градусах). Параметр spn определяет область показа (протяженность карты в градусах по долготе и широте). Параметр l определяет тип карты (в запросе используется тип map – схема). Все возможные параметры запроса можно посмотреть в документации.

В ответе на запрос сервер пришлёт часть карты по запрошенным координатам.

Чтобы воспользоваться API в программе, нужно из неё отправить такой же запрос, а затем получить ответ сервера. Для удобного формирования HTTP-запросов и получения ответов можно использовать библиотеку requests.

Библиотека requests является нестандартной и устанавливается следующей командой:

In [19]:
!pip install requests



In [20]:
from requests import get

response = get("https://static-maps.yandex.ru/1.x/?"
             "ll=37.677751,55.757718&"
             "spn=0.016457,0.00619&"
             "l=map")
print(response)

<Response [200]>


Функция get() вернула ответ HTTP-сервера с кодом 200. Значит, запрос был обработан успешно. Для получения данных из ответа сервера воспользуемся атрибутом content. В этом атрибуте находятся данные в виде последовательности байтов. Из документации Static API известно, что ответом сервера на успешный запрос должен быть графический файл формата PNG. Запишем данные из ответа сервера в новый файл с расширением .png. Для этого откроем файл функцией open() на запись в бинарном режиме (wb), так как будем сохранять байты, а не текст. А затем воспользуемся методом write() созданного файлового объекта:

In [21]:
with open("map.png", "wb") as file:
    file.write(response.content)