# Пакеты

В базовом Python отсутствуют функции для углубленной работы с математикой (взятие квадратного корня, получения числа $\pi$ или $e$), генерации случайных чисел, работы с таблицами, и т.д.

Для использования этих функций применяются "пакеты" или "библиотеки". Для добавления библиотеки в ваш проект используется ключивое слово `import` после которого идёт название библиотеки.

Подключим пакет `math`, предоставляющий основные функции для работы с математическими операциями:

In [2]:
import math

Теперь, чтобы выбрать функции или константы, реализованные в этом пакете, мы должны будем написать подобную конструкуию:

In [4]:
math.pi

3.141592653589793

Выше мы вызвали константу `pi`, хранящую в себе значение числа $\pi$ из библиотеки `math`. Аналогичным образом можем вызвать функцию синуса:

In [7]:
math.sin(math.pi/2)

1.0

Косинуса:

In [9]:
math.cos(0)

1.0

Важно заметить, что синус от $\pi$ равен очень маленькому числу, а не $0$:

In [10]:
math.sin(math.pi)

1.2246467991473532e-16

Это обусловлено тем, что в констаете `math.pi` хранится не всё число $\pi$, а его округление (т.к. само по себе число $\pi$ бесконечно).

Чтобы избегать подобных малоинтересных следствий погрешности, можно использовать функцию округления `round` (не из пакета `math` — она есть в "голом" Python):

Округление числа $\pi$ до двух знаков после запятой:

In [18]:
round(math.pi, 2)

3.14

До четырёх знаков после запятой:

In [17]:
round(math.pi, 4)

3.1416

Округления синуса $\pi$ до одного знака после запятой

In [None]:
round(math.sin(math.pi), 1)

Почитать подробнее про функционал пакета `math` можно по ссылке: https://pythonworld.ru/moduli/modul-math.html

Следующим примером подключаемого пакета будет `random` — он предоставляет доступ к функциям, генерирующим случайные последовательности, числа и элементы из списка: 

In [19]:
import random

Если мы хотим получить случайное целое число из диапазона от $a$ до $b$, то мы используем функцию `randint`:

In [22]:
a = 5
b = 55
c = random.randint(a, b)
print(c)

50


Для получения случайного числа от $0$ до $1$ можно использовать функцию `random`:

In [23]:
random.random()

0.9298754721863348

Если мы хотим выбрать случайный элемент из списка, можно воспользоваться функцией `choice`: 

In [42]:
names = ['Иван', 'Василий', 'Николай', 'Семён', 'Родриго']

print(random.choice(names))

Семён


Почитать подробнее про функционал пакета `random` можно по ссылке: https://pythonworld.ru/moduli/modul-random.html

После того, как мы ознакомились с базовым пониманием того, что такое пакеты, как их подключать и использовать хранимые в них функции, мы рассмотрим основной пакет этого курса, в котором и будет происходить вся обработка табличных данных: `pandas`:

In [43]:
import pandas

# Работа с таблицами

Основным типом данных с которым мы будем работать в этом курсе, являются таблицы, либо же `DataFrame`'ы.

ВАЖНО: Если вы работает не в Google Cola, а на персональных компьютерах, библиотека `pandas` по-умолчанию не установлена вместе с базовым `Python`, и чтобы её установить, требуется зайти в консоль и прописать `pip install pandas`

(Чтобы зайти в консоль, наберите в поиске Windows "cmd", а затем в консоли пропишите `cd C:\Users\ИМЯ_ВАШЕГО_ПОЛЬЗОВАТЕЛЯ\AppData\Local\Programs\Python\Python39\Scripts` и только после этого команду установки. Путь к `Python` может отличаться от указанного — смотрите, куда вы его установили)

Для того, чтобы создать `DataFrame` с нуля мы можем сначала создать словарь, в котором в качестве ключей будут имена колонок таблицы, а в качестве строк: списки значений одинаковой длины:

In [46]:
raw_table = {
    'Колонка_1' : [1, 5, 7, 9],
    'Колонка_2' : ['a', 'b', 'c', 'd'],
    'Колонка_3' : [0.1, 0.67, 0.8, 0.23]
}

После того, как мы создали словарь, мы можем создать из него таблицу при помощи конструкции:

In [48]:
df = pandas.DataFrame(raw_table)

df — приятое сокращение для имён переменных-`DataFrame`'ов

Google Colab (и вообще .ipynb блокноты) поддерживают красивую визуализацию таблиц по-умолчанию. Для того, чтобы вывести таблицу на экран, просто напишите её имя:

In [50]:
df

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3
0,1,a,0.1
1,5,b,0.67
2,7,c,0.8
3,9,d,0.23


Либо же можно вывести её с помощью функции `print`, но тогда она будет менее "красивой":

In [49]:
print(df)

   Колонка_1 Колонка_2  Колонка_3
0          1         a       0.10
1          5         b       0.67
2          7         c       0.80
3          9         d       0.23


Чтобы выбрать только одну колонку из таблицы, мы, как и со словарями, после имени таблицы, в квадратных скобках пишем название колонки:

In [51]:
df['Колонка_1']

0    1
1    5
2    7
3    9
Name: Колонка_1, dtype: int64

Чтобы выбрать только одну строку из таблицы, нужно к имени таблицы добавить .loc и после в квадратных скобках указать номер строки.

Важно помнить про то, что нумерация строк в таблице идёт с нуля!

In [53]:
df.loc[0]

Колонка_1      1
Колонка_2      a
Колонка_3    0.1
Name: 0, dtype: object

Если мы хотим добавить новую колонку к таблице, то мы пишем:

In [54]:
df['Новая колонка'] = ['ъ', 'ы', 'ь', ' ']

И в нашу таблицу добавится новая колонка:

In [55]:
df

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка
0,1,a,0.1,ъ
1,5,b,0.67,ы
2,7,c,0.8,ь
3,9,d,0.23,


Важно чтобы добавляемая колонка имела ту же длину, что и все остальные, иначе будет ошибка:

In [56]:
df['Ошибка'] = [0, 0, 0]

ValueError: Length of values (3) does not match length of index (4)

Вылезла ошибка и колонка не изменилась:

In [57]:
df

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка
0,1,a,0.1,ъ
1,5,b,0.67,ы
2,7,c,0.8,ь
3,9,d,0.23,


В случае с колонками, мы можем их поэлементно складывать\делить\умножать и т.д.:

In [58]:
df['Колонка_1'] + df['Колонка_3']

0    1.10
1    5.67
2    7.80
3    9.23
dtype: float64

Результат операций над колонками мы можем записать в новую колонку (так мы обычно и будем поступать):

In [59]:
df['Сумма 1 и 3'] = df['Колонка_1'] + df['Колонка_3']

In [60]:
df

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка,Сумма 1 и 3
0,1,a,0.1,ъ,1.1
1,5,b,0.67,ы,5.67
2,7,c,0.8,ь,7.8
3,9,d,0.23,,9.23


Как мы ранее обсуждали — важным действием при работе с табличными данными будет выбор данных по условию. Для этого после имени таблицы в квадратных скобках пишется условие:

In [68]:
df[df['Колонка_1'] > 6]

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка,Сумма 1 и 3
2,7,c,0.8,ь,7.8
3,9,d,0.23,,9.23


Как можно видеть, были выбраны только те строки, в которых значения в колонке "Колонка_1" были больше 6.

Также можно применять сложные условия выбора, однако тогда каждое отдельное условие должно обрамляться круглыми скобками, а логические связи между условиями прописываются не ключевыми словами `and`, `or`, `not`, а соответственно символами `&`, `|`, `~`:

In [69]:
df[(df['Колонка_1'] < 8) & (df['Колонка_3'] > 0.5)]

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка,Сумма 1 и 3
1,5,b,0.67,ы,5.67
2,7,c,0.8,ь,7.8


In [70]:
df[~(df['Новая колонка'] == ' ')]

Unnamed: 0,Колонка_1,Колонка_2,Колонка_3,Новая колонка,Сумма 1 и 3
0,1,a,0.1,ъ,1.1
1,5,b,0.67,ы,5.67
2,7,c,0.8,ь,7.8


Чтобы записать вашу таблицу в файл существуют команды `to_csv` или `to_excel`:

In [72]:
df.to_csv('data/example_dataframe.csv')

После запуска этой команды, по заданному пути появится файл того формата и с тем именем, которое вы ввели в кавычках