# Семинар 10

## Модули и библиотеки

**Модули** — это «дополнения» к питону, которые значительно расширяют возможности этого языка программирования. Они состоят из функций (и переменных), написанных другими пользователями питона. Вместо того, чтобы реализовывать эти функции самостоятельно с нуля, мы можем просто найти в интернете и **импортировать** нужные модули, и весь их функционал будет нам доступен. Некоторые модули объединяются в **библиотеки**. В частности, несколько самых нужных модулей входят в [«**стандартную библиотеку**» питона](https://docs-python.ru/standart-library/) — они скачиваются вместе с питоном и доступны всем пользователь:ницам по умолчанию. Другие модули необходимо устанавливать отдельно (о том, как это делать, можно [прочитать здесь](https://pythonworld.ru/osnovy/pip.html) — это вообще несложно!). Некоторые часто используемые модули, отсутствующие в стандартной библиотеке, установлены в Anaconda дополнительно, так что уж с Anaconda вы точно обеспечены всем самым полезным.

Чтобы импортировать модуль, нужно использовать команду `import`. Например, чтобы импортировать модуль `random`, который позволяет генерировать случайные числа, нужно запустить строку `import random`. (Подробнее о модуле `random` можно [прочитать здесь](https://pythonworld.ru/moduli/modul-random.html).) После того, как такая строка была запущена, модуль считается импортированным, и к нему можно обращаться (так же как к переменной можно обращаться после её определения). Обычно в программах принято импортировать все модули в начале кода — например, в первой ячейки в начале тетрадки:

In [1]:
import random

Теперь мы можем использовать функции из этого модуля. Например, функцию `randint`, которая генерирует случайное число в заданном диапазоне. Чтобы вызвать эту функцию, мы сначала должны написать название модуля, а затем через точку название функции:

In [2]:
print(random.randint(10, 20))   # случайное число от 10 до 20

20


Можно также импортировать из модуля конкретные функции. В таком случае все остальные функции работать не будут (их нужно будет импортировать отдельно). Например, импортируем из модуля `math` только функцию `sqrt`, которая позволяет получить от числа его квадратный корень. (Подробнее о модуле `math` можно [прочитать здесь](https://pythonworld.ru/moduli/modul-math.html).)

In [3]:
from math import sqrt

Так как мы импортировали только саму функцию, нам не нужно использовать название модуля, чтобы её вызвать:

In [4]:
print(sqrt(100))   # квадратный корень из числа
print(sqrt(64))
print(sqrt(2))

10.0
8.0
1.4142135623730951


В модулях могут быть не только функции, но ещё и (иногда) переменные. Например, в модуле `math` есть переменные, которые хранят значения всяких важных для математики чисел — таких, как число $π$:

In [5]:
from math import pi

In [6]:
print(pi)   # число «пи»
print(type(pi))

3.141592653589793
<class 'float'>


Для модулей и функций можно установить «псевдонимы», новые названия. Тогда к ним можно будет обращаться по этим псевдонимам. Так делают, чтобы дать часто используемому модулю более короткое название. Например, когда пользователь:ницы питона импортируют модуль `pandas`, полезный для работы с табличными данными, ему обычно дают псевдоним `pd`. (Подробнее о модуле `pandas` можно [прочитать здесь](https://blog.skillfactory.ru/glossary/pandas/).)

In [2]:
import pandas as pd

Теперь можно использовать этот модуль для создания красивых табличек и удобной работы с ними! (Вам не нужно разбираться и учить, как это делать, это просто пример.)

In [None]:
import json
with open("sem9-corpus.json", "r", encoding="utf-8-sig") as f:
    data = json.load(f)     # специальная функция load() из модуля json

data = pd.DataFrame(data)   # превратим наш корпус клинописных письменных памятников
data                        # в красивую табличку

Unnamed: 0,collection,genre,id,language,material,museum_no,object_type,period,thickness,width
0,University of Pennsylvania Museum of Archaeolo...,Administrative,45124,Sumerian,clay,UM 47-29-269,tablet,Ur III (ca. 2100-2000 BC),?,?
1,"Yale Babylonian Collection, New Haven, Connect...",Administrative,150092,Sumerian; Akkadian,clay,YBC 07854,tablet,Old Babylonian (ca. 1900-1600 BC),14,27
2,"National Museum of Iraq, Baghdad, Iraq",Administrative,4128,undetermined,clay,IM 134852,tablet,Uruk III (ca. 3200-3000 BC),14,44
3,"Louvre Museum, Paris, France",Administrative,40261,Sumerian,clay,AO 05670,tablet,Ur III (ca. 2100-2000 BC),?,?
4,"Nies Babylonian Collection, Yale Babylonian Co...",Administrative,51758,Sumerian,clay,NBC 11675,tablet,Ur III (ca. 2100-2000 BC),?,?
...,...,...,...,...,...,...,...,...,...,...
2065,unlocated,Royal/Monumental,297877,Akkadian,stone,unknown,tablet,Middle Assyrian (ca. 1400-1000 BC),?,?
2066,"British Museum, London, UK",Legal,304371,Akkadian,stone,BM 090936,tablet,Early Neo-Babylonian (ca. 1150-730 BC),?,?
2067,"British Museum, London, UK",Legal,304373,Akkadian,stone,BM 104414,tablet,Neo-Assyrian (ca. 911-612 BC),50,145
2068,"National Museum of Iraq, Baghdad, Iraq",Royal/Monumental,322578,,stone,IM 092997,tablet,Old Babylonian (ca. 1900-1600 BC),22,46


Для краткости несколько модулей можно импортировать в одной строке — через запятую:

In [4]:
import csv, json, random, re

**Важно!** *Для питона названия модулей и их функций — такие же переменные*. Поэтому обязательно нужно следить за тем, чтобы эти названия не пересекались. Например, если импортировать модуль `random`, а потом сделать переменную `random` и присвоить ей какое-нибудь значение, то это название перезапишется, и добраться до модуля больше не получится (придётся импортировать заново). Поэтому не называйте переменные так же, как называются используемые вами модули и функции!

In [5]:
from random import choice

spisok = ["Санкт-Петербург", "Петроград", "Ленинград", "Санкт-Петербург"]
random_element = choice(spisok)   # выберем случайный элемент списка
print(random_element)

choice = "Эта строчка вероломно перезаписывает функцию choice()."

random_element = choice(spisok)   # выберем случайный элемент списка ещё раз
                                  # не вышло, ведь теперь choice — строка, а не функция
print(random_element)

Санкт-Петербург


TypeError: 'str' object is not callable

Чтобы избежать таких проблем, можно взять за привычку по умолчанию импортировать целые модули, а не отдельные функции. Тогда можно свободно переназвать имя `choice` — ведь соответствующая функция из модуля `random` теперь вызывается как `random.choice()` и не пересекается с именем `choice`. (Но использовать название модуля `random` для переменной всё ещё не стоит!)

In [6]:
import random

spisok = ["Санкт-Петербург", "Петроград", "Ленинград", "Санкт-Петербург"]
random_element = random.choice(spisok)   # выберем случайный элемент списка
print(random_element)

choice = "Эта строчка пытается вероломно перезаписать функцию choice()."

random_element = random.choice(spisok)   # выберем случайный элемент списка ещё раз
                                         # ура, получилось!
print(random_element)

Ленинград
Петроград


### Примеры модулей

Вот примеры некоторых часто используемых и полезных модулей, которые могут быть вам интересны. Некоторые из них очень просты, другие придётся осваивать отдельно. Нам не нужно знать их все поимённо и уметь ими пользоваться — но важно понимать диапазон задач, которые могут решать модули, и при необходимости оперативно изучать нужные инструменты в этих модулях. На название модуля можно нажать, чтобы прочитать о нём побольше:

- работа с текстовыми файлами
    - **[`csv`](https://pythonworld.ru/moduli/modul-csv.html)** — для быстрой работы с файлами формата .csv
    - **[`json`](https://pythonworld.ru/moduli/modul-json.html)** — для быстрой работы с файлами формата .json
    - **[`os`](https://pythonworld.ru/moduli/modul-os.html)** — для работы с файловой системой компьютера (выводить список файлов, создавать, перемещать и удалять файлы и папки)
    - **[`re`](https://docs.python.org/3/library/re.html)** — для продвинутой работы со строками («регулярные выражения»)
- анализ данных
    - **[`pandas`](https://pandas.pydata.org)** — для удобной работы с табличными данными
    - **[`matplotlib`](https://matplotlib.org/)** и [`seaborn`](https://seaborn.pydata.org) — для визуализации данных, построения диаграмм
    - [`scikit-learn`](https://scikit-learn.org/stable/) — для машинного обучения
- другие
    - **[`copy`](https://pythonworld.ru/moduli/modul-copy.html)** — для корректного копирования изменяемых объектов
    - [`datetime`](https://pythonworld.ru/moduli/modul-datetime.html) — для работы с датами и временем
    - [`math`](https://pythonworld.ru/moduli/modul-math.html) — для математических операций
    - [`random`](https://pythonworld.ru/moduli/modul-random.html) — для генерации случайных чисел
    - [`requests`](https://pythonru.com/biblioteki/kratkoe-rukovodstvo-po-biblioteke-python-requests) — для запросов к веб-страницам и сбора данных из интернета
    - [`statistics`](https://docs-python.ru/standart-library/modul-statistics-python/) — для подсчёта статистики

## Работа с текстовыми файлами

Для работы с текстовыми файлами в питоне есть специальные функции `open()` (открыть файл) и `close()` (закрыть файл). Да, в питоне обязательно нужно не только открывать файлы, но и закрывать их! (Это нужно по некоторым техническим причинам.) Чтобы не использовать сразу две функции, когда надо поработать с файлом, умные разработчи:цы питона решили облегчить нам жизнь и придумали специальную конструкцию с командой `with`:

```
with open(<ИМЯ ФАЙЛА>, <РЕЖИМ РАБОТЫ С ФАЙЛОМ>, encoding=<КОДИРОВКА>) as <СЛУЖЕБНАЯ ПЕРЕМЕННАЯ>:
    <ДЕЙСТВИЯ С ФАЙЛОМ>
    <ДЕЙСТВИЯ С ФАЙЛОМ>

<ПРОДОЛЖЕНИЕ ПРОГРАММЫ>
```

При вызове функции `open()` необходимо указать имя файла, а также режим работы с файлом (см. следующий абзац). Дополнительно можно указать, какую **кодировку** использует открываемый файл (аргумент `encoding`); в 98% случаев вам понадобится кодировка `"utf-8"`. Затем после команды `as` нужно ввести переменную, в которой питон будет хранить содержимое файла, и двоеточие. После этого все действия с файлом нужно проводить в блоке с отступом (как мы делали с условиями, циклами и определением функций). Когда отступ закончится, питон автоматически закроет файл — нам для этого не нужно ничего делать. В этом преимущество конструкции с командой `with`!

**Режим работы с файлом** показывает питону, что именно мы хотим делать с файлом. Режимы записываются специальными строками-сокращениями. Чаще всего мы хотим прочитать содержимое файла (тогда режим записывается как `"r"` ← англ. *read*) или записать в файл новое содержимое (`"w"` ← англ. *write*). При этом в режиме `"w"` исходное содержимое файла удаляется, и на его место записывается новое содержимое. А если мы хотим не удалять то, что в файле уже есть, а добавить к этому что-то новое, нам пригодится специальный режим `"a"` (← англ. *append*).

### Чтение файлов

Если мы попытаемся узнать, что хранится в служебной переменной, то увидим, что это не строка, а специальный объект, *text wrapper*. Сам он не показывает содержимое файла (но поможет нам добраться до содержимого):

In [11]:
with open("sem10-hpmor_ru_ch1.txt", "r", encoding="utf-8") as f:
    print(type(f))
    print(f)

<class '_io.TextIOWrapper'>
<_io.TextIOWrapper name='sem10-hpmor_ru_ch1.txt' mode='r' encoding='utf-8'>


Чтобы **прочитать файл**, нужно воспользоваться методом `.read()`, который вызывается от *text wrapper*’а. Этот метод возвращает строку, в которой хранится всё содержимое файла:

In [7]:
with open("sem10-hpmor_ru_ch1.txt", "r", encoding="utf-8") as f:
    text = f.read()

print(type(text))
print(text)

<class 'str'>
Глава 1. Крайне маловероятный день

Отказ от прав: Гарри Поттер принадлежит Дж. К. Роулинг, методы рационального мышления не принадлежат никому.

Примечания автора: У этого фанфика довольно неспешное начало, и первые 5 глав — всего лишь вступление, но если вы дочитали до 10 главы и он вам всё ещё не нравится — бросайте.

* * *

В лунном свете блестит полоска серебра…

(падают тёмные одежды)

...кровь льётся литрами, и слышен крик.

Все стены до последнего дюйма заняты книжными шкафами. B каждом шкафу по шесть полок, которые доходят почти до потолка. Некоторые полки плотно заставлены книгами в твёрдом переплёте: математика, химия, история и так далее. На других полках в два ряда стоит научная фантастика в мягкой обложке. Под второй ряд книг подложены коробки и деревянные бруски так, что он выглядывает из-за первого и можно прочитать названия стоящих в нём книг. Но и это не всё: книги перебираются на столы и диваны, образуют небольшие стопки под окнами.

Так выглядит гостин

Есть и альтернативный способ читать файлы, немного более громоздкий (именно он представлен в онлайн-курсе). Несмотря на то, что *text wrapper* не выдаёт содержимое файла сам по себе, по нему можно итерировать — и элементами итерации будут строчки из исходного файла. Каждая такая строка заканчивается на символ `"\n"`, который, как вы можете помнить, обозначает для компьютера переход на новую строку:

In [8]:
with open("sem10-hpmor_ru_ch1.txt", "r", encoding="utf-8") as f:
    stroki_list = []
    for stroka in f:
        stroki_list.append(stroka)

print(type(stroki_list))
print(stroki_list)

<class 'list'>
['Глава 1. Крайне маловероятный день\n', '\n', 'Отказ от прав: Гарри Поттер принадлежит Дж. К. Роулинг, методы рационального мышления не принадлежат никому.\n', '\n', 'Примечания автора: У этого фанфика довольно неспешное начало, и первые 5 глав — всего лишь вступление, но если вы дочитали до 10 главы и он вам всё ещё не нравится — бросайте.\n', '\n', '* * *\n', '\n', 'В лунном свете блестит полоска серебра…\n', '\n', '(падают тёмные одежды)\n', '\n', '...кровь льётся литрами, и слышен крик.\n', '\n', 'Все стены до последнего дюйма заняты книжными шкафами. B каждом шкафу по шесть полок, которые доходят почти до потолка. Некоторые полки плотно заставлены книгами в твёрдом переплёте: математика, химия, история и так далее. На других полках в два ряда стоит научная фантастика в мягкой обложке. Под второй ряд книг подложены коробки и деревянные бруски так, что он выглядывает из-за первого и можно прочитать названия стоящих в нём книг. Но и это не всё: книги перебираются на с

### Запись файлов

Если для чтения файлов используется метод `.read()`, то для **записи файлов** — метод `.write()`. Его нужно вызывать от объекта-файла и подавать в него строку, которую мы хотим записать в файл. Делать это нужно в режиме `"w"`:

In [None]:
text = "Ура! Наконец-то я, текст, буду в файле!"

with open("new_file.txt", "w", encoding="utf-8") as f:
    f.write(text)

Проверим, что текст сохранился:

In [None]:
with open("new_file.txt", "r", encoding="utf-8") as f:
    print(f.read())

Ура! Наконец-то я, текст, буду в файле!


**Внимание**! В режиме записи (`"w"`) файл всегда перезаписывается с нуля. Когда вы вызываете функцию `open()` в режиме записи (`"w"`), файл перезаписывается как пустой. Заметьте, что это происходит не в тот момент, когда вы вызываете `f.write()`! То есть даже если после подключения к файлу ничего не происходит, он всё равно перезаписывается:

In [None]:
with open("new_file.txt", "w", encoding="utf-8") as f:
    nenuzhnaya_peremennaya = True

with open("new_file.txt", "r", encoding="utf-8") as f:
    content = f.read()
print(content)
print(type(content))
print(len(content))


<class 'str'>
0


Если попытаться записать файл в режиме чтения `"r"`, то ничего не получится:

In [None]:
with open("new_file.txt", "r", encoding="utf-8") as f:
    f.write(text)

UnsupportedOperation: not writable

То же самое — если попытаться прочитать файл в режиме записи `"w"`:

In [None]:
with open("new_file.txt", "w", encoding="utf-8") as f:
    print(f.read())

UnsupportedOperation: not readable

### Чтение других форматов файлов

Описанные выше способы чтения файлов подходят для самых простых файлов — формата *txt*. Такие файлы содержат просто чистый текст без форматирования (без шрифтов, размера текста, цвета и всего прочего). В теории так можно читать и некоторые другие типы файлов (*csv*, *json*, *xml*…), хотя для них существуют более удобные способы чтения и записи (= отдельные модули). Некоторые типы файлов (например, *docx* и *mp3*) открыть таким дефолтным способом не получится вообще — то есть открыть-то получится, но содержимое файла будет выглядеть как белиберда, потому что эти форматы файлов используют сложные механизмы шифрования, и их могут корректно прочитать только соответствующие программы (типа Microsoft Word).

Ниже — примеры использования модулей `csv` и `json` для чтения файлов соответствующего типа. Чтобы правильно пользоваться этими модулями, нужно заглянуть в их документацию.

(**Внимание!** Материал в этом подразделе не нужно учить, но его рекомендуется прочитать, понять суть сказанного — и иметь в виду, например, при подготовке проектов.)

In [9]:
import csv, json

Файлы формата ***csv*** хранят табличные данные. Такие файлы можно легко открыть в Excel или гугл-таблицах. Для разграничения значений разных столбцов в этом формате используются запятые или точки с запятой (поэтому он называется *csv* ← *comma-separated values*, то есть «значения, разделённые запятыми»).

Если открыть *csv*-файл обычным способом, мы увидим просто набор строк, в которых значения разделены запятыми. С ним не очень удобно работать. Это видно на примере таблички с частотностью шугнанских букв (в первом столбце, `"letter"`, сама буква, а во втором столбце, `"freq"`, её частотность в текстах):

In [10]:
with open("sem10-shughni-letter-frequencies.csv", "r", encoding="utf-8") as f:
    text = f.read()

print(text)

letter;freq
а;12,478
и;6,502
т;6,255
д;5,915
у;5,525
р;5,319
н;5,001
м;4,465
е;4,092
й;4,042
о;3,305
w;2,976
ā;2,819
з;2,545
с;2,511
к;2,406
х;2,255
л;1,922
ӣ;1,838
б;1,581
ч;1,492
в;1,374
г;1,357
ӯ;1,351
δ;1,249
у̊;1,21
х̌;1,013
ҷ;0,974
ц;0,97
п;0,894
ф;0,871
қ;0,812
θ;0,806
ш;0,736
ғ;0,401
ê;0,319
ɣ̌;0,163
ж;0,16
ӡ;0,097



Конечно, мы можем попробовать разделить эту гигантскую строку на ряды (по символу `"\n"`), а потом ряды на ячейки (по точке с запятой `";"`). Но это очень много мороки. А с помощью модуля *csv* мы сможем быстро получить из этого файла питонскую структуру — набор списков:

In [11]:
with open("sem10-shughni-letter-frequencies.csv", "r", encoding="utf-8") as f:
    rows = []
    for row in csv.reader(f, delimiter=";"):   # используем функцию reader() из модуля csv
        rows.append(row)

print(rows)
print()

print(rows[2])
print(rows[2][1])

[['letter', 'freq'], ['а', '12,478'], ['и', '6,502'], ['т', '6,255'], ['д', '5,915'], ['у', '5,525'], ['р', '5,319'], ['н', '5,001'], ['м', '4,465'], ['е', '4,092'], ['й', '4,042'], ['о', '3,305'], ['w', '2,976'], ['ā', '2,819'], ['з', '2,545'], ['с', '2,511'], ['к', '2,406'], ['х', '2,255'], ['л', '1,922'], ['ӣ', '1,838'], ['б', '1,581'], ['ч', '1,492'], ['в', '1,374'], ['г', '1,357'], ['ӯ', '1,351'], ['δ', '1,249'], ['у̊', '1,21'], ['х̌', '1,013'], ['ҷ', '0,974'], ['ц', '0,97'], ['п', '0,894'], ['ф', '0,871'], ['қ', '0,812'], ['θ', '0,806'], ['ш', '0,736'], ['ғ', '0,401'], ['ê', '0,319'], ['ɣ̌', '0,163'], ['ж', '0,16'], ['ӡ', '0,097']]

['и', '6,502']
6,502


А если освоить модуль `pandas`, можно работать с этими данными как с настоящей таблицей, и выглядеть они будут ещё более понятно. Модуль `pandas` даже не требует открытия файла конструкцией с `with` (такое открытие происходит под капотом функции `read_csv`, и нам его писать не нужно):

In [12]:
import pandas as pd
table = pd.read_csv("sem10-shughni-letter-frequencies.csv", delimiter=";")

table

Unnamed: 0,letter,freq
0,а,12478
1,и,6502
2,т,6255
3,д,5915
4,у,5525
5,р,5319
6,н,5001
7,м,4465
8,е,4092
9,й,4042


Файлы формата ***json*** хранят питоновские структуры данных. Если открыть такой файл в обычном блокноте, вы увидите привычные вам объекты — списки, строки, словари:

```
[
    {
        "collection": "University of Pennsylvania Museum of Archaeology and Anthropology, Philadelphia, Pennsylvania, USA",
        "genre": "Administrative",
        "id": 45124,
        "language": "Sumerian",
        "material": "clay",
        "museum_no": "UM 47-29-269",
        "object_type": "tablet",
        "period": "Ur III (ca. 2100-2000 BC)",
        "thickness": "?",
        "width": "?"
    }
]
```

Если открыть *json*-файл обычным способом, мы получим большую строку, в которой все эти кавычки и скобки будут просто символами:

In [13]:
with open("sem9-corpus.json", "r", encoding="utf-8-sig") as f:
    data = f.read()

print(type(data))
print("Первые тридцать элементов:", list(data[:30]))

<class 'str'>
Первые тридцать элементов: ['[', '\n', ' ', ' ', ' ', ' ', '{', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '"', 'c', 'o', 'l', 'l', 'e', 'c', 't', 'i', 'o', 'n', '"', ':', ' ']


In [14]:
print(data[:30])

[
    {
        "collection": 


Открыть *json*-файл поможет специальный модуль `json`, который легко распознаёт сложную структуру и превращает её в объекты питона. Функция `load()` из этого модуля возвращает нужную структуру (в нашем случае список словарей), и её можно записать в переменную и использовать дальше:

In [None]:
with open("sem9-corpus.json", "r", encoding="utf-8-sig") as f:
    data = json.load(f)                                           # специальная функция load() из модуля json

print(type(data))
print("Первые пять элементов:", data[:5])

<class 'list'>
Первые пять элементов: {'collection': 'University of Pennsylvania Museum of Archaeology and Anthropology, Philadelphia, Pennsylvania, USA', 'genre': 'Administrative', 'id': 45124, 'language': 'Sumerian', 'material': 'clay', 'museum_no': 'UM 47-29-269', 'object_type': 'tablet', 'period': 'Ur III (ca. 2100-2000 BC)', 'thickness': '?', 'width': '?'} {'collection': 'Yale Babylonian Collection, New Haven, Connecticut, USA', 'genre': 'Administrative', 'id': 150092, 'language': 'Sumerian; Akkadian', 'material': 'clay', 'museum_no': 'YBC 07854', 'object_type': 'tablet', 'period': 'Old Babylonian (ca. 1900-1600 BC)', 'thickness': '14', 'width': '27'} {'collection': 'National Museum of Iraq, Baghdad, Iraq', 'genre': 'Administrative', 'id': 4128, 'language': 'undetermined', 'material': 'clay', 'museum_no': 'IM 134852', 'object_type': 'tablet', 'period': 'Uruk III (ca. 3200-3000 BC)', 'thickness': '14', 'width': '44'} {'collection': 'Louvre Museum, Paris, France', 'genre': 'Administ

Модуль `pandas` можно использовать в том числе для *json*-файлов (см. пример в начале этой тетрадки).