# Модули

Модуль - это просто файл типа `.py`, содержащий последовательность операторов питона. Его можно использовать двумя способами: либо запустить как программу, либо импортировать в другой модуль, чтобы сделать доступными определёённые там функции и переменные. При импортировании все операторы модуля выполняются от начала до конца, включая определения функций и классов и присваивания переменным. Впрочем, при повторном импортировании модуль не выполняется. Если Вы его изменили и хотите импортировать изменённую версию, нужно приложить специальные усилия.

In [None]:
# python file_name.py

In [None]:
import math
math, type(math)

In [None]:
import numpy as np
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Модуль имеет своё пространство имён. Оператор `import math` вводит *объект типа модуль* `math` в текущее пространство имён. Имена, определённые в модуле, при этом в текущем пространстве имён не появляются - их нужно использовать как `math.что_то`. Функция `dir` возвращает список имён в модуле (как и в классе или объекте).

In [None]:
dir(math)

['__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'acos',
 'acosh',
 'asin',
 'asinh',
 'atan',
 'atan2',
 'atanh',
 'ceil',
 'copysign',
 'cos',
 'cosh',
 'degrees',
 'e',
 'erf',
 'erfc',
 'exp',
 'expm1',
 'fabs',
 'factorial',
 'floor',
 'fmod',
 'frexp',
 'fsum',
 'gamma',
 'gcd',
 'hypot',
 'inf',
 'isclose',
 'isfinite',
 'isinf',
 'isnan',
 'ldexp',
 'lgamma',
 'log',
 'log10',
 'log1p',
 'log2',
 'modf',
 'nan',
 'pi',
 'pow',
 'radians',
 'remainder',
 'sin',
 'sinh',
 'sqrt',
 'tan',
 'tanh',
 'tau',
 'trunc']

In [None]:
math.__doc__

'This module provides access to the mathematical functions\ndefined by the C standard.'

In [None]:
math.pi, math.exp

(3.141592653589793, <function math.exp>)

In [None]:
math.exp(math.pi)

23.140692632779267

Встроенные функции, классы и т.д. языка питон живут в модуле `builtins`.

In [None]:
import builtins
dir(builtins)


['ArithmeticError',
 'AssertionError',
 'AttributeError',
 'BaseException',
 'BlockingIOError',
 'BrokenPipeError',
 'BufferError',
 'ChildProcessError',
 'ConnectionAbortedError',
 'ConnectionError',
 'ConnectionRefusedError',
 'ConnectionResetError',
 'EOFError',
 'Ellipsis',
 'EnvironmentError',
 'Exception',
 'False',
 'FileExistsError',
 'FileNotFoundError',
 'FloatingPointError',
 'GeneratorExit',
 'IOError',
 'ImportError',
 'IndentationError',
 'IndexError',
 'InterruptedError',
 'IsADirectoryError',
 'KeyError',
 'KeyboardInterrupt',
 'LookupError',
 'MemoryError',
 'ModuleNotFoundError',
 'NameError',
 'None',
 'NotADirectoryError',
 'NotImplemented',
 'NotImplementedError',
 'OSError',
 'OverflowError',
 'PermissionError',
 'ProcessLookupError',
 'RecursionError',
 'ReferenceError',
 'RuntimeError',
 'StopAsyncIteration',
 'StopIteration',
 'SyntaxError',
 'SystemError',
 'SystemExit',
 'TabError',
 'TimeoutError',
 'True',
 'TypeError',
 'UnboundLocalError',
 'UnicodeDecode

Можно задать короткое имя модуля с помощью оператора `as`

In [None]:
import random as r
r

<module 'random' from '/usr/lib/python3.7/random.py'>

In [None]:
dir(r)

In [None]:
random

NameError: ignored

In [None]:
dir(random)

NameError: ignored

In [None]:
[r.random() for i in range(10)]

[0.28126485450122396,
 0.1595824190263514,
 0.8019133872500616,
 0.7435895949575607,
 0.91845169670147,
 0.1849110546678483,
 0.3242286921275366,
 0.23728361003832876,
 0.9664122675226245,
 0.6543362060047598]

Такая форма оператора `import` вводит перечисленные имена (функции, переменные, классы) из модуля в текущее пространство имён. Лучше импортировать только необходимые функции и классы. В таком случае не надо писать перед каждым имя модуля.

In [None]:
# проверим, что path нет
print(path)

NameError: ignored

In [None]:
from sys import path
import sys as s

Переменная `path` - это список имён директорий, в которых оператор `import` ищет модули. В начале в него входит `''` - директория, в которой находится текущая программа (или текущая директория в случае интерактивной сессии); директории, перечисленные в переменной окружения `PYTHONPATH` (если такая переменная есть); и стандартные директории для данной версии питона. Но это обычный список, его можно менять стандартными языковыми средствами. Например, опасно включать текущую директорию в `path` - если пользователю в его директорию кто-нибудь подсунет зловредную версию `math.py`, а программа пользователя выполнит `import math`, то этот модуль выполнится, и может, скажем, удалить все файлы этого пользователя. Но можно сделать `path=path[1:]`.

In [None]:
path

['',
 '/content',
 '/env/python',
 '/usr/lib/python37.zip',
 '/usr/lib/python3.7',
 '/usr/lib/python3.7/lib-dynload',
 '/usr/local/lib/python3.7/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.7/dist-packages/IPython/extensions',
 '/root/.ipython']

In [None]:
path.append('/content/dir_name/one_more_dir_name')
path

['',
 '/content',
 '/env/python',
 '/usr/lib/python37.zip',
 '/usr/lib/python3.7',
 '/usr/lib/python3.7/lib-dynload',
 '/usr/local/lib/python3.7/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.7/dist-packages/IPython/extensions',
 '/root/.ipython',
 '/content/dir_name/one_more_dir_name']

В питоне все является объектами, которым мы можем задавать свои собственные имена

In [None]:
from math import factorial as f

In [None]:
f(100)

93326215443944152681699238856266700490715968264381621468592963895217599993229915608941463976156518286253697920827223758251185210916864000000000000000000000000

In [None]:
len(str(f(100)))

158

Также есть оператор `from ... import *`, который импортирует в текущее пространство имён все имена, определённые в модуле. Обычно это плохая идея.

Например, в текущей директории есть файл `fact.py`. Мы работаем в `ipython`, который предоставляет всякие удобства для интерактивной работы. Например, можно выполнить `shell` команду, если в начале строки поставить `!` (только не пробуйте этого делать в обычном интерпретаторе питон). Так что легко распечатать этот файл. В нём определена одна функция `fact`.

In [None]:
!cat fact.py

#!/usr/bin/env python3
'В этом модуле определена функция fac'

def fac(n):
    'calculate factorial of n'
    assert type(n) is int and n >= 0
    r = 1
    for i in range(2, n + 1):
        r *= i
    return r

if __name__ == '__main__':
    from sys import argv, exit
    if len(argv) != 2:
        print('usage: ./fac.py n')
        exit(1)
    print(fac(int(argv[1])))

In [None]:
# python file.py arg1 arg2

In [None]:
# import sample_data, fact as fact

In [None]:
from fact import *
print(fac(10))
fact.fac(10)

3628800


NameError: ignored

Файл `fact.py` показывает типичное устройство любого файла на питоне. 

In [None]:
import fact
fact.__doc__

'В этом модуле определена функция fac'

In [None]:
help(fact)

Help on module fact:

NAME
    fact - В этом модуле определена функция fac

FUNCTIONS
    fac(n)
        calculate factorial of n

FILE
    /content/fact.py




In [None]:
import pathlib
help(pathlib)

Функция `dir` без аргумента возвращает список имён в текущем пространстве имён. Многие имена в этом списке определены `ipython`-ом; в сессии с обычным интерпретатором питон их бы не было.

In [None]:
dir()

В локальном пространстве имён этой функции два имени.

In [None]:
def f(x):
    y = 0
    print(dir())

In [None]:
f(0)

В каждом модуле есть строковая переменная `__name__`, она содержит имя модуля. Главная программа (или интерактивная сессия) тоже является модулем, его имя `__main__`. Этим и объясняется вид оператора `if`, который стоит в конце файла `fact.py`.

In [None]:
__name__

'__main__'

In [None]:
r.__name__

'random'

In [None]:
# sys.path

Модули не обязательно должны размещаться непосредственно в какой-нибудь директории из `sys.path`; они могут находиться в поддиректории. Например, в текущей директории (включённой в `path`) есть поддиректория `d1`, внутри которой поддиректория `d2`.

In [None]:
# создадим директории
!mkdir d1
!mkdir d1/d2
!mkdir p1
!mkdir p1/p2

In [None]:
# создадим пустые файлы
!touch d1/m1.py
!touch d1/d2/m2.py
!touch p1/m1.py
!touch p1/p2/m2.py
!touch p1/__init__.py


In [None]:
!ls

d1  fact.py  p1  __pycache__  sample_data


In [None]:
!ls sample_data

anscombe.json		      mnist_test.csv
california_housing_test.csv   mnist_train_small.csv
california_housing_train.csv  README.md


In [None]:
!ls d1

d2  m1.py


In [None]:
!rm -r d1/d2/__pycache__/

In [None]:
ls d1/d2

m2.py


In [None]:
ls d1

[0m[01;34md2[0m/  m1.py


Мы можем импортировать модули `m1` и `m2` так.

In [None]:
import d1.m1
d1.m1.f1()

1

In [None]:
import d1.d2.m2
d1.d2.m2.f2()

2

Такое поддерево директорий с модулями можно превратить в пакет, который с точки зрения пользователя выглядит как единый модуль. Для этого нужно добавить файл `__init__.py`. Вот другое поддерево с теми же файлами `m1.py` и `m2.py`.

In [None]:
!ls p1

__init__.py  m1.py  p2


Только добавлен файл `__init__.py`.

In [None]:
!cat p1/__init__.py

from p1.m1 import f1
from p1.p2.m2 import f2


Теперь мы можем импортировать этот пакет.

In [None]:
import p1

Питон находит в `sys.path` директорию `p1`, содержащую `__init__.py`, и интерпретирует её как пакет. При импорте выполняется этот файл `__init__.py`, инициализирующий пакет. Все функции, переменные и т.д., определённые в этом файле (непосредственно или через импорт), становятся символами этого пакета. `__init__.py` может включать не все функции из модулей этого дерева директорий (и даже не все модули); символы, не определённые в `__init__.py`, недоступны после импорта пакета (конечно, пользователь всегда может импортировать любой модуль напрямую и получить доступ ко всем его символам).

In [None]:
p1.__doc__

In [None]:
# раньше d1.m1.f1()
p1.f1(), p1.f2()

(1, 2)

# Регулярные выражения

Метод `find` ищет подстроку в строке.

In [None]:
s = 'абракадабра'
s.find('бра')

1

In [None]:
s.find('бро')

-1

In [None]:
if s.find('бро'):
    print('found')

found


In [None]:
s.find('бра', 3)

8

In [None]:
s.replace('бра','БРА')

'аБРАкадаБРА'

In [None]:
s.replace('бра', 'БРА', 1)

'аБРАкадабра'

Но эти методы работают только с фиксированными подстроками. Для более гибкой обработки текстов можно использовать модуль `re`, который позволяет искать и заменять подстроки, соответствующий некоторым образцам - регулярным выражениям.

[Визуализация регулярок](https://regex101.com/) 

In [None]:
# regular expressions

In [None]:
from re import search, sub, compile

In [None]:
s = 'xy xay xaby xby'
m = search('x.y', s)  # x....y
if m:
    print(m.start(), m.end(), m.group())
else:
    print('Не найдено')

3 6 xay


Самая часто используемая функция того модуля - это `sub`. Она возвращает копию исходной строки, в которой все подстроки, соответствующие образцу, заменены на заданную строку - замену.

In [None]:
sub('x.y', 'XXX', s)

'xy XXX xaby XXX'

In [None]:
sub('x.y','XXX', s, 1)

'xy XXX xaby xby'

In [None]:
# ., ^, $, *, ?, \, |, {, }, [, ], (, )

In [None]:
print('1 \n2')

1 
2


In [None]:
print('1 \\n2')

1 \n2


In [None]:
'\\\\'

'\\\\'

In [None]:
r'\n'

'\\n'

In [None]:
# [0-9]
# [a-zA-Z]
# [а-яА-Я] отсутствует ё и Ё
# [^a-z] - все, кроме [a-z]
# \d
# \w
# \s - 'пробел' - любое пустое пространство 
# \D
# * - (0, +inf)
# .* + (1, +inf)
# ?
# a{5} == 'aaaaa'
# a{2, 4} == 'aa', 'aaa', 'aaaa'
# a{6,} == (6, inf)

Если мы хотим использовать одно и то же регулярное выражение несколько раз, можно скомпилировать его в некий объект, и вместо функций модуля `re` вызывать методы этого объекта. Это повысит эффективность.

In [None]:
xy = compile('x.y')
m = xy.search(s)
print(s)
print(m.group())

xy xay xaby xby
xay


In [None]:
xy.sub('XXX', s)

'xy XXX xaby XXX'

В регулярном выражении все символы, кроме специальных, обозначают сами себя. Специальные символы - это `.`, `^`, `$`, `*`, `+`, `?`, `\`, `|`, `{`, `}`, `[`, `]`, `(`, `)`. Если требуется включить в регулярное выражение один из этих символов буквально, как обычный, перед ним нужно поставить `\`. Вообще, в регулярных выражениях часто приходится использовать `\`. А чтобы включить этот символ в строку на питоне, его надо писать как `\\`. Например, регулярное выражение, которое сопоставляется с символом `\` - это `\\`; в виде питонской строки его приходится писать как `'\\\\'`. Неудобно. Поэтому для записи регулярных выражений часто используют сырые строки - raw. Они пишутся как `r'строка'` или `r"строка"`, в них `\` является вполне обычным символом. Так что это же регулярное выражение можно записать в виде сырой строки `r'\\'`.

In [None]:
r'\\'  # raw

'\\\\'

Специальный символ `.` в регулярном выражении сопоставляется с любым (одним!) символом в строке (кроме символа `'\n'`). Мы это уже видели. Конструкция `[abc]` сопоставляется с `a`, `b` или `c`. В ней можно использовать диапазоны: `[0-9]` - это любая цифра, а `[a-zA-Z]` - любая латинская буква. Но тут надо быть осторожным: это диапазоны в юникоднм порядке. Латинские буквы в нём действительно идут подряд, так что для обычных латинских букв (без каких-нибудь умляютов) это правильно. Но вот `[а-яА-Я]` не включает все расские буквы - `ё` и `Ё` находятся вне этих диапазонов. Так что для проверки на русскую букву нужно писать `[а-яёА-ЯЁ]`. Большинство специальных символов теряют свою специальность между `[` и `]` и рассматриваются как обычные. Если первым символом после `[` идёт `^`, то это значит любой символ, кроме тех, что дальше перечислены.

Юникод умеет много гитик, поэтому надёжнее использовать заранее определённые классы символов. Так, `\d` означает любую цифру (в юникоде, в добавок к `[0-9]`, их есть ещё много); `\w` означает любой символ, который может присутствовать в слове - букву, цифру или `_`; `\s` означает любой "пробел" (пустое пространство, включая табуляцию, `'\n'` и т.д.). Заглавные буквы означают дополнения к этим множествам: `\D` - любая не-цифра; `\W` - не встречается в словах (т.е. не буква, не цифра и не `_`); `\S` - любой не-пробел.

После подвыражения в регулярном выражении можно поставить `*`, это означает любое число повторений (от 0 до $\infty$) этого подвыражения. Например, `.*` сопоставляется с абсолютно чем угодно. Если поставить `+`, то это любое ненулевое число повторений (от 1 до $\infty$). А если поставить `?`, то это 0 или 1 вхождение, т.е. это предыдущее подвыражение может присутствовать либо отсутствовать. Можно задать возможные числа повторений более явно: `а{5}` означает 5 букв `а`, `а{2,4}` - от 2 до 4 букв `а`, `а{6,}` - от 6 до $\infty$ букв `а`. Но это используется редко.

In [None]:
m = search(r'\d+','abc123xyz')
print(m.group())

123


`^` означает начало строки, а `$` - конец.

In [None]:
for s in ['0ab','a0b']:
    if search(r'^0', s):
        print('нашли')
    else:
        print('не нашли')

нашли
не нашли


`x|y` означает `x` или `y`. Подвыражения можно заключать в скобки.

In [None]:
m = search(r'(a\d+b)|(c\d+d)','xxxc123dyyy')
print(m.group())

c123d


In [None]:
m = search(r'0(ab)*1','x0ababab1y')
print(m.group())

0ababab1


Но главная польза от скобок не в этом. Каждая скобка создаёт *группу*. При поиске регулярного выражения в строке куски строки, сопоставленные каждому подвыражению в скобках, запоминаются, и их можно извлечь и использовать. Метод `group` объекта сопоставления, вызванный без параметров, возвращает подстроку, сопоставленную всему регулярному выражению в целом; если же его вызвать с целым параметром `n`, то он возвращает `n`-ую группу.

In [None]:
m = search(r'(^[a-z]*)(\d*)([a-z]*$)','abc123xyz')
print(f'1: {m.group(1)}, 2: {m.group(2)}, 3: {m.group(3)}')

1: abc, 2: 123, 3: xyz


Ещё более это полезно в вызовах `sub`. Почти всегда строка-замена должна содержать в себе части исходной строки, найденные при сопоставлении с регулярным выражением. Для этого в строке-замене можно использовать обозначения `\1`, `\2` и т.д. - они означают 1-ю, 2-ю и т.д. группы.