## Понятие модуля
В соответствии с модульным подходом к программированию большая задача разбивается на несколько более мелких, каждую из которых (в идеале) решает отдельный модуль. В разных методологиях даются различные ограничения на размер модулей, однако при построении модульной структуры программы важнее составить такую композицию модулей, которая позволила бы свести к минимуму связи между ними. Набор классов и функций, имеющий множество связей между своими элементами, было бы логично расположить в одном модуле. Есть и еще одно полезное замечание: модули должно быть легче использовать, чем написать заново. Это значит, что модуль должен иметь удобный интерфейс: набор функций, классов и констант, который он предлагает своим пользователям.

В языке Python набор модулей, посвященных одной проблеме, можно поместить в пакет. Хорошим примером такого пакета является пакет xml, в котором собраны модули для различных аспектов обработки XML.

В программе на Python модуль представлен объектом-модулем, атрибутами которого являются имена, определенные в модуле:

> import datetime

> d1 = datetime.date(2004, 11, 20)

В данном примере импортируется модуль datetime. В результате работы оператора import в текущем пространстве имен появляется объект с именем datetime.

Модули для использования в программах на языке Python по своему происхождению делятся на обычные (написанные на Python) и модули расширения, написанные на другом языке программирования (как правило, на C). С точки зрения пользователя они могут отличаться разве что быстродействием. Бывает, что в стандартной библиотеке есть два варианта модуля: на Python и на C. Таковы, например, модули pickle и cPickle. Обычно модули на Python в чем-то гибче, чем модули расширения.

## Модули в Python
Модуль оформляется в виде отдельного файла с исходным кодом. Стандартные модули находятся в каталоге, где их может найти соответствующий интерпретатор языка. Пути к каталогам, в которых Python ищет модули, можно увидеть в значении переменной sys.path:

In [2]:
import sys
sys.path

['',
 'C:\\Users\\Александр\\Python_ML',
 'c:\\python37-32\\python37.zip',
 'c:\\python37-32\\DLLs',
 'c:\\python37-32\\lib',
 'c:\\python37-32',
 'c:\\python37-32\\lib\\site-packages',
 'c:\\python37-32\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\Александр\\.ipython']

В последних версиях Python модули можно помещать и в zip-архивы для более компактного хранения (по аналогии с jar-архивами в Java).

При запуске программы поиск модулей также идет в текущем каталоге. (Нужно внимательно называть собственные модули, чтобы не было конфликта имен со стандартными или дополнительно установленными модулями.)

Подключение модуля к программе на Python осуществляется с помощью оператора import. У него есть две формы: import и from-import:

> import os

> import numpy as np

> from sys import argv, environ

> from string import *

С помощью первой формы с текущей областью видимости связывается только имя, ссылающееся на объект модуля, а при использовании второй - указанные имена (или все имена, если применена * ) объектов модуля связываются с текущей областью видимости. При импорте можно изменить имя, с которым объект будет связан, с помощью as.В первом случае пространство имен модуля остается в отдельном имени и для доступа к конкретному имени из модуля нужно применять точку. Во втором случае имена используются так, как если бы они были определены в текущем модуле:

> os.system("dir")

> digits = re.compile("\d+")

> print argv[0], environ

## Встроенные функции
В среде Python без дополнительных операций импорта доступно более сотни встроенных объектов, в основном, функций и исключений. Для удобства функции условно разделены по категориям:

1. Функции преобразования типов и классы: str, repr, int, list, tuple, long, float, complex, dict, super, file, bool, object
2. Числовые и строковые функции: abs, divmod, ord, pow, len, chr, unichr, hex, oct, cmp, round, unicode
3. Функции обработки данных: apply, map, filter, reduce, zip, range, xrange, max, min, iter, enumerate, sum
4. Функции определения свойств: hash, id, callable, issubclass, isinstance, type
5. Функции для доступа к внутренним структурам: locals, globals, vars, intern, dir
6. Функции компиляции и исполнения: eval, execfile, reload, __import__, compile
7. Функции ввода-вывода: input, raw_input, open
8. Функции для работы с атрибутами: getattr, setattr, delattr, hasattr
9. Функции-"украшатели" методов классов: staticmethod, classmethod, property

In [17]:
help(getattr)

Help on built-in function getattr in module builtins:

getattr(...)
    getattr(object, name[, default]) -> value
    
    Get a named attribute from an object; getattr(x, 'y') is equivalent to x.y.
    When a default argument is given, it is returned when the attribute doesn't
    exist; without it, an exception is raised in that case.



## Обзор стандартной библиотеки
Модули стандартной библиотеки можно условно разбить на группы по тематике.

1. Сервисы периода выполнения. Модули: sys, atexit, copy, traceback, math, cmath, random, time, calendar, datetime, sets, array, struct, itertools, locale, gettext.
2. Поддержка цикла разработки. Модули: pdb, hotshot, profile, unittest, pydoc. Пакеты docutils, distutils.
3. Взаимодействие с ОС (файлы, процессы). Модули: os, os.path, getopt, glob, popen2, shutil, select, signal, stat, tempfile.
4. Обработка текстов. Модули: string, re, StringIO, codecs, difflib, mmap, sgmllib, htmllib, htmlentitydefs. Пакет xml.
5. Многопоточные вычисления. Модули: threading, thread, Queue.
6. Хранение данных. Архивация. Модули: pickle, shelve, anydbm, gdbm, gzip, zlib, zipfile, bz2, csv, tarfile.
7. Платформо-зависимые модули. Для UNIX: commands, pwd, grp, fcntl, resource, termios, readline, rlcompleter. Для Windows: msvcrt, _winreg, winsound.
8. Поддержка сети. Протоколы Интернет. Модули: cgi, Cookie, urllib, urlparse, httplib, smtplib, poplib, telnetlib, socket, asyncore. Примеры серверов: SocketServer, BaseHTTPServer, xmlrpclib, asynchat.
9. Поддержка Internet. Форматы данных. Модули: quopri, uu, base64, binhex, binascii, rfc822, mimetools, MimeWriter, multifile, mailbox. Пакет email.
10. Python о себе. Модули: parser, symbol, token, keyword, inspect, tokenize, pyclbr, py_compile, compileall, dis, compiler.
11. Графический интерфейс. Модуль Tkinter.

## Основные встроенные модули
### Модуль random
Модуль random управляет генерацией случайных чисел. Его основные функции:

random(): генерирует случайное число от 0.0 до 1.0
randint(): возвращает случайное число из определенного диапазона
randrange(): возвращает случайное число из определенного набора чисел
shuffle(): перемешивает список
choice(): возвращает случайный элемент списка

Функция random() возвращает случайное число с плавающей точкой в промежутке от 0.0 до 1.0. Если же нам необходимо число из большего диапазона, скажем от 0 до 100, то мы можем соответственно умножить результат функции random на 100.

In [1]:
import random
 
number = random.random()  # значение от 0.0 до 1.0
print(number)
number = random.random() * 100  # значение от 0.0 до 100.0
print(number)

0.07151167242765444
21.843141501921714


Функция randint(min, max) возвращает случайное целое число в промежутке между двумя значениями min и max.

In [3]:
import random
 
number = random.randint(20, 35)  # значение от 20 до 35
print(number)

24


Функция randrange() возвращает случайное целое число из определенного набора чисел. Она имеет три формы:

randrange(stop): в качестве набора чисел, из которых происходит извлечение случайного значения, будет использоваться диапазон от 0 до числа stop

randrange(start, stop): набор чисел представляет диапазон от числа start до числа stop

randrange(start, stop, step): набор чисел представляет диапазон от числа start до числа stop, при этом каждое число в диапазоне отличается от предыдущего на шаг step

In [None]:
import random
 
number = random.randrange(10)  # значение от 0 до 10
print(number)
number = random.randrange(2, 10)  # значение в диапазоне 2, 3, 4, 5, 6, 7, 8, 9, 10
print(number)
number = random.randrange(2, 10, 2)  # значение в диапазоне 2, 4, 6, 8, 10
print(number)

#### Работа со списком
Для работы со списками в модуле random определены две функции: функция shuffle() перемешивает список случайным образом, а функция choice() возвращает один случайный элемент из списка:

In [4]:
import random

numbers = [1, 2, 3, 4, 5, 6, 7, 8]
random.shuffle(numbers)
print(numbers)     # 1
random_number = random.choice(numbers)
print(random_number)

[6, 2, 3, 5, 7, 8, 4, 1]
1


### Модуль math
Встроенный модуль math в Python предоставляет набор функций для выполнения математических, тригонометрических и логарифмических операций. Некоторые из основных функций модуля:

- pow(num, power): возведение числа num в степень power
- sqrt(num): квадратный корень числа num
- ceil(num): округление числа до ближайшего наибольшего целого
- floor(num): округление числа до ближайшего наименьшего целого
- factorial(num): факториал числа
- degrees(rad): перевод из радиан в градусы
- radians(grad): перевод из градусов в радианы
- cos(rad): косинус угла в радианах
- sin(rad): синус угла в радианах
- tan(rad): тангенс угла в радианах
- acos(rad): арккосинус угла в радианах
- asin(rad): арксинус угла в радианах
- atan(rad): арктангенс угла в радианах
- log(n, base): логарифм числа n по основанию base
- log10(n): десятичный логарифм числа n

Пример применения некоторых функций:

In [5]:
import math
 
# возведение числа 2 в степень 3
n1 = math.pow(2, 3)
print(n1)  # 8
 
# ту же самую операцию можно выполнить так
n2 = 2**3
print(n2)
 
# возведение в квадрат
print(math.sqrt(9))  # 3
 
# ближайшее наибольшее целое число
print(math.ceil(4.56))  # 5
 
# ближайшее наименьшее целое число
print(math.floor(4.56))  # 4
 
# перевод из радиан в градусы
print(math.degrees(3.14159))  # 180
 
# перевод из градусов в радианы
print(math.radians(180))   # 3.1415.....
# косинус
print(math.cos(math.radians(60)))  # 0.5
# cинус
print(math.sin(math.radians(90)))   # 1.0
# тангенс
print(math.tan(math.radians(0)))    # 0.0
 
print(math.log(8,2))    # 3.0
print(math.log10(100))    # 2.0

8.0
8
3.0
5
4
179.9998479605043
3.141592653589793
0.5000000000000001
1.0
0.0
3.0
2.0


Также модуль math предоставляет ряд встроенных констант, такие как PI и E:

In [None]:
import math
radius = 30
# площадь круга с радиусом 30
area = math.pi * math.pow(radius, 2)
print(area)
 
# натуральный логарифм числа 10
number = math.log(10, math.e)
print(number)

### Модуль locale
При форматировании чисел Python по умолчанию использует англосаксонскую систему, при которой разряды целого числа отделяются друг от друга запятыми, а дробная часть от целой отделяется точкой. В континентальной Европе, например, используется другая система, при которой разряды разделяются точкой, а дробная и целая часть - запятой:

In [None]:
# англосаксонская система
1,234.567
# европейская система
1.234,567

И для решения проблемы форматирования под определенную культуру в Python имеется встроенный модуль locale.

Для установки локальной культуры в модуле locale определена функция setlocale(). Она принимает два параметра:

In [10]:
import locale

locale.setlocale(category, locale)

NameError: name 'setlocale' is not defined

Первый параметр указывает на категорию, к которой применяется функция - к числам, валютам или и числам, и валютам. В качестве значения для параметра мы можем передавать одну из следующих констант:

LC_ALL: применяет локализацию ко всем категориям - к форматированию чисел, валют, дат и т.д.

LC_NUMERIC: применяет локализацию к числам

LC_MONETARY: применяет локализацию к валютам

LC_TIME: применяет локализацию к датам и времени

LC_CTYPE: применяет локализацию при переводе символов в верхний или нижний регистр

LC_COLLIATE: применяет локаль при сравнении строк

Второй параметр функции setlocale указывает на локальную культуру, которую надо использовать. На ОС Windows можно использовать код станы по ISO из двух символов, например, для США - "us", для Германии - "de", для России - "ru". Но на MacOS необходимо указывать код языка и код страны, например, для английского в США - "en_US", для немецкого в Германии - "de_DE", для русского в России - "ru_RU". По умолчанию фактически используется культура "en_US".

Непосредственно для форматирования чисел и валют модуль locale предоставляет две функции:
currency(num): форматирует валюту
format(str, num): подставляет число num вместо плейсхолдера в строку str

Применяются следующие плейсхолдеры:
d: для целых чисел
f: для чисел с плавающей точкой
e: для экспоненциальной записи чисел

Перед каждым плейсхолдером ставится знак процента %, например:
"%d"

При выводе дробных чисел перед плейсхолдером после точки можно указать, сколько знаков в дробной части должно отображаться:
%.2f        # два знака в дробной части

Применим локализацию чисел и валют в немецкой культуре:

In [18]:
import locale
 
locale.setlocale(locale.LC_ALL, "de")        # для  Windows
# locale.setlocale(locale.LC_ALL, "de_DE")   # для MacOS
 
number = 12345.6789
formatted = locale.format_string("%f", number)
print(formatted)    # 12345,678900
 
formatted = locale.format_string("%.2f", number)
print(formatted)    # 12345,68
 
formatted = locale.format_string("%d", number)
print(formatted)    # 12345
 
formatted = locale.format("%e", number)
print(formatted)    # 1,234568e+04
 
money = 234.678
formatted = locale.currency(money)
print(formatted)    # 234,68 €

12345,678900
12345,68
12345
1,234568e+04
234,68 €


  app.launch_new_instance()


Если вместо конкретного кода в качестве второго параметра передается пустая строка, то Python будет использовать культуру, которая применяется на текущей рабочей машине. А с помощью функции getlocale() можно получить эту культуру:

In [20]:
import locale
 
locale.setlocale(locale.LC_ALL, "")
 
number = 12345.6789
formatted = locale.format_string("%.02f", number)
print(formatted)    # 12345,68
print(locale.getlocale())   # ('Russian_Russia', '1251')

12345,68
('Russian_Russia', '1251')


### Модуль decimal
При работе с числами с плавающей точкой (то есть float) мы сталкиваемся с тем, что в результате вычислений мы получаем не совсем верный результат:

In [21]:
number = 0.1 + 0.1 + 0.1
print(number)

0.30000000000000004


Проблему может решить использование функции round(), которая округлит число. Однако есть и другой способ, который заключается в использовании встроенного модуля decimal.

Ключевым компонентом для работы с числами в этом модуле является класс Decimal. Для его применения нам надо создать его объект с помощью конструктора. В конструктор передается строковое значение, которое представляет число:

In [24]:
from decimal import Decimal
 
number = Decimal("0.1")
number = number + number + number
print(number)

0.3


В операциях с Decimal можно использовать целые числа:

In [25]:
number = Decimal("0.1")
number = number + 2

Однако нельзя смешивать в операциях дробные числа float и Decimal:

In [26]:
number = Decimal("0.1")
number = number + 0.1   # здесь возникнет ошибка

TypeError: unsupported operand type(s) for +: 'decimal.Decimal' and 'float'

С помощью дополнительных знаков мы можем определить, сколько будет символов в дробной части числа:

In [None]:
number = Decimal("0.10")
number = 3 * number
print(number)       # 0.30

Строка "0.10" определяет два знака в дробной части, даже если последние символы будут представлять ноль. Соответственно "0.100" представляет три знака в дробной части.

Округление чисел
Объекты Decimal имеют метод quantize(), который позволяет округлять числа. В этот метод в качестве первого аргумента передается также объект Decimal, который указывает формат округления числа:

In [27]:
from decimal import Decimal
 
number = Decimal("0.444")
number = number.quantize(Decimal("1.00"))
print(number)       # 0.44
 
number = Decimal("0.555678")
print(number.quantize(Decimal("1.00")))       # 0.56
 
number = Decimal("0.999")
print(number.quantize(Decimal("1.00")))       # 1.00

0.44
0.56
1.00


Используемая строка "1.00" указывает, что округление будет идти до двух знаков в дробной части.

По умолчанию округление описывается константой ROUND_HALF_EVEN, при котором число округляется в большую сторону, если оно нечетное, а предыдущее перед ним больше 4. Например:

In [28]:
from decimal import Decimal, ROUND_HALF_EVEN

number = Decimal("10.025")
print(number.quantize(Decimal("1.00"), ROUND_HALF_EVEN))       # 10.02
 
number = Decimal("10.035")
print(number.quantize(Decimal("1.00"), ROUND_HALF_EVEN))       # 10.04

10.02
10.04


тратегия округления передается в качестве второго параметра в quantize.

Строка "1.00" означает, что округление будет идти до двух чисел в дробной части. Но в первом случае "10.025" - вторым знаком идет 2 - четное число, поэтому, несмотря на то, что следующее число 5, двойка не округляется до тройки.

Во втором случае "10.035" - вторым знаком идет 3 - нечетное число, поэтому оно округляется до 4.

Данное поведение при округлении, возможно, не всем покажется желательным, и в этом случае его можно переопределить, использовав одну из следующих констант:

- ROUND_HALF_UP: округляет число в сторону повышения, если после него идет число 5 или выше

- ROUND_HALF_DOWN: округляет число в сторону повышения, если после него идет число больше 5

In [None]:
number = Decimal("10.026")
print(number.quantize(Decimal("1.00"), ROUND_HALF_DOWN))       # 10.03
 
number = Decimal("10.025")
print(number.quantize(Decimal("1.00"), ROUND_HALF_DOWN))       # 10.02

- ROUND_05UP: округляет только 0 до единицы, если после него идет 5

In [None]:
number = Decimal("10.005")
print(number.quantize(Decimal("1.00"), ROUND_05UP))       # 10.01
 
number = Decimal("10.025")
print(number.quantize(Decimal("1.00"), ROUND_05UP))       # 10.02

- ROUND_CEILING: округляет число в большую сторону вне зависимости от того, какое число идет после него

In [None]:
number = Decimal("10.021")
print(number.quantize(Decimal("1.00"), ROUND_CEILING))       # 10.03
 
number = Decimal("10.025")
print(number.quantize(Decimal("1.00"), ROUND_CEILING))       # 10.03

- ROUND_FLOOR: не округляет число вне зависимости от того, какое число идет после него

In [None]:
number = Decimal("10.021")
print(number.quantize(Decimal("1.00"), ROUND_FLOOR))       # 10.02
 
number = Decimal("10.025")
print(number.quantize(Decimal("1.00"), ROUND_FLOOR))       # 10.02

## Популярные модули для ML
Базовые:
- NumPy - библиотека для работы с массивами.
- Matplotlib - библиотека для отображения данных.
- Pandas - библиотека для анализа данных.

Продвинутые:
- SciPy - расширение для NumPY для работы с матрицами и векторами.
- Seaborn - обёртка над matplotlib.
- Scikit-learn - библиотека с реализоваными основными методами машинного обучения.
- OpenCV - библиотека для работы  области обработки изображений и компьютерного зрения.
- Theano - библиотека численного вычисления в Python. (Способна к параллельным вычислениям)
- Keras - нейронные сети и их обучение.

Сложные:
- TensorFlow - библиотека для создания нейронных сетей.
- Caffe - нструмент для анализа мультимедийных данных.
- Pyevolve - реализация наиболее распространненых генетическх алгоритмов.
- CatBoost - реализует механизм глубокого обучения через градиентный бустинг. (Умеет находить котиков)