## Внешние библиотеки, модули

### Модули и пространства имен

Модуль - единица организации программ наивысшего уровня, которая упаковывает программный код для многократного использования и предоставляет изолированное пространство имен, что сводит к минимуму конфликты имен переменных внутри программ. 

Обобщая все изученное, стоит напомнить, что в мире питона все - это объекты. У каждого объекта есть свои атрибуты. Модуль - это тоже **объект** (очень высокого уровня), атрибуты модуля - это все объекты, которые в нем находятся, то есть, переменные, функции и классы. 

В более простом смысле модуль - это любой скрипт с расширением .py (есть еще некоторые менее интересные варианты - питон позволяет импортировать модули, написанные на других языках, там чуточку другое расширение, но ведут они себя так же). Каждый скрипт - это модуль, и тот скрипт, который мы запускаем, на самом деле тоже модуль, только самый главный и имеющий имя \_\_main\_\_. 

Как мы импортируем модули и что при этом происходит?

У нас есть два оператора:
- import
- from ... import

(+ можно использовать переименование as)

Что на самом деле они делают? Они не просто копипастят код из импортируемого модуля в наш главный. В момент, когда исполняется оператор import, скрипт модуля **исполняется**, чтобы появились все определенные в нем объекты, а его имя добавляется в пространство имен нашего модуля, и все его объекты делаются его атрибутами. Так, когда пишем:

    import math
    
В пространстве имен нашего главного модуля появляется имя math, а у него, например, math.sqrt.

Выражение "пространство имен" прозвучало уже несколько раз; а это что такое?

Питон делит все имена переменных, функций и классов внутри себя на определенные сегменты, чтобы они друг другу не мешались. Так, у главного запускаемого скрипта есть свое пространство имен, в котором живет все, что мы определили в этом скрипте, + импортированные имена модулей. Что содержится в пространстве имен скрипта, можно посмотреть с помощью команды dir(). С пустыми скобками она показывает содержимое главного модуля, а если указать ей имя импортированного модуля, то она отобразит его атрибуты (то есть, его пространство имен). 

In [2]:
dir()

['Animal',
 'Cat',
 'Dog',
 'In',
 'Out',
 '_',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i2',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 'exit',
 'get_ipython',
 'quit']

Имена с двойными нижними подчеркиваниями - особые и зарезервированные, из них стоит обратить внимание только на \_\_name\_\_; имена с нижними подчеркиваниями тоже от нас должны быть скрыты, а вот остальные - то, что есть в нашем текущем скрипте (в .ipynb эти имена немного отличаются от .py). 

В питоне есть такое понятие, как область видимости переменных: мы с этим сталкивались уже, когда говорили про функции и классы. Глобальная область видимости включает в себя все, то, что в ней есть, видно внутри функций и классов, которые определены в главном скрипте. То, что содержится в пространствах имен модулей, доступно в главном скрипте. То, что содержится в функциях и классах, из глобальной области видимости не доступно, мы можем с ними взаимодействовать, только передавая им какие-то объекты. Это - локальные области видимости (те переменные, которые сидят внутри функций и классов).

Итак, когда мы импортируем какой-то модуль, наш главный скрипт делает следующее:
- ищет модуль с таким названием
- выполняет код модуля для создания объектов, которые в нем определены

Именно поэтому иногда в скриптах пишут такую вещь:

In [None]:
if __name__ == '__main__':
    ...

Это делается для того, чтобы код в модуле не выполнялся, если этот модуль просто импортировали. Например, вы написали свой собственный токенизатор и хотите его тестировать. Все функции для тестирования могут вызываться внутри конструкции в ячейке выше, а когда будете импортировать свой токенизатор, они вызываться не будут. 

О том, где и как питон ищет модули:
1. Сперва в домашней папке скрипта и в ее подпапках
2. В каталогах стандартной библиотеки
3. В подкаталоге site-packages, куда устанавливается все, что мы ставим через pip или conda

Поэтому не рекомендуется называть свои скрипты так же, как называются внешние модули, которые вы собираетесь импортировать. Например, называть свой скрипт numpy не очень умно, если вам потом понадобится сам numpy!

Внешние библиотеки - важная часть жизни программиста (и компьютерного лингвиста в особенности). Все крутые инструменты уже создали за нас! Нам осталось научиться ими пользоваться. 

Библиотека - это готовый модуль (скрипт питона, а иногда много скриптов питона в папочке), в котором содержатся какие-нибудь классы или функции. Например, если вам нужны рандомные числа, нет никакой нужды самостоятельно реализовывать один из (зубодробительных) алгоритмов для их генерации: достаточно импортировать модуль (=библиотека, это почти синонимы) random. 

Некоторые библиотеки уже предустановлены вместе с самим питоном. Самые популярные - это math, os, pathlib, random, string, re, json, csv...

Многие мы с вами изучим или по крайней мере будем использовать. 

Если библиотека в питоне не установлена, то можно ее установить с помощью установщика pip (или pip3, они оба работают, но если у вас есть питон версий 2 и 3, то лучше эксплицитно вызывать pip3). 

pip вызывается в **командной строке** (или терминале). 

Команды выглядят так:

    pip list # pip, выведи мне список моих библиотек. 
    pip install pandas # pip, установи мне библиотеку по имени pandas.
    pip uninstall pandas # pip, я передумал насчет pandas. 
    
Альтернатива для pip - это программа [Anaconda](https://docs.anaconda.com/free/anaconda/install/windows/) (в ней также можно управлять виртуальными средами - маленькими виртуальными копиями питона, в которые можно ставить свои наборы внешних библиотек: это очень часто бывает нужно, когда в разных проектах вам нужны разные версии одной и той же библиотеки, например). У анаконды есть свой установщик пакетов - conda. conda позволяет легко заводить свои виртуалки ([тут](https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#activating-an-environment) написано, как), а Visual Studio Code может их видеть и использовать. Иногда в документации для внешних библиотек, особенно если это большие старые и популярные библиотеки, можно видеть два варианта команд установки с pip и conda.
    
    
В колабе тоже можно устанавливать библиотеки! Для этого нужно все те же самые команды, но только с восклицательным знаком спереди, написать в ячейке и запустить ее, например: 

In [None]:
!pip install pandas

Откуда pip вообще берет библиотеки? Для питона есть большой репозиторий pypi.org (для conda - anaconda.org), в котором все эти библиотеки и хранятся. pip умеет скачивать их оттуда к вам в python/Lib/site-packages, точно так же, как это делает git. Устанавливать репозитории напрямую с гитхаба тоже можно: тут уже pip и git трудятся вместе.

Примечание: если у вас не работает pip, то:

1. Проверьте, есть ли у вас путь к папке с питоном в переменных системы: компьютер -> свойства -> продвинутые -> где-то там кнопка со списком переменных. Это туда добавляется add to path.
2. Запустили ли вы командную строку от имени администратора? (в линуксе помогает sudo)
3. А ваш профиль пользователя в windows имеет права администратора? (у некоторых студентов бывало...)

Наконец, когда наши библиотеки установлены, можно их импортировать уже в наших программах. Это можно делать несколькими способами. 

**import random** - импортирует библиотеку random; теперь все вещи, которые есть в этой библиотеке, доступны для вызова. Но чтобы не нарушать пространство имен (то есть, вдруг в этой библиотеке есть переменные, которые совпадают с именами переменных в нашей программе), все эти вещи вызываются с именем библиотеки через точку:

    s = random.randrange(1, 11)
    
Точка в питоне вообще обозначает синтаксическую зависимость. :) Типа, random - это владелец, а randrange - это имущество. 

**from random import randrange** - импортирует из библиотеки random только функцию randrange, при этом теперь функция попадает в пространство имен нашей программы и может вызываться без имени своего модуля. 

    s = randrange(1, 11)
    
**from random import \*** - импортирует все содержимое библиотеки random в нашу программу. Обычно крайне не рекомендуется это делать, потому что все функции и классы библиотеки random вливаются в пространство имен нашей программы, и если у нас были переменные с такими же названиями, выйдет ерунда. 

**import random as rd** - импортирует библиотеку random так же, как в первом случае, только теперь к ней можно обращаться по кличке rd. Обычно именно по такому принципу импортируют numpy и pandas (np, pd соответственно). 

Примечание: не называйте свои скрипты так же, как называются модули. Потому что на самом деле инструмент импорта позволяет импортировать не только внешние библиотеки, но и ваши же собственные скрипты, которые лежат в одной папочке или в подпапке рядом с основным скриптом. Соответственно, если вы решили потестировать модуль multiprocessing и завели скрипт с именем muptiprocessing - фейл, при импорте питон скажет "не могу импортировать скрипт сам в себя".