# Работа с внешними библиотеками
Импорт, перегрузка оператора и советы по выживанию в мире внешних библиотек

В этом руководстве вы узнаете об импорте в Python, получите несколько советов по работе с незнакомыми библиотеками (и объектами, которые они возвращают), а также разберетесь с перегрузкой операторов.

# Импорт
До сих пор мы говорили о типах и функциях, встроенных в язык.

Но одна из лучших особенностей Python (особенно если вы специалист по обработке данных) - это огромное количество высококачественных пользовательских библиотек, которые были написаны для него.

Некоторые из этих библиотек находятся в "стандартной библиотеке", что означает, что вы можете найти их везде, где используете Python. Другие библиотеки можно легко добавить, даже если они не всегда поставляются вместе с Python.

В любом случае, мы получим доступ к этому коду с помощью импорта.

Мы начнем наш пример с импорта математических данных из стандартной библиотеки.

In [1]:
import math

print("It's math! It has type {}".format(type(math)))

It's math! It has type <class 'module'>


математика - это модуль. Модуль - это просто набор переменных (пространство имен, если хотите), определенных кем-то другим. Мы можем просмотреть все имена в математике, используя встроенную функцию dir().

In [2]:
print(dir(math))

['__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'acos', 'acosh', 'asin', 'asinh', 'atan', 'atan2', 'atanh', 'ceil', 'comb', 'copysign', 'cos', 'cosh', 'degrees', 'dist', 'e', 'erf', 'erfc', 'exp', 'expm1', 'fabs', 'factorial', 'floor', 'fmod', 'frexp', 'fsum', 'gamma', 'gcd', 'hypot', 'inf', 'isclose', 'isfinite', 'isinf', 'isnan', 'isqrt', 'lcm', 'ldexp', 'lgamma', 'log', 'log10', 'log1p', 'log2', 'modf', 'nan', 'nextafter', 'perm', 'pi', 'pow', 'prod', 'radians', 'remainder', 'sin', 'sinh', 'sqrt', 'tan', 'tanh', 'tau', 'trunc', 'ulp']


Мы можем получить доступ к этим переменным, используя точечный синтаксис. Некоторые из них относятся к простым значениям, например, math.pi:

In [3]:
print("pi to 4 significant digits = {:.4}".format(math.pi))

pi to 4 significant digits = 3.142


Но большая часть того, что мы найдем в модуле, - это функции, такие как math.log:

In [5]:
math.log(32, 2)

5.0

Конечно, если мы не знаем, что делает math.log, мы можем вызвать help() для этого:

In [6]:
help(math.log)

Help on built-in function log in module math:

log(...)
    log(x, [base=math.e])
    Return the logarithm of x to the given base.
    
    If the base not specified, returns the natural logarithm (base e) of x.



Мы также можем вызвать функцию help() в самом модуле. Это даст нам сводную документацию по всем функциям и значениям в модуле (а также подробное описание модуля). Нажмите кнопку "Вывод", чтобы просмотреть всю страницу справки по математике.

In [7]:
help(math)

Help on module math:

NAME
    math

MODULE REFERENCE
    https://docs.python.org/3.9/library/math
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides access to the mathematical functions
    defined by the C standard.

FUNCTIONS
    acos(x, /)
        Return the arc cosine (measured in radians) of x.
        
        The result is between 0 and pi.
    
    acosh(x, /)
        Return the inverse hyperbolic cosine of x.
    
    asin(x, /)
        Return the arc sine (measured in radians) of x.
        
        The result is between -pi/2 and pi/2.
    
    asinh(x, /)
        Return the inverse hyperbolic sine of x.
    
    atan(x, /)
        Return the arc tangent (measured in 

# Другой синтаксис импорта

Если мы знаем, что будем часто использовать математические функции, мы можем импортировать их под более коротким псевдонимом, чтобы сэкономить время на ввод текста (хотя в этом случае "математика" и так довольно короткая).

In [8]:
import math as mt
mt.pi

3.141592653589793

Возможно, вы видели код, который делает это с помощью некоторых популярных библиотек, таких как Pandas, Numpy, Tensorflow или Matplotlib. Например, принято импортировать numpy как np, а pandas - как pd.

as просто переименовывает импортированный модуль. Это эквивалентно выполнению чего-то вроде:

In [9]:
import math
mt = math

Разве не было бы здорово, если бы мы могли ссылаться на все переменные в математическом модуле отдельно? т.е. если бы мы могли просто ссылаться на pi вместо math.pi или mt.pi? Хорошая новость: мы можем это сделать.

In [10]:
from math import *
print(pi, log(32, 2))

3.141592653589793 5.0


импорт * делает все переменные модуля доступными для вас напрямую (без каких-либо префиксов, обозначенных пунктиром).

Плохие новости: некоторые пуристы могут ворчать на вас за это.

Хуже того: в их словах есть смысл.

In [11]:
from math import *
from numpy import *
print(pi, log(32, 2))

TypeError: return arrays must be of ArrayType

Что произошло? Раньше это работало!

Такого рода "звездный импорт" иногда может приводить к странным, трудным для отладки ситуациям.

Проблема в данном случае заключается в том, что в модулях math и numpy есть функции, называемые log, но у них разная семантика. Поскольку мы импортируем из numpy second, его журнал перезаписывает (или "затеняет") переменную журнала, которую мы импортировали из math.

Хорошим компромиссом является импорт только тех конкретных элементов, которые нам понадобятся из каждого модуля:

In [12]:
from math import log, pi
from numpy import asarray

# Подмодули

Мы видели, что модули содержат переменные, которые могут ссылаться на функции или значения. Следует иметь в виду, что они также могут содержать переменные, ссылающиеся на другие модули.

In [13]:
import numpy
print("numpy.random is a", type(numpy.random))
print("it contains names such as...",
      dir(numpy.random)[-15:]
     )

numpy.random is a <class 'module'>
it contains names such as... ['seed', 'set_state', 'shuffle', 'standard_cauchy', 'standard_exponential', 'standard_gamma', 'standard_normal', 'standard_t', 'test', 'triangular', 'uniform', 'vonmises', 'wald', 'weibull', 'zipf']


Итак, если мы импортируем numpy, как указано выше, то для вызова функции в случайном "подмодуле" потребуются две точки.

In [14]:
# Бросьте 10 кубиков
rolls = numpy.random.randint(low=1, high=6, size=10)
rolls

array([5, 2, 4, 4, 5, 4, 1, 1, 1, 2])

# О, какие места вы увидите, какие объекты увидите...
Итак, после 6 уроков вы станете профессионалом в работе с целыми числами, числами с плавающей запятой, логическими значениями, списками, строками и диктантами (верно?).

Даже если бы это было правдой, на этом все не заканчивается. Работая с различными библиотеками для решения специализированных задач, вы обнаружите, что они определяют свои собственные типы, с которыми вам придется научиться работать. Например, если вы работаете с графической библиотекой matplotlib, вы будете сталкиваться с объектами, которые она определяет, которые представляют вспомогательные графики, рисунки, метки и аннотации. функции pandas предоставят вам фреймы данных и ряды.

В этом разделе я хочу поделиться с вами кратким руководством по выживанию при работе со странными типами.

# Три инструмента для понимания странных объектов
В приведенной выше ячейке мы увидели, что вызов функции numpy дает нам "массив". Мы никогда раньше не видели ничего подобного (во всяком случае, в этом курсе). Но не паникуйте: у нас есть три знакомые встроенные функции, которые помогут нам в этом.

1: type() (что это за штука?)

In [15]:
type(rolls)

numpy.ndarray

2: dir() (что я могу с этим сделать?)

In [17]:
print(dir(rolls))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift_

In [18]:
# Если я хочу получить средний бросок, то метод "mean" выглядит многообещающим...
rolls.mean()

2.9

In [19]:
# Или, может быть, я просто хочу превратить массив в список, и в этом случае я могу использовать "перечислить".
роллы.tolist()
rolls.tolist()

NameError: name 'роллы' is not defined

3: помогите() (расскажите мне больше)

In [None]:
# Этот атрибут Равеля звучит интересно. Я большой поклонник классической музыки.
help(rolls.ravel)

In [None]:
# Хорошо, просто расскажите мне все, что вам нужно знать о numpy.ndarray
# (Нажмите кнопку "Вывод", чтобы увидеть вывод новой версии).
help(rolls)

(Конечно, вы также можете ознакомиться с онлайн-документами.)

Перегрузка оператора

Каково значение приведенного ниже выражения?

In [20]:
[3, 4, 1, 2, 2, 1] + 10

TypeError: can only concatenate list (not "int") to list

Что за глупый вопрос. Конечно, это ошибка.

Но как насчет...

In [21]:
rolls + 10

array([15, 12, 14, 14, 15, 14, 11, 11, 11, 12])

Мы могли бы подумать, что Python строго следит за тем, как ведут себя элементы его основного синтаксиса, такие как +, <, in, == или квадратные скобки для индексации и разбивки на части. Но на самом деле, это требует очень осторожного подхода. Когда вы определяете новый тип, вы можете выбрать, как для него работает сложение, или что означает, что объект этого типа равен чему-то другому.

Разработчики списков решили, что добавление их к числам запрещено. Разработчики массивов numpy пошли другим путем (добавив номер к каждому элементу массива).

Вот еще несколько примеров того, как массивы numpy неожиданно взаимодействуют с операторами Python (или, по крайней мере, отличаются от списков).

In [22]:
# При каких показателях количество выпавших кубиков меньше или равно 3?
rolls <= 3

array([False,  True, False, False, False, False,  True,  True,  True,
        True])

In [23]:
xlist = [[1,2,3],[2,4,6],]
# Создайте двумерный массив
x = numpy.asarray(xlist)
print("xlist = {}\nx =\n{}".format(xlist, x))

xlist = [[1, 2, 3], [2, 4, 6]]
x =
[[1 2 3]
 [2 4 6]]


In [24]:
# Получаем последний элемент второй строки нашего массива numpy
x[1,-1]

6

In [25]:
# Получаем последний элемент второго подсписка нашего вложенного списка?
xlist[1,-1]

TypeError: list indices must be integers or slices, not tuple

тип ndarray в numpy предназначен для работы с многомерными данными, поэтому он определяет свою собственную логику индексации, позволяя нам индексировать с помощью кортежа, чтобы указать индекс в каждом измерении.

Когда 1 + 1 не равно 2?

Ситуация может стать еще более странной. Возможно, вы слышали (или даже использовали) о tensorflow, библиотеке Python, широко используемой для глубокого обучения. В ней широко используется перегрузка операторов.

In [26]:
import tensorflow as tf
# Создайте две константы, каждая со значением 1
a = tf.constant(1)
b = tf.constant(1)
# Сложите их вместе, чтобы получилось...
a + b

ModuleNotFoundError: No module named 'tensorflow'

a + b - это не 2, а (если цитировать документацию tensorflow)...

символический дескриптор одного из выходных данных операции. Он не содержит значений выходных данных этой операции, но вместо этого предоставляет средство вычисления этих значений в TensorFlow tf.Session.
Важно просто осознавать тот факт, что такого рода вещи возможны и что библиотеки часто используют перегрузку операторов неочевидными или кажущимися волшебными способами.

Понимание того, как работают операторы Python при применении к целым числам, строкам и спискам, не гарантирует, что вы сможете сразу понять, что они делают при применении к тензору tensorflow, numpy ndarray или фреймворку данных pandas.

Например, как только вы немного познакомитесь с фреймами данных, выражение, подобное приведенному ниже, начнет выглядеть привлекательно интуитивно понятным:

In [27]:
# Найдите ряды с населением более 1 миллиона человек в Южной Америке.
df[(df['population'] > 10**6) & (df['continent'] == 'South America')]


NameError: name 'df' is not defined

Но почему это работает? В приведенном выше примере представлено примерно 5 различных перегруженных операторов. Что делает каждая из этих операций? Это может помочь узнать ответ, когда что-то начинает идти не так.

Любопытно, как все это работает?

Вы когда-нибудь вызывали help() или dirt() для объекта и задавались вопросом, что это за имена с двойным подчеркиванием?

In [28]:
print(dir(list))

['__add__', '__class__', '__class_getitem__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


Оказывается, это напрямую связано с перегрузкой оператора.

Когда программисты на Python хотят определить, как операторы ведут себя в своих типах, они делают это, реализуя методы со специальными именами, начинающимися и заканчивающимися двумя символами подчеркивания, такими как __lt__, __setattr__ или __contains__. Как правило, имена, которые следуют этому формату с двойным подчеркиванием, имеют особое значение для Python.

Так, например, выражение x в [1, 2, 3] на самом деле вызывает метод списка __contains__ за кадром. Это эквивалентно (гораздо более уродливому) [1, 2, 3].__содержит__(x).

Если вам интересно узнать больше, вы можете ознакомиться с официальной документацией Python, в которой описано еще много-много таких специальных методов "подчеркивания".

На этих уроках мы не будем определять свои собственные типы (если бы только было время!), но я надеюсь, что позже вы испытаете радость от определения своих собственных замечательных, странных типов.

# Ваша очередь!
Переходите к заключительному упражнению по кодированию, где вас ждет еще один раунд вопросов по кодированию, связанных с импортом, работой с незнакомыми объектами и, конечно же, с азартными играми.