Базовые принципы языка.

Python - интерпретируемый язык, то есть между написанием кода и его исполнением нет промежуточной стадии компиляции. Код исполняется строка за строка за строкой, при этом интерпретатор не знает, что будет в следующей строке, поэтому ошибки мы видим только во время работы кода. До возникновения ошибки код будет исполняться, как и должен, что отличает его от компилируемых языков (компиляция бы не прошла при наличии ошибок).

Интересный вариант программы для вычисления чисел Фибоначчи через лямбда рекурсию.

In [None]:
fib = lambda x : 1 if x <= 2 else fib(x - 1) + fib(x - 2)
fib(31)

Объекты в python:

Все данные в языке (списки, классы, переменные) лежат в озу, а объекты - представление этих данных в языке python.

Объект - абстракция (контейнер, если угодно) в памяти, который содержит данные.

Однако, не все данные в языке представлены только объектами, они могут быть также представлены отношениями между объектами (на примере списка - если создать список из объявленных переменных, у нас будет по объекту на переменную, объект списка, а также в памяти должна храниться связь списка и переменных).

Также отмечу, что все элементы списка создаются отдельными объектами, плюс объект самого списка. Строка - один объект.

Следовательно, данные - объекты и отношения между объектами.

Каждый объект имеет 3 характеристики - идентификатор (уникальный id, который не меняется с создания), тип и значение.

Оператор присваивания и идентификаторы объектов:

Данный оператор работает следующим образом, создается объект для того, что у нас справа от =, а переменная слева ссылается на id нового объекта. Переменная не объект, а только имя, используемое для ссылки на объект.

x = 4

Если присвоить одну переменную другой (y = x), то y просто будет ссылаться на id того же объекта, на который ссылкается x, и переменные будут существовать независимо друг от друга. Соответственно, изменяя значение любой из этих переменных мы изменяем значение всех, поскольку значение у них одно и то же.

In [7]:
id()  #функция, показывающая id указанного объекта
x = [1, 2, 3]
print(id(x))
print(id([1, 2, 3]))
#id разный, потому что список в print - это не тот же объект, что и список x

2018541254400
2018541254592


In [None]:
#is сравнивает id слева и id справа от =, если они равны, возвращает True, иначе False
x = [1, 2, 3]
y = x
y is x  #True
y is [1, 2, 3]  #False

In [24]:
x = [1, 2, 3]
y = x
y.append(4)

s = '123'
t = s
t = t + '4'  #здесь мы создали новый объект, поэтому значение s не изменится; замечу, что += и все подобное тоже создают новые объекты, а не редактируют старые, но y += [4] сработает как append

print(str(x) + ' ' + s)

[1, 2, 3, 4] 123


Типы объектов:

Тип объекта определяет, какие операции над объектом мы можем делать, а также какие специфические характеристики он имеет (длина для строк). Тип, как и id, определяется при создании объекта и не меняется.

In [25]:
#type() позволяет узнать тип указанного объекта
x = [1, 2, 3]
print(type(x))
print(type(4))
print(type(type(x)))

<class 'list'>
<class 'int'>
<class 'type'>


Значения объектов:

Объекты разных типов могут принимать разные значения.

Объекты, которые могут изменять свое значение в течении жизни - изменяемые объекты (mutable objects). Неизменяемые (immutable objects) не могут менять значение. Зачастую это зависит от типа.

Неизменяемые типы: числа любого типа (при попытке изменить число будет создан новый объект, а переменная просто начнет ссылаться на новый объект); bool (в памяти всегда есть только два объекта, True и False, и на них просто ссылаются); tuple (как и список, представлен множеством ссылок на другие объекты, но, в отличии от него, не может быть изменен), str (как последовательность символов); frozenset (неизменяемая версия set).

Изменяемые типы: list (является изменяемым потому, что значение списка - упорядоченное множество ссылок на другие объекты, и мы можем свободно добавлять, убирать, изменять или менять местами любую из этих ссылок); dict (можно менять значения по ключу, добавлять или убирать пары ключ-значение); set (можно добавлять и убирать оттуда элементы, однако, есть и изменяемая версия этого типа).

С изменяемыми типами нужно быть осторожнее, чтоб вновимые изменения не поломали код.

При этом, если говорить о неизменяемых объектах, например, числах, если интерпретатор встречает в код число, объекта которого не существует, он создает новые, если такой объект уже есть, то просто добавляется ссылка.

Однако, если мы говорим об изменяемых объектах, например, списках, интерпретатор будет создавать новый список каждый раз, как встречает в коде [].

Функции в ЯП:

Зачем придуманы и используются функции?
1. Переиспользование кода. Когда есть какой-то блок кода, который мы часто используем в своем коде, проще один раз его записать в функцию, а потом промто вызывать. При этом также снижается вероятность допустить ошибку.
2. Структурирование кода. Когда код состоит из небольших компонентов, достаточно понять, как работают отдельные компоненты, чтоб понять, как работает код. При этом он визуально понятнее.
3. Сокрытие элементов реализации. Часто программисту не важно и не нужно знать, как реализована, например, функция print(), он знает, что она печатает что-то в терминал, и он знает, как ее использовать.

Определение функции в python, как и прочие блоки кода, не исполняется построчно, оно исполняется до конца тела функции (конца блока кода), и только после этого в памяти будет создан объект, на который будет ссылаться переменная имени функции.

В объекте функции хранится много всего - как минимум, аргументы и тело функции, которое позже будет исполнено. Во время вызова функции в первую очередь идет инициализация аргументов (аргументы в объекте функции начнут ссылаться на объекты, которые были переданы в качестве аргументов), а после - исполнение тела функции построчно. Результат работы функции - ссылка на объект, созданный во время ее работы (например, return 1 + 2 создаст объект 3, и вернет ссылку на него).

Даже простая функция sum создает в озу множество объектов, поэтому нужно быть осторожным с тем, чтоб не засорить всю память.

Стек вызовов (машинный стек, стек исполнения) - это неотъемлимая часть большинства ЯП.

Это абстрактная структура данных, которая работает по принципу стопки - мы можем взаимодействовать только с верхним элементом стопки, либо убрав его (pop), либо положив новый (push).

Стек работает так же, как списки, если мы применяем к ним только append и pop, добавляя или убирая последний элемент.

На стек кладутся функции, когда мы их вызываем, и снимаются с него после того, как отработают. Интерпретатор всегда исполняет самую верхнюю функцию стека, а другие функции в этот момент тоже исполняются, но ожидают, пока исполнится сосед сверху. Если мы вызываем print(), он кладется на стек, исполняется, а затем снимается со стека. Если мы вызываем свою функцию с рядом операций или вызовом других функций, то исполнение программы (module) ждет, пока не исполнятся все вызванные функции по-очереди.

Когда мы только запускаем интерпретатор у нас в стеке лежит только базовая функция module, которая отвечает за базовые операции, вроде складывания чисел или определения новых функций.

Интересный факт, можно вызывать функцию следующим образом:

In [None]:
#foo(foo_name): - вызываем функцией foo любую функцию, которая передается ей в качестве аргумента.
#  foo_name()

Возвращаемое значение:

Это результат работы функции, чаще всего определяется после ключевого слова return. После return функция снимается со стека.

Функции не обязательно что-то возвращать, если не использовать return или использовать пустой return, функция завершится естественным путем, когда будут исполнены все инструкции функции, а вернет функция ссылку на объект None.

Задача по поиску числа, которое было бы больше или равно введенному, и при этом делилось бы нацело на 5:

In [6]:
def closest_mod_5(x):
    diff = x % 5
    if diff == 0:
        return x
    return x + (5 - diff)
print(closest_mod_5(1))

5


Передача аргументов в функцию:

def printab(a, b): - просто пример

1. printab(10, 20) - классическое присваивание аргументов, позиционное.
2. printab(a = 10, b = 20) - присваивание по имени, не требует определенного порядка ввода.
3. printab(10, b = 20) - совмещенное, сначала записываем позиционные аргументы, так как порядок важен, потом непозиционные.

lst = [10, 20]

4. printab(*lst) - через список, хорошо для позиционных аргументов.

args = {'a': 10, 'b': 20}

5. printab(**args) - через словарь, создав ключи с конкретными именами аргументов можно их передать в качестве аргументов через **.

Аргументы по-умолчанию:

При определении функции мы можем определить значение по-умолчанию для некоторых своих аргументов на случай, если значение не будет передано при вызове функции.

def printab(a, b = 20): - если b не будет передан при вызове, функция исполнится с b равным 20.

Передача в функцию неопределенного числа аргументов:

def printab(a, b, *args): - как это работает - два первых аргумента у нас обязательные, а далее мы говорим взять все позиционные аргументы, которые не нашли себе места, и положить их в кортеж args ровно в том порядке, в котором их ввели.

In [10]:
def printab(a, b, *args):  #мы обязаны передать только два арумента, если не передавать после ничего, то ошибки не будет
    print(a)
    print(b)
    for arg in args:
        print(arg)

printab(10, 20, 30, 40, 50)

10
20
30
40
50


In [11]:
def printab(a, b, **kwargs):  #все именованые аргументы, которые не участовали в инициализации функции, передаются в словарь kwargs (при этом, по имени мы можем инициализировать аргумент b и в конце)
    print(a)
    print(b)
    for key in kwargs:  #перебор всего словаря аргументов и вывод всех пар ключ - значение
        print(key, kwargs[key])

printab(10, 20, c=30, d=40, jimmi=123)

10
20
c 30
d 40
jimmi 123


In [14]:
def printab(a, b=20, *args, **kwargs):  #использование всех типов назначения аргументов сразу; в инициализации у нас участвует только a и b, они обязательны, но у b есть значение по умолчанию, поэтому можно указать один аргумент
    print(a, b)

printab(15)

15 20


Рекурсивный подсчет комбинаций из n чисел по k чисел:

In [5]:
def C(n, k):
    if k > n:
        return 0
    if k == 0:
        return 1
    return C(n - 1, k) + C(n - 1, k - 1)

n, k = map(int, input().split())
print(C(n, k))

252


Пространство имен (name space):

Это совокупность ссылок наших имен переменных, классов, функций и прочего на объекты в озу.

На момент включения интерпретатора пространство только одно - buildins. В нем мы можем найти все стандартные типы (int, str) и все функции стандартной библиотеки (min, print).

Второе пространство имен, которое создается - пространство main (global). Оно является глобальным и хранит имена самого верхнего уровня (переменные, имена функций).

При каждом вызове функции создается локальное пространство имен, в котором хранятся все имена тела функции (локальные имена), а после конца ее работы этот name space удаляется.

Пространства имен работаю так же, как и стек вызовов, сначала интерпретатор ищет имя в самом верхнем name space (в локальном пространстве имен функции, которая исполняется прямо сейчас), потом в name space функции, которая вызвала эту функцию, и так далее до global и затем builtins. После завершения работы функции name space "снимается со стека" (удаляется) вместе со всеми объявленными в нем именами.

Область видимости (scope):

Это кусок кода, которому соответствует какой-то name space. Например, если определить функцию a, в которой мы определяем функцию b, то тело функции b будет b scope, тело функции a - a scope, а весь наш код будет global scope.

При этом, глобальному scope соответствует name space global, a scope соответствует локальный name space функции а, когда мы ее вызовем и т.д.

Все области видимости можно разделить на 4 категории:
1. Локальный scope исполняемой функции (появляется после вызова функции, до начала исполнения).
2. Закрывающий scope / scope, в который включен local /также называется enclosing, nonlocal/ (та область видимости, в которой мы находимся до глобального scope, то есть, все другие функции между global и local, мы их здесь все не выделяем, потому что важны только локальный и глобальный, а то, что между, одна масса, называющаяся enclosingом).
3. Глобальный scope.
4. Scope builtins.

Для поиска переменной внутри какой-либо функции верно правило LEGN (Сначала ищем в Local, потом в Enclosing, Global, Builtins). При этом, ищем мы в соответствующих скоупам нейм спейсах, а не в самих scope, потому что, по сути, scope - просто часть кода.

Но иногда поведение может отличаться от ожидаемого:

def a():
  print(x)

def b():  выдаст ошибку
  x = 31
  a()

У нас здесь нет закрывающей области видимостиЮ обе локальные функции находятся над глобальной, потому переменную x сначала будут искать в функции a, потом в global и builtins, и нигде не найдет, потому что мы не определили функцию a в функции b, чтоб скоуп a был в b, соответственно, переменная будет лежать вне области видимости текущей функции.

Поэтому правильнее было бы сделать x аргументом функции a, и в функции b передать его явно.

При каких условиях не создаются локальные пространства имен:
1. В условных конструкицях (работаем с пространством имен скоупа, в котором конструкция находится).
2. В циклах.

В таком случае, мы можем создавать новые имена в текущем name space и работать с ранее созданными.

Работа с глобальными именами в локальном scope:

In [None]:
x = 1

def foo():
  global x  #мы даем команду взять x не из локального name space, а из global.
  x += 1  #так как мы работаем с глобальным иксом, изменять его значение глобально мы тоже можем.

print(x)

Однако, если наша функция foo вызвана не из global, а из другой функции, в которой объявлен x, то все сработает иначе.

При вызове print(x) после foo будет выведено значение 1, с которым x и инициализировался изначально, потому что его изменение произошло на глобальном уровне.

При этом переменная x появится на глобальном уровне, даже если не инициализировалась там, и все наши изменения переменной будут происходить именно там из-за маркера global.

Чтобы не происходило путаницы, существует маркер nonlocal. Он сообщает интерпретатору, что нужно искать это имя в ближайших пространствах от локала, но не в локале, и он пройдет все уровни с локального до global, не включительно, пока не найдет. То есть, поиск произойдет в enclosing scope.

То есть, если в enclosing есть переменная с нужным именем, и в global тоже, использоваться будет именно из enclosing (nonlocal его синоним).

Примерная реализация системы пространств имен, которая принимает 3 команды - create для создания нового пространства с указанием родительского, add для добавления переменных в указанное пространство, и get для извлечения пространства имен, которое хранит указанную переменную (ближайшее пространство к указанному пространству, движение от него в сторону global):

In [16]:
n = int(input())
assert 1 <= n <= 100
space = {'global': [[], []]}

for i in range(n):
    cmd, name, val = input().split()
    if cmd == 'create':
        space[name] = [[val], []]
    if cmd == 'add':
        space[name][1] += [val]
    if cmd == 'get':
        if val in space[name][1]:
            print(name)
        else:
            while True:
                if name == 'global':
                    print('None')
                    break
                name = space[name][0][0]
                if val in space[name][1]:
                    print(name)
                    break
#моя реализация не идеальна, преподаватель решил сходим образом, но он просто создал два разных словаря для родителей и детей и для пространств и переменных; также он написал цикл while несколько короче и интереснее, хотя смысл тот же

global
None
bar
foo


Классы в python:

Синтаксис:

    class MyClass: - после двоеточия начинается тело класса, в отличии от функции оно исполняется в момент определения самого класса, при этом создается отдельный namespace, имена которого затем закрепляются за объектом класса.
    
        a = 10

        def func(self):
            print('Hello')

При этом имена, которые сохарнились в объекте класса после его первичного исполнения становятся атрибутами класса и доступны в виде MyClass.a, MyClass.func.

У каждого класса в python (в том числе и у встроенных, вроде класса списков) есть конструктор, который позволяет нам создать новый объект данного класса (экземпляр), если обратиться к классу как к функции:

x = MyClass() - мы создаем новый объект (экземпляр) типа MyClass, у него будет свой namespace. То есть, создавая свой класс, мы создаем новые типы данных в языке, и вызвав type(x) мы получим вывод MyClass.

При этом, в общем случае при работе с классами мы всегда можем:
1. Вызвать конструктор этого класса (для создания нового экземпляра этого типа) - MyClass()
2. Обращаться к его атрибутам - MyClass.a

Работа с объектами, созданными с помощью конструктора (объектами нашего типа) - instance или экземпляр:

Если для класса мы всегда могли вызвать конструктор для создания новых экземпляров, при работе с самими экземплярами мы можем только обращаться к его атрибутам.

    class Counter: - пустой класс
        pass (ключевое слово для создания пустого тела)
    
    x = Counter() - создаем экземпляр x
    x.count = 0 - объявляем в его namespace новую переменную, несмотря на то, что класс был пустым, мы можем с ним работать, как привыкли
    x.count += 1 - изменяем значение переменной

В данном случае у нас есть класс для создания экземпляров счетчика для разных нужд, если б в теле класса была проинициализирована перменная счетчика, пользоваться им стало бы еще проще. Так и сделаем.

Изменение атрибутов конструктора класса:

    class Counter:
        def __init__(self):  #функция init позволяет нам определять начальные атрибуты наших экземпляров
            self.count = 0   #мы не можем просто написать count = 0, потому что в таком случае все экземпляры будут ссылаться на одно значение

Таким образом, после создания экземпляра класса у него сразу будет атрибут count равный нулю.

    class Counter:
        def __init__(self, start=0):  #init не обязательно включает только один аргумент, при этом, мы добавили аргумент со значением по-умолчанию, если в конструктор передать значение, оно учтется, если нет, будет дефолтным, self передавать не нужно.
            self.count = 0
    x = Counter(10)  #счетчик экземпляра будет с самого создания равен 10

Методы класса:

Это атрибуты, представленные в виде функций. Пишутся они обычно в теле самого класса, потому что от экземпляра к экземпляру поведение метода не меняется, поэтому можно просто его наследовать (сначала интерпретор ищет атрибут в namespace экземпляра, и, если не находит, то в классе)

    class Counter:
        def __init__(self):
            self.count = 0
        def inc(self):
            self.count += 1
        def reset(self):
            self.count = 0
    
    x = Counter()
    x.inc()  #это объект, называемый связанным методом (bound method), что значит, что сначала находится функция Counter.inc(), и после связывается с x

    Counter.inc(x)

Эти две записи полностью одинаковы, в первом случае x подставляется в self, во втором мы передаем x классу, чтоб он подставил его в self.

Задача на программирование копилки, вместимость которой изначально равна нулю, и в которую можно класть монеты (если не первышает вместимость)

In [13]:
class MoneyBox:
    def __init__(self, capacity):
        self.v = 0
        self.capacity = capacity

    def can_add(self, v):
        if self.v + v <= self.capacity:
            return True
        else:
            return False

    def add(self, v):
        self.v += v

Задача в которой надо создать буфер, в который добавляются числа, и, как только их станет 5, выводит их сумму и удаляет из буфера:

Решил сначала через while >= 5 и del(), но понял, что это не оптимальное решение, взял вариант преподавателя

In [None]:
class Buffer:
    def __init__(self):
        self.sec = []

    def add(self, *a):
        for i in a:
            self.sec += [i]
            if len(self.sec) == 5:
                print(sum(self.sec))
                self.sec.clear()  #метод для удаления всего их списка

    def get_current_part(self):  #так и не понял, зачем это
        return self.sec

buf = Buffer()
buf.add(1, 2, 3)
buf.get_current_part() # вернуть [1, 2, 3]
buf.add(4, 5, 6) # print(15) – вывод суммы первой пятерки элементов
buf.get_current_part() # вернуть [6]
buf.add(7, 8, 9, 10) # print(40) – вывод суммы второй пятерки элементов
buf.get_current_part() # вернуть []
buf.add(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) # print(5), print(5) – вывод сумм третьей и четвертой пятерки
buf.get_current_part() # вернуть [1]

Наследование классов:

Необходимо для того, чтоб объект нашего класса вел себя как объект другого класса, но с некоторыми отличиями (например, класс коллектблсов может породить подклассы трав и снаряжения).

Если у класса нет предков, то на самом деле его предок - класс object (помимо этого, каждый класс является наследником самого себя).

Для указания, из каких классов новый класс наследует атрибуты, мы передаем их как аргументы при инициализации класса (указываем предков):

    class MyClass(BaseClass1, BaseClass2, BaseClass3):

Создадим класс, который будет работать, как список, но с дополнительным методом проверки длины на четность:

    class MyList(list):  #передавая в качестве предка класс list мы подключаем нашему классу возможность использовать все методы списков, как append, extend и прочие
        def even_lenth(self):
            return len(self) % 2 == 0
    
    x = MyList()
    x.extend([1, 2])


Говоря о множественном наследовании надо держать в голове то, что древо наследования может быть любой длины, а не один предок - один наследник. У предка может быть много наследников, и другие предки одновременно.

Так можно создать класс предметов, который будут наследовать классы снаряжения и трав, а их могут наследовать подклассы вроде оружие и броня.

    issubclass(Class1, Class2)  #команда, которая проверяет, является ли 1 класс наследником второго (не обязательно прямым, между ними в дереве могут быть другие классы, главное, чтоб связь была).
    isinstance(x, Class)  #команда проверяет, ведет ли себя объект x как экземпляр класса Class; то есть, можем ли мы использовать x в качестве объекта указанного типа.
  
Например, isinstance(x, list) для x экземпляра MyList выдаст True, потому что x может использовать все методы list, плюс 1 новый.

Когда мы не имеем дела с множественным наследованием, алгоритм интерпретатора довольно прост - сначала он ищет метод в экземпляре класса, потом в классе экземпляра, потом в родительском классе, и так до object.

Когда мы создаем экземпляр класса MyList, на самом деле используется конструктор класса list, потому что __init__ находится именно там, а специально в MyList мы его не поределяли.

Порядок разрешения методов - порядок, в котором интерпретатор будет искать метод по дереву наследования в случае ммножественного наследования (определяется в момент создания класса).

    Class.mro()  #method resolution order, покажет порядок поиска метода. Этот порядок - порядок, в котором мы объявляли предков (то есть, слева направо, потом предки левого слева направо и т.д, потом правый с предками, и в конце object). То есть, поднимаемся по иерархии только в случае, если у стоящего выше в иерархии нет детей, в которых мы ещё не искали, но они тоже участвуют в наследовании.

Если нам нужно вызвать метод, который описан в MyList и в list, по порядку разрешения методов интерпретатор возьмет этот метод из MyList. В случае, когда нам нужно вызвать этот метод именно из list, мы используем функцию super.

    super(MyList, self).method() - первый аргумент функции - класс, в родителях которого мы будем искать метод (то есть, минуем сам MyList), а второй - объект, с которым надо проассоциировать метод (применить), в конце сам метод.

Такая запись идентична list.pop(self) - вызову метода из конкретного класса и передачи ему self явно.

Задача на реализацию условного наследования и определению того, является ли класс предком другого класса (через рекурсию):

In [None]:
def check(a, b):
    if a == b and a in dic:
        return True
    if b not in dic:
        return False
    if a in dic[b]:
        return True
    else:
        x = 0
        for i in range(len(dic[b])):
            x += check(a, dic[b][i])
        if x > 0:
            return True
        else:
            return False

dic = {}
n = int(input())
for i in range(n):
    line = input().split()
    if len(line) == 1:
        dic[line[0]] = ' '
    else:
        dic[line[0]] = line[2:]

n = int(input())
for i in range(n):
    a, b = input().split()
    if check(a, b) == True:
        print('Yes')
    else:
        print('No')

Не очень наглядный, но пример расширения готовых классов новыми методами (в данном случае мы расширяем метод append, чтоб он еще и применял метод log, который тут не описан, и выводил в консоль сообщение с элементом, который добавили):

In [None]:
class LoggableList(list, Loggable):  #Loggable - класс из задания, как и его метод log
    def append(self, part):  #принимаем по правилу self, а затем элемент, с которым работаем
        x = super(LoggableList, self).append(part)  #используем супер в данном случае, чтобы использовать append из list, но со своими правками (добавили другой return)
        return self.log(part)  #выводим сообщение через метод log с элементом, который добавили через append

Ошибки интерпретатора:

Ошибки - тоже объекты, поэтому у любой ошибки есть тип, который нам уже многое говорит. Также ошибка хранит состояние стека на момент ошибки. Это значит, что в логе ошибки всегда написано, где какие функции вызывались, и в какой строке была ошибка.

Синтаксические (SyntaxError) - опечатки в командах. При этом, интерпретатор не начнет построчное исполнение кода, если хоть где-то в нем есть синтаксическая ошибка.

Ошибка типов (TypeError) - несоответствие типов данных приводит к ошибке (нельзя сложить число и букву).

Ошибка имен (NameError) - использование имен, которые еще не были инициализированы.

Ошибка индекса (IndexError) - использование неправильного индекса (например, выход за рендж).

Ошибка деления на ноль (ZeroDevisionError) - ошибка при делении на ноль.

Мы можем проверить часть кода на наличие ошибок и отталкиваться от этого следующим образом:

    try:  #конструкция try проверит включенный блок кода на ошибки
        x = [1, 'a', 3]
        x.sort()
    except TypeError:  #в случае обнаружения TypeError будет запущен следующий блок кода, а после программа продолжит выполнение построчно
        print('Type error :c')
    print('I can catch it')

Так мы можем выделить некритичные ошибки для себя, которые не должны целиком останавливать исполнение всего кода.

Если возникает ошибка, которой нет ни в одном из блоков исключений (except), программа будет вести себя так же, как если бы этих блоков тут не было. То есть, выполнение кода остановится с ошибкой.

Когда у нас много except блоков ошибка будет обработана первым из них, под который подойдет, и остальные тогда будут игнорироваться.

Вместо множества except блоков можно использовать кортеж исключений:

    except (TypeError, IndexError):

Помимо этого через except можно выйти на сам объект ошибки:

    except TypeError as e:  #присуждаем имя e объекту ошибки
        print(type(e))  #выводит тип ошибки
        print(e)  #выводит строковое описание ошибки
        print(e.args)  #выводит аргументы ошибки

Если мы не знаем, какие типы ошибок могут нам встретиться, можно использовать пустой except, тогда он сработает на любую ошибку, и блок исполнится.

Многие типы ошибок наследуются друг от друга, например ошибка деления на ноль наследуется от ArithmeticError, поэтому нет смысла использовать оба типа, достаточно второго.

Также существуют блоки else и finally, else запускается, если не был верным ни один except, а finally запускается в самом конце в любом случае, и если были ошибки, и если не было, и если была ошибка, для которой нет except в нашем коде:

    def divide(x, y):
        try:
            result = x / y
        except ZeroDivisionError:
            print('Division by zero')
        else:
            print('Result is', result)
        finally:
            print('finally')

Имитация наследования классов, где нам нужно определить, вызов какого из классов можно было не далать, потому что уже был вызван класс его предка:

In [None]:
dic = {}
cache = []
n = int(input())
for _ in range(n):
    inp = input().split()
    if len(inp) == 1:
        dic[inp[0]] = ' '
    else:
        dic[inp[0]] = inp[2:]

def check(inp):  #если возвращает True, печатаем значение
    for i in dic[inp]:
        if i == ' ':
            break  #я не могу делать return в цикле, иначе он не пройдет все значения
        for j in cache:
            if j == i:
                return True
        if check(i) == True:
            return True

n = int(input())
cache.append(input())  #первый элемент кэша
for _ in range(n - 1):  #один элемент уже введен выше
    inp = input()
    if check(inp) == True:
        print(inp)
    cache.append(inp)  #это проверенно упрощает работу

Бросание (определение) своих исключений на примере проверки заглавности первой буквы в имени:

In [None]:
def greet(name):
    if name[0].isupper():  #проверка первого символа на заглавность
        return 'Hello, ' + name
    else:
        raise ValueError(name + 'is inappropriate name')  #когда с типом все в порядке, но нас не устраивает значение, мы можем создать исключение значения (ошибку значения) через ключевое слово raise

print(greet('Andrey'))
print(greet('andrey'))

Программа, которая здоровается с нами только в случае правильного ввода, иначе просит ввести заново (хороший пример использования новых конструкций):

In [None]:
def greet(name):
    if name[0].isupper():
        return 'Hello, ' + name
    else:
        raise ValueError(name + 'is inappropriate name')

while True:
    try:
        name = input('Please enter your name: ')
        greeting = greet(name)
        print(greeting)
    except ValueError:
        print('Please try again')
    else:
        break
#таким образом можно осуществить бесконечный ввод, как в терминалах, до ввода правильного значения

Для понятности ошибок можно создать свой класс исключений, отнаследовав его от класса Exception:

    class WrongName(Exception):
        pass  - для нашего примера достаточно этого

Тогда бы мы указали этот класс в raise вместо Value.

Задача на создание нового класса исключений для переопределенного класса list, который не дает добавить отрицательные числа:

In [9]:
class NonPositiveError(Exception):
    pass

class PositiveList(list):
    def append(self, x):
        if x > 0:
            super(PositiveList, self).append(x)
        else:
            raise NonPositiveError(x, 'is negative number')

sample = PositiveList()
sample.append(1)
print(sample)

[1]


Модули и импорт:

Написав какой-то код и функции в одном файле, мы можем пожелать их использовать в другом. Для этого нам нужно просто использовать import и имя файла, имена неймспейса которого станут атрибутами этого модуля:

    import file_name

    print(file_name.function_name())

Это работает так - import исполняет код переданного файла, и имена, которые сохранились в глобальном неймспейсе, становятся атрибутами модуля, который сохраняется в качестве объекта. Таким образом, если мы так делаем, то, например, все print() из подключенного файла исполнятся и выведутся. Если мы этого не хотим, можно подключать конкретные функции, классы и переменные.

Но есть более простое решение. У каждого файла есть глобальное имя - __name__. Обычно оно равно __main__, однако, когда код исполняется при подключении модуля, его имя меняется на имя модуля. Таким образом, если поместить в своем коде все определения (классы, функции и прочее) сверху, а снизу поставить условие, то при импорте исполнится не весь код, а только верхняя часть с определениями:

    class Class():  - часть, которая импортируется
        pass
    
    if __name__ == '__main__': - исполняемая часть кода, которая не исполнится при подключении ее как модуля.
        do_something

В интерпретаторе есть словарь sys.modules, в котором хранятся имена подключенных модулей в качестве ключей, и сами объекты модулей в качестве значений. Когда мы испортируем модуль, проверяется, есть ли такой ключ в словаре, если нет, код исполняется, создается объект модуля, словарь обновляется. При повторном импорте код не будет исполнен вновь, потому что в словаре уже есть запись. Этот словарь можно вывести по имени.

Мы можем проследить очередность поиска указанного модуля:

    import sys

    for path in sys.path:
        print(path)

Это выведет нам все директории поиска по очереди, и мы убедимся, что сначала модуль ищется в локальной директории (папка, в которой лежит исполняемый файл), потом во внешних библиотеках, которые находятся в папке python. Это стандартная библиотека и подключенные отдельно. 

Все папки там называются пакетами - удобное представление файлов одного модуля. Интерпретатор определяет, является ли папка пакетом по наличию файла __init__.py внутри.

Использование модуля datetime для хранения даты и изменения ее на определенное количество дней:

In [8]:
import datetime

year, month, day = list(map(int, input().split()))  #разделяем вводимую дату сразу на части
days = int(input())  #сколько дней добавить

res = datetime.date(year, month, day) + datetime.timedelta(days)  #прибавляем к дате изменение даты
print(res.year, res.month, res.day)

2016 5 4


Когда мы импортируем через from мы можем задавать свои имена через as для модуля и отдельных имен в нем.

Также мы можем импортировать через * все имена из модуля, но это черевато совпадениями с именами в нашем коде, поэтому не рекомендуется.

Если все же надо использовать *, чтоб не писать имя модуля каждый раз, можно прописать конструкцию, которая определит те имена, которые импортируются, и так можно не импортировать совпадающие, вручную прописав, что импортировать.

    __all__ = ['name1', 'name2']

Помимо этого, можно в начало имени добавить _, тогда оно тоже не будет импортировано с помощью *.

Расшифровка зашифрованного бинарного кода с помощью библиотеки simplecrypt по списку паролей:

In [40]:
import simplecrypt

with open("E:\Пользователь\Загрузки\encrypted.bin", 'rb') as inp:  #rb - на чтение, бинарное преобразование
    encoded = inp.read()

with open("E:\Пользователь\Загрузки\passwords.txt") as inp:
    passwords = inp.read().split('\n')

for password in passwords:
    try:
        res = simplecrypt.decrypt(password, encoded)
    except Exception:
        pass
    else:
        print(res)
        break

b'Alice loves Bob'


Итераторы и генераторы:

У каждого объекта, который можно использовать в цикле for (списки, словари, строки) есть объект итератор.

Объект итератор - объект, который говорит интерпретатору, какой элемент следующий (это могут быть элементы списка, ключи словаря, символы строки), а когда элементы кончаются, бросает ошибку StopIteration.

Мы можем итерироваться по итерируемым объектам не только с помощью циклов, но и с помощью функций iter и next для обращения к итератору объекта напрямую.

    list = []
    iterator = iter(list)
    print(next(iterator))

Так и работает цикл for, пуская в бесконечный while next(), пока не будет поймано исключение StopIteration.

Таким образом, мы можем писать свои собственные итераторы:

In [None]:
from random import random

class RandomIterator:
    def __iter__(self):  #определяем метод __iter__, чтоб можно было вызывать экземпляры через iter(), и чтоб они считались итерируемыми
        return self

    def __init__(self, k):  #требуем вводить количество случайных чисел, которые нужно вывести
        self.k = k  #количество чисел на вывод
        self.i = 0  #счетчик уже выведенных чисел (счетчик итераций)

    def __next__(self):  #чтоб вызывать next() и чтобы класс считалмя итератором определяем метод
        if self.i < self.k:  #пока количество итераций не превышает количество запланированных итераций
            self.i += 1
            return random()  #возвращаем рандомное число (по дефолту от 0 до 1)
        else:
            raise StopIteration  #после вывода запланированного числа бросаем исключение

for x in RandomIterator(5):  #теперь это итерируемый класс и он может использоваться в цикле for
    print(x)

x = RandomIterator(3)  #определяем, что данный экземпляр может итерироваться трижды
print('-----------')
print(next(x))
print(next(x))
print(next(x))
print(next(x))  #на 4 итерацию бросается исключение
#данный класс выдает нам случайные числа от 0 до 1

Еще один пример создания своего итерируемого класса, в этот раз это список, который выводит элементы не по-одному, а по парам:

In [5]:
class DoubleElementListIterator:  #чтоб вписать в __iter__ подходящий return описываем __next__ в отдельном классе
    def __init__(self, lst):
        self.lst = lst  #опять запоминаем введенные данные
        self.i = 0    #создаем счетчик итераций
    def __next__(self):
        if self.i < len(self.lst):
            self.i += 2
            return self.lst[self.i - 2], self.lst[self.i - 1]
        else:
            raise StopIteration

class MyList(list):
    def __iter__(self):
        return DoubleElementListIterator(self)

for pair in MyList([1, 2, 3, 4]):
    print(pair)
#недостаток очевиден, мы можем передавать только списки четной длины, однако для наших задач этого может быть достаточно, если список определяет не пользователь, а сама программа

(1, 2)
(3, 4)


Генераторы:

По сути, функции, которые вместо того, чтоб возвращать значение, используют слово yield, которое приостанавливает выполнение функции. После вызова next() функция продолжит исполнение до следующего yield. Если слово не будет найдено, будет брошено исключение StopIteration.

    def RandomGenerator(k):  - сама функция генератора, принимает на вход количество случайных чисел на выход.
        for i in range(k)
            yield random()  - вместо return используем yield.
    
    gen = RandomGenerator(3)  - создаем генератор (его объект не функция, а именно генератор)

    for i in gen:  - убеждаемся, что числа было 3
        print(i)

Данный код делает то же самое, что мы делали при помощи классов итераторов, но куда проще, что предпочтительнее для такого простого функционала.

Более наглядная демонстрация работы генератора:

    def simple_gen():  - создаем простой генератор, в нем два слова yield, то есть два шага. Код после последнего yield выполнится, но будет брошено исключение
        print('Checkpoint 1')
        yield 1
        print('Checkpoint 2')
        yield 2
        print('Checkpoint 3')

    gen = simple_gen()  - во время вызова генератора он не начинает исполнение, он хранит в себе все тело генератора, и ждет вызова next(), когда дойдет до yield, исполнение приостановится, и генератор будет хранить состояние именно на момент завершения прошлого шага. Следующий next() запустит исполнение не с начала, а с момента завершения прошлого.
    x = next(gen)  - вызван первый next(), исполнились две строки генератора, сразу печатается checkpoin, возвращенное значение хранится в переменной
    print(x)  - распечатываем сохраненное значение
    y = next(gen)  - продолжаем выполнение функции генератора, следующие две строки
    print(y)
    z = next(gen)  - генератор не найдет третьего yield, поэтому распечатает последний чекпоинт и бросит исключение StopIteration, что позволяет использовать генераторы с for

Если внутри генератора использовальзовать return, то на этом моменте будет брошено исключение StopIteration, а если return не пустой, то его значение будет комментарием к исключению.

Задача на создание своего класса из стандартного класса filter, который позволял итерироваться только по определенным элементам последовательности, но в нашем варианте проверяется несколько функций:

(filter принимает два аргумента - последовательность и функцию, и позволяет итерироваться только по тем элементам, с которыми эта функция вернет True)

In [None]:
class multifilter():
    def judge_half(pos, neg):  #создаем три функции, которые будут по-разному судить, допускать элемент или нет
        if pos >= neg:
            return True
        else:
            return False
    def judge_any(pos, neg):
        if pos >= 1:
            return True
        else:
            return False
    def judge_all(pos, neg):
        if neg == 0:
            return True
        else:
            return False
    def __init__(self, iterable, *funcs, judge=judge_any):
        self.iterable = iterable
        self.funcs = funcs
        self.judge = judge

    def __iter__(self):  #итератор через yield
        for i in self.iterable:  #проходимся по всем элементам последовательности, чтобы к каждому применить каждую функцию
            pos = 0  #считаем, сколько функций для одного элемента вернуло True, а сколько False
            neg = 0
            for k in self.funcs:
                if k(i) == True:
                    pos += 1
                elif k(i) == False:
                    neg += 1
            if self.judge(pos, neg) == True:  #вызываем функцию суждения и передаем туда свои подсчеты
                yield i  #каждый элемент возвращается по-одному, таким образом, доступен next()
#функции для примера
def mul2(x):
    return x % 2 == 0

def mul3(x):
    return x % 3 == 0

def mul5(x):
    return x % 5 == 0


a = [i for i in range(31)] # [0, 1, 2, ... , 30]

x = multifilter(a, mul2, mul3, mul5)
iter(x)

print(list(multifilter(a, mul2, mul3, mul5)))
# [0, 2, 3, 4, 5, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20, 21, 22, 24, 25, 26, 27, 28, 30]

print(list(multifilter(a, mul2, mul3, mul5, judge=multifilter.judge_half))) 
# [0, 6, 10, 12, 15, 18, 20, 24, 30]

print(list(multifilter(a, mul2, mul3, mul5, judge=multifilter.judge_all))) 
# [0, 30]

Генератор простых чисел:

In [46]:
def primes():
    current = 2
    while True:
        for i in range(2, current):
            if current % i == 0:
                current += 1
                break
        else:
            yield current
            current += 1

x = primes()
for i in range(4):
    print(next(x))
#проходить все числа на больших данных - довольно затратный процесс, оптимальнее было бы воспользоваться формулами нахождения простых чисел, тогда бы надо было проходить куда меньше чисел

2
3
5
7


List comprehention (генерация списков):

Мы можем создавать списки упрощенно при помощи этого инструмента. Например, у нас есть список с числами, и мы хотим создать второй с квадратами этих чисел. Можно было бы сделать это через цикл for, но это сложнее.

    lst1 = [-1, -2, 0, 2, 1]
    lst2 = [i * i for i in lst1]

    lst2 = [i * i for i in lst1 if i > 0][1:] - мы также можем добавить условие в конце и срезы после.

Циклов for может быть несколько, это эквивалентно вложенным циклам:

    z = [(x, y) for x in range(3) for y in range(3) if y >= x]

    z = []
    for x in range(3):
        for y in range(3):
            if y >= x:
                z.append((x, y))

Это две равные записи.

Если заменить [] на (), то это превратится в генератор, который будет нам выдавать подходящие значения итерационно:
    z = ((x, y) for x in range(3) for y in range(3) if y >= x)
    print(next(z))

Работа с файлами:

Файлы бывают текстовые и бинарные.

Для изображений есть библиотека pillow, а для звука - wave и python audio tools.

Чтобы открыть какой-то файл необходима функция open(). Она принимает два строковых аргумента - адрес файла и режим открытия (r по умолчанию):

    open('./text.txt', 'r') - открыть на read.

Режимы:
1. r (read) - на чтение (по умолчанию)
2. w (write) - открыть для записи, содержимое файла стирается
3. a (append) - для записи в конец, содержимое не стирается
4. b (binary) - открыть в бинарном режиме
5. t (text) - открыть в текстовом режиме (по умолчанию)
6. r+ - для чтения и записи
7. w+ - для чтения и записи, содержимое стирается

Режимы можно совмещать, например "rb".

Когда мы открываем файл, создается объект, и для того, чтобы освободить ресурсы, затраченные на поддержание связи с файлом, когда работа закончена, надо файл закрыть через метод .close().

Через метод .read() мы можем считывать информацию из файла, причем по умолчанию он считывается весь, но можно передать аргументом количество символов, которое нас интересует (если после этого попытаться прочитать весь файл, то он будет сохранен не весь, а с момента, который уже был прочитан).

Когда мы читаем файл, в конце у него всегда есть пустая строка!!

Могут возникнуть проблемы при использовании разных ос в связи с использованием символов переноса строки, поэтому есть смысл использовать метод .splitlines(), который разобъет прочитанный текст на строки, которые будут храниться в списке.

Если мы имеем дело с большими файлами, то считывать их полностью - нагрузка на озу. Поэтому оптимальнее считывать построчно через метод .readline():
    file = open('test.txt') - присуждаем интерпретатором имя для открытого файла
    line = file.readline().rstrip() - применяем к открытому файлу метод, line будет хранить первую строку файла (опять же, с символом переноса строки, поэтому используем второй метод, чтобы убрать их).

Самым оптимальным по памяти способом работы с файлами признана итерация по объекту файла, поскольку тот имеет итератор, выдающий поэлементно строки (разделены они символом переноса строки):

    file = open('test.txt')
    for line in file:
        line = line.rstrip()
        print(repr(line)) - repr() печатает строку в полном представлении, с символами переноса строки и прочими, тут мы убеждаемся, что этих символов у нас нет.
    file.close()

Для записи мы открываем файл с соответствующим параметром, при этом, если открыть файл, которого в нашей директории нет, он создастся.

Для записи в файл мы используем метод .write(), причем переносы строки надо указывать явно (\n).

Если у нас есть список со строками, которые мы хотим записать в файл, причем на разные строки, имеет смысл использовать метод .join().

    lines = ['line1', 'line2', 'line3']
    content = '\n'.join(lines) - метод применяем к строке, которая будет добавлена между всеми элементами переданной последовательности (результат - одна строка).
    file.write(content)
    file.close()

Таким же образом можно осуществлять дозапись через режим 'a'.

Так как может быть брошено исключение до того, как файл будет закрыт, что плохо, умно использовать функцию open() вместе с конструкцией with.

    with open('test.txt') as file, open('test_copy.txt', 'w') as w: - открыть можно сразу несколько файлов, у каждого будет свое обозначение, которое мы ему присудим.
        for line in file:
            w.write(line)

Будет брошено исключение или нет, файл будет закрыт, если использовать такую конструкцию. Здесь мы скопировали содержимое файла test в новый файл test_copy.

Задача на открытие файла, и записи его содержимого в обратном порядке в новый файл:

In [14]:
with open(r"E:\Пользователь\Загрузки\dataset_24465_4.txt") as file, open(r"E:\Пользователь\Загрузки\res.txt", 'w') as res:
    content = file.read().rstrip().splitlines()
    for line in reversed(content):
        res.write(line + '\n')
#довольно расточительно для ресурсов читать файл целиком, можно было бы разворачивать его в отдельном списке, что тоже не очень оптимально, но кураторы использовали метод res.writelines(reversed(lines)), \
#что несколько медленнее, но менее расточительно по памяти

Работа с файловой системой это не только работа с файлами. Немного о библиотеках os, os.path, shutil.

    os.getcwd() - выдает текущую директорию
    os.listdir() - печатает список файлов и папок в определенной директории (по умолчанию текущая директория).
    os.chdir() - поменять текущую директорию на указанную.
    os.path.exists() - проверяет, существует ли переданный файл или директория в текущей директории (булево значение).
    os.path.isfile() - проверяет, является ли указанный путь файлом.
    os.path.isdir() - проверяет, является ли указанный путь директорией.
    os.path.abspath() - выдает абсолютный путь к указанному файлу по относительному пути.
    os.walk('.') - пройтись рекурсивно по всем подпапкам указанной директории (. - текущая).

Это генератор, который возвращает кортеж из трех значений - строковое представление текущей директории, подпапки в ней и файлы, все это можно использовать отдельными переменными:

    for current_dir, dirs, files in os.walk('.'):
        print(current_dir, dirs, files)

    shutil.copy('dir1', 'dir2') - копирование.
    shutil.copytree('dir1', 'dir2') - копировать целиком папку в другое место.

Программа проходит рекурсивно по всему дереву указанной директории, и записывает в отдельный файл в лексикографическом порядке директории, в которых есть файлы с расширением .py:

In [27]:
import os

os.chdir(r"E:\Пользователь\Загрузки\main")

res = []

for cur_dir, dir, files in os.walk('.'):
    for file in files:
        if file[-3:] == '.py':
            res.append(cur_dir[2:])
            break

res.sort()
res = '\n'.join(res)

with open(r"E:\Пользователь\Загрузки\res.txt", 'w') as answer:
    answer.write(res)
#можно было бы решить проще с методом .endswith('.py'), который проверяет окончание

Работа с функциями:

map - итератор, который применяет функцию первого аргумента к каждому элементу последовательности второго. При этом map возвращает map_object, по которому мы можем итерироваться в цикле for или через next().

Подобная конструкция тождественна простому генератору, в который передали функцию и цикл for.

Множественное присваивание в python работает только тогда, когда количество переменных слева и количество элементов последовательности/итератора справа равно.

Функция filter() принимает проверочную функцию (например, even) и последовательность, которая будет проверяться.

filter() возвращает filter_object, по которому можно итерироваться, либо записать в list().

Лямбда функции:

Синтаксис (функция проверки на четность).

even = lambda x: x % 2 == 0 - ключевое слово lambda, после аргумент, который мы передаем в нашу функцию (работает * и прочее, аргументы по умолчанию) с двоеточием, после чего возвращаемое значение функции.

При этом, сначала мы создаем объект функции использую лямбду, и только потом присваиваем ей имя, поэтому можно обойтись без доп. переменных, передавая лямбду в качестве аргумента:

    evens = list(filter(lambda x: x % 2 == 0, x_list)) - данная конструкция сохранит в список evens все четные числа x из последовательности x_list.

Использование ключей для сортировки (можно использовать лямбду):

    x = [('Guido', 'van', 'Rossum'), 
         ('Haskell', 'Curry'), 
         ('John', 'Backus')
    ]

    def length(name):
        return len(' '.join(name))

    name_lengths = [length(name) for name in x]
    print(name_lengths)

    x.sort(key=length)
    print(x)

В данном случае мы имеем список имен, которые содержатся в кортежах их частей. Мы объединяем все части в одну строку черед join(), после чего создаем список длинн имен через генератор. Используя функцию length как ключ сортировки сортируем список имен в от короткого к длинному.

Но, если бы не нужно было использовать length() в нескольких местах, можно было бы просто передать в качестве ключа одну лямбда функцию вида lambda name: len(' '.join(name)).

Библиотека operator позволяет представить операторы вроде + и - в виде функций:

    import operator as op

    op.add(4, 5) - сложение 4 и 5
    op.mul(4, 5) - перемножение
    op.contains([1, 2, 3], 4) - проверяет, входит ли 4 в переданную последовательность.

В этой библиотеке есть функция, позволяющая нам получить элемент из коллекции:

    x = [1, 2, 3] - создаем коллекцию (последовательность)
    f = op.itemgetter(1) присуждаем f itemgetter от 1
    f(x) вызываем itemgetter с коллекцией в виде аргумента, и нам будет возвращен элемент коллекции с индексом 1

Следует понимать, что передавать можно не только числа, но и строки, если мы имеем дело с ключами словаря.

Подобным образом мы можем работать и с атрибутами (методами):

    f = op.attrgetter('sort') - передаем в f getter от sort
    f([]) - равносильно записи [].sort()

Это что-то вроде укороченной записи, может пригодиться, когда мы передаем что-то в другие функции или устанавливаем ключи сортировки.

Функция partial из библиотеки functools позволяет нам создать новую функцию на базе существующей, куда partial будет передавать какие-то аргументы:

    from functools import partial

    x = int('1101', base=2) - указываем явно то, что работаем с двоичной системой счисления.
    print(x) - 13

    int_2 = partial(int, base=2) - создаем int_2, которая будет работать, как int, в который мы передали base=2.
    x = int_2('1101') - теперь достаточно передать лишь один аргумент.
    print(x) - тоже 13.

Сортировка по фамилии людей из примера выше с использованием itemgetter (чтоб выставить в качестве ключа значение фамилии, которая на последней позиции) и partial (чтоб не писать полный x.sort(key=op.itemgetter(-1))):

In [6]:
import operator as op
from functools import partial

x = [('Guido', 'van', 'Rossum'), 
     ('Haskell', 'Curry'), 
     ('John', 'Backus')
    ]

sort_by_last = partial(list.sort, key=op.itemgetter(-1))
sort_by_last(x)
print(x)

y = ['abc', 'cba', 'abb']  #получившаяся функция универсальна, мы можем отсортировать список по последнему элементу элементов, например, отсортировать эти строки по последней букве.
sort_by_last(y)
print(y)

[('John', 'Backus'), ('Haskell', 'Curry'), ('Guido', 'van', 'Rossum')]
['cba', 'abb', 'abc']


Очень интересная программа, мы создаем функцию, которая генерирует лямбда функции от одного аргумента y, которая возвращает True, если y % x равно mod (который по умолчанию равен 0, но можно передать 1, тогда будем проверять на нечетность):

In [7]:
def mod_checker(x, mod=0):
    return lambda y: y % x == mod

mod_3 = mod_checker(3)  #тут у нас хранится lambda, в которую мы подставили x = 3, mod по умолчанию 0

print(mod_3(3))  #теперь мы вызываем lambda, и передаем в нее аргумент 3, который становится в y, теперь функция возвращает значение True, так как 3 % 3 == 0.
print(mod_3(4)) # False

mod_3_1 = mod_checker(3, 1)  #здесь меняем mod с 0 на 1
print(mod_3_1(4)) # True

#пример решения в одну строку вместо 2, в lambda можно передавать множество аргументов, в том числе значения по умолчанию
#mod_checker = lambda x, mod=0: lambda y: y % x == mod

True
False
True


Помимо стилистических рекомендаций PEP8 неплохо прописывать документацию наших классов и функций:

    class MyNewClass():
        """
        This class do something and something to something


        I use something in it
        """

        def __init__(self)

Это комментарий-подсказка для других людей с важными замечаниями, при этом он будет доступен по команде:
    
    MyNewClass.__doc__


Это работает и с стандартной бибилотекой, своеобразный man.

Работа со строками:

    'abc' in 'abcd' - True or False

Поиск строки в строке и возврат индекса (поддерживает слайсы):

    'cabcd'.find('abc') - вернет индекс первого вхождения искомой строки, то есть 1 (-1, если не входит).

    .rfind() читает строку с конца.

    .index() делает по умолчанию то же самое, но если не находит, то бросает исключение ValueError.

Проверка начала строки (поддерживает слайсы):

    s = 'The first words were sad'

    s.startswith('The first words') - проверяет, начинается ли строка с переданной строки.

При этом мы можем узнать в документации, что можно также передать кортеж значений, и если хоть одно из них подходит, будет возвращено True:

    s.startswith(('The first words', 'The second words', 'The third words'))

Проверка конца строки (например, для проверки расширения):

    s.endswith('.png')

Также поддерживаются кортежи и слайсы.

Подсчет непересекающихся вхождений одной строки в другую (можно ограничить область поиска слайсами):

    s = 'abahaba'
    s.count('aba') - ababa вернет 1.

Методы смены регистра:

    s.lower() - перевод в нижний.
    s.upper() - перевод в верхний.

Замена одной строки на другую:

    s = [1,2,3,4]
    s.replace(',', ', ') - заменит запятую на запятую с пробелом (для редактирования строк, где их не поставили).

При этом, можно передать последним аргументов количество вхождений, которое следует изменить:
    s.replace(',', ', ', 2)

Разделение строки:

    s.split(' ', 2) - в конце можно указать количество необходимых разделений (только первые два элемента будут отделены).

Интересно то, что если не указывать разделитель явно, то он будет разделять по любому количеству пробелов, табуляций и прочего, чтобы получить только сами элементы.

Отчистака строки от лишних символов справа, слева, или с обоих концов:

    s = ['  1, 2, 3, 4  ']
    s.strip() удалит пробелы слева и справа.
    s.lstrip() только слева.
    s.rstrip() только справа.

    s = ['_*_1, 2, 3, 4_*_']
    s(strip('_*')) - если передать в качестве аргумента какие-то символы, то вместо пробелов он будет чистить их.

Метод .join():

    ' '.join(sequence) - прниимает последовательность, объединяя все элементы которой в одну строку с разделителем, от которого был вызван метод.

Так как join требует именно строковые данные, если мы работаем с последовательностью чисел, нужно применить к ним str() через map.

Форматирование строк методом .format():

На примере строки "London is the capital of Great Britan" создаем шаблон, где заменяем слова, которые мы хотим менять на {}.

    template = '{} is the capital of {}'
    template.format('Moscow', 'Russia')

В данном случае переданные аргументы будуь подставлены по-очереди в пустые ячейки, однако мы можем вручную определить порядок подмены, если нам это надо.

    template = '{1} is the capital of {0}'
    template.format('Moscow', 'Russia')

В данной строке страна и город поменяны местами.

Для большего контроля можно использовать не позиционные, а именованные аргументы:

    template = '{capital} is the capital of {country}'
    template.format(capital='Moscow', country='Russia')

Помимо позиции и имени мы можем использовать атрибуты для подстановки:

    import requests

    template = 'Response from {0.url} with code {0.status_code}' - мы используем атрибуты одного и того же аргумента.
    res = requests.get('https://site_name.ru')
    print(template.format(res))

Будет взят url от get-запроса, а также его статус код.

Мы можем использовать format для округления чисел до определенного количества знаков после запятой:

    from random import random

    x = random()
    print(':.3'.format(x)) - таким синтаксисом мы указываем, что нас интересует только 3 знака после запятой.

У format есть множество других фишек, например использование элементов списка или словаря в шаблоне.

Задача на выявление количества раз, которое можно заменить в строке s строку a на строку b. Если более 1000 раз, вывести Impossible, если ни разу - 0:

In [None]:
s, a, b = input(), input(), input()

for i in range(1000):
    if a in s:
        s = s.replace(a, b)
    else:
        print(i)
        break
else:
    print('Impossible')
#можно было бы просто проверять, если a и в s и в b, то это бесконечный цикл, нет нужды проверять 1000 раз.

In [68]:
s, t = input(), input()

count = 0
i = 0
while True:
    pos = s.startswith(t, i)
    if pos == -1:
        break
    if len(t) == 1:
        i += 1
    else:
        i += len(t) - 1
    count += 1

print(count)

5


Задача на подсчет пересекающихся (!) вхождений строки t в строку s:

In [76]:
s, t = input(), input()

count = 0
for i in range(len(s)):
    if s.startswith(t, i) == True:
        count += 1

print(count)

3


Регулярные выражения (шаблоны часто отождествляют с ними):

Концепция "сырых" (raw) строк - указав перед строкой маркер r мы говорим интерпретатору, что это сырая строка, и все символы в ней надо напечатать, как есть (экранирует все служебные символы):

    print(r"The\nstring")  #напечатает The\nstring

Для создания шаблонов мы будем использовать мырые строки.

Модуль стандартной библиотеки re:

    re.match - сопоставить строку с нашим шаблоном и определить, подходит ли она под него.
    re.search - найти подстроку, которая подходит под шаблон.
    re.findall - найти все подстроки, которые подходят под наш шабалон.
    re.sub - заменить подстроки, подходящие под шаблон на что-то еще.

Match:

    pattern = r'abc'
    string = 'abcd'
    print(re.match(pattern, string)) - вернет spin(0, 3) и 'abc', что показывает, на каких позициях было найдено совпадение и в каком виде.

Это не поиск строки в строке, если бы строка была 'babc', то она бы тоже вернула None, потому что начинается не с той буквы, что шаблон. Ищет re.search, возвращает позицию.

Мета символы в регулярных выражениях:

В квадратных скобках мы можем указать множество символов, подходящих под шаблон - вместо 'abc' можно написать 'a[abc]c', указав, что второй символ может принимать три разных значения, и тогда под шаблон будет подходить не только строка 'abc', но и 'aac' и 'acc'.

Findall:

    pattern = r'a[abc]c'
    string = 'aac, abc, acc'
    print(re.findall(pattern, string)) - возвращает список всех подходящих подстрок (в данном случае, всех трех).

Исправление опечаток:

Если предположить, что в нашем примере aac и acc - опечатки слова abc, то можно заменить все подходящие под шаблон подстроки на правильный вариант:

    re.sub(pattern, 'abc', string)

Больше о мета символах:

Когда мы имеем дело с мета символами, например ?, их нужно экранировать в шаблоне обратным слэшем, поскольку r нам тут не поможет, и символ все равно будет восприниматься как метовый:

    pattern = r'english\?' - обратный слеш тоже является метовым символом, поэтому надо использовать сырую строку.

Мы можем не только напрямую перечислять в квадратных скобках все подходящие нам варианты, но и указать диапозон:

    pattern = r'a[a-d]c'

Таким образом, чтобы любая буква подходила под шаблон можно передать [a-zA-Z].

Мета символ ^ - это исключение из шаблона, то есть, перечисление символов, которые точно не должны на этой позиции быть:

    pattern = r'a[^a-zA-Z]c' - данная запись говорит о том, что на второй позиции не должно быть букв, только символы.

Сокращения мета символов:

    \d == [0-9] - все цифры
    \D == [^0-9] - никаких цифр
    \s == [ \t\n\r\f\v] - пробельные символы (пробел, табуляция, перенос строки, перенос каретки, перенос страницы и вертикальная табуляция)
    \S == [^ \t\n\r\f\v] - никаких пробельных символов
    \w == [a-zA-Z0-9_] - все буквы, цифры плюс _
    \W == [^a-zA-Z0-9_] - без букв, цифр и _

При этом, мы можем использовать такие сокращения в комбинациях с другими сокращениями и символами:

    pattern = r[a[\w.]c] - на втором месте \w плюс точка.

Точка - универсальный мета символ, обозначающий любой символ, будь то цифры, буквы, знаки, пробелы и т.д.

    pattern = r'a[.]c' - на втором месте может быть что угодно.

Умножение (*) - мета символ, указывающий, что нас устроит любое число таких символов, в том числе и ноль:

    pattern = 'ab*c' - подойдет и ac, и abbbc.

Плюс (+) - то же самое, но не считается ноль символов:

    pattern = 'ab+c' - подойдет abbbc, a ac уже нет.

Плюс и умножение называются символами повтора.

Вопрос (?) - то же самое, но учитываются только ноль или одно вхождение:

    pattern = 'ab?c' - подойдет abc и ac, a abbc уже нет.

Фигурные скобки с числом {3} - указывает точное количество (или промежуток) символов, которые должны быть учтены:

    pattern = 'ab{3}c' - подойдет только abbbc.
    pattern = 'ab{2,4}c' - подойдет только abbc, abbbc и abbbbc.

Данные символы (+ и *) работают по жадному принципу, пытаясь включить максимальное количество символов в итоговый ответ. Но можно попросить найти не жадным способом, минимальное число вхождений, путем добавление после символа еще и ?:

    pattern = 'a[ab]+?a' - без вопроса он бы нашел самую большую подстроку, которая начинается и кончается на a, и содержит между собой только символы a и b в любом количестве, но в данном случае - самую короткую такую строку. Findall найдет несколько таких коротких строк, если возможно.

Группировка символов в регулярных выражениях:

    pattern = r'(test)*' - () выделяют группу символов, и в данном случае символ повтора (*) прмиеняется не к одному символу, а к слову test.
    pattern = r'(test|text)*' - символ или (|) указывает, что нам подходит или группа test, или группа text, обе они подходят.
    pattern = r'abc|(test|text)*' - если использовать символ или вне групп, наше регулярное выражение поделится на две части, и будет искаться либо первая часть, либо вторая.

    pattern = r'((abc)|(test|text))*' - мы можем обернуть все в группы, и после использовать match.groups() (можно передать аргументом номер группы, ноль - весь итоговый match, он по умолчанию), что выведет нам совпадения по каждой из групп (3 в данном случае). Если применить такой шаблон к слову testtext, то в первой группе у нас будет совпадение testtext, поскольку оно совпадает со всем нашим выражением, вторая группа вернет None, потому что там abc, а третья вернет text, потому что при использовании символов повторения в таких ситуациях выдается последнее совпадающее вхождение.

    pattern = r'(\w+)-\1' - такому шаблону будет соответствовать что-то вроде test-test, потому что \1 значит "равный первой группе (первым скобкам)". Первая группа у нас test, поэтому test=text не пройдет.

    pattern = r'(\w+)-\1'
    string = 'test-test chow-chow'
    duplicate = re.sub(pattern, r'\1', string) - мы можем переиспользовать позже \1 (обязательно в сыром виде), ответ - test chow (мы меняем подходящий test-test на первую группу, то есть первое слово test).

В работе с группами стоит быть осторожным с findall, потому что он будет возвращать список из кортежей по две (в данном случае) группы (два кортежа).

Флаги регулярных выражений:

    re.match(r'text', 'TEXT', re.IGNORECASE) - re.IGNORECASE игнорирует регистр букв, поэтому будут найдены совпадения, независимо от регистра.
    re.match(r'text', 'TEXT', re.IGNORECASE | re.DEBUG) - для использования нескольких флагов используем знак или, DEBUG нам покажет информацию о группах, кодах символов и то, ищет он жадно или нет.

Задача на считывание ввода, и вывод тех строк, где есть хотя бы два слова cat:

In [6]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    if re.match(r'.*(cat).*\1', line):
        print(line)

Задача на поиск слова cat (то есть, слева и справа от него не могут быть буквы или цифры, но может все остальное):

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    if re.search(r'\bcat\b', line):  #\b - не буквы и не цифры, то есть, пробельные символы и знаки
        print(line)

Задача на вывод строк, содержащих \:

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    if re.search(r'\\', line):  #необходимо дополнительно экранировать слэш, чтоб он не использовался в качестве мета символа
        print(line)

Найти слово (!), состоящее из двух одинаковых частей (blabla, 123123):

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    if re.search(r'\b(\w+)\1\b', line):
        print(line)

Заменить в строке все слова human (в том числе слова вида humanity) на computer:

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    print(re.sub(r'(human)', 'computer', line))

Заменить первое вхождение слова в строке, которое состоит только из букв a без учета регистра, на argh:

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    print(re.sub(r'\b(a+)\b', 'argh', line, flags=re.IGNORECASE, count=1))  #почему-то флаги надо указывать именовано

Найти все слова от двух букв и больше, и поменять местами первую и вторую буквы:

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    print(re.sub(r'\b(\w)(\w)(\w*)\b', r'\2\1\3', line))  #третья группа - любое количество дополнительных букв в слове после первых двух, в том числе и ноль; ее и используем в шаблоне на замену

Замена повторяющихся подряд символов на один (dog вместо doggg):

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    print(re.sub(r'(\w)\1+', r'\1', line))

Дикая задача, нужно при помощи регулярных выражений выводить двоичные числа, кратные трем.

Реализовано это изначально через конечный автомат, суть которого я еле понял после разжовывания в блоке решений.

Суть была в рисунке с тремя точками, мы изначально находимся в первой, если число в строке ноль, мы остаемся на месте, если 1 - переходим во вторую точку. Во второй точке при 1 мы возвращаемся, а при 0 переходим на 3 точку. На третьей точке при 1 мы остаемся там, а при нуле переходим во вторую точку.

Если в конце мы оказались в первой точке, то число кратно трем. Все эти ходы можно описать так: если в начале строки 0 или любое его число, мы до конца останемся в первой точке (0)*, если начинается все с 11 или любого их числа, то тоже окажемся на старте (11)*. Если между этими 11 есть любое четное количество нулей для захода на третью точку и возвращения назад, нам это подходит (1(00)*1). Если между двумя нулями между двумя 1 будет любое число 1, мы просто будем оставаться на 3 точке до следующего нуля (1(01*0)*1). Объединяем (0|(1(01*0)*1))* - либо нули, либо любое число полученных выражений.

In [None]:
import sys, re

for line in sys.stdin:
    line = line.rstrip()
    if re.fullmatch(r'(0|(1(01*0)*1))*', line):
        print(line)

Обзорно об интернете:

При работе в интернете всегда есть две стороны - клиент и сервер. Клиент отправляет на сервер запросы (request), а сервер отправляет клиенту ответы (response) на эти запросы.

URL - uniform resourse locator - единообразный локатор ресурсов, который помогает определить, на каком из серверов и где конкретно находится тот или иной ресурс.

По сути, url - обычная ссылка в нашем понимании, которая состоит из протокола, домена (хоста) и пути до ресурса (множество папок и слешей).

Запросы включают в себя несколько элементов - метод (get, post (этот метод предполагает, наоборот, ввод информации для изменения содержимого, например пароли и разные данные)), ресурс, который мы хотим получить от хоста (например, какая-то страница), и версия http протокола (например, HTTP/1.1). Также могут включаться хост и разные служебные слова.

Ответ включает в себя версию протокола, статус кода (200 когда все хорошо, 404 если ресурс не найдет на сервере, 500 если есть проблемы со стороны сервера), дата, content-type (text/html, img или что-то еще), а также header и body html страницы, если мы запрашиваем страницу.

Библиотека requests:

    res = requests.get('https://docs.python.org/3.5/') - get запрос, возвращает response_object.
    print(res.status_code) - можем работать с респонсом, который включает в себя, например, статус код.
    print(res.headers['Content-Type']) - все хедеры доступны в качестве словаря.
    print(res.content) - отобразить содержимое url (бинарные данные).
    print(res.text) - отобразить содержимое, если мы уверены, что оно включает только текст (без картинок и прочего), например, код html страницы.

При работе с изображениями и музыкой, которую мы получаем в бинарном виде, мы можем записать полученную информацию в файл:

    res = requests.get('https://docs.python.org/3.5/_static/py.png')

    with open('python.png', 'wb') as f:  - используем wb для записи бинарных данных.
        f.write(res.content)

Данный код создаст файл python.png в рабочей директории, который будет точной копией файла изображения с сайта.

Мы можем указывать некотрую информацию в качестве параметра. На примере поисковика яндекс, это выгядит так:

    https://yandex.ru/search/?text=python - слово python можно заменить на то, что мы бы написали в поисковой строке. В данном случае наш запрос передан в качестве параметра text (это имя определил сам яндекс, у гугла было бы другое имя параметра).

В коде мы можем сделать это следующим образом:

    res = requests.get('https://yandex.ru/search/', params={'text': 'python'}) - если нам известны имена определнных параметров, мы можем передавать их в гет запросе в качестве словаря.
    print(res.url) - полученной странице будет соответствовать url https://yandex.ru/search/?text=python.

Если бы мы передали больше параметров, мы бы заметили правила, по которым у нас они выстраиваются в url - сначал всегда ставится ?, после имя параметра и через = его значение. Если значение включает пробелы, вместо них +. Все параметры разделены символом &. Если передать в качестве параметра список значений, например "list": ['test1', 'test2'], это примет вид &list=test1&list=test2, то есть, словно не связанные параметры, они также могут не стоять рядом.

Правила довольно замысловаты, поэтому советуют использовать специальные бибилиотеки для составления таких url.

Вводится две ссылки, нужно вывести Yes, если на первой странице есть ссылки на страницы, на которых есть вторая ссылка, иначе вывести No (то есть, мы должны сделать два переход по ссылкам, чтоб увидеть вторую введенную):

In [36]:
import requests, re

A, B = input(), input()

def main():
    response = requests.get(A)
    for i in re.findall(r'<a href="(.*)">', response.text):
        response2 = requests.get(i)
        pattern = r'<a href="{ref}">'
        pattern = pattern.format(ref = B)
        if re.findall(pattern, response2.text):
            print('Yes')
            break
    else:
        print('No')

if __name__ == '__main__':
    main()

Yes


Задача перейти в файл по ссылке, собрать все ссылки в нем и вывести только сайты (типо www.site.ru, site.ru или типо того):

In [None]:
import requests, re

link = input()

response = requests.get(link)
site_list = re.findall(r'<a.*href=["\'](?:\w*-*\w*://)*((?:\w+\.)*(?:\w*\.*\d*-*\w*)(?:\.\w+)+)', response.text, flags=re.IGNORECASE)

site = set()
for i in site_list:
  site.add(i)

res = []
res += site

print(*sorted(res), sep='\n')

Это были учебные задачи, однако парсить сайты регулярками плохо, нечитаемо, и сложно покрыть все краевые случаи, поэтому используют специальные библиотеки.

Форматы текстовых файлов:

CSV - (comma separated values) - табличный формат, который представляет собой строки, в которых значения разделены запятой. Если нужно использовать запятую в значении, можно взять его в двойные кавычки, тогда ошибок не будет.

Перенос строки также участвует в формировании таблицы, если надо использовать его в значении, опять же можно использовать кавычки.

    first name, last name, module 1, module 2
    student, good, 100, 90

Для работы с такими форматами в python есть библиотека csv (после используем with open()).

    import csv

    with open('example.csv') as file:
        reader = csv.reader(file)  #возвращает объект, по которому можно итерироваться
        for row in reader:
            print(row)

Этот код будет выводить таблицу по ряду (в виде списка).

Данная библиотека также позволяет работать с файлами tsv (tab separated values), для этого просто нужно в функции csv.reader() указать параметр delimiter='\t'.

Также мы можем и записывать в файл:

    import csv

    rows = [[row 1], [row 2]]

    with open('example.csv', 'a') as file:  #a для дозаписи
        reader = csv.writer(file)  #возвращает объект, по которому можно итерироваться
        for row in rows:
            writer.writerow(row)  #writerows принимает список, который будет записан строкой в файл (в данном случае у нас был список списков, по которому мы итерируемся и записываем все по очереди)

Если в значении, которое мы записываем, была запятая или перенос строки, библиотека сама поставит значение в кавычки.

Помимо этого у нас есть метод write.writerows() (S (!)), в который мы могли как раз передать наш список списков rows, и он бы их все записал.

Для csv.writer также есть параметры, например quoting=csv.QUOTE_ALL добавит все значения в кавычках (есть варианты QUOTE_MINIMAL, QUOTE_NONE, QUOTE_NONNUMERIC).

Задача на анализ большой csv таблицы преступлений, в которой надо было подсчитать самый частый тип преступлений за 2015 год:

In [17]:
import csv

res = {}

with open("E:\Пользователь\Загрузки\Crimes.csv") as file:
    reader = csv.reader(file)
    for row in reader:
        if '2015' in row[2]:
            if row[5] not in res:
                res[row[5]] = 0
            else:
                res[row[5]] += 1

greater = 0

for key, value in res.items():
    if value > greater:
        greater = value
        answer = key

print(answer)

595 THEFT


Та же задача с использованием Counter из модуля collections

In [22]:
import csv
from collections import Counter

crime = []

with open("E:\Пользователь\Загрузки\Crimes.csv") as file:
    reader = csv.reader(file)
    for row in reader:
        if '2015' in row[2]:
            crime.append(row[5])
print(Counter(crime).most_common(1)[0][0])  #most_common выводит список из кортежей, которые включают тип преступления и его количество. Если передать аргументом 1, передаст только первый из таких кортежей (они идут по убыванию). Нули для того, чтоб вывело только тип.

THEFT


JSON - еще один популярный текстовый формат, который используется множеством приложений. Он описывает числа, строки, списки и объекты (словари), примерно как python. True и False пишутся с маленькой буквы, nool вместо none, ключом в объекте может быть только строка.

Для работы с такими файлами в python есть библиотека json.

    import json

    student1 = {'first_name': 'Greg', 
                'scores': [70, 80, 90]
    }

    student2 = {'first_name': 'Wirt', 
                'scores': [60, 80, 80.2]
    }

    data = [student1, student2]
    print(json.dumps(data, indent=4, sort_keys=True))  #выведет наши данные в представлении json, просто для примера. indent - длина отступов.

    with open('students.json', 'w') as f:
        json.dump(data, f, indent=4, sort_keys=True) - используем метод dump вместо dumps, чтобы вторым аргументов передать файл, в который нужно записать данные в формате json.

Для обратной конвертации из формата json в объект python используем функцию loads:

    data = [student1, student2]
    data_json = json.dumps(data, indent=4, sort_keys=True) - переводим данные в формат json через dumps.
    data_origin = json.loads(data_json) - переводим обратно через loads. Теперь data_origin у нас хранит список data.
    print(sum(data_origin[0]['scores'])) - подсчитать сумму баллов первого студента.

Для считывания файла формата json открываем его на чтение и используем функцию load:

    with open('students.json', 'r') as f:
        data_origin = json.load(f)
        print(sum(data_origin[1]['scores'])) - подсчитываем сумму баллов второго студента.

Таким образом мы изучили функции dumps и loads, которые используются во множественном числе в программе, и в единственном, когда нам надо что-то считать или записать в открытый файл.

Задача по расшифровке json данных с именами классов и списками прямых предков и выводу всех детей каждого класса:

In [36]:
import json

def check(data_python, counter, current_name, cache):
    for cls in data_python:
        for parent in cls['parents']:
            if parent == current_name and cls['name'] not in counter[cache]:
                counter[cache] += [cls['name']]
                check(data_python, counter, cls['name'], cache)

def main():
    data_python = json.loads(input())
    counter = {}

    for iter in range(len(data_python)):
        current_name = data_python[iter]['name']
        counter[current_name] = [current_name]
        check(data_python, counter, current_name, current_name)

    res = []

    for key, value in counter.items():
        res.append([key, len(value)])

    for i in sorted(res):
        print(*i, sep=' : ')

if __name__ == '__main__':
    main()
#у меня получился рекурсивный алгоритм, так тоже делали, но мой вывод сложнее, люди просто прямо в выводе вызывали функцию подсчета, чтоб ничего не сортировать дополнительно. Другие люди писали совсем небольшие программы, вероятно, по теории графов

A : 5
B : 1
C : 4
D : 2
E : 1
F : 3


API:

Условно это протокол общения приложений друг с другом, то есть, мы модем получать какую-то функциональность другого приложения в своем.

Для этого, как правило, требуется api key, своеобразная авторизация, после чего нам дают ключ, по которому мы и получим доступ.

Ключ нам надо использовать в каждом запросе в качестве значения параметра APPID=(APIKEY)

Программа на основе api, которая выдает температуру в градусах цельсия по вводимому городу:

In [48]:
import requests

api_url = 'https://api.openweathermap.org/data/2.5/weather'  #из документации api

city = input('City? ')

params = {
    'q': city,
    'appid': '11c0d3dc6093f7442898ee49d2430d20',  #api key, который мы получаем (конфиденциально, могут использовать злоумышленники)
    'units': 'metric'  #все эти параметры также из документации, данный параметр переводит температуру в градусы Цельсия, то есть, в метрическую систему
}

#напоминаю, что можно передавать параметры в url после ? - 'https://api.openweathermap.org/data/2.5/weather?q=Saint%20Petersburg&units=metric'

res = requests.get(api_url, params=params)
#print(res.status_code)
#print(res.headers) - выдает все хедеры, то есть мета данные, связанные с респонсом
data = res.json()  #этот метод просто вызывает json.loads(res.text), то есть, читает json файл
template = 'Current temperature in {} is {}'
print(template.format(city, data['main']['temp'])) #параметры можно посмотреть в документации

Current temperature in Smolensk is -3.1


Задача на обработку чисел из файла в api, которая находит интересные факты о вводимых числах:

In [None]:
import requests

with open("E:\Пользователь\Загрузки\dataset_24476_3.txt") as file:
    numbers = (file.read().split())

print(numbers)

def fact(number):

    api_url = 'http://numbersapi.com/{}/math'

    api_url = api_url.format(number)

    params = {
        'json': 'true'
    }

    response = requests.get(api_url, params=params)
    data = response.json()
    if data['found'] == True:
        print('Interesting')
    else:
        print('Boring')

for number in numbers:
    fact(number)

Работа с api, которое выдает информацию о деятелях искусства. Нужно обработать файл со списком id, после чего вывести список художников, отсортированный по году рождения (но без самого года), и если года равны, то по имени:

In [None]:
import requests
import json

def get_token():
    client_id = '5b2a8772e476262c4ce8'
    client_secret = 'd0022def1c9d3a277be94a845422ff0d'

    response = requests.post("https://api.artsy.net/api/tokens/xapp_token", 
                              data={
                                  'client_id': client_id,
                                  'client_secret': client_secret
                              })

    j_respose = response.json()
    return j_respose['token']

def get_name(artist_id):
    token = get_token()

    headers = {
        'X-Xapp-Token': token
    }

    api_url = "https://api.artsy.net/api/artists/{}"
    api_url = api_url.format(artist_id)

    response = requests.get(api_url, headers=headers)
    j_response = response.json()

    return(j_response['sortable_name'], j_response['birthday'])

def main():
    with(open("E:\Пользователь\Загрузки\dataset_24476_4 (1).txt", encoding='UTF-8')) as file:
        id_list = file.read().split()

    ans = []

    for id in id_list:
        ans += [get_name(id)]
    ans.sort(key=lambda x: (x[1], x[0]))  #сначала сортирует по второму значению, если они одинаковы, то по первому

    for artist in ans:
        print(artist[0])

if __name__ == '__main__':
    main()

XML (язык расширяемой разметки):

Функционал, как у html, однако, тут мы сами определяем теги (поэтому, для читаемости нужно придумывать логичные имена). При этом, html используется для представления данных, а xml - для хранения.

Элемент - открытый и закрытый тэг с содержимым. Содержимым может быть как тескт, так и другие элементы. Также элемент содержит атрибуты.

Атрибут - пара ключ-значение, разделенная знаком равно, правы элемент всегда в двойных кавычках.

Атрибуты мы пишем в открывающем тэге, например, id.

Элементы проще всего представить в виде дерева, и ЯП так и поступают.

Для работы с таким форматов в стандартной библиотеке Python есть модуль ElementTree из библиотеки xml.etree.

    from xml.etree import ElementTree

    tree = ElementTree.parse('example.xml') - метод parse возвращает само дерево.
    #root = ElementTree.fromstring(string_xml_data) - для парсинга из текстового формата или при использовании api.
    root = tree.getroot() - возвращает элемент корня.
    print(root) - вернет название элемента и его id.
    print(root.tag, root.attrib) - выведет название корневого тега, второй метод выведет атрибуты (если их нет, словарь пустой).

    for child in root:
        print(child.tag, child.attrib) - имея корень, мы можем перебирать его детей итеративно, и получить названия и атрибуты его прямых детей.

    print(root[0][0].text) - мы можем также использовать индексацию, а атрибут .text запросит текстовые данные.
    
    for element in root.iter('scores'): - мы можем передать тэг методу iter, чтобы перебрать все элементы в нашем поддереве с данным тегом (iter перебирает все поддерево, метод .findall перебирал бы только среди детей). 
        score_sum = 0
        for child in element: - таким образом, мы можем итерироваться по детям элементов scores.
            score_sum += float.(child.text)
        print(score_sum)

Запись в xml:

    tree = ElementTree.parse('example.xml')
    root = tree.getroot()

    tree.write('example_copy.xml') - данный код создаст новый файл, копию нашего дерева, поскольку мы не вносили в него изменений.

Добавим студенту из примера 30 баллов в первый модуль(root уже создан):

    greg = root[0] - определяем первого студента.
    module1 = next(greg.iter('module1')) - итерируемся по его оценкам в первом модуле, так как оценка одна, можем использовать next.
    print(module1, module1.text) - module1.text выведет значение.
    module1.text = str(float(module1.text) + 30) - изменяем полученное значение.
    tree.write('example_modified.xml')

Так как Грег из примера получил больше баллов, ему теперь хватает на сертификат с отличием, меняем:

    greg = root[0]
    certificate = greg[2]
    certificate.set('type', 'with distinction') - добавляем атрибут тэгу сертификат через метод .set, указываем атрибут и его значение.

Добавление новых элементов и удаление элементов в xml:

    description = ElementTree.Element('description') - с помощью конструктора класса Element() создаем новый тэг.
    description.text = 'Showed excellent skills during the course' - добавляем содержимое новому тэгу.
    greg.append(description) - добавляем наш тэг в дерево через метод append.

    tree.write(example_modified.xml) - записываем изменения.

Удаление элементов:

    root = tree.getroot()
    greg = root[0]
    description = greg.find('description') - мы знаем, что у Грега только один ребенок с таким именем, ищем первое вхождение методом .find.
    greg.remove(description) - удалить тэг.
    tree.write(example_modified.xml)

Создание дерева с нуля:

    root = ElementTree.Element('student') - создание корня (в данном случае не список учеников, а ученик).
    first_name = ElementTree.SubElement(root, 'firstName') - функция SubElement принимает два аргумента, родителя нового элемента и его название, таким образом, создаем новый элемент имени.
    first_name.text = 'Greg' - заполняем элемент.

    second_name = ElementTree.SubElement(root, 'secondName')
    second_name.text = 'Dean'

    scores = ElementTree.SubElement(root, 'scores')

    module1 = ElementTree.SubElement(scores, 'module1')
    module1.text = '100'

    module2 = ElementTree.SubElement(scores, 'module2')
    module2.text = '80'

    module3 = ElementTree.SubElement(scores, 'module3')
    module3.text = '90'

    tree = ElementTree.ElementTree(root) - конструктор ElementTree принимает на вход корень и выдает объект дерева.
    tree.write('student.xml')

Парсинг html на примере библиотеки lxml (BeautifulSoup также подходит):

    from lxml import etree - библиотека пытается вести себя, как ElementTree, поэтому схожесть имен не случайна.
    import requests

    response = requests.get('https://docs.python.org/3/')

    parser = etree.HTMLParser() - данная функция позволит нам работать с плохо сформированными html данными.
    root = etree.fromstring(response.text, parser) - получаем корень благодаря методу fromstring, в который мы передали данные в html и парсер.

    for element in root.iter('a'): - пройдем по всем элементам a в дереве.
        print(element, element.attrib) - выведем их системную информацию и атрибуты.

Задача, на вход принимются данные в формате xml с информацией о пирамидке из кубиков трех синего, красного и зеленого цветов. Кубик корня имеет ценность 1, его дети 2, их 3 и т.д; Нужно посчитать общую ценность каждого цвета:

In [19]:
from xml.etree import ElementTree

xml = input()

blue = 0
green = 0
red = 0

root = ElementTree.fromstring(xml)

base = ElementTree.Element('base')  #создал доп элемент, чтоб рекурсия обошла и корень
base.append(root)

def counter(parent, cost):
    global blue, green, red
    for element in parent:
        if element.attrib['color'] == 'blue':
            blue += cost
        elif element.attrib['color'] == 'green':
            green += cost
        elif element.attrib['color'] == 'red':
            red += cost
        counter(element, cost + 1)

counter(base, 1)

print(red, green, blue)

4 3 1
