## Функции (конец)

Для удобства других людей, работающих с вашим кодом, и вас самих можно использовать правила оформления функций, которые никак не влияют на выполнение кода, но облегчают жизнь программистам, потому что с их помощью среда разработки выводит подсказки о том, как работать с вашей функцией. 

Можно указывать:

- какие типы данных функция хочет принимать в качестве аргументов;
- какой тип данных она возвращает с помощью return;
- описание того, что функция вообще делает. 

Типы данных, которые желательно передавать в качестве аргументов, можно указать через двоеточие, то, что функция возвращает, указывается через ->, а описание (docstring) пишется в специальном комментарии сразу под заголовком функции. Общий шаблон:

    def funcname(arg1: type, arg2: type, arg3: type=3) -> type:
        """ docstring """
        ...
        
Пример функции с подробным описанием:

    def power(x: int, y: int=2) -> int:
        """ This function returns x in power y, default y = 2, works only with integers """
        
(Докстринги необязательно писать по-английски, но так типа красиво. :)

Нужно быть внимательными с тем, какие классы объектов передаются в функцию. Напоминаю, что когда мы вызываем функцию в программе, неявным образом происходит присваивание: в локальные переменные (которые в функции) записываются адреса объектов, которые мы передали в аргументах. То есть, для функции power, описанной выше, будет такое:

    power(4, 5)  # передаем 4 и 5 в качестве аргументов
    x = 4
    y = 5
    
Что будет, если передадим изменяемый объект, то есть, например, список? Произойдет то же самое:

    def func(A: list):
        ...
        
    func(lst)
    A = lst
    
А когда мы присваиваем список в новую переменную, список не копируется, и получается, что наша локальная переменная А просто ссылается на тот же список, что лежит в переменной lst. Соответственно, пока мы не присваиваем что-нибудь в нашу локальную переменную, функция изменяет исходный список (а если бы там было число, то ничего бы с ним не случилось, потому что числа изменять нельзя, только перезаписывать)

In [1]:
def func_change(lst):
    n = len(lst) // 2
    lst.insert(n, '!')
    
def func_nochange(lst):
    n = len(lst) // 2
    lst = lst[:n] + ['!'] + lst[n:]
    
A = [1, 2, 3]
func_nochange(A)
print(A)
func_change(A)
print(A)

[1, 2, 3]
[1, '!', 2, 3]


pass - "пустая" инструкция; это своего рода заполнитель, когда мы не хотим, чтобы программа что-нибудь делала, а оставить пустое место не можем (в теле функции, оператора if, цикла)

    if not x:
        pass
    else:
        ...
        


### Лямбда-функции

Когда у нас есть супер-короткая функция, которая состоит из одного оператора return и особенно когда эта функция нужна нам во всей программе только один раз, можно использовать лямбда-функции. Лямбда-функции - это 1) упрощенный синтаксис для функций 2) безымянные объекты типа "функция". 

Основная мораль - не забывайте, что в мире питона все - это объекты, и функции - такие же объекты, как и все другие, а значит, у них есть имена (переменные). Лямбды очень часто используются в самых разных местах, частенько - в сортировке, например, но далеко не только. 

Лямбда выглядит так:

    # Обычная функция:
    def func(arg):
        return arg ** 2
        
    # лямбда:
    func = lambda arg: arg ** 2
    
Два кусочка кода выше - абсолютно идентичны. В обоих случаях объект "функция" складывается в переменную func (основное отличие в том, что лямбду совсем не обязательно как-то называть, а вот когда пишем def, без названия не обойтись). В обоих случаях есть переменная arg, в обоих случаях возвращается квадрат этой переменной. 

### Стек вызова функций

Небольшой кусочек теории, который необязательно запоминать, но знать не повредит. 

У компьютера (это не только у питона, но и в других ЯП точно так же) есть так называемый стек вызова функций, то есть такое место, куда он записывает состояния программы; например, у нас в теле программы встречается вызов какой-нибудь функции func1. Программа вызывает функцию и *уходит* в нее, на время приостанавливая собственное выполнение; когда компьютер выполнит функцию, он должен будет вернуться на то место, с которого функция была вызвана. "Адрес" этого места (состояние переменных в том числе) записывается в этот самый стек (стопочку), то есть, кладем в стопочку первый листочек с адресом. Допустим, в функции func1 вызывается функция func2 (никто нам не мешает вызывать одну функцию из другой). Снова ставится на паузу выполнение функции func1, пока не выполнится func2; в стопочку кладется второй листочек с адресом возврата. Если func2 выполняется, то этот листочек убирается из стопочки. Потом внутри функции func1 может быть вызывана func3, и появится опять листочек, и так сколько угодно. 

Это все к чему?

Если мы вызовем слишком много функций внутри друг друга, то стек переполнится и будет ошибка stack overflow (https://stackoverflow.com/). Сайт очень хороший, рекомендую всем, кто про него еще не знает :) Брать решения оттуда не грешно - нужно только разобраться в них и уметь объяснить, что там происходит. 

### Рекурсия

Немножко в связи с историей про переполнение стека (оно как раз легко возникает при бесконечной рекурсии...)

Мы уже знаем, что функции можно вызывать внутри друг друга. А еще можно вызвать функцию внутри себя самой. Так и возникает рекурсия: если мы в return пропишем саму функцию, ей придется вычислить саму себя. 

Рекурсия бывает очень полезной и крутой, но это не самое простое понятие. В целом, какова философская идея рекурсии? Она в том, что мы берем наш кейс (задачу) и сводим к самому простому случаю. Если нам нужно вычислить факториал - мы сводим к вычислению факториала 0 (по правилам матана = 1). Если нам нужно проверить, является ли строчка палиндромом, берем за самый простой случай пустую строку, которую считаем палиндромом (или одиночный символ, кому как нравится); все более сложные символы нарастают на самый простой, как луковица. 

Классически рекурсию показывают как раз на вычислении факториала:

In [2]:
def fact(n):
    if not n:
        return 1
    return n * fact(n - 1)

fact(4)

24

Таким образом, чтобы написать рекурсивную функцию, нужно, как в случае с бесконечным циклом while True, прописать обязательно случай, в котором рекурсия должна завершиться и пойти в обратную сторону. Если такого случая, когда функция возвращает не саму себя, а что-то определенное, нет, то функция уйдет в бесконечную рекурсию. Напоминаю, что return работает как break и мгновенно выводит программу из функции, а значит, в if нет нужды писать else: если выполнится if, return сразу выкинет нас из функции и не посмотрит на все после if. 

## Внешние библиотеки

Внешние библиотеки - важная часть жизни программиста (и компьютерного лингвиста в особенности). Все крутые инструменты уже создали за нас! Нам осталось научиться ими пользоваться. 

Библиотека - это готовый модуль (скрипт питона, а иногда много скриптов питона в папочке), в котором содержатся какие-нибудь классы или функции. Например, если вам нужны рандомные числа, нет никакой нужды самостоятельно реализовывать один из (зубодробительных) алгоритмов для их генерации: достаточно импортировать модуль (=библиотека, это синонимы) random. 

Некоторые библиотеки уже предустановлены вместе с самим питоном. Самые популярные - это math, os, pathlib, random, string, re, json, csv...

Многие мы с вами изучим или по крайней мере будем использовать. 

Если библиотека в питоне не установлена, то можно ее установить с помощью установщика pip (или pip3, они оба работают, но если у вас есть питон версий 2 и 3, то лучше эксплицитно вызывать pip3). 

pip вызывается в **командной строке** (или терминале). 

Команды выглядят так:

    pip list # pip, выведи мне список моих библиотек. 
    pip install pandas # pip, установи мне библиотеку по имени pandas.
    pip uninstall pandas # pip, я передумал насчет pandas. 
    pip install git+https://github.com/nlpub/pymystem3 # pip, установи мне самую последнюю версию модуля mystem, которую дураки разрабы не залили в репо. 
    
Откуда pip вообще берет библиотеки? Для питона есть большой репозиторий pypi.org, в котором все эти библиотеки и хранятся. pip умеет скачивать их оттуда к вам в python/Lib/site-packages, точно так же, как это делает git. Устанавливать репозитории напрямую с гитхаба тоже можно: тут уже pip и git трудятся вместе. 

Примечание: если у вас не работает pip, то:

1. Проверьте, есть ли у вас путь к папке с питоном в переменных системы: компьютер -> свойства -> продвинутые -> где-то там кнопка со списком переменных. Это туда добавляется add to path.
2. Запустили ли вы командную строку от имени администратора? (в линуксе помогает sudo)
3. А ваш профиль пользователя в windows имеет права администратора? (у некоторых студентов бывало...)

Наконец, когда наши библиотеки установлены, можно их импортировать уже в наших программах. Это можно делать несколькими способами. 

**import random** - импортирует библиотеку random; теперь все вещи, которые есть в этой библиотеке, доступны для вызова. Но чтобы не нарушать пространство имен (то есть, вдруг в этой библиотеке есть переменные, которые совпадают с именами переменных в нашей программе), все эти вещи вызываются с именем библиотеки через точку:

    s = random.randrange(1, 11)
    
Точка в питоне вообще обозначает синтаксическую зависимость. :) Типа, random - это владелец, а randrange - это имущество. 

**from random import randrange** - импортирует из библиотеки random только функцию randrange, при этом теперь функция попадает в пространство имен нашей программы и может вызываться без имени своего модуля. 

    s = randrange(1, 11)
    
**from random import \*** - импортирует все содержимое библиотеки random в нашу программу. Обычно крайне не рекомендуется это делать, потому что все функции и классы библиотеки random вливаются в пространство имен нашей программы, и если у нас были переменные с такими же названиями, выйдет ерунда. 

**import random as rd** - импортирует библиотеку random так же, как в первом случае, только теперь к ней можно обращаться по кличке rd. Обычно именно по такому принципу импортируют numpy и pandas (np, pd соответственно). 

Примечание: не называйте свои скрипты так же, как называются модули. Потому что на самом деле инструмент импорта позволяет импортировать не только внешние библиотеки, но и ваши же собственные скрипты, которые лежат в одной папочке или в подпапке рядом с основным скриптом. Соответственно, если вы решили потестировать модуль multiprocessing и завели скрипт с именем muptiprocessing - фейл, при импорте питон скажет "не могу импортировать скрипт сам в себя".

## Кодировки

Поскольку компьютер умеет работать только с цифрами (еще и только в двоичной системе счисления), буквы на самом деле внутри него приходится хранить в числах. Каким образом можно закодировать буквы?

В компьютере (напоминаю дремучую школьную информатику) информация исчисляется битами. Бит - самый маленький размер, в него помещается только 0 или 1. Биты складываются в байты по 8 штук:

    1 байт = 8 бит
    1 килобайт = 1024 байта
    1 мегабайт = 1024 килобайта
    1 гигабайт = 1024 мегабайта
    1 терабайт = 1024 гигабайта
    
(Кстати, емкость жестких дисков обычно считается какими-то нецелыми (== не являющимися степенью двойки) числами, потому что производители винтов схитрили и стали считать не по 1024, а по 1000...)

Так вот, сперва люди решили, что по одному байту на символ будет достаточно. В одном байте 8 бит, каждый бит может принимать два значения: 0 или 1. По правилам комбинаторики это дает нам 2 \*\* 8 = 256 возможных значений. Значит, что если кодировать символ в 1 байте, можно закодировать 256 символов. 

Так появилась таблица ASCII, в которой первые 128 символов отведены под стандартные символы типа пробела, точки и т.п., латиницу и кое-что еще, а вторые 128 свободны. Люди быстренько стали их использовать под свои национальные алфавиты: буквы с диакритиками, кириллицу и т.п. Но так получилось, что у каждой страны появилась своя кодировка. Для России это обычно cp1251 или cp1252. 

Ну, что-то грустно и маловато. 256 символов стало совсем не хватать, а еще хотелось иметь такую таблицу с символами, которая была бы одинаковой для всех стран и народов, чтобы не приходилось мучиться, расшифровывая письма из-за границы. Тогда решили отвести сразу 4 байта на один символ. 4 байта - это 32 бита, следовательно, у нас помещается...

In [3]:
2 ** 32

4294967296

ух ты сколько символов! Эти свободные слоты даже до сих пор не все заполнены. 

Кодировка такого вида получила название Unicode, и у нее есть три разновидности. Кстати, саму таблицу можно посмотреть тут: https://unicode-table.com/

Если мы кодируем один символ 4 байтами, то наш текст получается в 4 раза тяжелее, чем такой же текст в кодировке ASCII. Не очень хорошо. К тому же, есть супер-частотные символы, которые в таблице идут самыми первыми, такие, как пробел и точка: получается, что мы записываем их как-нибудь в виде 00000000 00000000 00000000 00001000 (это просто к примеру). Целых три байта стоят пустыми! 

Напрашивающаяся идея - кодировать частотные символы двумя или даже одним байтом, а редкие - четырьмя. 

- utf32 - каждый символ кодируется 4 байтами. 
- utf16 - на символ либо 2, либо 4 байта. 
- utf8 - распространенные символы - 1 байт, менее распространенные - 2 байта, самые редкие - 4 байта. 

Что еще полезно знать - что в разных системах используются разные обозначения для переноса на новую строку. Нам повезло: питон обо всем заботится сам, но иногда, если вам присылают текстовый файлик, записанный в линуксе, на винде могут скушаться все переносы, потому что:

    \n - используют юниксовые системы (линукс + современные макос)
    \r - используют старые маки
    \r\n - виндоус решили выпендриться

Для удобной работы с текстовыми файлами советую:

- notepad++ - Windows
- Atom - MacOS
- notepadqq - Linux

## Работа с файлами

Питон работает с файлами на самом деле не напрямую, а через систему (поэтому там есть свои тонкости). Система управляет открытыми файлами и всяким таким, а у питона есть только дескриптор файла (специальный класс), который ему позволяет читать данные из файла. Мы успели разобрать, как открывать, закрывать, читать и писать файлы. 

Прежде чем начать что-то делать с файлом, нужно его открыть. 

    file = open(path, mode, encoding)
    
Команда open создает объект класса IOWrapper, у которого есть свои методы чтения, записи и закрытия. Path - это путь к файлу, единственный обязательный аргумент. Обратите внимание:

- В Windows в путях файлов используется бекслеш \\. Поскольку все аргументы в open передаются в виде строк, питон будет пытаться искать эскейп-последовательности (такие, как \\n). Чтобы этого избежать, можно либо вручную экранировать слеши: \\\\, либо просто писать буковку r перед строкой: так называемые raw-строки питон читает as is.
- В юниксовых системах (MacOS, Linux) такой проблемы нет, потому что там используются прямые слеши /.

Пути к файлам бывают абсолютные и относительные. Абсолютный путь включает в себя все от корня (буквы диска в windows, папки home в Linux). Относительный - только какую-то часть пути; например, если наш скрипт (или тетрадка юпитера) лежит в папке Code, а в этой папке есть подпапка files, то путь files/myfile.txt будет относительным (и будет искаться в одной папке со скриптом, конечно, поэтому бдите и не используйте относительные пути для файлов, которые лежат незнамо где). 

Питон, в отличие от этих ваших текстовых редакторов, не умеет самопроизвольно переставлять курсор в файле куда захочется; он воспринимает файл как список строк и читает его построчно (посимвольно даже). Считал строку один - к ней нет возврата. Считал весь файл - файл только закрывать. Следовательно, у питона есть несколько режимов, в каких можно открывать файл. Нам пригодятся три самых распространенных:

- r - режим чтения
- w - режим записи
- a - режим записи с дополнением

По умолчанию, если не указать режим, будет 'r'. Если мы с таким режимом передаем путь к  несуществующему файлу, питон вывалит ошибку. 

Вот с режимом 'w' похитрее. Во-первых, именно так мы можем создавать несуществующие файлы: указываем любой путь (должны только папки существовать, файла может не быть по этому пути), и там появится файл. с таким расширением, какое мы ему припишем, кстати, но внутри он будет текстовый. Во-вторых, если мы открываем в таком режиме уже существующий файл, все его содержимое перезапишется. Бдите. 

А режим 'a' как раз позволяет добавлять новые записи в существующий файл; если файла нет, он его создаст, а если файл есть, то он в него дозапишет в конец. 

Наконец, аргумент encoding тоже передается строкой и может содержать название кодировки. Пользователям windows предлагается по умолчанию всегда прописывать encoding='utf8', потому что юникод - самая удобная кодировка, особенно для лингвистов. Питон 3, как я говорила в самом начале, отлично работает с юникодом, это его родная кодировка. 

Итак, открываем несуществующий файл:

In [11]:
file = open('test.txt', 'w', encoding='utf8')

Супер. Теперь о том, как читать и записывать в файл. 

Как читать:

1. file.read() - считает **все** содержимое файла, вернет его одной длиннющей строкой, в которой будет много \\n. 
2. file.readlines() - считает **все** содержимое файла, вернет его списком строк. В конце каждой строки, кроме последней, будет прилеплен \\n. 
3. file.readline() - считает **одну строчку** из файла, вернет ее, собственно, строчкой. То же про конец строки и \\n.
4. for line in file: ... - будет считывать по **одной строчке** из файла, пока не дойдет до конца. 

Лучше всего использовать способ 4 для объемных файлов. В противном случае вы, например, загружаете гигабайтовый текстовый файл в оперативную память махом, и ноутбук превращается в тыкву...

Как писать:

1. file.write('...') - записывает одну строчку в файл. НЕ ставит \\n в ее конце. Возвращает количество записанных символов. 
2. file.writelines(['...', '...', '...']) - записывает список строк в файл. Тоже не ставит \\n.
3. print(whatever, file=filename) - самый понтовый способ, потому что автоматически ставит \\n и вообще использует все возможности принта. И f-строк. 

Запишем что-нибудь в наш открытый файл:

In [12]:
file.write('Hello world! ')
print('\nА это принт напринтил', file=file)
file.writelines([word + '\n' for word in input().split()])  # я вручную прилепила \n каждому слову

 это список слов где каждое слово это отдельная строка


Чтобы записанная информация сохранилась в файл, необходимо его закрыть. Вообще файлы нужно за собой закрывать! Даже если вы только из них читаете, не забудьте выполнить команду:

    file.close()
    
Иначе ваш файл останется болтаться открытым в оперативе. Это как фантик за собой в мусорку не выкинуть. 

In [13]:
file.close()

Теперь можно считать все эти строчки обратно из файла:

In [14]:
file = open('test.txt', 'r', encoding='utf8')
for line in file:
    print(line.rstrip())  # rstrip нужен, чтобы откусить \n

Hello world!
А это принт напринтил
это
список
слов
где
каждое
слово
это
отдельная
строка


In [15]:
file.close()  # выкинем за собой фантик