# <center>  Python for biologists

## Lecture 3, Functions

> Nikita Vaulin, vaulin@ro.ru, tg: @nvaulin

***Notion 0***. Feel free to start using shortcuts when working with Jupyter Notebook:
- To run the cell `Ctrl`+`Enter`
- To run the cell and step to the next one `Shift` + `Enter`
- To run the cell and create the new one `Alt` + `Enter`

There are two modes of action: cell-editing (the line on the left is green) and cell-selecting (the line on the left is blue). 

- cell-editing mode &#8594; `Esc` &#8594; cell-selecting mode
- cell-selecting mode &#8594; `Enter` &#8594; cell-editing mode

In cell-selecting mode you can:

- Delete  a cell - `DD`
- Undo deleting - `Z`


### <center> Let's move on!

---

# Functions

Функции - обычный объект в питоне. И этот объект умеет 3 вещи:
- Что-то принять в себя (аргументы)
- Что-то сделать (тело функции)
- Что-то вернуть на выход (результат)

Все 3 вещи являются опциональными

![image.png](attachment:76360262-1ef0-440b-8e3f-3bf885db3f95.png)

Пример функции - `id`, которая возвращает уникальный индентификатор объекта (его адрес в памяти)

In [1]:
var = 5
id(var)

94266382963656

При чем у любого объекта есть идентификатор:)

In [2]:
id(print)

139980991174256

In [3]:
id(id)

139980991173056

Так как функция это обычный объект, ее также можно сохранить в какую-то переменную

In [4]:
var = print
var

<function print(*args, sep=' ', end='\n', file=None, flush=False)>

## Callable

Основное что отличает функцию от других объектов - это специальное свойство: callable ("вызываемый"). Функцию можно вызвать, и делается это скобочками. Не-callable объекты вызвать нельзя.

In [6]:
5() # not callable

  5() # not callable


TypeError: 'int' object is not callable

In [7]:
print() # callable




## Аргументы: основы

В рамках вызова можно передать функции некоторые аргументы:

In [8]:
print(1)

1


In [10]:
print('Hello', 'python')

Hello python


In [13]:
print('Hello', 'python', sep='_')

Hello_python


Список доступных аргументов можно всегда посмотреть в документации функции. Документация доступна:
- В интернете
- В IDE (`Shift + TAB` или `Alt + Space` или ...)
- Через функцию `help`

In [14]:
help(print)

Help on built-in function print in module builtins:

print(*args, sep=' ', end='\n', file=None, flush=False)
    Prints the values to a stream, or to sys.stdout by default.
    
    sep
      string inserted between values, default a space.
    end
      string appended after the last value, default a newline.
    file
      a file-like object (stream); defaults to the current sys.stdout.
    flush
      whether to forcibly flush the stream.



Что будет если вызвать `help` у `help`?...

## Результат функции

Функции могут возвращать какой-то результат. И его можно сохранить в переменную.

In [20]:
result = id(1)
result

94266382963528

Однако не все функции возвращают какой-то результат. Некоторые не возвращают ничего. Точнее, они возвращают `None`.

Такой является функция `print`. Она печатает текст на экран (в `stdout`) и всё. 

In [21]:
result = print(1)

1


In [22]:
result

In [23]:
type(result)

NoneType

In [24]:
print(result)

None


## Методы - функции связанные с объектом

In [27]:
my_list = [2, 3, 4]
my_list.append(1) # append это метод списков (особая, только их функция)
my_list

[2, 3, 4, 1]

In [28]:
my_list = [2, 3, 4]
my_new_list = my_list.copy() # copy - возвращает новый список
print(my_new_list)

[2, 3, 4]


In [29]:
my_list = [2, 3, 4]
my_new_list = my_list.append(1) # append - не возвращает ничего, изменяет список который дали
print(my_new_list)
print(my_list)

None
[2, 3, 4, 1]


In [30]:
my_list = [2, 1, 4]
my_new_list = my_list.sort() # изменила но ничего не вернула
print(my_new_list)
print(my_list)

None
[1, 2, 4]


In [31]:
my_list = [2, 1, 4]
my_new_list = sorted(my_list) # список не изменила, но вернула новый, sort внутри сперва "делает copy"
print(my_new_list)
print(my_list)

[1, 2, 4]
[2, 1, 4]


## Определение функций

![image.png](attachment:b282fa97-902a-4d31-8a4e-ad80fa645250.png)

- def - создаем функцию
- pass - "заглушка"
- return - возвращаем что-то

### Как функция хранится в памяти, как она выполняется?

Когда вы выполняете код def function ..., вы сохраняете в памяти некоторый "шаблон". Название функции и список операций на некотором понятном питоне языке. Тем не менее сами инструкции, которые описаны внутри функции в этот момент НЕ выполняются. Само тело функции лишь сохранятеся, а выполняется только в момент вызова. Также во время определения функции создаются дефолтные значения для аргументов (создаются объекты в памяти).

Заголовок функции (имя и аргументы, синее на картинке выше) - выполняется ОДИН РАЗ во время определения

Тело функции (оранженвое) - выполняется КАЖДЫЙ РАЗ при вызове, как обычный код - построчно

In [32]:
def is_dna(seq):
    pass

In [33]:
def is_dna(seq):
    unique_chars = set(seq)
    nucleotides = set('ATGC')
    print(unique_chars) # печатаем что-то
    print(nucleotides)
    return unique_chars <= nucleotides # возвращаем что-то

In [34]:
is_dna('AT')

{'A', 'T'}
{'C', 'G', 'A', 'T'}


True

In [35]:
result = is_dna('ATGC')

{'C', 'G', 'A', 'T'}
{'C', 'G', 'A', 'T'}


In [36]:
result

True

In [37]:
def is_dna(seq):
    unique_chars = set(seq)
    nucleotides = set('ATGC')
    print(unique_chars <= nucleotides)

result = is_dna('AT')
print(result) # ничего не возвращаем, эквивалентно return None

True
None


In [39]:
def is_dna(seq):
    unique_chars = set(seq)
    nucleotides = set('ATGC')
    return unique_chars <= nucleotides

result = is_dna('AT')
print(result) # возвращаем

True


## Аргументы: копаем вглубь

- **Во-первых**, у аргументов может быть значение по-умолчанию

In [40]:
def is_dna(seq, alphabet='ATGC'): # дефолтное значение (по-умолчанию)
    unique_chars = set(seq)
    nucleotides = set(alphabet)
    return unique_chars <= nucleotides

In [41]:
is_dna('AT')

True

In [42]:
is_dna('AT', alphabet='ACGU')

False

Здесь есть опасность, если использовать изменяемые типы данных в качестве значений по умолчанию (типичные приколы с листами, да). В примере ниже список создается ОДИН раз во время определения функции, и потом все операции повторются в той же самой ячейке памяти.

In [54]:
def my_func(my_list=[], var=5): # <- объекты создаются во время определения
    my_list.append(var) # <- этот код работает уже во время использования
    return my_list  # <- этот код работает уже во время использования

In [55]:
my_func()

[5]

In [56]:
my_func(var=6) # что получим: [5] [6] [5,6] ?

[5, 6]

In [57]:
my_func(my_list=[1], var=7) # тут всё ок, используем новый список

[1, 7]

In [58]:
my_func(var=6) # снова вернулись к тому бедному дефолтному

[5, 6, 6]

А что же делать тогда? В таком случае надо писать таким образом:

In [60]:
def my_func(my_list=None, var=5):
    if my_list is None:
        my_list = [] # список создается каждый раз при запуске функции без аргумента my_list
    my_list.append(var)
    return my_list

- **Во-вторых**, аргументы могут быть позиционные (positional) и именнованные (keyword). Позиционные аргументы функция берет по порядку - первый инпут в первый аргумент, второй во второй и т д. Именнованные функция принимает по именам.

In [43]:
is_dna('AT', alphabet = 'ACGU') # seq передали позиционно, alphabet - по имени

False

In [44]:
is_dna(seq = 'AT', alphabet = 'ACGU') # оба именованно

False

In [45]:
is_dna('AT', 'ACGU') # оба позиционно

False

In [46]:
is_dna(alphabet='ACGU', 'AT') # Так нельзя. Сперва все позиционные, потом все именованные

SyntaxError: positional argument follows keyword argument (4220783606.py, line 1)

- **В-третьих**, можно собрать все позиционные аргументы в одну переменную:

In [47]:
def is_dna(seqs, alphabet={'A', 'T', 'G', 'C'}):
    for seq in seqs:
        unique_chars = set(seq)
        print(unique_chars <= alphabet)

In [48]:
is_dna(['AT', 'AT'])

True
True


In [51]:
def is_dna(*seqs, alphabet={'A', 'T', 'G', 'C'}):  
    for seq in seqs:
        unique_chars = set(seq)
        print(unique_chars <= alphabet)

In [52]:
is_dna('AT', 'AT')

True
True


Так кстати и работает `print`)

- **В-четвертых**, можно  аналогично собрать все именованные аргументы

In [53]:
def some_func(*args, **kwargs):
    pass

### Итоговая схемка

Тут важно не запутаться, это разные знаки `=` при создании функции и при вызове!

![image.png](attachment:fccbaeb4-85c8-48f9-977c-bde5bf78b903.png)

## Code quality

### Naming - правила наименования
 - функции - глаголом (логические функции часто делают через `is_` или `check_`)
 - переменные - существительным
 - коллекции - множественным существительным

### Правила оформления функций

- Аннотация типов 
- Документация

#### Аннотация типов

В питоне *нестрогая* типизация. Каждая переменная может хранить в себе любой тип данных (точнее ссылаться на него). Поэтому никогда не знаешь, а какой тип ожидал автор тула.

In [63]:
a = 5
a = 'my_str'

In [64]:
def is_dna(seq, alphabet):
    return set(seq) <= set(alphabet) 

Здесь `alphabet` это какой тип данных должен быть? Множество? А если мы не видим внутренности функции? А почему не словарь?

Для этого в питоне есть *аннотация типов*. Она делается следующим образом:

In [66]:
def is_dna(seq: str, alphabet: set) -> bool:
    return set(seq) <= set(alphabet) # set

При этом код не упадёт, если передать неправильный тип данных. Это подсказка *для пользователей, для людей*. Ну и IDE всякие иногда могут использовать аннотацию типов чтобы выдавать вам уведомления. Но питону на аннотацию всё равно. 

In [67]:
is_dna('ATCG', {'A': 'T', 'G': 'C'}) # передал словарь вместо множества

False

Можно использовать не только встроенные типы. Например пандас-датафреймы тоже подойдут. Да и любой тип который вы сами напишите. 

In [69]:
import pandas as pd


def do_smt_with_df(df: pd.DataFrame, path: str):
    pass

Есть модуль `typing` для более продвинутой аннотации. Его использовать не обязательно, но просто знайте про него. В нем можно указывать то, из каких типов состоит ваш список/кортеж/..., а также делать варианты с разными типами:

В примере ниже seq проаннотарован быть либо строкой, либо списком из строк; alphabet - множество из строк. Результат функции - либо bool либо None.

In [70]:
from typing import List, Tuple, Dict, Union, Set, Optional

def is_dna(seq: Union[str, List[str]], alphabet: Set[str]) -> Optional[bool]:
    pass

In [71]:
Optional[type] == Union[type, None]

True

Когда у нас есть `None` по-дефолту, то нужно ставить optional.

In [72]:
def do_smt_with_df(df: Optional[pd.DataFrame] = None):
    pass

#### Докстринги

Документация к функции. Одна из немногих вещей в питоне которая пишется в ДВОЙНЫХ кавычках. 

#### Однострочная документация


In [73]:
def is_dna(seq: str, alphabet: set = {'A', 'G'}) -> bool:
    "Checks whether the string is DNA or not"
    return set(seq) <= alphabet 

#### Многострочная документация

In [74]:
def is_dna(seq: str, alphabet: set = {'A', 'G'}) -> bool:
    """
    Checks whether the string is DNA or not
    
    Text text text
    Text text
    
    Arguments:
    - seq (str): sequence to check
    - alphabet (set): alphabet to check against
    
    Return:
    - bool, the result of the check
    """
    
    return set(seq) <= alphabet # set

Всё это будет видно если вызвать подсказку по функции тем сочетанием клавиш, которое используется в вашем IDE

In [None]:
is_dna() #  Jupyter shift + tab, Colab alt + space, other: tab, ctrl+tab, ...

In [76]:
help(is_dna)

Help on function is_dna in module __main__:

is_dna(seq: str, alphabet: set = {'G', 'A'}) -> bool
    Checks whether the string is DNA or not
    
    Text text text
    Text text
    
    Arguments:
    - seq (str): sequence to check
    - alphabet (set): alphabet to check against
    
    Return:
    - bool, the result of the check

