# Введение в методы анализа данных. Язык Python.

## Лекция 4:  Элементы функционального программирования в Python. Работа с пакетами

Аксентьев Артем (akseart@ya.ru)

Ксемидов Борис (bworkboris@yandex.ru) 

# Элементы функционального программирования

## Lambda функции

- Из-за сходства с аналогичной возможностью в языке LISP она получила название lambda. 
- lambda-выражения иногда называют анонимными (то есть безымянными) функциями.

In [1]:
def func(x):
    return x^2 + 8 * x + 10

x_list = [20, 25, 30, 22]

out_list = []

for i in x_list:
    out_list.append(func(i))
    
out_list

[184, 205, 226, 170]

In [2]:
x_list = [20, 25, 30, 22]

out_list = []

for i in x_list:
    out_list.append((lambda x: x^2 + 8 * x + 10)(i))
    
out_list

[184, 205, 226, 170]

In [3]:
sorted([1, -1, 100, 5, 50, 2], key=lambda x: len(str(x)))

[1, 5, 2, -1, 50, 100]

In [6]:
f = lambda x, y: x if x > y else y

# f = lambda x, y: (x if x > y else y) if x > 10 else 10
#
f = lambda a, b, c: (a and b) or c

In [8]:
f(3, 2)

3

In [None]:
def f(x, y):
    if x > y:
        return x
    return y
    return x if x > y else y

## Map функции

Применяют функцию к последовательности

In [9]:
list(map(int, input().split()))

[1, 2, 3]

In [10]:
input().split()

['1', '2', '3']

In [11]:
def my_map(func, seq):
    res = []
    for i in seq:
        res.append(func(i))
    return res

my_map(int, input().split())

[1, 2, 3]

In [13]:
x_list = [20, 25, 30, 22]

out_list = list(map(lambda x: x^2 + 8 * x + 10, x_list))

out_list

<map at 0x111b0cc40>

In [14]:
pow(2, 3)

8

In [15]:
list(map(pow, [1, 2, 3], [3, 4, 5]))

[1, 16, 243]

In [16]:
3 ** 5

243

In [18]:
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70]
# Сортируем по сумме цифр числа
print(sorted(a, key = lambda x: sum(list(map(int, list(str(x)))))))
print(sorted(a))

[11, 13, 33, 42, 7, 70, 53, 71, 63, 36, 90, 47, 29, 76, 67, 58, 87, 78, 79, 99]
[7, 11, 13, 29, 33, 36, 42, 47, 53, 58, 63, 67, 70, 71, 76, 78, 79, 87, 90, 99]


In [17]:
list('1234')

['1', '2', '3', '4']

## Filter

In [21]:
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70, 1, 2, 10, 19]

list(filter(lambda x: x > 10, a))

[53,
 33,
 76,
 42,
 87,
 47,
 11,
 67,
 58,
 79,
 78,
 13,
 63,
 29,
 71,
 36,
 90,
 99,
 70,
 19]

## Reduce

"Накапливаемый" map

In [22]:
from functools import reduce
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70]

reduce(lambda x, y: x+y, a), sum(a)

(1109, 1109)

In [37]:
def my_reduce(foo, sequence):
    res = 0
    for i in sequence:
        res += foo(res, i)
    return res


In [34]:
def foo(sum_seq, elem):
    print('x: ', sum_seq)
    print('y: ', elem)
    return sum_seq + elem

In [38]:
# 53, 33, 76, 42, 87, 47
my_reduce(foo, a[:5])

x:  0
y:  53
x:  53
y:  33
x:  139
y:  76
x:  354
y:  42
x:  750
y:  87


1587

## Агрегирующие функции

In [39]:
sum([1, 2, 3, 4])

10

In [42]:
all([1, 2, 3])

True

In [43]:
1 and 2 and 3

3

In [44]:
any([True, False, False])

True

In [45]:
True or False or False

True

# Итераторы

In [46]:
r = range(5)

for i in r:
    print(i)

0
1
2
3
4


In [50]:
it = iter(r)
it = r.__iter__()

print(next(it))
print(it.__next__())
print(next(it))
print(next(it))
print(next(it))
print(next(it))

0
1
2
3
4


StopIteration: 

In [49]:
for i in "Hello world":
    print(i)
    ...

H
e
l
l
o
 
w
o
r
l
d


In [54]:
it = iter({'Hello world', '2'})
while True:
    try:
        i = next(it)
        print(i)
        ...
    except StopIteration:
        break

2
Hello world


In [55]:
next('123')

TypeError: 'str' object is not an iterator

In [56]:
class Data:
    def __init__(self):
        self._data = [1, 2, 3, 4]
        self._data_len = len(self._data)

    def __iter__(self):
        self._index = 0
        return self

    def __next__(self):
        if self._index > self._data_len - 1:
            raise StopIteration
        result = self._data[self._index]
        result *= 3
        self._index += 1
        return result

my_iter = Data()

In [57]:
for i in my_iter:
    print(i)

3
6
9
12


# Генераторы

- В генераторе вместо return используется ключевое слово yield
- yield используется для возвращения очередного значения коллекции
- Генератор автоматически хранит своё внутреннее состояние

In [60]:
def my_hello(n):
    yield 'Start "Hello world!"'
    i = 1
    for i in range(n):
        yield 'Hello world!'
        ...
    yield 'Stop "Hello world!"'
        
gen = my_hello(10)

for s in gen:
    print(s)

Start "Hello world!"
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Hello world!
Stop "Hello world!"


In [61]:
gen = my_hello(10)
next(gen)

'Start "Hello world!"'

In [65]:
len(gen)

TypeError: object of type 'generator' has no len()

In [64]:
next(gen)

'Hello world!'

## Зачем?
Для экономии памяти, ведь мы не загружаем в память весь набор данных, а лишь одну формулу для вычисления элементов этого набора данных

# Механизм comprehensions (Генератор коллекций)


## list comprehension

In [66]:
[i for i in range(1, 10)]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [67]:
[i for i in range(1, 10) if i % 2 == 0]

[2, 4, 6, 8]

In [68]:
[i for i in range(1, 10) if i % 2 == 0 and i < 7]

[2, 4, 6]

In [69]:
[i ** 2 for i in range(1, 10) if i % 2 == 0 and i < 7]

[4, 16, 36]

In [70]:
[i ** 2 if i < 4 else i for i in range(1, 10) if i % 2 == 0 and i < 7]

[4, 4, 6]

## set comprehension 

In [71]:
{i for i in range(1, 25) if i % 2 == 0}

{2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24}

## dictionary comprehension

In [72]:
{i : i**2 for i in range(1, 25) if i % 2 == 0}

{2: 4,
 4: 16,
 6: 36,
 8: 64,
 10: 100,
 12: 144,
 14: 196,
 16: 256,
 18: 324,
 20: 400,
 22: 484,
 24: 576}

# Декораторы

In [73]:
def my_decorator(func_to_decorate):
    def wrapper_func():
        print("Можно выполнить что-то до функции")
        func_to_decorate()
        print("Можно что-то после")
    return wrapper_func

def hello():
    print("Hello world")

hello()

Hello world


In [74]:
def hello():
    print("Hello world")
    
hello_with_decorate = my_decorator(hello)
hello_with_decorate()

Можно выполнить что-то до функции
Hello world
Можно что-то после


In [75]:
@my_decorator
def hello():
    print("Hello world")

In [76]:
hello()

Можно выполнить что-то до функции
Hello world
Можно что-то после


In [77]:
import time
def times_for_func(func_to_decorate):
    def wrapper():
        before = time.time()
        func_to_decorate()
        print(time.time() - before)
    return wrapper

In [86]:
@times_for_func
def hello():
    # time.sleep(1)
    print("Hello world")

In [87]:
hello()

Hello world
1.7881393432617188e-05


In [88]:
import time
def times_for_func(func_to_decorate):
    def wrapper(*args, **kwargs):
        before = time.time()
        func_to_decorate(*args, **kwargs)
        print(time.time() - before)
    return wrapper


@times_for_func
def hello(a, b):
    print("Hello world", a + b)


In [89]:
hello(10, 30)

Hello world 40
0.0001819133758544922


# Функторы

Объекты, похожие на функции

In [90]:
def foo_functor(val1):
    def closure(val2):
        return val1 + val2
    return closure

class clsFunctor:
    def __init__(self, val1):
        self.val1 = val1

    def __call__(self, val2):
        return self.val1 + val2

cl = clsFunctor(2)
fn = foo_functor(2)

print(cl(1), fn(1))

3 3


# Функция zip

In [91]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
for (x, y) in zip(a, b):
    print(x + y)

11
22
33
44
55


In [96]:
list(map(lambda x: x[0]+x[1], zip(a, b)))

[11, 22, 33, 44, 55]

In [92]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
c = list(zip(a, b))
c

[(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]

In [97]:
a + b

[1, 2, 3, 4, 5, 10, 20, 30, 40, 50]

In [99]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
c = [100, 200, 300, 400]
d = list(zip(a, b, c, [1, 23, 4]))
d

[(1, 10, 100, 1), (2, 20, 200, 23), (3, 30, 300, 4)]

range -- генератор или нет?

1. range имеет дополнительные атрибуты:
    - range неизменяемы
    - имеют полезные атрибуты (len, index, __getitem__)
    - Можно итерироваться многократно
2. Не хранит всю последдовательность в памяти

In [100]:
range(-1, 10)[5]

4

In [101]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Интересные трюки

Идет обработка большого массива данных, есть список стоп слов, если в строке встречается какое-либо стоп слово, то эта строка никак не обрабатывается

In [102]:
temp = ["Hello", "World", "Test string", "Logs", "Debug Loggers"]
stop_words = ["Test", "debug"]
res = []
for i in temp:
    # Do something
    for word in stop_words:
        if word in i:
            break
    else:
        res.append(i)
        # Do something

res


['Hello', 'World', 'Logs', 'Debug Loggers']

In [104]:
temp = ["Hello", "World", "Test string", "Logs", "Debug Loggers debug"]
stop_words = ["Test", "Debug"]
res = []
for i in temp:
    print(f"1. {i}")
    if any([word.upper() in i.upper() for word in stop_words]):
        continue
    print(f"2. {i}")

1. Hello
2. Hello
1. World
2. World
1. Test string
1. Logs
2. Logs
1. Debug Loggers


# PyPi

PyPI (аббр. от англ. Python Package Index — «каталог пакетов Python») — каталог программного обеспечения, написанного на языке программирования

## PIP
pip — это система управления пакетами(библиотеками), которая на данный момент по умолчанию включена в дистрибутив языка. Она используется для установки и управления программными пакетами, написанными на Python.

pip может брать пакеты из двух типов источников:
- PyPi
- Git-репозиторий

## Зачем это нужно?
1. Избежать изобретения "велосипедов"
2. В крупных коммерческих проектах избежать повторяемости одного и того же кода в различных продуктах

## Как работать с pip?

Установка нового пакета:

In [105]:
%pip install numpy

Note: you may need to restart the kernel to use updated packages.


Установка конкретной версии пакета:

In [None]:
%pip install numpy==1.22.1

Удаление пакета:

In [106]:
!pip uninstall numpy

Found existing installation: numpy 1.23.1
Uninstalling numpy-1.23.1:
  Would remove:
    /Users/artem/miniconda3/envs/common_env_3_8/bin/f2py
    /Users/artem/miniconda3/envs/common_env_3_8/bin/f2py3
    /Users/artem/miniconda3/envs/common_env_3_8/bin/f2py3.8
    /Users/artem/miniconda3/envs/common_env_3_8/lib/python3.8/site-packages/numpy-1.23.1.dist-info/*
    /Users/artem/miniconda3/envs/common_env_3_8/lib/python3.8/site-packages/numpy/*
Proceed (Y/n)? ^C
[31mERROR: Operation cancelled by user[0m


Вывод всех установленных пакетов:

In [107]:
!pip list

Package                  Version
------------------------ ---------
absl-py                  1.1.0
aggdraw                  1.3.15
aiohttp                  3.8.1
aiosignal                1.2.0
appnope                  0.1.2
argon2-cffi              20.1.0
astunparse               1.6.3
async-generator          1.10
async-timeout            4.0.1
atlasclient              1.0.0
attrs                    21.4.0
backcall                 0.2.0
bleach                   4.1.0
blis                     0.7.4
boto3                    1.20.24
botocore                 1.23.24
Bottleneck               1.3.2
brotlipy                 0.7.0
cachetools               4.2.2
catalogue                2.0.6
certifi                  2022.6.15
cffi                     1.15.0
charset-normalizer       2.0.11
click                    8.0.4
colorama                 0.4.4
cryptography             36.0.0
cycler                   0.11.0
cymem                    2.0.5
debugpy             

In [108]:
import numpy

Сохранение пакетов для других разработчиков:

In [109]:
!pip freeze > requirements.txt

In [None]:
!pip list --local

Установка пакетов из requirements.txt

In [111]:
!pip install -r requirements_1.txt

Collecting flask==2.3.3
  Downloading flask-2.3.3-py3-none-any.whl (96 kB)
[K     |████████████████████████████████| 96 kB 341 kB/s eta 0:00:01
Collecting Jinja2>=3.1.2
  Using cached Jinja2-3.1.2-py3-none-any.whl (133 kB)
Collecting click>=8.1.3
  Using cached click-8.1.7-py3-none-any.whl (97 kB)
Collecting blinker>=1.6.2
  Downloading blinker-1.6.2-py3-none-any.whl (13 kB)
Collecting Werkzeug>=2.3.7
  Downloading werkzeug-3.0.0-py3-none-any.whl (226 kB)
[K     |████████████████████████████████| 226 kB 212 kB/s eta 0:00:01
[?25hCollecting itsdangerous>=2.1.2
  Downloading itsdangerous-2.1.2-py3-none-any.whl (15 kB)
Collecting MarkupSafe>=2.0
  Using cached MarkupSafe-2.1.3-cp38-cp38-macosx_10_9_universal2.whl (17 kB)
Installing collected packages: MarkupSafe, Werkzeug, Jinja2, itsdangerous, click, blinker, flask
  Attempting uninstall: MarkupSafe
    Found existing installation: MarkupSafe 2.0.1
    Uninstalling MarkupSafe-2.0.1:
      Successfully uninstalled M

## Conda

Список установленных пакетов

In [112]:
!conda list

# packages in environment at /Users/artem/miniconda3/envs/common_env_3_8:
#
# Name                    Version                   Build  Channel
absl-py                   1.1.0                    pypi_0    pypi
adwaita-icon-theme        40.1.1               hca03da5_1  
aggdraw                   1.3.15                   pypi_0    pypi
aiohttp                   3.8.1            py38h1a28f6b_1  
aiosignal                 1.2.0              pyhd3eb1b0_0  
appnope                   0.1.2           py38hca03da5_1001  
argon2-cffi               20.1.0           py38h1a28f6b_2  
astunparse                1.6.3                    pypi_0    pypi
async-timeout             4.0.1              pyhd3eb1b0_0  
async_generator           1.10               pyhd3eb1b0_0  
atk-1.0                   2.36.0               h7fe96df_0  
atlasclient               1.0.0                    pypi_0    pypi
attrs                     21.4.0             pyhd3eb1b0_0  
backcall                  0.2.0    

Установка пакетов:

In [113]:
!conda install numpy

Collecting package metadata (current_repodata.json): done
Solving environment: \ 
The environment is inconsistent, please check the package plan carefully
The following packages are causing the inconsistency:

  - defaults/noarch::s3transfer==0.5.0=pyhd3eb1b0_0
  - defaults/osx-arm64::cython-blis==0.7.4=py38h1a28f6b_1
  - defaults/noarch::smart_open==5.1.0=pyhd3eb1b0_0
  - defaults/osx-arm64::thinc==8.0.13=py38h5c6307a_0
  - defaults/noarch::google-cloud-core==1.7.1=pyhd3eb1b0_0
  - defaults/noarch::pathy==0.6.0=pyhd3eb1b0_0
  - defaults/noarch::nbclient==0.5.3=pyhd3eb1b0_0
  - defaults/noarch::jupyter_client==7.1.2=pyhd3eb1b0_0
  - defaults/osx-arm64::matplotlib-base==3.5.0=py38h9197a36_0
  - defaults/noarch::google-resumable-media==1.3.1=pyhd3eb1b0_1
  - apple/osx-arm64::tensorflow-deps==2.8.0=0
  - defaults/osx-arm64::scikit-learn==1.0.2=py38h9197a36_1
  - defaults/osx-arm64::widgetsnbextension==3.5.1=py38hca03da5_0
  - defaults/noarch::typer==0.4.0=pyhd3eb1b0_0
 

In [None]:
!conda uninstall numpy

Установка из дополнительного репозитория

In [None]:
!conda install -c conda-forge opencv

Просмотр всех доступных виртуальных сред

In [114]:
!conda env list


# conda environments:
#
base                     /Users/artem/miniconda3
ODS                      /Users/artem/miniconda3/envs/ODS
ParseWiki                /Users/artem/miniconda3/envs/ParseWiki
Python_Lections_MSU      /Users/artem/miniconda3/envs/Python_Lections_MSU
async-python-sprint-4-main     /Users/artem/miniconda3/envs/async-python-sprint-4-main
async-python-sprint-5     /Users/artem/miniconda3/envs/async-python-sprint-5
common_env_3_8        *  /Users/artem/miniconda3/envs/common_env_3_8
django_test              /Users/artem/miniconda3/envs/django_test
pyMSU                    /Users/artem/miniconda3/envs/pyMSU
study                    /Users/artem/miniconda3/envs/study
workspace                /Users/artem/miniconda3/envs/workspace



Воспроизводимость среды:

In [115]:
!conda env export > environment.yml

In [None]:
!conda env create -f environment.yml

# Работа с пакетами

In [116]:
import math

In [117]:
math.pi

3.141592653589793

In [118]:
from math import pi
pi

3.141592653589793

Так делать не надо. Ни в коем случае

In [119]:
from math import *

In [120]:
cos(3)

-0.9899924966004454

In [121]:
from math import *
from numpy import *
import sys

In [124]:
cos(3)

-0.9899924966004454

## Как это работает изнутри?

Импорт модуля:
- поиск модуля;
- компиляция;
- запуск.

Поиска модуля, указанного в импорте, интерпретатор Python, выполняет последовательно в ряде директорий(Module Search Path):

- домашняя директория(там где лежит скрипт);
- директории, указанные в переменной окружения PYTHONPATH(можно задать самому);
- директории Standard library(интерпретатор);
- пути прописанные в .pth файлах(обычный текстовый файл с путями);
- пакеты сторонних разработчиков(устанавливаются через pip).

В Python 3 на этапе компиляции создается каталог с именем \_\_pycache\_\_, в нем располагаются файлы с расширением .pyc, в них содержится байт-код.

Запуск модуля -- выполнение строк кода в соответствующем модуле.

__ВАЖНО:__ модуль импортируется только один раз.  Перезагрузить модуль можно с помощью команды imp.reload.

In [125]:
import my_module

world


In [126]:
my_module.foo()

hello


## Ещё интересные вещи про модули:

### Импорт модуля в зависимости от условий

In [None]:
val = int(input("simple math lib [1], adv math lib [2]: "))
if val==1:
    import simplemath as user_math
elif val==2:
    import advmath as user_math

user_math.add(3, 4)

Изменение атрибутов пакетов:

In [127]:
import math
from math import pi

math.pi = 5
math.pi

5

In [130]:
pi

5

In [129]:
pi = 5

### Как перезагрузить модуль?

In [138]:
import my_module
my_module.foo1()

world


In [136]:
from imp import reload
reload(my_module)

<module 'my_module' from '/Users/artem/Documents/Work/ВМК_МГУ/course_2023_09/Lecture_04/my_module.py'>

In [139]:
math.pi

5

Что загружено из модуля:

In [141]:
dir(math)

['__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'acos',
 'acosh',
 'asin',
 'asinh',
 'atan',
 'atan2',
 'atanh',
 'ceil',
 'comb',
 'copysign',
 'cos',
 'cosh',
 'degrees',
 'dist',
 'e',
 'erf',
 'erfc',
 'exp',
 'expm1',
 'fabs',
 'factorial',
 'floor',
 'fmod',
 'frexp',
 'fsum',
 'gamma',
 'gcd',
 'hypot',
 'inf',
 'isclose',
 'isfinite',
 'isinf',
 'isnan',
 'isqrt',
 'ldexp',
 'lgamma',
 'log',
 'log10',
 'log1p',
 'log2',
 'modf',
 'nan',
 'perm',
 'pi',
 'pow',
 'prod',
 'radians',
 'remainder',
 'sin',
 'sinh',
 'sqrt',
 'tan',
 'tanh',
 'tau',
 'trunc']

## Пакеты

Пакеты -- модули сгруппированные в одной директории

In [None]:
import mymath.constants as constants

In [None]:
constants.pi

# PEP-8 и модули

Импортировать модули желательно по одному в строке:

In [None]:
import os
import math

In [None]:
# wrong
import os, math

Однако допустимо:

In [None]:
from subprocess import Popen, PIPE

Импорт модулей всегда помещается в начало файла, сразу после любых комментариев модуля и строк документации, а также перед глобальными параметрами и константами модуля.

Импорт модулей должен быть сгруппирован в следующем порядке:

- импорт стандартной библиотеки
- импорт библиотек сторонних разработчиков
- локальный импорт приложения/библиотеки
Вы должны поместить пустую строку между каждой группой импорта.

In [None]:
import math

import numpy

import mymath.constants

Рекомендуется использовать абсолютный импорт, так как он обычно более удобочитаем и, как правило, ведет себя лучше (или, по крайней мере, дает более качественные сообщения об ошибках), если система импорта настроена неправильно:

In [None]:
import mypkg.sibling
from mypkg import sibling
from mypkg.sibling import example

Импорта с подстановочными знаками (from <module> import *) следует избегать, так как он делает неясным, какие имена присутствуют в пространстве имен, что сбивает с толку как читателей, так и многие автоматизированные инструменты.

In [None]:
from mymodule import *

## Dunder names

"Dunders" уровня модуля (т. е. имена с двумя начальными и двумя конечными символами подчеркивания), такие как ```__all__, __author__, __version__``` и т.д., следует размещать после строки документации модуля, но перед любыми операторами импорта, за исключением ```from __future__ imports ... ```

Python требует, чтобы будущие импорты появлялись в модуле перед любым другим кодом, кроме строк документации.

In [None]:
"""This is the example module.

This module does stuff.
"""

from __future__ import barry_as_FLUFL

__all__ = ['a', 'b', 'c']
__version__ = '0.1'
__author__ = 'Cardinal Biggles'

import os
import sys

# Как разбивать на модули:

1. Разделить код на осмысленные части, например:
    - Работа с БД
    - Работа с GUI
    - Вычисления
    - Работа с пользователем
    - Работа с файлами
2. Вынести конфигурационные файлы в отдельный файл:
    - Токены, авторизация и т.д.(Лучше использовать механизм переменных окружения)
    - Параметры(например, прокси)

# Вопросы для самостоятельного изучения:
 - Рефакторинг: https://refactoring.guru/ru/refactoring
# Вопросы к зачету
- Понятие итератора и генератора и их отличия?
- Зачем нужны генераторы
- Что такое декоратор? Зачем он нужен?
- Механизм генерации коллекций. Какие особенности? В чем отличие от генераторов?
- Пакеты и модули отличия
- Как импортировать модуль
<!-- - Зачем нужен ```__name__``` и ```__all__``` -->
- Общая схема импорта