# Введение в методы анализа данных. Язык Python.

## Лекция 4:  Элементы функционального программирования в Python. Работа с пакетами



Аксентьев Артем (akseart@ya.ru)

Ксемидов Борис (nstalker.anonim@yandex.ru) 

## План

- Элементы функционального программирования в Python: 
    - map
    - lambda
    - reduce
    - filter
- Итераторы. 
- Генераторы
- Механизм comprehensions.
- Декораторы
- Модули
- PIP
- Conda

# Элементы функционального программирования

## Lambda функции

- Из-за сходства с аналогичной возможностью в языке LISP она получила название lambda. 
- lambda-выражения иногда называют анонимными (то есть безымянными) функциями.

In [None]:
def func(x):
    return x^2 + 8 * x + 10

x_list = [20, 25, 30, 22]

out_list = []

for i in x_list:
    out_list.append(func(i))
    
out_list

In [None]:
x_list = [20, 25, 30, 22]

out_list = []

for i in x_list:
    out_list.append((lambda x: x^2 + 8 * x + 10)(i))
    
out_list

In [None]:
sorted([1, -1, 100, 5, 50, 2], key=lambda x: len(str(x)))

In [None]:
f = lambda x, y: x if x > y else y

f = lambda x, y: (x if x > y else y) if x > 10 else 10

f = lambda a, b, c:  (a and b) or c

## Map функции

Применяют функцию к последовательности

In [None]:
map(int, input().split())

In [None]:
def my_map(seq, func):
    res = []
    for i in seq:
        res.append(func(i))
    return res

my_map(input().split(), int)

In [None]:
x_list = [20, 25, 30, 22]

out_list = list(map(lambda x: x^2 + 8 * x + 10, x_list))

out_list

In [None]:
pow(2, 3)

In [None]:
list(map(pow, [1, 2, 3], [3, 4, 5]))

In [None]:
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70]
print(sorted(a, key = lambda x: sum(list(map(int, list(str(x)))))))
print(sorted(a))

## Filter

In [None]:
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70]

list(filter(lambda x: x > 10, a))

## Reduce

"Накапливаемый" map

In [None]:
from functools import reduce
a = [53, 33, 76, 42, 87, 47, 11, 67, 58, 79, 78, 13, 63, 29, 71, 36, 90, 7, 99, 70]

reduce(lambda x, y: x+2*y, a), sum(a)

## Агрегирующие функции

In [1]:
sum([1, 2, 3, 4])

10

In [2]:
all([True, False, True])

False

In [3]:
any([True, False, False])

True

# Итераторы

In [None]:
r = range(5)

for i in r:
    print(i)

In [None]:
it = iter(r)

print(next(it))
print(it.__next__())
print(next(it))
print(next(it))
print(next(it))
print(next(it))

In [None]:
for i in "Hello world":
    print(i)
    ...

In [None]:
it = iter("Hello world")
while True:
    try:
        i = next(it)
        print(i)
        ...
    except StopIteration:
        break

In [None]:
class Data:
    def __init__(self):
        self._data = [1, 2, 3, 4]
        self._data_len = len(self._data)

    def __iter__(self):
        self._index = 0
        return self

    def __next__(self):
        if self._index > self._data_len - 1:
            raise StopIteration
        result =  self._data[self._index]
        self._index += 1
        return result

my_iter = Data()

In [None]:
for i in my_iter:
    print(i)

# Генераторы

- В генераторе вместо return используется ключевое слово yield
- yield используется для возвращения очередного значения коллекции
- Генератор автоматически хранит своё внутреннее состояние

In [None]:
def my_hello(n):
    yield 'Start "Hello world!"'
    i = 1
    for i in range(n):
        yield 'Hello world!'
    yield 'Stop "Hello world!"'
        
gen = my_hello(10)

for s in gen:
    print(s)

## Зачем?
Для экономии памяти, ведь мы не загружаем в память весь набор данных, а лишь одну формулу для вычисления элементов этого набора данных

# Механизм comprehensions (Генератор коллекций)


In [None]:
gen = my_hello(10)
it = iter(gen)


In [None]:
next(it)

## list comprehension

In [None]:
[i for i in range(1, 10)]

In [None]:
[i for i in range(1, 10) if i % 2 == 0]

In [None]:
[i for i in range(1, 10) if i % 2 == 0 and i < 7]

In [None]:
[i ** 2 for i in range(1, 10) if i % 2 == 0 and i < 7]

In [None]:
[i ** 2 if i < 4 else i for i in range(1, 10) if i % 2 == 0 and i < 7]

## set comprehension 

In [None]:
{i for i in range(1, 25) if i % 2 == 0}

## dictionary comprehension

In [None]:
{i : i**2 for i in range(1, 25) if i % 2 == 0}

# Декораторы

In [None]:
def my_decorator(func_to_decorate):
    def wrapper_func():
        print("Можно выполнить что-то до функции")
        func_to_decorate()
        print("Можно что-то после")
    return wrapper_func

def hello():
    print("Hello world")

hello()

In [None]:
hello_with_decorate = my_decorator(hello)
hello_with_decorate()

In [None]:
@my_decorator
def hello():
    print("Hello world")

In [None]:
hello()

In [None]:
import time
def times_for_func(func_to_decorate):
    def wrapper():
        before = time.time()
        func_to_decorate()
        print(time.time() - before)
    
    return wrapper

In [None]:
@times_for_func
def hello(a):
    print(a + "Hello world")

In [None]:
hello("q")

In [None]:
import time
def times_for_func(func_to_decorate):
    def wrapper(*args, **kwargs):
        before = time.time()
        func_to_decorate(*args, **kwargs)
        print(time.time() - before)
    
    return wrapper


@times_for_func
def hello(a, b):
    print("Hello world", a + b)


In [None]:
hello(10, 30)

# Функторы

Объекты, похожие на функции

In [None]:
def foo_functor(val1):
    def closure(val2):
        return val1 + val2
    return closure

class clsFunctor(object):
    def __init__(self, val1):
        self.val1 = val1
    def __call__(self, val2):
        return self.val1 + val2

cl = clsFunctor(2)
fn = foo_functor(2)

print(cl(1), fn(1))

# Функция zip

In [None]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
for (x, y) in zip(a, b):
    print(x + y)

In [None]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
c = list(zip(a, b))
c

In [None]:
a = [1, 2, 3, 4, 5]
b = [10, 20, 30, 40, 50]
c = [100, 200, 300, 400]
d = list(zip(a, b, c))
d

range -- генератор или нет?

1. range имеет дополнительные атрибуты:
    - range неизменяемы
    - имеют полезные атрибуты (len, index, __getitem__)
    - Можно итерироваться многократно
2. Не хранит всю последдовательность в памяти

# Интересные трюки

Идет обработка большого массива данных, есть список стоп слов, если в строке встречается какое-либо стоп слово, то эта строка никак не обрабатывается

In [4]:
temp = ["Hello", "World", "Test string", "Logs", "Debug Loggers"]
stop_words = ["Test", "debug"]
res = []
for i in temp:
    # Do something
    for word in stop_words:
        if word in i:
            ...
    # Do something
    


In [None]:
temp = ["Hello", "World", "Test string", "Logs", "Debug Loggers"]
stop_words = ["Test", "debug"]
res = []
for i in temp:
    # Do something
    if any(word in i for word in stop_words):
        continue
    # Do something

# PyPi

PyPI (аббр. от англ. Python Package Index — «каталог пакетов Python») — каталог программного обеспечения, написанного на языке программирования

## PIP
pip — это система управления пакетами(библиотеками), которая на данный момент по умолчанию включена в дистрибутив языка. Она используется для установки и управления программными пакетами, написанными на Python.

pip может брать пакеты из двух типов источников:
- PyPi
- Git-репозиторий

## Зачем это нужно?
1. Избежать изобретения "велосипедов"
2. В крупных коммерческих проектах избежать повторяемости одного и того же кода в различных продуктах

## Как работать с pip?

Установка нового пакета:

In [None]:
%pip install numpy

Установка конкретной версии пакета:

In [None]:
%pip install numpy==1.22.1

Удаление пакета:

In [None]:
!pip uninstall numpy

Вывод всех установленных пакетов:

In [None]:
!pip list

Сохранение пакетов для других разработчиков:

In [None]:
!pip freeze > requirements.txt

In [None]:
!pip list --local

Установка пакетов из requirements.txt

In [None]:
!pip install -r requirements_1.txt

## Conda

Список установленных пакетов

In [None]:
!conda list

Установка пакетов:

In [None]:
!conda install numpy

In [None]:
!conda uninstall numpy

Установка из дополнительного репозитория

In [None]:
!conda install -c conda-forge opencv

Просмотр всех доступных виртуальных сред

In [None]:
!conda env list


Воспроизводимость среды:

In [None]:
!conda env export > environment.yml

In [None]:
!conda env create -f environment.yml

# Работа с пакетами

In [None]:
import math

In [None]:
math.pi

In [None]:
from math import pi
pi

Так делать не надо. Ни в коем случае

In [None]:
from math import *

In [None]:
cos(3)

In [5]:
from math import *
from numpy import *

In [4]:
cos(2)

-0.4161468365471424

## Как это работает изнутри?

Импорт модуля:
- поиск модуля;
- компиляция;
- запуск.

Поиска модуля, указанного в импорте, интерпретатор Python, выполняет последовательно в ряде директорий(Module Search Path):

- домашняя директория(там где лежит скрипт);
- директории, указанные в переменной окружения PYTHONPATH(можно задать самому);
- директории Standard library(интерпретатор);
- пути прописанные в .pth файлах(обычный текстовый файл с путями);
- пакеты сторонних разработчиков(устанавливаются через pip).

В Python 3 на этапе компиляции создается каталог с именем __pycache__, в нем располагаются файлы с расширением .pyc, в них содержится байт-код.

Запуск модуля -- выполнение строк кода в соответствующем модуле.
__ВАЖНО:__ модуль импортируется только один раз.  Перезагрузить модуль можно с помощью команды imp.reload.

## Ещё интересные вещи про модули:

### Импорт модуля в зависимости от условий

In [None]:
val = int(input("simple math lib [1], adv math lib [2]: "))
if val==1:
    import simplemath as user_math
elif val==2:
    import advmath as user_math

user_math.add(3, 4)

Изменение атрибутов пакетов:

In [None]:
import math
from math import pi

math.pi = 5
math.pi

In [None]:
pi

### Как перезагрузить модуль?

In [None]:
import user_module
user_module.pi

In [None]:
from imp import reload
reload(user_module)

In [None]:
user_module.pi

Что загружено из модуля:

In [None]:
dir(user_module)

## Пакеты

Пакеты -- модули сгруппированные в одной директории

In [None]:
import mymath.constants

In [None]:
mymath.constants.pi

# PEP-8 и модули

Импортировать модули желательно по одному в строке:

In [None]:
import os
import math

In [None]:
# wrong
import os, math

Однако допустимо:

In [None]:
from subprocess import Popen, PIPE

Импорт модулей всегда помещается в начало файла, сразу после любых комментариев модуля и строк документации, а также перед глобальными параметрами и константами модуля.

Импорт модулей должен быть сгруппирован в следующем порядке:

- импорт стандартной библиотеки
- импорт библиотек сторонних разработчиков
- локальный импорт приложения/библиотеки
Вы должны поместить пустую строку между каждой группой импорта.

In [None]:
import math

import numpy

import mymath.constants

Рекомендуется использовать абсолютный импорт, так как он обычно более удобочитаем и, как правило, ведет себя лучше (или, по крайней мере, дает более качественные сообщения об ошибках), если система импорта настроена неправильно:

In [None]:
import mypkg.sibling
from mypkg import sibling
from mypkg.sibling import example

Импорта с подстановочными знаками (from <module> import *) следует избегать, так как он делает неясным, какие имена присутствуют в пространстве имен, что сбивает с толку как читателей, так и многие автоматизированные инструменты.

## Dunder names

"Dunders" уровня модуля (т. е. имена с двумя начальными и двумя конечными символами подчеркивания), такие как ```__all__, __author__, __version__``` и т.д., следует размещать после строки документации модуля, но перед любыми операторами импорта, за исключением ```from __future__ imports ... ```

Python требует, чтобы будущие импорты появлялись в модуле перед любым другим кодом, кроме строк документации.

In [6]:
"""This is the example module.

This module does stuff.
"""

from __future__ import barry_as_FLUFL

__all__ = ['a', 'b', 'c']
__version__ = '0.1'
__author__ = 'Cardinal Biggles'

import os
import sys

# Как разбивать на модули:

1. Разделить код на осмысленные части, например:
    - Работа с БД
    - Работа с GUI
    - Вычисления
    - Работа с пользователем
    - Работа с файлами
2. Вынести конфигурационные файлы в отдельный файл:
    - Токены, авторизация и т.д.(Лучше использовать механизм переменных окружения)
    - Параметры(например, прокси)

# Вопросы для самостоятельного изучения:
 - Рефакторинг: https://refactoring.guru/ru/refactoring
# Вопросы к зачету
- Понятие итератора и генератора и их отличия?
- Зачем нужны генераторы
- Что такое декоратор? Зачем он нужен?
- Механизм генерации коллекций. Какие особенности? В чем отличие от генераторов?
- Пакеты и модули отличия
- Как импортировать модуль
- Зачем нужен ```__name__``` и ```__all__```
- Общая схема импорта