![image info](./images/python_developer.png)

# Интерпетатор Python

In [None]:
import sys

print(sys.version)

# Основы (переменные, стуктуры данных, циклы, условные операторы)

## Переменные

In [None]:
# Определение переменых

a = 1
print(f"{a = }, type: {type(a)}")

b = 0.5
print(f"{b = }, type: {type(b)}")

c = "string"
print(f"{c = }, type: {type(c)}")

d = True
print(f"{d = }, type: {type(d)}")

# Примеры вывода
print('\nЕще примеры вывода:')
print("a = {0}, type: {1}".format(a, type(a)))
print(f"a = {a+1.5}")
print("a = %s\tb = %s" % (a, b))

In [None]:
# Тип переменных определяется в момент исполнения команды

b = a
a = c
print(f"{a = }, type: {type(a)}")
print(f"{b = }, type: {type(b)}")

a = 1
print(f"a = {a}, type: {type(a)}")

## Структуры данных

### list

In [None]:
a = [1, 2, 'string', 0.2, 9, 9]
print(f"{a = }, type: {type(a)}")

In [None]:
a[0] = 0.5
print(f"{a = }, type: {type(a)}")

In [None]:
# start: stop: step

print(f"List: {a}")
print('Forward slicing:')
print(' '*3, f"{a[1:4] = }")
print(' '*3, f"{a[::2] = }")

print()
print('Backward slicing:')
print(' '*3, f"{a[-1] = }")
print(' '*3, f"{a[-1:-3:-1] = }")
print(' '*3, f"{a[::-1] = }")

In [None]:
# Методы объекта list
method_list = [
    func
    for func in dir(a)
    if callable(getattr(a, func)) and not func.startswith("__")
]
print(f"List methods: {method_list}")
    
a.reverse()
print('reverse:', f"{a = }")

In [None]:
a.append([5,6,7])
print(f"{a = }")

In [None]:
a = a[:-1]
a.extend([5, 6, 7])
print(f"{a = }")

**Итого**
+ Может содержать елементы разного типа
+ Последовательность элементов сохраняется
+ Содержит богатое количество методов
+ Доступ к элементам по индексам
+ Можно изменять элементы массива
+ Возможен slicing

### tuple

In [None]:
a = (1, 2, 'string', 0.2, 9)
print(f"{a = }, type: {type(a)}")

a = [1]
print(f"{a = }, type: {type(a)}")

a = (1)
print(f"{a = }, type: {type(a)}")

a = (1,)
print(f"{a = }, type: {type(a)}")

a = (1, 2, 'string', 0.2, 9)


In [None]:
try:
    a[0] = 0.5
except TypeError as err:
    print(err)
print(f"{a[0] = }")

In [None]:
# Mетоды объекта tuple
method_list = [func for func in dir(a) if callable(getattr(a, func)) and not func.startswith("__")]
print(f"Tuple methods: {method_list}")

In [None]:
# start: stop: step

print(f"Tuple: {a}")
print('Forward slicing:')
print(' '*3, f"{a[1:4] = }")
print(' '*3, f"{a[::2] = }")

print()
print('Backward slicing:')
print(' '*3, f"{a[-1] = }")
print(' '*3, f"{a[-1:-3:-1] = }")
print(' '*3, f"{a[::-1] = }")

In [None]:
(1,2,3) + (6,)

**Итого**
+ Может содержать елементы разного типа
+ Последовательность элементов сохраняется
+ <del>Содержит богатое количество методов</del>
+ Доступ к элементам по индексам
+ <del>Можно изменять элементы массива</del>
+ Возможен slicing

### set

In [None]:
a = {1, 2, 'string', 0.2, 9, 9}
print(f"{a = }, type: {type(a)}")

a = {1}
print(f"{a = }, type: {type(a)}")

a = {1, 2, 'string', 0.2, 9, 9}

In [None]:
try:
    a[0] = 0.5
except TypeError as err:
    print(err)

try:
    print(f"{a[0] = }")
except TypeError as err:
    print(err)

In [None]:
# Mетоды объекта set
method_list = [func for func in dir(a) if callable(getattr(a, func)) and not func.startswith("__")]
print(f"Set methods: {method_list}")

In [None]:
# Slicing

try:
    print(f"Tuple: {a}")
    print('Forward slicing:')
    print(' '*3, f"{a[1:4] = }")
except TypeError as err:
    print(err)

**Итого**
+ Может содержать елементы разного типа (если они хэшируемые)
+ <del>Последовательность элементов сохраняется<del>
+ Содержит богатое количество методов для работы с множествами
+ <del>Доступ к элементам по индексам<del>
+ <del>Можно изменять элементы массива</del>
+ <del>Возможен slicing<del>

### dict

In [None]:
a = {'key1': 7, 'key2': 'value'}
print(f"{a = }, type: {type(a)}")
print("'key1': {key1}, 'key2': {key2}".format(**a))

In [None]:
a[1] = 0.5
a['1'] = 'string'
a['key3'] = 'new key'
print(f"{a = }, type: {type(a)}")

In [None]:
# Методы объекта dict
method_list = [func for func in dir(a) if callable(getattr(a, func)) and not func.startswith("__")]
print(f"Dict methods: {method_list}")
    
print('keys:', f"{a.keys() = }")

**Итого**
+ Хранение в виде пар ключ-значение. Реализовано в виде hash-таблицы.
+ Ключи и значения могут быть разных типов. Ключи должны быть хэшируемы.
+ Доступ к значениям по ключу за О(1)
+ Содержит богатое количество методов
+ Можно изменять данные по ключу и добавлять новые ключ-значения

In [None]:
for k, v in a.items():
    print(f"{k = }, {v = }")

In [None]:
'key4' in a

## Условные операторы

In [None]:
a = 10

In [None]:
if a < 100:
    print(True)

In [None]:
if a >= 100:
    print(True)
else:
    print(False)

In [None]:
if a >= 100:
    print('a >= 100')
elif 20 < a < 100: # 20 < a and a < 100
    print('20 < a < 100')
else:
    print('a <= 20')

In [None]:
if a >= 100:
    print('a >= 100')
elif 20 < a < 100:
    print('20 < a < 100')
elif a == 10:
    print(True)

## Циклы

In [None]:
import time

In [None]:
p = 1
total = 1_000
while p <= total:
    if p % 100 == 0:
        print(f"{p * 100 / total:.02f}%", end='\r')
        time.sleep(0.5)
    p += 1

In [None]:
p = tuple(range(1, 1_001))
print("Last 10 elements:", f"{p[:-11:-1]}")

for element in p:
    if element % 100 == 0:
        print(f"{element * 100 / total:.02f}%", end='\r')
        time.sleep(0.5)

# Функции (return, yield)

Даны два list.

```python
list1 = [1, 2, 6, 10, 'string1', 56, 'string2']
list2 = [10, 20, 6, 100, 'string10', 5, 'string2']
```

Найти и вывести в виде list одинаковые елементы в list1 и list2 **(5 мин).**
Если элементы в list1 и/или list2 повторяются, то в результирующем list он должен встречаться один раз.

In [None]:
list1 = [1, 2, 6, 10, 'string1', 56, 'string2']
list2 = [10, 20, 6, 100, 'string10', 5, 'string2']

result = []
for e1 in list1:
    for e2 in list2:
        if e1 == e2:
            result.append(e1)
print("Result:", f"{list(set(result))}")

## Функция

In [None]:
def find_same_elements(l1, l2, n=10):
    result = []
    for e1 in l1:
        for e2 in l2:
            if e1 == e2:
                result.append(e1)
    return list(set(result))

In [None]:
%%time
list1 = [1, 2, 6, 10, 'string1', 56, 'string2']
list2 = [10, 20, 6, 100, 'string10', 5, 'string2']

print("Result:", f"{find_same_elements(list1, list2)}")

In [None]:
# А что если елементов в list будет очень много?
import random

total = 100_001
size = 10_000
list1 = random.sample(range(1, total), size)
list2 = random.sample(range(1, total), size)

print("Length of list1:", f"{len(list1)}")
print("Length of list2:", f"{len(list2)}")

In [None]:
%%time
res = find_same_elements(list1, list2)

In [None]:
len(res), res[:10]

In [None]:
%%timeit
find_same_elements(list1, list2)

## Генератор

In [None]:
# Предположим, что мы хотим использовать найденный элемент сразу,
# а не дожидаться пока алгоритм найдет все одинаковые элементы.
# В этом случае нам может помочь генератор - особый тип данных.

def find_same_elements_gen(l1, l2):
    for e1 in l1:
        for e2 in l2:
            if e1 == e2:
                yield e1

In [None]:
import itertools as it

In [None]:
generator = find_same_elements_gen(list1, list2)

In [None]:
next(generator)

In [None]:
next(generator)

In [None]:
for el in it.islice(generator, 0, 11, 2):
    print(f"{el}")

In [None]:
%%time
rest_of_generator = list(set(generator))

In [None]:
# Генератор исчерпан
try:
    next(generator)
except StopIteration as err:
    print(list(generator))

## Задача

Предложите решение, которое позволит значительно ускорить алгоритм **(10 мин).**

In [None]:
def find_same_elements_fast(l1, l2):
    return list(set(l1).intersection(set(l2)))

In [None]:
len(list1), len(list2)

In [None]:
%%timeit
find_same_elements_fast(list1, list2)

In [None]:
%%time
res = find_same_elements_fast(list1, list2)

In [None]:
res[:10]

## Полезные встроенные функции python

In [None]:
# range(start, stop, step). Возвращает генератор.
a = list(range(11))
print(f"{a = }")

In [None]:
# map(func, iterable). Возвращает генератор.
def add_10(x):
    return x + 10

print(tuple(map(add_10, a)))

# Или через анонимную функцию (lambda)
print(tuple(map(lambda x: x * 10, a)))

In [None]:
# filter(func, iterable). Возвращает генератор.
print(tuple(filter(lambda x: 2 < x <= 6, a)))

In [None]:
# reduce(func, iterable).
# Applies a rolling computation to sequential pairs of values in a list
import functools as ft

product = 1
for num in a[1:]:
    product = product * num
print(f"{product = }")
    
print(ft.reduce(lambda x, y: x * y, a[1:]))

In [None]:
d = {'a': 1, 'b': 2}
list(map(lambda x: x[1] + 1, d.items()))

# List comprehension, context manager, работа с файлами

In [None]:
list1 = [1, 2, 6, 10, 'string1', 56, 'string2']
list2 = [10, 20, 6, 100, 'string10', 5, 'string2']

result = []
for e1 in list1:
    for e2 in list2:
        if e1 == e2:
            result.append(e1)
print("Result:", f"{list(set(result))}")

## List comprehension

"**List comprehensions provide a concise way to create lists.**

Common applications are to make new lists where each element is the result of some operations applied to each member of another sequence or iterable, or to create a subsequence of those elements that satisfy a certain condition." [read](https://docs.python.org/3/tutorial/datastructures.html)

In [None]:
result = list(set(e1 for e1 in list1 for e2 in list2 if e1 == e2))

In [None]:
result

In [None]:
result = (e1 for e1 in list1 for e2 in list2 if e1 == e2)
print(type(result))

In [None]:
result = [e1 for e1 in list1 for e2 in list2 if e1 == e2]
print(type(result))

In [None]:
len(list1), len(list2)

In [None]:
result = {k: v for k, v in zip(list1, list2)}
print(f"{result}, type: {type(result)}")

## Работа с файлами и context manager

In [None]:
from pathlib import Path

In [None]:
data_path = Path('.', 'data')

### Чтение файла с диска

#### Способ №1 (Обычный)

In [None]:
f = open(data_path / 'user_item.csv')

In [None]:
for line in f:
    print(line, end='')

In [None]:
# Почему так происходит?
for line in f:
    print(line, end='')

In [None]:
f.close()

In [None]:
# Считаем последовательно по одной строке файла
f = open(data_path / 'user_item.csv')
print(f.readline(), end='')
print(f.readline(), end='')
f.close()

In [None]:
# Считаем содержимое файла в tuple
f = open(data_path / 'user_item.csv')
lines = tuple(line for line in f)
f.close()

# \n нам не нужны
print(lines)

In [None]:
# Считаем содержимое файла в tuple, чистим каждую строку от ненужных символов
f = open(data_path / 'user_item.csv')
lines = tuple(line.strip() for line in f)
f.close()

# \n нам не нужны
print(lines)

#### Задача

Необходимо считать содержимое файла в структуру вида:
```python
[
    {'user': 'u1', 'item': 'i1', 'r': 1},
    {'user': 'u1', 'item': 'i3', 'r': 2},
    {'user': 'u2', 'item': 'i2', 'r': 1},
    {'user': 'u2', 'item': 'i3', 'r': 3},
    {'user': 'u3', 'item': 'i1', 'r': 4},
    {'user': 'u3', 'item': 'i4', 'r': 5},
    {'user': 'u3', 'item': 'i2', 'r': 2},
]
```
Для разделения строки по символу "," используйте метод строки ```string.split(",")```, который возвращает list **(10 мин).**

In [None]:
f = open(data_path / 'user_item.csv')

header = f.readline().strip().split(",")

data = []
for line in f:
    user, item, r = line.strip().split(",")
    data.append({header[0]: user, header[1]: item, header[2]: int(r)})
print(f"{data}")

f.close()

#### Способ №2 (Context manager)

In [None]:
# Избавимся от постоянного закрывания файла.
# Context manager - это класс, который реализует методы __enter__() и __exit__().
# Можно воспользоваться знаниями о генераторах.
from contextlib import contextmanager

@contextmanager
def open_file(file_path):
    f = open(file_path)
    try:
        print("Файл открыт")
        yield f
    finally:
        print("Файл закрыт")
        f.close()

# О декораторах (decorators) и context manager подробнее в документации Python

In [None]:
# Теперь можно использовать оператор with

with open_file(data_path / 'user_item.csv') as f_in:
    lines = tuple(line.strip() for line in f_in)
print()
print(lines)

In [None]:
# Python за нас уже позаботился

with (data_path / 'user_item.csv').open() as f_in:
    lines = tuple(line.strip() for line in f_in)
print(lines)

#### Способ №3 (готовя библиотека для работы с csv)

In [None]:
import csv

In [None]:
with (data_path / 'user_item.csv').open() as csvfile:
    reader = csv.DictReader(csvfile)
    
    data = []
    for row in reader:
        row['r'] = int(row['r'])
        data.append(row)
print(data)

### Запись в файл

In [None]:
# Сделаем backup файлов
import shutil

src = data_path / 'user_item.csv'
dst = data_path / 'user_item_bak.csv'
shutil.copy(src, dst)

src = data_path / 'user_features.csv'
dst = data_path / 'user_features_bak.csv'
shutil.copy(src, dst);

#### Способ №1

In [None]:
with (data_path / 'user_item.csv').open('a') as f_out:
    f_out.write("u2,i6,3\n")

#### Способ №2

In [None]:
with (data_path / 'user_item.csv').open('a') as f_out:
    fieldnames = ['user', 'item', 'r']
    writer = csv.DictWriter(f_out, fieldnames=fieldnames)
    writer.writerow({'user': 'u2', 'item': 'i4', 'r': 5})

#### Задача

Напишите код, добавляющий в файл `user_item.csv` нового пользователя `u4`, оценившего item `i5` оценкой `1`.
Добавте профиль пользователя в файл `user_features.csv` со значением поля `loc == "msk"` и произвольными полями `f1, f2, f3` со значениями из `{0, 1}` **(10 мин).**

In [None]:
file1 = data_path / 'user_item.csv'
file2 = data_path / 'user_features.csv'

with file1.open('a') as f_out:
    fieldnames = ['user', 'item', 'r']
    writer = csv.DictWriter(f_out, fieldnames=fieldnames)
    writer.writerow({'user': 'u4', 'item': 'i5', 'r': 1})
    

with file2.open('a') as f_out:
    fieldnames = ['user', 'f1', 'f2', 'f3', 'loc']
    writer = csv.DictWriter(f_out, fieldnames=fieldnames)
    writer.writerow({
        'user': 'u4',
        'f1': random.randint(0, 1),
        'f2': random.randint(0, 1),
        'f3': random.randint(0, 1),
        'loc': 'msk',
    })
    
with file1.open() as f1_in, file2.open() as f2_in:
    reader1, reader2 = csv.DictReader(f1_in), csv.DictReader(f2_in)
    print(f"File: {file1.name}")
    for row in reader1:
        print(' '*3, row)
        
    print()
    print(f"File: {file2.name}")
    for row in reader2:
        print(' '*3, row)

# Подготовка пользовательских признаков для библиотеки LightFM

In [None]:
with (data_path / 'user_features.csv').open() as f_in:
    reader = csv.DictReader(f_in)
    user_features_raw = [row for row in reader]

In [None]:
user_features_raw

На первом этапе необходимо сделать генератор/итератор `(user_id, item_id)`

In [None]:
def user_item_gen(file_path):
    with file_path.open() as f_in:
        reader = csv.DictReader(f_in)
        for row in reader:
            yield row['user'], row['item']

In [None]:
list(user_item_gen(data_path / 'user_item.csv'))

## Задача

На первом этапе необходимо создать словарь признаков. Названия признаков лучше выбирать в таком виде <'feature_name:feature_value'>. Т.е. для нашего набора данных может получиться (одну строку мы добавили случайно) **(10 мин)**:

```
{'f1:1', 'f1:0', 'f2:1', 'f2:0', 'f3:1', 'f3:0', 'loc:msk', 'loc:ekat'}
```

In [None]:
features_vocab = set()
for row in user_features_raw:
    features_row = set([
        ':'.join(pair)
        for pair in row.items() if pair[0] != 'user' 
    ])
    features_vocab |= features_row # union

In [None]:
features_vocab

## Задача

На втором этапе необходимо создать генератор/итератор, который выдает данные по признакам для пользователя в таком виде **(10 мин)**:

```
(user_id, ['f1:1', 'f2:1', 'f3:0', 'loc:msk'])
```

In [None]:
def user_features_gen(data):
    for row in data:
        user_id = row['user']
        u_features = [':'.join(pair) for pair in row.items() if pair[0] != 'user']
        yield user_id, u_features

In [None]:
list(user_features_gen(user_features_raw))