# Additional Python Stuff

Здесь мы постарались собрать полезные операторы в Python, которые вы будете часто использовать

### 1. Строки

1. `split` разделяет строку на список из нескольких подстрок по некоторому разделителю
2. `join` соединяет список из нескольких строк, соединённых разделителем
3. `find` находит индекс первого вхождения подстроки в строку слева
4. `rfind` находит индекс первого вхождения подстроки в строку справа
5. `in` проверяет, что подстрока входит в строку
6. `replace` заменяет все вхождения подстроки __a__ на строку __b__
7. `lower` приводит строку к нижнему регистру
8. `upper` приводит строку к верхнему регистру
9. `strip` удаляет лишние пробелы и символы табуляции в начале и в конце строки

In [1]:
print("Lorem ipsum dolor sit amet, consectetur adipiscing elit".split())
print("12.04.1961".split("."))
print("abcd".split("bc"))

# Стоит заметить, что split(" ") будет разделять только 
# по символу пробела, игнорируя символы табуляции ("\t")
print("\t a \t".split())
print("\t a \t".split(" "))

['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit']
['12', '04', '1961']
['a', 'd']
['a']
['\t', 'a', '\t']


In [2]:
print('.'.join(['12', '04', '1961']))

# Ожидается, что переданный итерируемый объект возвращает строки
# print('.'.join([12, 4, 1961])) # Ошибка!

12.04.1961


In [3]:
print("0123401234".find("0"))
print("0123401234".find("1"))
print("0123401234".find("2"))
print("0123401234".find("234"))

# find от невходящей подстроки возвращает -1
print("0123401234".find("not a substring"))

0
1
2
2
-1


In [4]:
print("0123401234".rfind("0"))
print("0123401234".rfind("1"))
print("0123401234".rfind("2"))
print("0123401234".rfind("234"))

# rfind от невходящей подстроки возвращает -1
print("0123401234".rfind("not a substring"))

5
6
7
7
-1


In [5]:
# При проверке вхождения подстроки в строку 
# более хорошим стилем было бы использование 
# оператора `in` вместо `find`

print("012" in "01234")
print("12" in "01234")

print("not a substring" in "01234")
print("not a substring" not in "01234")

True
True
False
True


In [6]:
# Оператор `in` также работает с некоторыми 
# другими структурами данных
print(1 in [0, 1, 2, 3, 4])
print(1 not in {0, 1, 2, 3, 4})

print(1 in {0, 1, 2, 3, 4})
print(1 not in {0, 1, 2, 3, 4})

True
False
True
False


In [7]:
print("0123401234".replace("01", "_"))

# Достаточно удобно удалять все вхождения подстроки в строку
print("0123401234".replace("01", ""))

_234_234
234234


In [8]:
print("StRiNg".lower())
print("StRiNg".upper())

string
STRING


In [9]:
"     a string with leading and trailing whitespaces     ".strip()

'a string with leading and trailing whitespaces'

### 2. dict: keys, values and items

In [10]:
d = {
    "car": "bus",
    "year": 1964,
}

print(d.keys())
print(d.values())
print(d.items())

dict_keys(['car', 'year'])
dict_values(['bus', 1964])
dict_items([('car', 'bus'), ('year', 1964)])


In [11]:
for key, value in d.items():
    print(key, value)

car bus
year 1964


### 3. Срезы и индексация

In [12]:
# Получить элемент по индексу

print("01234"[2])
print([0, 1, 2, 3, 4][2])

2
2


In [13]:
# Получить последний и предпоследний элементы

print("01234"[-1])
print([0, 1, 2, 3, 4][-1])

print("01234"[-2])
print([0, 1, 2, 3, 4][-2])

4
4
3
3


In [14]:
# Получить элементы между двумя индексами

print("01234"[2:4])
print([0, 1, 2, 3, 4][2:4])

23
[2, 3]


In [15]:
# Границы можно не задавать

print("01234"[2:])
print([0, 1, 2, 3, 4][2:])

print("01234"[:4])
print([0, 1, 2, 3, 4][:4])

print("01234"[:])
print([0, 1, 2, 3, 4][:])

234
[2, 3, 4]
0123
[0, 1, 2, 3]
01234
[0, 1, 2, 3, 4]


In [16]:
# Можно задать шаг

print("01234"[2:6:2])
print([0, 1, 2, 3, 4][0:4:3])

# Можно развернуть строку или список
print("01234"[::-1])
print([0, 1, 2, 3, 4][::-1])

24
[0, 3]
43210
[4, 3, 2, 1, 0]


### 4. Генераторы

Больше про генераторы можно почитать [здесь](https://www.python.org/dev/peps/pep-0289/)

In [17]:
# Обычный генератор списков
[i for i in range(10)]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [18]:
# Вы можете использовать символ "_", если вам не нужен счётчик
[0 for _ in range(10)]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [19]:
# pprint -- pretty print 
from pprint import pprint


pprint([[i*j for j in range(1, 10)] for i in range(1, 10)])

[[1, 2, 3, 4, 5, 6, 7, 8, 9],
 [2, 4, 6, 8, 10, 12, 14, 16, 18],
 [3, 6, 9, 12, 15, 18, 21, 24, 27],
 [4, 8, 12, 16, 20, 24, 28, 32, 36],
 [5, 10, 15, 20, 25, 30, 35, 40, 45],
 [6, 12, 18, 24, 30, 36, 42, 48, 54],
 [7, 14, 21, 28, 35, 42, 49, 56, 63],
 [8, 16, 24, 32, 40, 48, 56, 64, 72],
 [9, 18, 27, 36, 45, 54, 63, 72, 81]]


In [20]:
# Генерировать можно и словари
{i: i**2 for i in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

In [21]:
# В генераторе можно добавить условие
[i for i in [3, 14, 15, 92, 6] if i % 2 == 0]

[14, 92, 6]

### 5. lambda функции

Простую функцию часто можно задать лямбдой в одну строку

In [22]:
(lambda x: x + 2)(2)

4

Согласно [PEP 8](https://www.python.org/dev/peps/pep-0008/), лямбды **нельзя** присваивать каким-либо переменным.

Для создания именованных функций **всегда** используйте `def`.

In [23]:
# Хороший стиль
def f(x): return 2*x


# Плохой стиль!
f = lambda x: 2*x

### 6. map, filter, zip, sorted, sum, set

1. `map` возвращает итерируемый объект, который является результатом применения переданной функции к переданному итерируемому объекту
3. `filter` возвращает итерируемый объект, в который вошли те элементы переданного параметра, которые удовлетворили переданному условию
3. `zip` слепляет значения двух итерируемых объектов попарно
4. `sorted` сортирует
5. `sum` суммирует
6. `set` поможет получить набор уникальных значений

In [24]:
print(list(map(lambda x: x**2, [1, 2, 3, 4])))
print(list(filter(lambda x: x % 2 == 1, [1, 2, 3, 4])))
print(list(zip([1, 2, 3], ['a', 'b', 'c'])))
print(sorted([2, 3, 1, 4]))
print(sum([1, 2, 3]))
print(set([1, 2, 3, 4, 2, 3, 4, 3, 3, 2, 3, 4]))

[1, 4, 9, 16]
[1, 3]
[(1, 'a'), (2, 'b'), (3, 'c')]
[1, 2, 3, 4]
6
{1, 2, 3, 4}


### 7. itertools.chain

Иногда бывает нужно склеить несколько списков последовательно

In [25]:
import itertools


print(list(itertools.chain([1, 2, 3], [4], [5, 6])))

[1, 2, 3, 4, 5, 6]


### 8. enumerate

Использование `enumerate` часто удобнее, чем конструкция `for i in range(len(arr))` с использованием `arr[i]` в теле цикла

In [26]:
arr = ['elements', 'in', 'list']
for i, value in enumerate(arr):
    print(i, value)

0 elements
1 in
2 list


In [27]:
print({i: value for i, value in enumerate(arr)})

{0: 'elements', 1: 'in', 2: 'list'}


### 9. collections.Counter

Иногда необходимо посчитать количество уникальных объектов в списке и их частотность

In [28]:
from collections import Counter


print(Counter([1, 2, 3, 1, 1, 4]))
print(Counter('A quick brown fox jumps over the lazy dog'))

Counter({1: 3, 2: 1, 3: 1, 4: 1})
Counter({' ': 8, 'o': 4, 'u': 2, 'r': 2, 'e': 2, 'A': 1, 'q': 1, 'i': 1, 'c': 1, 'k': 1, 'b': 1, 'w': 1, 'n': 1, 'f': 1, 'x': 1, 'j': 1, 'm': 1, 'p': 1, 's': 1, 'v': 1, 't': 1, 'h': 1, 'l': 1, 'a': 1, 'z': 1, 'y': 1, 'd': 1, 'g': 1})


### 10. Однострочный `if`

In [29]:
print('Yes' if 2 == 3 else 'No')

No


### 11. f-строки

Можно использовать с Python 3.6

In [30]:
print(f'sum of 2 and 3 is {2 + 3}')

sum of 2 and 3 is 5


In [31]:
a = 42
# Если вы используете Python версии < 3.8:
print(f'a={a}')
# Если вы используете Python версии >= 3.8:
# print(f'{a=}')

a=42


### 12. with

Удобный синтаксис для открытия файлов и различных соединений. Подробнее про оператор `with` можно почитать [здесь](https://www.python.org/dev/peps/pep-0343/).

In [32]:
with open('sample.txt', 'r') as fin:
    print(fin.readlines())
    # Закрывать файл при использовании `with` не нужно

['This is a python tutorial\n']


### 13. !wget

Если вы работаете на UNIX-системе или в Google Colab, вы можете скачивать данные непосредственно из jupyter ноутбука

Для этого можно использовать команду !wget

В windows у вас скорее всего ничего не получится

In [33]:
!wget https://raw.githubusercontent.com/blacKitten13/minor2020-iad4/master/sem03_pandas/math_students.csv

--2020-01-22 02:44:41--  https://raw.githubusercontent.com/blacKitten13/minor2020-iad4/master/sem03_pandas/math_students.csv
Loaded CA certificate '/etc/ssl/certs/ca-certificates.crt'
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.244.133
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.244.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 41983 (41K) [text/plain]
Saving to: ‘math_students.csv’


2020-01-22 02:44:42 (456 KB/s) - ‘math_students.csv’ saved [41983/41983]



Если вы скачали zip файл, используйте `unzip`

### Задания

Чтобы ощутить _все_ удобства синтаксического сахара Python, попробуйте не использовать циклы при решении этих заданий, заменяя циклы на генераторы и map-ы. В таком случае каждое задание решается в одну строчку

Конструкция `assert` поднимает ошибку, если условие после него не выполнено. Все assert'ы ниже должны быть пройдены

#### 1. Напишите генератор следующего списка: [1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
a = # Your code goes here

In [None]:
assert a == [1, 2, 3, 4, 5, 6, 7, 8, 9]

#### 2. Возведите каждый элемент списка, полученного в результате выполнения прошлого задания, в квадрат

In [None]:
a = # Your code goes here

In [None]:
assert a == [1, 4, 9, 16, 25, 36, 49, 64, 81]

#### 3. Удалите нечётные числа из списка, полученного на предыдущем этапе

In [None]:
a = # Your code goes here

In [None]:
assert a == [4, 16, 36, 64]

#### 4. Отсортируйте список в обратном порядке (у функции `sorted` есть параметр `reverse`)

In [None]:
a = # Your code goes here

In [None]:
assert a == [64, 36, 16, 4]

#### 5. Создайте словарь, в котором ключами будут значения этого списка, а значениями -- их индексы  

In [None]:
a = # Your code goes here

In [None]:
assert a == {64: 0, 36: 1, 16: 2, 4: 3}

#### 6. Вам дан список токенов, полученный в результате токенизации некоторого текста. Приведите каждый из токенов к нижнему регистру

In [None]:
text = """Lorem ipsum dolor sit amet , consectetur adipiscing elit , sed do eiusmod tempor incididunt ut labore et dolore magna aliqua . Ut enim ad minim veniam , quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat . Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur . Excepteur sint occaecat cupidatat non proident , sunt in culpa qui officia deserunt mollit anim id est laborum . Curabitur pretium tincidunt lacus . Nulla gravida orci a odio . Nullam varius , turpis et commodo pharetra , est eros bibendum elit , nec luctus magna felis sollicitudin mauris . Integer in mauris eu nibh euismod gravida . Duis ac tellus et risus vulputate vehicula . Donec lobortis risus a elit . Etiam tempor . Ut ullamcorper , ligula eu tempor congue , eros est euismod turpis , id tincidunt sapien risus a quam . Maecenas fermentum consequat mi . Donec fermentum . Pellentesque malesuada nulla a mi . Duis sapien sem , aliquet nec , commodo eget , consequat quis , neque . Aliquam faucibus , elit ut dictum aliquet , felis nisl adipiscing sapien , sed malesuada diam lacus eget erat . Cras mollis scelerisque nunc . Nullam arcu . Aliquam consequat . Curabitur augue lorem , dapibus quis , laoreet et , pretium ac , nisi . Aenean magna nisl , mollis quis , molestie eu , feugiat in , orci . In hac habitasse platea dictumst .""".split()

text[:10]

In [None]:
text = # Your code goes here

In [None]:
for token in text:
    assert token.islower()

#### 7. Посчитайте три самых частотных токена в тексте

In [None]:
most_common = # Your code goes here

In [None]:
assert most_common == [',', '.', 'in']