## Python и Jupyter Notebook

<img align=left src="https://cdn.fedoramagazine.org/wp-content/uploads/2015/11/Python_logo.png" style="height:160px;" />

<img align=center src="https://1.bp.blogspot.com/-16utHnlB3Ao/V4tpG8NBX0I/AAAAAAAAA7M/vDQ1p40JpE8M34eCr-UdriSV04Dn8au7QCLcB/s1600/jupyter-logo.png" style="height:90px;" />

---

В нашем курсе мы будем использовать язык **Python**, так как он является оптимальным сочетанием простоты, силы и количества библиотек глубокого обучения, написанных для него. 

## Основы Python

Сейчас существуют две часто используемые версии Питона — **Python 2** и **Python 3**. Эти версии довольно похожи, но есть отличия, из-за которых они **не являются совместимыми** - программы, написанные на одной версии языка, могут не работать в другой.  

В нашем курсе мы будем писать на **Python 3**. Точная версия не принципиальна, но она должна быть >= 3.5  

Если Вы пользуетесь каким-либо из дистрибутивов Linux, то Python скорее всего уже установлен.
Попробуйте в терминале следующие команды для запуска интерактивного режима работы:

`python` или `python3` или `python2`

Выход: `Ctrl+D`

Режим работы, в котором выполнится код из файла main.py

`python main.py`

Помощь: **`help(X)`**, где `X` — то, по чему нужна помощь.  
Выход из помощи: `q`.

## Общая информация о языке

**Название** - **«Питон» или «Пайтон»** (в честь комедийных серий BBC «Летающий цирк Монти-Пайтона»)  
**Создатель** - **голландец Гвидо ван Россум (Guido van Rossum)** (в 1991 году)  

**Особенности**:  
- интерпретируемый
- объектно-ориентированный
- высокоуровневый язык
- встроенные высокоуровневые структуры данных
- динамическая типизация
- синтаксис прост в изучении
- поддержка модулей и пакетов (большинство библиотек
бесплатны)
- универсальный
- интеграция с другими языками (C (Cython), C++, Java (JPython))  

**Стиль оформления кода** - **PEP8** (если Вы хороший человек).  

*Самое главное из PEP8:*  
- отступ – 4 пробела
- длина строки < 80 символов
- переменные: var_recommended
- константы: CONST_RECOMMENDED

In [None]:
import this

## Типы

**Все типы данных** в Python относятся к одной из **2-х категорий**: **изменяемые (mutable)** и **неизменяемые (unmutable)**.   

*Неизменяемые объекты*:  
* числовые данные (int, float), 
* bool,
* None,
* символьные строки (class 'str'), 
* кортежи (tuple).  

*Изменяемые объекты*:  
* списки (list), 
* множества (set), 
* словари (dict).  

Вновь определяемые пользователем типы (классы) могут быть определены как неизменяемые или изменяемые. Изменяемость объектов определённого типа является принципиально важной характеристикой, определяющей, может ли объект такого типа **выступать в качестве ключа для словарей (dict)** или нет.

### int

In [None]:
x = 5

print(x, '|', type(x))

In [None]:
a = 4 + 5
b = 4 * 5
c = 5 // 4

print(a, b, c)

In [None]:
print( -(5 // 4) )

In [None]:
print( -5 // 4 )

In [None]:
x = 5 * 1000000000 * 1000000000 * 10**9 + 1
print(x, '|', type(x))

### float

In [None]:
y = 12.345

print(y, type(y))

In [None]:
a = 4.2 + 5.1
b = 4.2 * 5.1
c = 5.0 / 4.0

print(a, b, c)

In [None]:
a = 5
b = 4
print(float(a) / float(b))

In [None]:
print(a / b)

### bool

In [None]:
a = True
b = False

print(a, '|', type(a))

print(b, '|', type(b))

In [None]:
print(a + b)
print(a + a)
print(b + b)

In [None]:
print(int(a), int(b))

In [None]:
print(True and False, '\n')

print(True or True, '\n')

print(not False, '\n')

### None

In [None]:
z = None
print(z, '|', type(z))

In [None]:
int(z)

In [None]:
if z is None:
    z = 'I am None!'
z

### str

В *python2.7* есть отдельный тип **unicode**. В *python3.5 (и выше)* (который будем использовать мы) всё это включено в тип **str**.

In [None]:
x = "abc"
y = 'xyz'
print(x, '|', type(x))
print(y, '|', type(y))

In [None]:
a = 'Андрей'
b = "Михайлович"
s = a + " " + b
print(s)

In [None]:
print(a.upper())
print(a.lower())

In [None]:
print(len(a))

In [None]:
print(bool(a))
print(bool("" + ''))

In [None]:
print(a)
print(a[0])
print(a[1])
print(a[0:3])

In [None]:
print(a[0:4:2])

In [None]:
x = 'Роберт Дауни Младший'
print(x, type(x))
y = x.encode('utf-8')
print(y, type(y))
z = y.decode('utf-8')
print(z, type(z))
q = y.decode('cp1251')
print(q, type(q))

### Метод `split()`:

In [None]:
splitted_line = "Райгородский Андрей Михайлович".split(' ')
print(splitted_line)

### tuple

In [None]:
t = ('a', 5, 12.345)
t

In [None]:
t.append(5)

In [None]:
dir(t)

In [None]:
t.index('a')

In [None]:
t[2]

In [None]:
m = (1, 2, 3)

t + m

In [None]:
t - m

In [None]:
len(m)

#### Поменять переменные местами

In [None]:
a = -5
b = 100

a, b = b, a

print('a:', a, '\nb:', b)

### Немного про встроенные функции

В Python есть так называем **магические** (или служебные) методы - они начинаются и заканчиваются на двойное нижнее подчёркивание: \__len\__, \__add\__ ...

In [None]:
__builtin__

Также в Python есть **встроенные** функции и методы, которые являются в некотором смысле универсальными.  
Функция `dir()` выводит список всех атрибутов (имён - методы, функции, классы..), которые есть у модуля/класса/объекта:

Давайте посмотрим на встроенные и служебные имена Python (не все):

In [None]:
dir(__builtin__)

---
### Задание 1

Выведите список атрибутов класса Exception.

In [None]:
# Ваш код здесь

---

### Полезно

- При вызове метода какого-то класса (или функции какого-то модуля) можно написать его имя и через точку нажать **tab**:  

<имя\_объекта\_класса(модуля)>**.[tab]**  

Тогда всплывёт меню, в котором можно выбрать из всех существующих в этом классе методов (функций модуля).

In [None]:
__builtin__.

- Получение быстрой справки (help()) для любого объекта Python:

In [None]:
?__builtin__

### Структуры данных и встроенные функции

### list

In [None]:
a = list()
b = []

print(a == b)

In [None]:
my_list = ['string', 100, 5.678, None]
my_list

* `list(range(start, end[, step]))` - получить последовательность (список) целых чисел, начинающуюся со `start`, заканчивающуюся в `end-1` и шагом `step`

In [1]:
array = range(1, 10, 2)
print(array, '|', type(array))

range(1, 10, 2) | <class 'range'>


In [2]:
array = list(array)
print(array, '|', type(array))

[1, 3, 5, 7, 9] | <class 'list'>


In [3]:
array[1]

3

In [4]:
array[-1]

9

In [5]:
for i in range(5):
    print(i)

0
1
2
3
4


* Перевернуть список:

In [6]:
array = array[::-1]
array

[9, 7, 5, 3, 1]

* Срезы (`slice`'s) - это объекты языка Python, позволяющие получить какую-то часть итерируемого объекта.  
Пример:

In [None]:
foo = list(range(10))
foo

In [None]:
foo[:5]

In [None]:
foo[5:]

In [None]:
foo[2:5]

In [None]:
slice_2_5 = slice(2, 5)
print(slice_2_5, '|', type(slice_2_5))

In [None]:
foo[slice_2_5]

* `S.join(iterable)` - возвращает строку, которая является конкатенацией строк из `iterable`. Разделитель между строками - строка `S`

In [None]:
str_array = ['a', 'b', 'c', 'd', 'e']

In [None]:
' '.join(str_array)

In [None]:
'!_and_!'.join(str_array)

* Списки можно "склеивать":

In [None]:
a = [1, 2, 3]
b = [4, 5, 6]

print(a + b)

### Методы класса list

In [None]:
dir(list)

* `L.append(element)` - добавляет элемент `element` в список `L`

In [None]:
l = [4, 5, 1, 3, 2]

l.append('BANG!')
l

* `sorted(iterable, key)` - возвращает объект, являющийся отсортированной в соответствии с компаратором (по ключу) `key` версией объекта `iterable`. **НЕ изменяет начальный объект!**

In [None]:
print(sorted(l), '|', l)

In [None]:
l.pop()

In [None]:
print(sorted(l), '|', l)

In [None]:
def cmp(string):
    return len(string)

In [None]:
names = ['Александр', 'Василий', 'Анастасия', 'Соня', 'Френк', 'Оля']
sorted(names, key=cmp)

In [None]:
names = ['Александр', 'Василий', 'Анастасия', 'Соня', 'Френк', 'Оля']
sorted(names, key=lambda x: len(x))

In [None]:
names

* `L.sort(key)` - сортирует лист L в соответствии с компаратором (по ключу) key. **Изменяет начальный объект!**

In [None]:
l = [1, 2, 3, 4, 5]

l.append('BANG!')
l

l.sort()

In [None]:
l.pop()

In [None]:
l

In [None]:
l.sort(reverse=True)
l

* `L.count(element)` - возвращает количество вхождений элемента `element` в список `L`

In [None]:
l.count(1)

In [None]:
l.count('padabum')

In [None]:
len(l)

`L.index(element)` - возвращает индекс элемента `element` в списке `L`, если он там присутствует, `None` иначе

In [None]:
l.index(3)

---

### Задание 2


1. Создайте два списка одинаковых размеров из одинаковых элементов:  
`items = [какие-то элементы]`  
`shuffled_items = [эти же элементы, но расставленные в другом порядке]`  

2. Отсортируйте список `items` в соответствие с ключом так, чтобы получился список `shuffled_items`

In [None]:
# Ваш код здесь

---

### Циклы - for и while

In [None]:
models = ['decision tree', 'linear model', 'svm', 'ensemble']

for model in models:
    print(model)

In [None]:
x = 100

while x > 50:
    x -= 10
    print(x)

### enumerate, zip

In [7]:
first = 'a b c d e f g'.split(' ')
second = '1 2 3 4 5 6 7'.split(' ')

zip(first, second)

<zip at 0x1114b9588>

In [8]:
list(zip(first, second))

[('a', '1'),
 ('b', '2'),
 ('c', '3'),
 ('d', '4'),
 ('e', '5'),
 ('f', '6'),
 ('g', '7')]

In [9]:
methods = dir(__builtin__)

for num, method in enumerate(methods):
    if num % 5 == 0:
        print(num, method)

0 ArithmeticError
5 BrokenPipeError
10 ConnectionError
15 Ellipsis
20 FileNotFoundError
25 ImportError
30 IsADirectoryError
35 ModuleNotFoundError
40 NotImplementedError
45 ProcessLookupError
55 SystemError
60 TypeError
65 UnicodeTranslateError
70 ZeroDivisionError
75 __import__
80 abs
85 bool
90 classmethod
95 delattr
100 enumerate
105 format
110 hasattr
115 input
120 len
125 max
130 oct
135 property
140 set
145 str
150 vars


In [10]:
enum = enumerate(first)
list(enum)

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd'), (4, 'e'), (5, 'f'), (6, 'g')]

In [11]:
enum = enumerate(first)
zip_style = zip(range(0, len(first)), first)

print(list(enum) == list(zip_style))

True


---

### Задание 3

1. Создайте список `a`, состоящий из каких-то элементов.
2. Создайте список `b` такого же размера, как `a`, состоящий из каких-то элементов.
3. Выведите нумерованный список пар из элементов списков `a` и `b`.

In [None]:
# Ваш код здесь

---

### list comprehensions

In [None]:
a = [x for x in range(1, 6)]
a

In [None]:
def f(x):
    return x ** 2

In [None]:
b = [f(x) for x in range(1, 10)]
c = [x ** 2 for x in range(1, 10)]
print(b, '==', c)

In [None]:
[x if x in 'aeiou' else '*' for x in 'apple']

In [None]:
def foo(i):
    return i, i + 1

l = []
for i in range(3):
    for x in foo(i):
        l.append(str(x))
        
l

In [None]:
l = [str(x) for i in range(3) for x in foo(i)]
l

---

### Задание 4

*Выведите* список из 100 чисел *через запятую*. **Циклами пользоваться нельзя.**

In [None]:
# Ваш код здесь

---

### functions, lambdas

<img align=center src="http://stopnonsense.com/wp-content/uploads/Running-is-running.jpg" style="height:300px;"/>

In [12]:
def make_coffee(size, sugar_dose=3, **kwargs):
    if sugar_dose > 5:
        return 'Too much sugar! Be careful! :('
    else:
        return 'Done: cup of {0} ml size; amount of sugar = {1}'.format(size, sugar_dose)

In [13]:
make_coffee(100)

'Done: cup of 100 ml size; amount of sugar = 3'

In [14]:
make_coffee(200, 1)

'Done: cup of 200 ml size; amount of sugar = 1'

In [None]:
make_coffee(100, 6)

In [None]:
make_coffee(120, 5, name='Ilya', gender='male')  # kwargs

In [None]:
negation = lambda x: -x
a = 5
print(negation(a))

### map, reduce, filter

* `map(func, iterables)` - выполняет преобразование func над элементами iterables и возвращает **новый** `iterable`:

In [None]:
words = dir(list)

In [None]:
letter_counts = list(map(lambda x: len(x), words))

print(letter_counts)
print()
print(words)

In [None]:
l1 = [1,2,3,4]
l2 = [11, 12, 13, 14, 15]
l3 = [101, 102, 103]

triple_sum = list(map(lambda x, y, z: x + y + z, l1, l2, l3))
print(triple_sum)

* `reduce(func, iterables)` - производит вычисление с элементами последовательности, результатом которого является **одно значение**:

In [None]:
from functools import reduce

In [None]:
sum_of_counts = reduce(lambda x, y: x + y, letter_counts)
print(sum_of_counts)

* `filter(predicate, iterable)` - оставляет только те элементы, для которых **верен** предикат (функция, возвращающая bool):

In [None]:
mixed = ['мак', 'просо', 'мак', 'мак', 'просо', 'мак', 'просо', 'просо', 'просо', 'мак']
only_mac = list(filter(lambda x: x == 'мак', mixed))
print(only_mac)

---

### Задание 5

1. Дан массив строк: `['agfkd.,f', 'Qksdf;sb&..', 'asdoo*', 'bgf...d', 're54()kj[]].'] `
2. Создайте список, состоящий из количества точек в каждой строке. Выведите его
3. Создайте новый список, в котором будут только строки, в которых более 2-х точек. Выведите его  

Циклами пользоваться нельзя.

In [None]:
# Ваш код здесь

---

### set

In [None]:
s = set()
s

In [None]:
dir(s)

In [None]:
s.add(1)
s.add('a')
s.add(None)
s.add('bullet')
print(s)

In [None]:
s1 = set(range(0, 10))
s2 = set(range(5, 15))

In [None]:
print(s1.difference(s2))
print()
print(s2.difference(s1))

In [None]:
s1.intersection(s2)

In [None]:
s1.union(s2)

In [None]:
print('s1: ', s1, '\ns2: ', s2)

### dict

In [None]:
d = {}
dd = dict()

print(d == dd, '|', type(d))

In [None]:
dir(dict)

In [None]:
d['a'] = 100
d

In [None]:
d = dict(short='dict', long='dictionary')
d

In [None]:
d = dict([(1, 1), (2, 4)])
d

In [None]:
d = dict.fromkeys(['a', 'b'])
d

In [None]:
d = dict.fromkeys(['a', 'b'], 100)
d

**dict comprehensions**

In [None]:
d = {a: a ** 2 for a in range(7)}
d

### !

Будьте осторожны, если ключа, по которому поступил запрос, нет в словаре, то выбросит исключение:

In [None]:
d = {1: 100, 2: 200, 3: 300}
d['a']

Поэтому безопаснее использовать **get(key)**. Тогда, если нужно, можно проверить на **None**:

In [None]:
d.get(1)

In [None]:
d.get('a') == None

Самое часто используемое - получение ключей, получение значений и получение всего вместе:

In [None]:
print(d.keys(), '|', type(d.keys()))


print(list(d.keys()))

In [None]:
print(d.values(), '|', type(d.values()))


print(list(d.values()))

In [None]:
print(d.items(), '|', type(d.items()))


print(list(d.items()))

### modules

**Модули** - это "библиотеки" Python. То есть это самостоятельные, объединённые технически и логически, именованные части Python кода

* О модулях необходимо знать только одно - как их импортировать:

In [None]:
import collections

* Импортировать только какой-то компонент из модуля:

In [None]:
from collections import Counter

* Импортировать с другим именем (чаще всего используется для локаничности кода):

In [None]:
import collections as cool_lib

In [None]:
count = cool_lib.Counter()

Жизненный пример:

In [None]:
import numpy as np

### files

In [None]:
path = './20_newsgroups/sci.space/62478'

In [None]:
file = open(path, mode='r')
print([line for line in file][0])
file.close()

| Режим | Обозначение |
|-------|-------------|
| **'r'**  | Открытие на **чтение** (является значением по умолчанию) |
| **'rb'** | Открытие на **чтение**, в предположении, что будут считываться **байты** |
| **'w'** | Открытие на **запись**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'wb**' | Открытие на **запись байтов**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'a'** | Открытие на **дозапись**, информация добавляется **в конец файла** |
| **'r+'** | Открыть файл на **чтение И запись**. Если файла нет, **новый НЕ создаётся** |
| **'a+'** | Открыть файл на **чтение И запись в конец файла**. Если файла нет, **новый создаётся** |
| **'t'** | Открытие файла **как текстового** (по умолчанию) |

In [None]:
with open(path, mode='r') as test_file:
    for line in test_file:
        print(line)

### classes

In [None]:
class Human:
    def __init__(self, name='', age=None, deep_learning_specialist=False):
        self.name = name
        self.age = age
        self.deep_learning_specialist = deep_learning_specialist
    
    def set_age(self, age):
        self.age = age
    
    def get_age(self):
        return self.age
    
    def __str__(self):
        return 'Name: {}\nAge: {} \
                \nIs deep learning specialist: {}'.format(self.name, self.age, 
                                                          self.deep_learning_specialist)

class DLSchoolStudent(Human):
    def __init__(self, name='', age=None, deep_learning_specialist=False):
        super().__init__(name, age, deep_learning_specialist)
        self.total_grade = None
        self.deep_learning_specialist = True
    
    def __str__(self):
        return super().__str__()

In [None]:
human = Human('Person', 17)
print(human)

In [None]:
student = DLSchoolStudent('Good Person', 18)
print(student)

### exceptions

In [None]:
dir(__builtin__)

In [None]:
raise KeyboardInterrupt()

In [None]:
my_dict = {1: 100, 2: 200}
print(my_dict['NEW'])

In [None]:
try:
    my_dict = {1: 100, 2: 200}
    print(my_dict['NEW'])
except KeyError:
    print('Caught KeyError!')

### Полезные библиотеки Python

### glob

In [None]:
import glob

In [None]:
!dir

In [None]:
glob.glob('./[0-9].*')

In [None]:
glob.glob('*.png')

In [None]:
glob.glob('?.jpg')

In [None]:
glob.glob('./**/', recursive=True)

In [None]:
glob.glob('**/*.txt', recursive=True)

### tqdm

* Устанавливаем виджеты:

`pip install ipywidgets`  

(или `conda install -c conda-forge ipywidgets`)

* Разрешаем их использование в Jupyter Notebook:  

`jupyter nbextension enable --py --sys-prefix widgetsnbextension`  

* Перезагружаем ядро (Restart Kernel)  


* Устанавливаем tqdm:  

`pip install tqdm`  

(или `conda install -c conda-forge tqdm`)  

Больше про tqdm: https://pypi.python.org/pypi/tqdm

In [None]:
from tqdm import tqdm
from tqdm import tnrange, tqdm_notebook
from time import sleep

In [None]:
cnt = 0
for i in tqdm(range(1000)):
    sleep(0.01)
    cnt += 1

In [None]:
for i in tnrange(10, desc='1st loop'):
    for j in tqdm_notebook(range(100), desc='2nd loop', leave=False):
        sleep(0.01)

### collections

* `defaultdict()` - класс словаря, у которого есть значение по умолчанию - порой очень пригождается:

In [None]:
from collections import defaultdict

In [None]:
d = defaultdict(int)

print(d['key'])

d['key'] = 5
print(d['key'])  # 5

In [None]:
d = defaultdict(lambda: 'empty')
print(d['key'])

d['key'] = 'full'
print(d['key'])

In [None]:
d = defaultdict(list)
print(d)

d['list1'].append(100)
d['list1'].append(200)
print(d)
print(d['list1'])

* `Counter()` - класс словаря, предназначенного для счётчиков. По сути, `== defaultdict(int)`:

In [None]:
from collections import Counter

In [None]:
counter = Counter()

for word in dir(__builtin__):
    for letter in word:
        counter[letter] += 1  # или .update(value)
    
print(counter)

---

### Задание 6

1. Создайте словарь счётчиков
2. Создайте переменную, в которую сохраните все пути к нужным текстовым файлам *(расположены по адресу `'./20_newsgroups/sci.space/'`)*
3. Для каждого текста (текстового файла) посчитайте сколько каждое слово (из этого текста) встретилось в этом тексте (используйте предыдущие пункты)

In [None]:
# Ваш код здесь

---

То, что Вы реализовали выше, есть ни что иное, как простая реализация **bag-of-words (мешок слов)** для корпуса из 9 документов.

## Список материалов для самостоятельного изучения

* *Сайт языка Python* - https://www.python.org/

* *Курс Python с нуля, можно выполнять задания в интерактивном режиме* - http://pythontutor.ru/

* *Новый онлайн-курс по Питону на Coursera от Mail.Ru Group* - https://www.coursera.org/learn/programming-in-python

* *Самоучитель Python* - https://pythonworld.ru/samouchitel-python

* *Статья про коварности Python* - https://habrahabr.ru/company/mailru/blog/337364/

* *Очень полезные трюки в Jupyter Notebook*: https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/