<center>

# Курс "Основы Python для анализа данных"

## Артамонов Игорь Михайлович
## Факультет "Прикладная математика" МАИ

### Занятие № 2.  Основные типы данных. Обработка исключений.

</center>


## Общение / вопросы по курсу

Платформа для групповой работы Atlassian Confluence факультета "Прикладная математика"

https://mai.moscow/display/PYTML

* <b>Занятие 2. Основные типы данных. Обработка исключений.</b>
     * Последовательности: строка, список, кортеж, множество
     * Словарь
     * Стеки, очередь, дерево
     * Случайные величины
     * Исключения и их обработка

## virtualenv + Jupyter notebook

```
<Ctrl> + <Alt> + T - новое окно терминала
```

```
$ conda -V

$ conda update conda

$ conda search "^python$"

$ conda create -n yourenvname python=x.x anaconda

$ source activate yourenvname

$ jupyter notebook

$ conda install -n yourenvname [package]
```

# ВАЖНО!

* курс построен как "__слойка__"
* плохое освоение модуля __сильно__ затрудняет освоение следующего модуля
* возвратов и повторов __мало__ ...

# Общее

* Python имеет много __встроенных__ сложных структур данных
* Наиболее часто используемыми являются:
   - строка
   - список
   - кортеж
   - словарь
   - множество
* В большинстве случаев, код для встроенных структур написан на языке низкого уровня и хорошо оптимизирован
* __ВЫВОД № 1__: если Вам требуется какая-то структура, то:
   - поищите уже реализованную структуру (стек, очередь, ...)
   - сводите её к одной из типовых
   - старайтесь максимально использовать встроенные функции типовых структур
* __ВЫВОД № 2__:
   - имеет смысл __полностью__ просматривать руководство по нужному классу

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy as sc
%matplotlib inline

## Основные сложные структуры данных

* связанные списки (linked list) - односторонние и двусторонние
* стек (stack)
* очередь (queue)
* хэш-таблица (hash table)
* двоичное дерево (binary tree)

# Рекурсия

Рекурсия - обращение функции __к самой себе__

In [4]:
def factorial(n):
    if n == 1:
        return 1
    else:
        return n * factorial(n-1)

In [5]:
factorial(10)

3628800

### Сохранение значения

In [6]:
def sum_accum(current, accum, n):
    # Финальное состояние
    if current == n:
        return accum

    # Рекурсия
    else:
        return sum_accum(current + 1, accum + current, n)

In [7]:
sum_accum(0, 0, 5)

10

### Когда рекурсия полезна?

* большая читаемость кода
* работа с неизменяемыми значениями
* работа с "естественно" рекурсивными структурами (деревья, графы)

### Ограничения

* рекурсия менее эффективная, чем итрации
* ограничена глубина стека

In [8]:
import sys
sys.getrecursionlimit()

3000

### <font color=red>Задание</font>

Вычислите рекурсивно __$e^x$__ по $n$ первым элементам ряда:

$$e(x) = \sum_{i=0}^{n} \frac{x^n}{n!}$$

In [9]:
import math

def my_exp(x, n):
    # Ваш код



SyntaxError: unexpected EOF while parsing (<ipython-input-9-4f9a7af81563>, line 5)

In [None]:
print("{:.8f}".format(my_exp(1, 50)))

## Строка

* могут ограничиваться либо одинарными __'< str >'__ , либо двойными __"< str >"__, либо тройными двойными ___"""< multiline str >"""___ кавычками
* в целом, аналогична списку из символов
* может быть преобразована в список командой __list()__
* существуют команды, типичные для обработки строк в других языках

In [10]:
s = 'Ехал Грека через реку, видит грека - в реке рак'

In [11]:
s = 'Ехал Грека через реку, видит грека - в реке рак'

In [12]:
list(s)

['Е',
 'х',
 'а',
 'л',
 ' ',
 'Г',
 'р',
 'е',
 'к',
 'а',
 ' ',
 'ч',
 'е',
 'р',
 'е',
 'з',
 ' ',
 'р',
 'е',
 'к',
 'у',
 ',',
 ' ',
 'в',
 'и',
 'д',
 'и',
 'т',
 ' ',
 'г',
 'р',
 'е',
 'к',
 'а',
 ' ',
 '-',
 ' ',
 'в',
 ' ',
 'р',
 'е',
 'к',
 'е',
 ' ',
 'р',
 'а',
 'к']

In [None]:
s = 'Ехал Грека через реку, видит грека - в реке рак'

In [None]:
'abc' == "abc"

In [None]:
'abc' > "rbc"

In [None]:
long_str = """
this is
a very
long 
string
"""

In [None]:
long_str, len(long_str)

In [None]:
s = 'Ехал Грека через реку, видит грека - в реке рак'

In [13]:
s.startswith( 'река' ), s.startswith( 'Ехал' )

(False, True)

In [None]:
print(s.startswith( 'река', 6))

In [None]:
print(s.startswith( 'река', 6, 9))

In [None]:
print(s.endswith( 'рак'))

In [14]:
s.count('рек')

4

In [None]:
s.find('через')

In [None]:
s_enc = s.encode('cp1252', errors='ignore')
s_enc

In [15]:
s = "ascii"

In [16]:
s.join(','), s.join(',,,,,')

(',', ',ascii,ascii,ascii,ascii,')

In [17]:
long_str.split('\n')

NameError: name 'long_str' is not defined

In [18]:
ttt = ""
ttt

''

In [19]:
ttt = ttt + 'yyy'
ttt

'yyy'

### Специальные символы

* \n - перевод строки
* \r - возврат каретки
* \t - табуляция
* \xNN - символ в 16-ричной нотации
* \ - символ экранирования (\\n)

In [None]:
print('a' + '\n' + 'b')

In [None]:
print('a' + '\r' + 'b')

In [None]:
print('a' + '\t' + 'b')

In [None]:
print('a' + '\\n' + 'b')

### Индексирование строк и списков

* индекс размещается в квадратных скобках __\[ \]__
* начинается с 0
* отрицательный индекс __n__ означает __len(s) - n__ => -1 __исключает__ последний символ
* можно указывать диапазон через двоеточие __:__
* отсутствующий индекс перед двоеточиием означает __"с начала"__, после - __"до последнего символа включительно"__
* можно добавить второе двоеточие, которое означает __"шаг"__

In [27]:
s = 'Большая длинная тестовая строка'

In [28]:
s[1:3]

'ол'

In [21]:
len(s)

31

In [22]:
s[31]

IndexError: string index out of range

In [23]:
s[16:-1], s[16:len(s)], s[-1]

('тестовая строк', 'тестовая строка', 'а')

In [24]:
s = '0123456789'
s[0:-1:2]

'02468'

### <font color=red>Задание</font>

* пользуясь __только__ индексом, выведите строку в обратном порядке

## Операции над строками

In [None]:
s = 'abc' + ' - ' + 'cde'
s

In [None]:
s = (s + '? ') * 3
s

In [None]:
to_find = 'abc'
if to_find in s:
    s1 = 'Нашли <' + to_find + '> в строке <' + s + '>'
    print(s1)

### Преобразование регистра

In [None]:
s1.upper(), s1.lower()

In [None]:
s1.find('abc')

In [None]:
s1.find('abs')

In [None]:
s1.count('abc'), s1[8:].count('abc')

In [29]:
s = '  qwerty  '
s_left = '<' + s.lstrip() + '>'
s_right = '<' + s.rstrip() + '>'
s_both = '<' + s.strip() + '>'
print(s_left, s_right, s_both)

<qwerty  > <  qwerty> <qwerty>


In [None]:
s1.replace('abc', 'ABC')

In [None]:
s1

In [None]:
s1.split('?')

### Форматирование

* __% форматирование__
    * %d - целые
    * %s - строки
    * %f - с плавающей точкой

In [None]:
print('Это строка <%s>, это целое число <%05d>, а это число с плавающей точкой <%03d>' % ('ABC', 234, 3.1415926))

In [None]:
print(s_fmt1)

* Форматирование классом __formatter__

In [None]:
fmt = 'Это строка <{0:s}>, это целое число <{1:05d}>, это число с плавающей точкой <{2:3.4f}>, а это снова строка {0}'
print(fmt.format('ABC', 234, 3.1415926) )

In [None]:
fmt = 'Это строка <{}>, это целое число <{}>, это число с плавающей точкой <{}>'
print(fmt.format('ABC', 234, 3.1415926) )

In [None]:
fmt = 'Это строка <{}>, это целое число <{}>, это число с плавающей точкой <{}>, а это снова строка {0}'
print(fmt.format('ABC', 234, 3.1415926) )

In [None]:
a = 123
b = 'I\'m a strting'
c = 3.1415926


In [None]:
s = f"{a} {b} {c}"
print(s)

In [None]:
s = f"{a:05d} {b} {c:.2f}"
print(s)

### Для самостоятельного изучения:


* регулярные выражения (regular expressions)

In [None]:
import re

# Список

In [None]:
# Пустой список
l = []

# Список целых чисел
l = [1, 2, 3]

# список со различными типами данных
l = ['abc', 'cde', 3.14159, 2.71828, 1]

### <font color=red>Задание:</font>
* выведите для каждого элемента списка:
        - порядковый номер (начиная с нуля)
        - значения
        - тип значения

In [None]:
# Ваш код здесь

i = 0
for e in l:
    print(i, e, type(e))

__list__ - __ключевое__ слово, которое  (формально) может использоваться, как имя переменной.<br>
Однако, это __сильно__ не рекомендуется делать, так как это приводит к побочным эффектам

In [None]:
l = list( np.array([1,2,3,4]))
l

In [None]:
list = [1,2,3,4]

In [None]:
list

In [None]:
l = list( np.array([1,2,3,4]))
l

In [31]:
r = range(10)
s = str(r)
l = list(r)

In [32]:
r, s, l

(range(0, 10), 'range(0, 10)', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
s = str(l)
s

'[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]'

* Сравнение списков аналогично сравнению строк и выполняется поэлементно (у строк - посимвольно)

In [None]:
[1, 2, 3] < [1, 3, 4], 'abc' > 'cba'

## Индексация списка

Совпадает с индексацией строк:
* индекс размещается в квадратных скобках __\[ \]__
* начинается с 0
* отрицательный индекс __n__ означает __len(s) - n__ => -1 __исключает__ последний символ
* можно указывать диапазон через двоеточие __:__
* отсутствующий индекс перед двоеточиием означает __"с начала"__, после - __"до последнего символа включительно"__
* можно добавить второе двоеточие, которое означает __"шаг"__

### Изменение и добавление элементов

In [34]:
l1 = list( i*2 for i in 'abcdefghijk')
l1

['aa', 'bb', 'cc', 'dd', 'ee', 'ff', 'gg', 'hh', 'ii', 'jj', 'kk']

In [35]:
l2 = list( i for i in range(10))

In [36]:
l1 + l2[2:4] + l2[3:7]

['aa',
 'bb',
 'cc',
 'dd',
 'ee',
 'ff',
 'gg',
 'hh',
 'ii',
 'jj',
 'kk',
 2,
 3,
 3,
 4,
 5,
 6]

In [37]:
l = l1
l.append(l2[2:4])
l

['aa', 'bb', 'cc', 'dd', 'ee', 'ff', 'gg', 'hh', 'ii', 'jj', 'kk', [2, 3]]

In [None]:
l = l1
l.extend(l2[2:4])
l

In [None]:
l1

### <font color=blue>Нужно запомнить</font>

Списки - <b>изменяемый</b> тип данных

### Удаление элементов

In [None]:
l.clear()
l.extend([1,2,3,4,5])
l

In [None]:
l.insert(5, 6)
l

In [None]:
l.sort(reverse=True)
l3 = l.copy()

In [None]:
l.remove(2)
l

In [None]:
l.pop()
l

### <font color=red>Опишите, что делает этот код</font>

In [None]:
txt = 'а роза упала на лапу азора'
words = txt.split()

l = list()
for word in words:
    l.append((len(word), word))
print(l)

l.sort(reverse=True)
print(l)

res = list()
for length, word in l:
    res.append(word)

print(res)

### Методы списков

```python
append() Добавляет элемент в конец списка
extend() Добавляет все элементы списка к другому списку
insert() Вставляет элемент на место, указнное индексом
remove() Удаляет элемент из списка
pop() Удаляет элемент из списка и возвращает его, как параметр
clear() Очищает список (удаляет все элементы)
index() Возвращает индекс первого встречающегося элемента
count() Возвращает количество вхождений данного элемента в списке
sort() Сортирует элементы списка в возрастающем порядке
reverse() Изменяет порядок элементов в списке на обратный
copy() Копирует список
```

```python
all() Возвращает True если все элементы списка верны или если список пустой
any() Возвращает True если хотя бы один элементы списка верены. если списко пустой, возвращает False
enumerate() Возвращает объект enumerate, содержащий индекс и значение всех элементов списка в виде кортежей
len() Возвращает длину (количество элементов в) списке
list() Преобразует любой итерируемый объект (iterable) в список (кортеж, строку, множество, словарь)
max() Возвращает максимальный элемент в списке
min() Возвращает минимальный элемент в списке
sorted() Возвращает новый отсортированный список (не сортирует сам список!)
sum() Возвращает сумму элементов в списке
```

### <font color=red>Задание</font>

* Постройте частотную характеристику по словам в тексте Гамлета с использованием списков
    * Используйте split для разбивки по пробелам
    * удалите возвраты строк и символы, отличающиеся от букв
    * выведите 10 наиболее часто встречающихся слов
    * используйте zip для слияния списков в один
* Посчитайте, сколько вообще слов в Гамлете

#### <font color=blue>Порядок решения:</font><br>
    ???

In [None]:
import urllib

hamlet_url = "http://erdani.com/tdpl/hamlet.txt"
f = urllib.request.urlopen(hamlet_url)
hamlet_text = f.read().decode('utf-8')

In [None]:
# Ваш код здесь


### Генераторы списков (list comprehensions)

In [None]:
l = [i**2 for i in range(10)]
l

In [None]:
l_even = [i*j for i in range(10) for  j in range(6) if i*j % 2 == 0]
l_even

In [None]:
list1 = ['1', '2', '3', '4', '5']
str1 = ' '.join(list1)
str1

In [None]:
list2 = list(range(6))
str2 = ''.join(list2)

### <font color=red>Задания:</font>

С помощью генераторов списка:
* Исправьте предыдущий пример, чтобы получить строку
* просуммируйте числа от 1 до 100

# Кортеж

Кортеж (tuple) отличается от списка тем, что он __неизменяемый__ (immutable)

In [None]:
t = 'a', 'b', 'c', 'd', 'e'
t

In [None]:
t = ('a', 'b', 'c', 'd', 'e')
t

In [38]:
t = tuple('Some string')
t

('S', 'o', 'm', 'e', ' ', 's', 't', 'r', 'i', 'n', 'g')

In [None]:
url = 'www.mai.ru'
a,b,c = url.split('.')

In [None]:
a, b, c

In [None]:
a, b = b, a

In [None]:
url_parts = url.split('.')
url_parts, type(url_parts)

In [39]:
d = {i:c for i, c in enumerate('abcdefg')}
d

{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g'}

In [40]:
items = d.items()
items

dict_items([(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd'), (4, 'e'), (5, 'f'), (6, 'g')])

In [41]:
sorted(items)

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd'), (4, 'e'), (5, 'f'), (6, 'g')]

### <font color=green>Полезно запомнить</font>

In [None]:
[1, 2, 3] < (1, 3, 4)

In [None]:
tuple([1, 2, 3]) > (1, 3, 4), [1, 2, 3] > list((1, 3, 4))

In [None]:
gen = (i for i in 'Как-то вот так генерируем')

In [None]:
gen, type( list( gen))

# Словарь

In [53]:
ttt = dict(T='1', H='3')
ttt

{'T': '1', 'H': '3'}

In [54]:
d = {1:'a', 2:'b', 3:'c', 4:'d', 5:'e'}
d

{1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}

In [55]:
d[1]='oops'
d

{1: 'oops', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}

In [56]:
d.keys(), d.values(), d.items()

(dict_keys([1, 2, 3, 4, 5]),
 dict_values(['oops', 'b', 'c', 'd', 'e']),
 dict_items([(1, 'oops'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e')]))

In [57]:
sum( list( d.values()))

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [58]:
list(d.items())

[(1, 'oops'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e')]

In [None]:
for i in d:
    print( i, d[i])


In [59]:
for i, k in enumerate(d):
    print( i, k, d[k])

0 1 oops
1 2 b
2 3 c
3 4 d
4 5 e


In [None]:
for i, k in enumerate( range(10)):
    print(i, k)

In [None]:
d.pop(2)

In [None]:
d[8] = 'oops!'
d

In [None]:
del d[3]
d

hashable!!!

### Генераторы словарей (dictionary comprehensions)

In [None]:
d = {i:i**2 for i in range(11)}
d

In [None]:
d = (i for i in range(11))
d

In [None]:
list(d)

In [None]:
# в чем ошибка?
d = [i:i**2 for i in range(11)]
d

### <font color=red>Задание</font>

* Перепишите код с частотной характеристикой слов в тексте Гамлета с использованием словаря

## Списки и словари в аргументах функции

#### Скорректируйте функции так, чтобы они выдавали аргумент функции и его тип

In [None]:
def login(* usernamepassword):
    # Get username in the list.
    username = usernamepassword[0]
    # Get password in the list.
    password = usernamepassword[1]

    if(username=='hello') and (password == 'hello'):
        print("Login Success!")
    else:
        print("Login Failed!")

login('hello','hello')

In [None]:
def loginWithDictArguments(**upDict):
    # Get all keys in the dictionary.
    keys = upDict.keys();

    username='';
    password='';
    email='';

    # Loop in the dict keys.
    for key in keys:
        if(key=='username'):
            username=upDict[key]
        
        if(key=='password'):
            password=upDict[key]

        if(key=='email'):
            email=upDict[key]

    if(username=='hello') and (password=='hello'):
        print('Login Success. Your email is ' + email)
    else:
        print('Login fail. Your email is ' + email)     

loginWithDictArguments(username='hello', password='hello', email='vasya@pupkin.ru') 

## Множество

In [60]:
a = set((0,1,2,3,4,5,6,7,8,9,3,4,5,6,7,8,0))
b = set(['a', 'b', 'c', 'd', 1, 2, 3, 4])

In [61]:
a,b

({0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, {1, 2, 3, 4, 'a', 'b', 'c', 'd'})

In [None]:
print('1=', a.intersection(b), '\n2=', b.intersection(a))

In [None]:
print('1=', a.difference(b), '\n2=', b.difference(a))

In [None]:
print('1=', a.symmetric_difference(b), '\n2=', b.symmetric_difference(a))

In [None]:
print(a.union(b))

### <font color=red>Задание</font>

* Найдите количество уникальных слов в Гамлете с помощью множества

### Стек

In [None]:
stack = [1, 2, 3, 4, 5]

In [None]:
stack.append(6)

In [None]:
stack.append(7)

In [None]:
stack

In [None]:
stack.pop()

In [None]:
stack.pop()

In [None]:
stack

# Collections

In [None]:
import collections

### Очередь

In [None]:
queue = collections.deque()

In [None]:
from collections import deque, ChainMap, OrderedDict, Counter

In [None]:
queue = deque()

```python
    append(x) - добавить элемент справа
    appendleft(x) - добавить элемент слева
    extend(iterable) - расширить списком справа
    extendleft(iterable) - расширить списком слева
    pop() - извлечь элемент справа
    popleft() - извлечь элемент слева
```

In [None]:
import random 

queue = deque()
for i in range(50):
    x = random.randint(0,1000)
    size = len(queue)
    if size == 0:
        queue.append(x)
    elif x < queue[0]:
        queue.appendleft(x)
    elif x >  queue[size-1]:
        queue.append(x)

In [None]:
 queue

### ChainMap

Объединяет словари без создания нового объекта "словарь". "Вохдящие" в цепочку словари используются, как ссылки

In [None]:
chain = ChainMap()

In [None]:
d1 = {'вишня': 5, 'яблоко': 1, 'персик': 8, 'груша': 2, 'тыква':7,  'баклажан':11}
d2 = {'мороженное': 27, 'яблоко': 2, 'торт': 102, 'маффин': 13, 'ром-баба':32,  'пирожок с капустой':33}

In [None]:
chain = ChainMap(d1, d2)

In [None]:
chain['вишня'], chain['торт'], chain['яблоко']

In [None]:
len(d1), len(d2), len(chain)

### Словарь с упорядочением


Сохраняет порядок, у котором вносились элементы списка

In [None]:
# обычный словарь
d = {'вишня': 5, 'яблоко': 1, 'персик': 8, 'груша': 2, 'тыква':7,  'баклажан':11}

In [None]:
# словарь, отсортированый по ключам
OrderedDict(sorted(d.items(), key=lambda t: t[0]))

In [None]:
# словарь, отсортированый позначениям
OrderedDict(sorted(d.items(), key=lambda t: t[1]))

In [None]:
# словарь, отсортированый по длине слова-ключа
OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))

### Счетчик вхождения элементов

Интерфейс аналогичен словарю

In [None]:
from collections import Counter
import urllib
import re

hamlet_url = "http://erdani.com/tdpl/hamlet.txt"
f = urllib.request.urlopen(hamlet_url)
hamlet_text = f.read().decode('utf-8')
words = re.findall(r'\w+', hamlet_text.lower())
ctr = Counter(words).most_common(10)
ctr

In [None]:
sum([k for i,k in ctr])

# Дерево

### <font color=red>Задание</font>

* Создайте список из 1000 случайных строк, состоящих из латинских букв.
* Каждая строка - случайной длиной от 3 до 8 символов.
* Реализуйте бинарное дерево для строк
* Реализуйте поиск ближайшего слова для заданного.

# Исключения и их обработка

```python
try:
    You do your operations here;
    ......................
except ExceptionI:
    If there is ExceptionI, then execute this block.
except ExceptionII:
    If there is ExceptionII, then execute this block.
    ......................
else:
    If there is no exception then execute this block. 
```

In [None]:
l = list(range(10))
l[11]

In [None]:
try:
    print(l[9])
except IndexError:
    print('Выход за границы списка!')
else:
    print('Получилось!')


In [None]:
try:
    open('very_strange_file.txt')
except:
    print('Что-то не так с файлом!')
else:
    print('Странно ... Откуда он здесь?')

In [None]:
def func( n ):
    if n < 0:
        raise ValueError("n должен быть больше 0!", n)
    pass

In [None]:
func(-2)

## Экзаменационные вопросы:

* Рекурсия
* Регулярные выражения
* Обработка и индексирование строк
* Обработка и индексирование списков
* Словари
* Множества
* Очередь
* Дерево
* Стек
* Исключения и их обработка

### К следующему занятию прочитать:


* что такое объектно ориентированное програмирование
* что такое функциональное программирование