# Структуры данных

# План занятия

1. Списки (list)
2. Словари (dict)
3. Кортежи (tuple)
4. Множества (set)
5. defaultdict
6. Counter

# Зачем?

Структуры данных - это база питона, потому что невозможно просто хранить значения переменных в виде строки или числа, нужно как-то организовать их наборы. Выбор правильной структуры данных дает больше возможностей для использования и повышает скорость работы программы, что важно для работы с большими объемами данных

# Список (list)
List по сути это **упорядоченный** список/массив произвольных элементов.  
Основные свойства:  
- списки имеют порядок (тот порядок, в котором вы записали в него элементы, он и хранит)  
- в списке можно хранить объекты произвольного типа, включая сами списки  
- элементы списка доступны через индекс, поэтому доступны операции среза, сортировки и тд. (Нумерация начинается с 0)  
- списки относятся к изменяемым типам данных.  

Далее рассмотрим каждое из этих свойств.

## Свойства списка

In [1]:
# Инициализация
list_obj = [1,2,3]
list_obj # хранится в том порядке, в котором и создавали

[1, 2, 3]

In [1]:
list_obj = [] # Список может быть пустым
print(list_obj)
[] == list()

[]


True

In [2]:
list_obj = [1,2,3,'dfsf', True, [0,0,0]]
list_obj # произвольные типы данных внутри списка

[1, 2, 3, 'dfsf', True, [0, 0, 0]]

**Срез - это копия части массива. Параметры задаются в квадратных скобках после имени списка.**

In [3]:
list_obj[:] # такая операция создает копию списка!

[1, 2, 3, 'dfsf', True, [0, 0, 0]]

In [4]:
# Индексация и срезы
list_obj = [0,1,2,3,4,5,6,7,8]
print(f'{list_obj[0] = }')
print(f'{list_obj[-1] = }')
print(f'{list_obj[:3] = }')
print(f'{list_obj[-3:] = }')
print(f'{list_obj[::-1] = }')  # элементы в обратном порядке
print(f'{list_obj[::2] = }') # элементы с шагом 2 
print(f'{list_obj[20] = }')

list_obj[0] = 0
list_obj[-1] = 8
list_obj[:3] = [0, 1, 2]
list_obj[-3:] = [6, 7, 8]
list_obj[::-1] = [8, 7, 6, 5, 4, 3, 2, 1, 0]
list_obj[::2] = [0, 2, 4, 6, 8]


IndexError: list index out of range

In [None]:
# TODO: выведете элементы в обратном порядке с шагом 2
# YOUR CODE

In [15]:
list_obj = [0,1,2,3,4,5,6,7,8]
list_obj[0] = 10
list_obj

[10, 1, 2, 3, 4, 5, 6, 7, 8]

<div class="alert alert-block alert-info">
<b>Tip:</b> Нужно быть аккуратными, когда список содержит изменяемые элементы!
Потому что бывает так:
</div>

In [30]:
a = [1, 2, 3]
b = [a, 1, 5, 6]
print(b)
a[0] = 9
print(b)
a = [20, 10, 11]
print(b)

[[1, 2, 3], 1, 5, 6]
[[9, 2, 3], 1, 5, 6]
[[9, 2, 3], 1, 5, 6]


### Вопрос
a = [1, 2, 3]    
b = [a, 1, 5, 6]  
___

a[0] = 9   
Чему теперь равно b?  
___

b[0][0] = 100  
Чему теперь равно a? 
___

b[0] = 'rrrr'  
Чему теперь равно b и a? 

In [8]:
sentence = "Из этого предложения получится список"
#TODO: разбить строку на минимальные элементы, т.е. посимвольно
#TODO: разбить строку на слова по пробелам

<div class="alert alert-block alert-info">
<b>Tip:</b> list принимает на вход либо ни одного аргумента, либо один, но он должен быть итерируем (по нему можно пройти циклом for, например, строка)
</div>

## Основные методы и операции со списком
- \+ : "сложение"
- *: "умножение"
- append : добавить элемент в конец
- extend : расширить список (то же, что и +)
- del/pop : удаление элемента/ов из списка

In [31]:
# append добавляет только один элемент в список
list_obj = [1, 2, 3]
list_obj.append(5)
print(a)
list_obj.append([6,7,8])
print(list_obj)

[20, 10, 11]
[1, 2, 3, 5, [6, 7, 8]]


In [43]:
# extend добавляет только несколько элементов в список
list_obj = [1, 2, 3]
list_obj.extend([6,7,8])
print(list_obj)

[1, 2, 3, 6, 7, 8]


Extend добавляет новые элементы в конец списка.  
Но если вы хотите вставить их в какое-то другое место то можно сделать следующим образом:

In [45]:
list_obj = [1, 2, 3]
list_obj[1:1] = [5,5,5,5]
list_obj

[1, 5, 5, 5, 5, 2, 3]

In [46]:
# Сложение
list_obj = [1, 2, 3]
list_obj = list_obj + [6,7,8]
print(list_obj)

list_obj = [1, 2, 3]
list_obj += [7, 8, 9]
print(list_obj)

[1, 2, 3, 6, 7, 8]
[1, 2, 3, 7, 8, 9]


### Вопрос 1

a = [1,2,4]  
b = [3,4]  
c = a + b
___

b.append(5)  
Изменится ли c?

### Вопрос 2

a = [1,2,4]  
b = a
___

b = b + ['r', 't']  
Изменится ли a?
___

a.append(5)  
Изменится ли b?

### Вопрос 2

a = [1,2,4]  
b = a
___

b += ['r', 't']  
Изменится ли a?

In [65]:
# "умножение"
list_obj = [1, 2, 3]
list_obj * 2

[1, 2, 3, 1, 2, 3]

In [19]:
a = [1, 2, 3]
b = a * 2
a.append('x')
b

[1, 2, 3, 1, 2, 3]

In [18]:
a = [1, 2, 3]
b = [a,] * 2
a.append('x')
b

[[1, 2, 3, 'x'], [1, 2, 3, 'x']]

In [49]:
# Можно удалить элемент/-ы по индексу или срезу
list_obj = [0,1,2,3,4,5,6]
del list_obj[1]
print(list_obj)

list_obj = [0,1,2,3,4,5,6]
del list_obj[1:]
print(list_obj)

[0, 2, 3, 4, 5, 6]
[0]


In [54]:
# pop выкидывает элемент из списка возвращая его как результат вызова метода.
list_obj = [0,1,2,3,4,5,6]
v = list_obj.pop(1)
print(f'{list_obj = }')
print(f'{v = }')

v = list_obj.pop()
print(f'{list_obj = }')
print(f'{v = }')

list_obj = [0, 2, 3, 4, 5, 6]
v = 1
list_obj = [0, 2, 3, 4, 5]
v = 6


## List comprehensions 
Как еще можно создавать списки:  
\[**функция** for x in **объект** if **условие**\]  
 **объект** - любой итерируемый объект  
 **функция** - любая функция, как правило зависит от х. Самый простой вариант f=x
 **условие** - любое логическое условие от х

In [60]:
txt_var = 'asdfgaadhjbbbkhlaaawertyui'
list_obj = [x for x in txt_var if x == 'a']
print(list_obj)
print(len(list_obj) == txt_var.count('a'))

['a', 'a', 'a', 'a', 'a', 'a']
True


In [61]:
odds = [x for x in range(10) if x%2 == 1]
odds

[1, 3, 5, 7, 9]

## Распаковка list

In [62]:
a = [1, 2, 3]
b = ["q", "w", "e"]
c = [True, False]
d = [*a, *b, 999, 888, *c]
d

[1, 2, 3, 'q', 'w', 'e', 999, 888, True, False]

# Кортежи (tuple)
Tuple - это тип тот же список но неизменяем. Соответственно у него отсутствуют некоторые методы, которые есть у списк.

In [84]:
# пустой кортеж
tuple_obj = ()
print(tuple_obj)
print(tuple() == ())

# непустой кортеж
tuple_obj = (1, 2)
print(tuple_obj)

# кортеж из списка
tuple_obj = tuple([1,23,4,2,5]) # по сути это просто преобразоване типа, как float(int_value).
print(tuple_obj)

# кортеж из строки
tuple_obj = tuple('sentence') # строка разбивается на минимальные единицы, т.е. посимвольно
print(tuple_obj)

()
True
(1, 2)
(1, 23, 4, 2, 5)
('s', 'e', 'n', 't', 'e', 'n', 'c', 'e')


In [67]:
tuple_obj.pop()

AttributeError: 'tuple' object has no attribute 'pop'

In [70]:
tuple_obj.append('x')

AttributeError: 'tuple' object has no attribute 'append'

In [68]:
del tuple_obj[1]

TypeError: 'tuple' object doesn't support item deletion

In [69]:
tuple_obj[0] = 2

TypeError: 'tuple' object does not support item assignment

tuple vs list ?
- tuple, если нужно хранить неизменяемые данные. list - если необходимо менять данные
- tuple меньше потребляет память чем list и поиск по нему быстрее

# Словари (dict)
Словари - это структура данных, где есть ключи - уникальные идендитификаторы и значения - соответствующие им объекты.  
Этот тип данных является изменяемым, но ключи должны принадлежать неизменяемым типам данных.

**Поддержка сохранения порядка вставки ключей в dict (начиная python3.7+)**

In [85]:
# пустой словарь
dict_obj = dict()
print(dict_obj)
dict() == {}

{}


True

In [87]:
# словарь со значениями
dict_obj = {'a': 2}
print(dict_obj)

# словарь со значениями из списка кортежей ключ-значение
dict_obj = dict([('a', 2), ('b', 3)])
print(dict_obj)

{'a': 2}
{'a': 2, 'b': 3}


In [88]:
# словарь из заданных ключей, где у каждого значение None
dict_obj = dict.fromkeys(['a', 'b', 'c'])
print(dict_obj)

# словарь из заданных ключей, где каждому дается в соответствие какое-то одно дефолтное значение
dict_obj = dict.fromkeys(['a', 'b', 'c'], 2)
print(dict_obj)

{'a': None, 'b': None, 'c': None}
{'a': 2, 'b': 2, 'c': 2}


In [92]:
# ключи
print(dict_obj.keys())

# значения
print(dict_obj.values())

# пары ключ-значение
print(dict_obj.items())

# По всем этим объектам можно итерироваться.

dict_keys([(1, 2)])
dict_values(['val_1'])
dict_items([((1, 2), 'val_1')])


In [91]:
# Ключи должны принадлежать неизменяемым типам данных.
dict_obj = dict()
dict_obj[(1,2)] = 'val_1'
print(dict_obj)
dict_obj[[3,4]] = 'val_2'

{(1, 2): 'val_1'}


TypeError: unhashable type: 'list'

Если мы не знаем, есть ключ или нет, но не хотим ошибку KeyError, мы можем брать значения по-другому, получая ничего (None) без ошибки. Для этого используется метод get

In [93]:
dict_obj = {1: 90, 2: 89, 3: 54}
dict_obj[7]

KeyError: 7

In [94]:
dict_obj = {1: 90, 2: 89, 3: 54}
print(dict_obj.get(7))

None


## Основные методы и операторы
- **dict_obj.clear()** - удаляет все элементы из словаря  
- **dict_obj.copy()** - возвращает копию словаря
- **dict_obj.pop(key_value)** - удаляет элемент по ключу
- **dict_obj.popitem()** - удаляет последнюю добавленную пару ключ-значение
- **dict_obj.update()** - добавляет/обновляет словать (пример ниже)
- **dict_obj_1 | dict_obj_2** - объединение словарей **(начиная с версии python3.9+)**

In [105]:
dict_obj = {'a':1}
dict_obj.update([['a', 3]])
dict_obj

{'a': 3}

In [106]:
dict_obj = {'a':1}
dict_obj.update({'b': 5})
dict_obj

{'a': 1, 'b': 5}

In [109]:
# новый вариант с python3.9+ 
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 = d1 | d2 # по аналогии с set()
d3

{1: 90, 2: 89, 3: 1000, 4: 11, 5: 10, 6: 9}

In [None]:
# новый вариант с python3.9+ через |=
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 |= d1  # по аналогии c.update
d3 |= d2 
d3

{1: 90, 2: 89, 3: 1000, 4: 11, 5: 10, 6: 9}

## Распаковка dict

In [107]:
d1 = {1: 90, 2: 89, 3: 54}
d2 = {4: 11, 5: 10, 6: 9}
d3 = {**d1, **d2, 7:90}
d3

{1: 90, 2: 89, 3: 54, 4: 11, 5: 10, 6: 9, 7: 90}

## Dict comprehension

In [108]:
{i: val for i, val in enumerate("text")}

{0: 't', 1: 'e', 2: 'x', 3: 't'}

## defaultdict
Если нам необходим словать с таким поведением, что при обращении по несуществующему ключу он автоматически добавлял его в словарь с каким-то дефолтным значением (и не выдавал ошибку KeyError), то есть подходящий тип данных - **defaultdict**.

In [21]:
from collections import defaultdict

In [27]:
d = defaultdict(int) # дефолт - 0
print(d)
print(d[9])
print(d)

defaultdict(<class 'int'>, {})
0
defaultdict(<class 'int'>, {9: 0})


In [151]:
d = defaultdict(int)
some_string = 'a little less conversation, a little more action'
for letter in some_string:
    d[letter] += 1
print(d)

defaultdict(<class 'int'>, {'a': 4, ' ': 7, 'l': 5, 'i': 4, 't': 6, 'e': 5, 's': 3, 'c': 2, 'o': 4, 'n': 3, 'v': 1, 'r': 2, ',': 1, 'm': 1})


In [152]:
d = dict(d)
print(d)

{'a': 4, ' ': 7, 'l': 5, 'i': 4, 't': 6, 'e': 5, 's': 3, 'c': 2, 'o': 4, 'n': 3, 'v': 1, 'r': 2, ',': 1, 'm': 1}


In [153]:
d = defaultdict(list)
some_string = 'a little less conversation, a little more action'
for word in some_string.split():
    d[len(word)].append(word)
d = dict(d)
print(d)

{1: ['a', 'a'], 6: ['little', 'little', 'action'], 4: ['less', 'more'], 13: ['conversation,']}


# Множества (set)

Множество (set) - это структура данных, чем-то похожая и на массив, и на словарь, но от них отличающаяся.
Как и массивы, множества содержат элементы. Но в отличие от массивов, где элементы упорядочены, в множестве они идут в "произвольном" порядке.  
  
На словари множества похожи тем, что, как и ключи в словарях, элементы множеств неупорядочены и поэтому должны быть уникальны.
Поиск в множестве происходит быстрее, чем в массиве, потому что в массивы мы проходим каждый элемент с первого до последнего или искомого, а во множестве другой, более быстрый алгоритм. Если вам нужно собрать какие-то данные, а потом проверять, есть ли в этих данных что-то, то целесообразно использовать именно множества. Во-вторых, преобразование в множества помогают быстро превратить набор данных в набор уникальных элементов.

In [112]:
# создаем множество из списка (массива)

sentence = "the cat is on the mat"
words = set(sentence.split())  # превращаем список, который возвращает split(), в массив
animals = set(['cat', 'dog', 'elephant', 'crocodile', 'fox', 'cat', 'elephant'])

print(words)
print(animals)

{'is', 'cat', 'the', 'mat', 'on'}
{'cat', 'crocodile', 'elephant', 'fox', 'dog'}


In [113]:
# создаем множество из строки

letters = set(sentence)  # разбивает строку на минимальные элементы, т.е. посимвольно
print(letters)

{'a', 'o', 'i', 'h', 'n', ' ', 'e', 's', 't', 'c', 'm'}


Обратите внимание, что все элементы получившихся множеств уникальны! Если вам не нужно знать, сколько раз встречаются объекты и в каком порядке, можно использовать множество.

Множества нельзя складывать, зато можно добавлять в них элементы -- это делается функцией add(), которая тоже пишется через точку после названия множества.

In [114]:
animals.add('tiger')
print(animals)

{'cat', 'tiger', 'crocodile', 'elephant', 'fox', 'dog'}


In [116]:
print({} == set())
print(type({}))

False
<class 'dict'>


In [117]:
# пустое множество
set_obj = set() # обратите внимание, что просто скобочек в данном случае недостаточно!
print(set_obj)

set()


In [118]:
a = set([1, 2, 3, 4, 5, 6])
b = set([4, 5, 6, 7, 8, 9])

# объединение
c = a | b
print(c)

# пересечение
c = a & b
print(c)

# разность
c = a - b
print(c)

# симметрическая разность, то есть элементы, входящие в a или в b, но не в оба множества одновременно
c = a ^ b
print(c)

{1, 2, 3, 4, 5, 6, 7, 8, 9}
{4, 5, 6}
{1, 2, 3}
{1, 2, 3, 7, 8, 9}


# Основные функции

1. sum - сумма элементов
2. len - длина (или количество элементов)
3. max/min - максимальный/минимальный элемент
4. sorted - сортировка
5. enumerate - проход с нумерацией

In [28]:
a = [1, 2, 3, 4, 5]
print(f'{ len(a) = }')
print(f'{ sum(a) = }')
print(f'{ max(a) = }')
print(f'{ min(a) = }')

 len(a) = 5
 sum(a) = 15
 max(a) = 5
 min(a) = 1


In [30]:
a = dict.fromkeys([1, 2, 3, 4, 5], 10)
print(a)
print(len(a))

{1: 10, 2: 10, 3: 10, 4: 10, 5: 10}
5


## Sorted

In [34]:
dict_obj = {1: 90, -2: 45, 3: 500, -5: 800, 0: 900}

for key in sorted(dict_obj):
    print(key, dict_obj[key])

-5 800
-2 45
0 900
1 90
3 500


In [35]:
for key in sorted(dict_obj, reverse=True):
    print(key, dict_obj[key])

3 500
1 90
0 900
-2 45
-5 800


In [36]:
# сортировка по значениям
for key in sorted(dict_obj, key=dict_obj.get):
    print(key, dict_obj[key])

-2 45
1 90
3 500
-5 800
0 900


In [37]:
# сортировка по квадрату ключа
for key in sorted(dict_obj, key=lambda x: x**2, reverse=True):
    print(key, dict_obj[key])

-5 800
3 500
-2 45
1 90
0 900


## Enumerate
Если на вход enumerate подать какой-то итерируемы объект, он вернет новый объект, по которому можно итерироваться и каждый элемент его будет состоять из двух значений - номер элемента в исходном объекте и его значение.
Это бывает полезно, когда нужно сделать что-то с объектом, зависящее от его порядкового номера.

In [139]:
list_obj = [900, 45, 67, 23, 1]
[v for i,v in enumerate(list_obj) if i % 2 == 0]

[900, 67, 1]

## Counter

Counter итерируется (проходит) по списку или другому объекту и считает количество элементов, сохраняя все в словарь вида ключ - количество

In [154]:
from collections import Counter

In [155]:
some_string = 'a little less conversation, a little more action'

Counter(some_string)

Counter({'a': 4,
         ' ': 7,
         'l': 5,
         'i': 4,
         't': 6,
         'e': 5,
         's': 3,
         'c': 2,
         'o': 4,
         'n': 3,
         'v': 1,
         'r': 2,
         ',': 1,
         'm': 1})

In [156]:
some_string = 'a little less conversation, a little more action'

Counter(some_string.split())

Counter({'a': 2,
         'little': 2,
         'less': 1,
         'conversation,': 1,
         'more': 1,
         'action': 1})

Counter можно складывать или обновлять (добавлять элементы)

In [161]:
lyrics = [
    'a little less conversation, a little more action',
    'a little more bite and a little less bark',
    'a little less fight and a little more spark'
]
c = Counter() # Создали пустой объект
print(c)

for line in lyrics:
    c.update(line.split()) # Обновляем его новыми данными
print(c)

Counter()
Counter({'a': 6, 'little': 6, 'less': 3, 'more': 3, 'and': 2, 'conversation,': 1, 'action': 1, 'bite': 1, 'bark': 1, 'fight': 1, 'spark': 1})


# Упражнения на типы данных

#### 1. Функция возвращающая произведение всех числовых элементов в списке.

In [38]:
def mult_list(input_list):
    result = 0 # Write your code
    return result

In [181]:
assert mult_list([1,2,4, 'text']) == 8

#### 2. Функция, возвращающая слово, содеращее максимальное количество разных букв. 
На вход функции подаем текст. Делим на слова по пробелу, игнорируем знаки перпинания и регистр букв. 

In [206]:
text = """Утихла брань племен; в пределах отдаленных
Не слышен битвы шум и голос труб военных;
С небесной высоты, при звуке стройных лир,
На землю мрачную нисходит светлый мир.
Свершилось!.. Русский царь, достиг ты славной цели!
Вотще надменные на родину летели;
Вотще впреди знамен бесчисленных дружив
В могущей дерзости венчанный исполин
На гибель грозно шел, влек цепи за собою:
Меч огненный блеснул за дымною Москвою!
Звезда губителя потухла в вечной мгле,
И пламенный венец померкнул на челе!
Содрогся счастья сын, и, брошенный судьбою,
Он землю русскую не взвидел под собою.
Бежит… и мести гром слетел ему вослед;
И с трона гордый пал… и вновь восстал… и нет!"""

def max_count_letters(text):
    word = None # Write your code
    return word

max_count_letters(text)

'отдаленных'

In [None]:
assert max_count_letters(text) == 'отдаленных'

### 3. Вывести строку текста, содержащую максимальное количество слов.

In [39]:
def get_max_words_line(text):
    line = ''
    return None

In [40]:
assert get_max_words_line(text) == 'И с трона гордый пал… и вновь восстал… и нет!'

### 4. Вывести отсортированный по ключам словарь, в ключах которого количество уникальных букв в словах, а в значениях список слов, которые подходят под это условие. Ключи должны начинаться с 1 и до максимального значения для данного текста.

In [None]:
def get_uniq_letters_dict(text):
    cnt_dict = None # Write your code
    return cnt_dict

get_uniq_letters_dict(text)