# Списки и словари

На сегодняшнем уроке мы разберем такие структуры данных как списки и словари. Эти структуры позволяют хранить последовательности данных и грамотно с ними взаимодействовать.

## Списки

**Список** (list) в Python — это упорядоченная изменяемая коллекция объектов произвольных типов.




В этом определении важна каждое слово. Мы будем к нему возвращаться по мере иллюстрации возможностей и свойств списков.



* Когда мы называем список коллекцией, мы имеем в виду, что в одном списке может храниться множество объектов (например, чисел или строковых величин) 


* Говоря о том, что списки представляют собой упорядоченные коллекции, мы обращаем внимание на то, что каждый элемент в списке имеет свой порядковый номер.


* Упоминание об изменяемости списков означает, что мы можем менять элементы списка уже после его объявления.


* Выражение «произвольных типов» означает, что в списке могут храниться данные, относящиеся к любым типам из тех, с которыми работает Python. *То есть это могут быть также другие списки и словари*

Список инициализируется при помощи [ ], элементы в списке разделяются запятыми.

In [None]:
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']
income_list = [13000, 14000, 14300, 15000, 13800, 13000, 14900, 15200, 15300]
income_by_months = [['Jan', 13000], ['Feb', 14000], ['Mar', 14300], ['Apr', 15000], ['May', 13800], ['Jun', 13000], ['Jul', 14900], ['Aug', 15200], ['Sep', 15300]]

In [None]:
# проверим тип данных
print(type(month_list))
print(type(income_list))
print(type(income_by_months))

### Индексация и срезы строк 
– доступ к элементам объекта по их порядковому номеру в нем. Индексация элементов начинается с нуля.

Получить значение элемента по индексу можно при помощи [ ],
например: my_string[0] и my_string[-6] (при обратной индексации).

Можно “доставать” из строки несколько элементов при помощи “срезов” (slicing). Для указания интервала среза используется `:`,
list[START:STOP:STEP] - берёт срез от номера START, до STOP не включая его, с шагом STEP. По умолчанию START = 0, STOP = длина объекта, STEP = 1. Какие-либо (а возможно, и все) параметры могут быть опущены.

In [None]:
# индексация элементов в списке
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']
print(month_list[0])
print('--------------')
print(month_list[-1])
print('--------------')
print(income_by_months[-4])

In [None]:
# срезы
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']
print(month_list[1:3])
print('--------------')
print(month_list[-8:-6])
print('--------------')
print(month_list[2:])
print('--------------')
print(month_list[:3])
print('--------------')
print(month_list[::2])
print('--------------')
print(month_list[4:8:3])
print('--------------')
print(month_list[::-1])

In [None]:
# можно обращаться к любому уровню вложенности
income_by_months = [['Jan', 13000], ['Feb', 14000], ['Mar', 14300], ['Apr', 15000], ['May', 13800], ['Jun', 13000], ['Jul', 14900], ['Aug', 15200], ['Sep', 15300]]
income_by_months[0][0]

In [None]:
# изменение списков
income_by_months[0][1] = 13100
print(income_by_months)

In [None]:
# можем заменять сразу срез
income_by_months[0:2] = [['Jan', 13200], ['Feb', 13900]]
print(income_by_months)

In [None]:
# можем складывать списки
income_by_months_2 = [['Nov', 15400], ['Dec', 17000]]
income_by_month = income_by_months + income_by_months_2
print(income_by_month)

### Распаковка списков

In [None]:
first, second, third = ['первый', 'второй', 'третий']
first

In [None]:
# когда число элементов неизвестно
first, *other = ['первый', 'второй', 'третий']
first, other

In [None]:
first, *other, last =  ['первый', 'второй', 'третий', 'четвертый']

In [None]:
first, last

### Операции со списками

Со всеми операциями над списками можно ознакомиться по [ссылке](https://docs.python.org/3/tutorial/datastructures.html#more-on-lists). 

In [None]:
income_by_months

In [None]:
# Удаляем элемент по индексу
del(income_by_months[-1])
income_by_months

In [None]:
# удаляем элемент по значению
month_list.remove('Sep')
print(month_list)

In [None]:
# добавляем элемент в конец списка
income_by_months.append(['Dec', 17000])
income_by_months

In [None]:
# добавляем элемент по нужному индексу
income_list.insert(2, 1111111)
print(income_list)

In [None]:
# считаем количество вхождений элемента в список
income_list.count(13000)

In [None]:
# узнаем индекс элемента в списка (только первое вхождение!)
income_list.index(13000)
# income_list.index(13000, 1)

In [None]:
# разворачиваем список
month_list.reverse()
month_list

In [None]:
# и несколько функций применитолько к спискам

# узнаем длину списка
len(income_list)

In [None]:
# сумма элементов
sum(income_list)

In [None]:
# максимальный элемент элементов
max(income_list)

In [None]:
# минимальный элемент элементов
min(income_list)

In [None]:
# сортировка по возрастанию
sorted(income_list)

In [None]:
# изменить порядок сортировки
sorted(income_list, reverse= True)

In [None]:
# а это сортировка строк по алфавиту
sorted(month_list)

Методы изменяемых типов данных всегда меняют исходный, объект, а не создают новый!  
Методы неизменыемых типов данных всегда возвращают новый объект и не меняют исходный.

In [None]:
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']

res = month_list.sort()
print(res)
print(month_list)

In [None]:
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']

month_list.sort()
print(month_list)

In [None]:
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']

sorted(month_list) # функция sorted создает новый объект
print(month_list)

In [None]:
month_list = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep']

res = sorted(month_list)
print(res)
print(month_list)

В примере ниже переменная `a` и `b` на самом деле указывают на один и тот же объект. В результате, при добавлении в `b` очередного элемента этот элемент добавляется и в исходном листе `a`. Это особенность всех изменяемых типов данных в Python

In [None]:
a = [1, 2, 3]
b = a

In [None]:
b.append(4)
print(a)

In [None]:
id(a), id(b)

In [None]:
# создаем копию объекта 
a = [1, 2, 3]
b = list(a)
b.append(4)
print(a)
print(b)
id(a), id(b)

In [None]:
# создаем копию объекта (другой способ)
a = [1, 2, 3]
b = a.copy()
b.append(4)
print(a)
print(b)
id(a), id(b)

In [None]:
# создаем копию объекта (еще способ)
a = [1, 2, 3]
b = a[:]
print(a)
print(b)
id(a), id(b)

### Проверка вхождения элемента в список

In [None]:
'Москва' in ['Ленинград', 'Одесса', 'Севастополь', 'Москва']
# 'Москва' not in ['Ленинград', 'Одесса', 'Севастополь', 'Москва']

### Итерация по спискам

In [None]:
companies_capitalization = [
 ['Orange', 1.3],
 ['Maxisoft', 1.5],
 ['Headbook', 0.8],
 ['Nicola', 2.2]
]
for company in companies_capitalization:
#     print(company)
    print(company[0], 'capitalization is', company[1])
#     print('end of iteration')

In [None]:
# распаковка элементов прямо в цикле
companies_capitalization = [
 ['Orange', 1.3],
 ['Maxisoft', 1.5],
 ['Headbook', 0.8],
 ['Nicola', 2.2]
]
for company_name, cap in companies_capitalization:
#     print(company)
    print(company_name, 'capitalization is', cap)
#     print('end of iteration')

### Практика. У нас есть список, содержащий информацию о среднедневной температуре в Фаренгейтах за произвольный период по странам. Необходимо написать код, который рассчитает среднюю температуру за период для каждой страны.


In [None]:
countries_temperature = [
    ['Thailand', [75.2, 77, 78.8, 73.4, 68, 75.2, 77]],
    ['Germany', [57.2, 55.4, 59, 59, 53.6]],
    ['Russia', [35.6, 37.4, 39.2, 41, 42.8, 39.2, 35.6]],
    ['Po|land', [50, 50, 53.6, 57.2, 55.4, 55.4]]
]

### Практика. Посчитаем сумму элементов по главной диагонали в матрице, а потом по обратной

In [None]:
data = [
    [13, 25, 23, 34],
    [45, 32, 44, 47],
    [12, 33, 23, 95],
    [13, 53, 34, 35]
]

### Практика. Удалим все дубли из спика

In [None]:
my_list = [10, 20, 30, 20, 10, 50, 60, 40, 80, 50, 40]

### List comprehension

Генератор списка позволяет создать список и заполнить его данными.

In [None]:
# Дана последовательность чисел. Мы хотим оставить только те, что делятся на 5
sequence = range(0, 40, 3)
list(sequence)

In [None]:
# решение в лоб
for num in sequence:
    if num % 5 == 0:
        print(num)

In [None]:
# если хотим получить отфильтрованный лист, то будет даже так
filtered_sequence = []

for num in sequence:
    if num % 5 == 0:
        filtered_sequence.append(num)

print(filtered_sequence)

In [None]:
[num for num in sequence if num % 5 == 0]

In [None]:
# назвать переменную можно хоть как, как и в цикле
[w for w in sequence if w % 5 == 0]

In [None]:
# в левой чсти можем прописывать любые однострочные действия

[x**2 for x in sequence if x % 5 == 0]

In [None]:
# если нужен else, то запись должна быть немного другая

[x**2 if x % 5 == 0 else None for x in sequence ]

Пример вычисления метрики из набора списков. Столбцы в каждой строке:
- дата
- номер счетчика
- количество визитов

Найдем среднее количество визитов по нашим данным

In [None]:
api_response = [
    ['2017-12-26', '777', 184],
    ['2017-12-27', '111', 146],
    ['2017-12-28', '777', 98],
    ['2017-12-29', '777', 206],
    ['2017-12-30', '111', 254],
    ['2017-12-31', '777', 89],
    ['2018-01-01', '111', 54],
    ['2018-01-02', '777', 68],
    ['2018-01-03', '777', 74],
    ['2018-01-04', '111', 89],
    ['2018-01-05', '777', 104],
    ['2018-01-06', '777', 99],
    ['2018-01-07', '777', 145],
    ['2018-01-08', '111', 184],
]

In [None]:
for element in api_response:
    print(element[2])

In [None]:
sum([x[2] for x in api_response]) / len(api_response)

### Практика. Имеется поток данных о ценах товаров (считайте, что цена всегда больше 0). Необходимо написать алгоритм определения минимального четного числа в этом потоке.

In [None]:
sys_stdin = [78, 68, 484, 3, 254, 90, 143, 78, 43, 42, 3053, 473, 5, 8593, 16, 3, 1454, 37, 96, 8547]

### Практика. Решим задачу с диагональной матрицей при помощи list comprehension

In [None]:
data = [
    [13, 25, 23, 34],
    [45, 32, 44, 47],
    [12, 33, 23, 95],
    [13, 53, 34, 35]
]

## Словари

**Словари** – коллекции произвольных объектов с доступом по ключу. В отличие от последовательностей, которые индексируются диапазоном чисел, словари индексируются по ключам, которые могут быть любым неизменяемым типом; строки и числа всегда могут быть ключами.

In [None]:
salaries = {
    'John': 1200,
    'Mary': 500,
    'Steven': 1000,
    'Liza': 1500
}

In [None]:
# обращение к элементу словаря
salaries['John']

### Операции над словарями
Со всеми операциями над словарями можно ознакомиться по [ссылке](https://docs.python.org/3/library/stdtypes.html?highlight=dictionary#mapping-types-dict). 

In [None]:
# удаляем элемент из словаря
del(salaries['Liza'])
salaries

In [None]:
# добавляем элемент в словарь
salaries['James'] = 2000
salaries

In [None]:
# изменяем значение по ключу
salaries['Mary'] = 2000
salaries

In [None]:
# безопасно получаем значение по ключу
salaries['Oleg']
# salaries.get('Oleg', 'Not Found')
salaries.get('Mary', 'Not Found')

In [None]:
# проверка на наличие ключа в словаре
recruit = 'Amanda'

if recruit in salaries:
    print('Значение для ключа уже существует')
else:
    print('Добавляю новый ключ')
    salaries[recruit] = 2200

print(salaries)

In [None]:
# можно использовать метод setdefault
# setdefault не изменяет значение, если ключ уже был в словаре

salaries.setdefault('Mary', 3000)
salaries
# salaries.setdefault('Paul', 3000)
# salaries

In [None]:
# перейдем к более сложному словарю
staff_dict = {
    'Robert': {'salary': 800, 'bonus': 200}, 
    'Jane': {'salary': 200, 'bonus': 300}, 
    'Liza': {'salary': 1300, 'bonus': 200}, 
    'Richard': {'salary': 500, 'bonus': 1200}
}

In [None]:
staff_dict['Robert']['salary']

In [None]:
staff_dict['Oleg'] = {'salary': 1000000, 'bonus': 300}
staff_dict

In [None]:
# получаем только ключи/значения из словаря (очень пригодиться в циклах)
# print(staff_dict.keys())
# print(staff_dict.values())
print(staff_dict.items())

# print(list(staff_dict.keys()))
# print(list(staff_dict.values()))
print(list(staff_dict.items()))

In [None]:
# итерация по словарям (по умолчанию перебираются ключи)
for person in staff_dict:
    print(person)
print('--------------------')    
# полностью аналогично с применением метода keys()
for key in staff_dict.keys():
    print(key)

In [None]:
# итерация по значениям
for value in staff_dict.values():
    print(value)

In [None]:
# итерация сразу по ключам и значениям
for key, value in staff_dict.items():
    print(key, value)

In [None]:
# можем также применить enumerate
for i, person in enumerate(staff_dict):
    print(i + 1, person)

In [None]:
for person, info in staff_dict.items():
#     print(person, info)
    print(person, "'s salary: ", info['salary'], sep='')

In [None]:
# добавим уровень з/п
for person, info in staff_dict.items():
#     print(person)
    if info['salary'] > 1000:
        info['status'] = 'above average'
    else:
        info['status'] = 'below average'
#     print(f"{person}'s salary: {info['salary']} ({status})")

staff_dict

Удалим из словаря все пустые элементы (со значением None)

In [None]:
my_dict = {
    'id1': 123456, 
    'id2': 654321, 
    'id3': None,
    'id4': 777777
}

In [None]:
res = {}

for key, value in my_dict.items():
    if value is not None:
        res[key] = value
res

### Практика. Посчитаем средний возраст в коллективе

In [None]:
people = {1: {'name': 'Oleg', 'age': '29', 'sex': 'Male'},
          2: {'name': 'Kate', 'age': '21', 'sex': 'Female'},
          3: {'name': 'Liza', 'age': '24', 'sex': 'Female'},
          4: {'name': 'Pavel', 'age': '36', 'sex': 'Male'}}

### Практика. Согласно сайту www.bodycounters.com в четырех частях фильма “Пираты Карибского моря” было довольно много погибших. Пиратов-зомби в последней части тоже считайте живыми.

In [None]:
bodycount = {
    'Проклятие Черной жемчужины': {
        'человек': 17
    }, 

    'Сундук мертвеца': {
        'человек': 56,
        'раков-отшельников': 1
    },

    'На краю света': {
        'человек': 88
    },

    'На странных берегах': {
        'человек': 56,
        'русалок': 2,
        'ядовитых жаб': 3,
        'пиратов зомби': 2
    }
}

Дан список с визитами по городам и странам.  Напишем код, который возвращает отфильтрованный список geo_logs, содержащий только визиты из России.


In [None]:
geo_logs = [
    {'visit1': ['Москва', 'Россия']},
    {'visit2': ['Дели', 'Индия']},
    {'visit3': ['Владимир', 'Россия']},
    {'visit4': ['Лиссабон', 'Португалия']},
    {'visit5': ['Париж', 'Франция']},
    {'visit7': ['Тула', 'Россия']},
    {'visit9': ['Курск', 'Россия']},
    {'visit10': ['Архангельск', 'Россия']}
]

In [None]:
for n in geo_logs:
    for i in n.values():
        if i[1] != 'Россия':
            geo_logs.remove(n)
print(geo_logs)

# Почему этот вариант плохой?  
# 1) Потому что мы меняем объект прямо во время итерирования по нему  
# 2) Мы используем вложенный цикл, без которого можно обойтись (что плохо при прочих равных).

In [None]:
# допустимый вариант, который не совсем соответствует условию
result = []
for visit in geo_logs:
#     print(visit.values())
    if 'Россия' in list(visit.values())[0]:
        result.append(visit)
        
result

In [None]:
# более корректынй вариант, который соответствует условию

geo_logs_2 = geo_logs.copy()

for visit in geo_logs_2:
    if 'Россия' not in list(visit.values())[0]:
        geo_logs.remove(visit)
        
geo_logs

In [None]:
# красивый вариант в одну строку (материал за рамками лекций)
# функция filter фильтрует последовательность по условию

list(filter(lambda visit: 'Россия' in list(visit.values())[0], geo_logs))

# Tuple (кортежы)

Это неизменяемые списки (нельзя добавлять или удалять элементы из уже созданного кортежа).
Кортежи инициализируется при помощи ( ).

In [None]:
salary_tuple = (1000, 1200, 1300, 900, 800)
type(salary_tuple)
type(list(salary_tuple))

In [None]:
# print(salary_tuple[0])
salary_tuple[0] = 500

In [None]:
# кортеж из одного элемента задается так:
t = ('one', )

In [None]:
# без запятой получится строка
type( ('one') )

In [None]:
# функция zip
salaries = set([1000, 1200, 1300, 900, 800, 1000])
names = set(['Robert', 'Jane', 'Liza', 'Richard', 'John'])
salaries_by_names = zip(names, salaries)
# print(salaries_by_names)
print(list(salaries_by_names))

### Практика. Мы делаем MVP dating-сервиса, и у нас есть список парней и девушек. Выдвигаем гипотезу: лучшие рекомендации мы получим, если просто отсортируем имена по алфавиту и познакомим людей с одинаковыми индексами после сортировки! Но мы не будем никого знакомить, если кто-то может остаться без пары.

In [None]:
boys = ['Peter', 'Alex', 'John', 'Arthur', 'Richard']
girls = ['Kate', 'Liza', 'Kira', 'Emma', 'Trisha']

### Практика. Вывести фамилии построчно с указанием профессии

IT:  
Гейтс  
Джобс  
Возняк  

Физика:  
Эйнштейн  
Фейнман  

...

In [None]:
professions = ['IT', 'Физика', 'Математика']
persons = [['Гейтс', 'Джобс', 'Возняк'], ['Эйнштейн', 'Фейнман'], ['Эвклид', 'Ньютон']]

## Множества (set)
Набор неповторяющихся элементов в случайном порядке. Они необходимы тогда, когда присутствие объекта в наборе важнее порядка или того, сколько раз данный объект там встречается.

Множества инициализируется при помощи set(), как правило создаются из списков.

Реализуют теорию множеств в Python.

In [None]:
data_scientist_skills = set(['Python', 'R', 'SQL', 'Tableau', 'SAS', 'Git'])
data_engineer_skills = set(['Python', 'Java', 'Scala', 'Git', 'SQL', 'Hadoop'])

In [None]:
# логическое ИЛИ – что нужно знать data-scientst, который по совместительству data-engineer
print(data_scientist_skills.union(data_engineer_skills))
print(data_scientist_skills | data_engineer_skills)

In [None]:
# логическое И – что нужно знать и data-scientist и data-engineer
print(data_scientist_skills.intersection(data_engineer_skills))
print(data_scientist_skills & data_engineer_skills)

In [None]:
# разность множеств – что знает data-scientist, но не знает data-engineer (и наоборот)
# print(data_scientist_skills.difference(data_engineer_skills))
# print(data_scientist_skills - data_engineer_skills)
print(data_engineer_skills.difference(data_scientist_skills))
print(data_engineer_skills - data_scientist_skills)

In [None]:
# симметричная разность множеств – что такого знают data-scientist и data-engineer, чего не знают они оба
# print(data_scientist_skills.symmetric_difference(data_engineer_skills))
# print(data_scientist_skills ^ data_engineer_skills)
print(data_engineer_skills.symmetric_difference(data_scientist_skills))
print(data_engineer_skills ^ data_scientist_skills)

In [None]:
# Из списка можно убрать все повторения просто обратив его в set!

### Практика. Дана переменная, в которой хранится словарь, содержащий гео-метки для каждого пользователя (пример структуры данных приведен ниже). Вам необходимо написать программу, которая выведет на экран множество уникальных гео-меток всех пользователей.

In [None]:
ids = {'user1': [213, 213, 213, 15, 213], 
       'user2': [54, 54, 119, 119, 119], 
       'user3': [213, 98, 98, 35]}

In [None]:
ids_set = set()
for id_ in ids.values():
    ids_set = ids_set.union(id_) 
ids_set

### Спасибо за внимание! Буду рад ответить на ваши вопросы
Форма ОС: https://forms.gle/3Rm7PJM319zz7qLg9