# Программирование на языке Python для сбора и анализа данных
Выполнил Смирнов Богдан Викторович

Группа ИС/б-23-1-о

__Словари__

Рассмотрим такую задачу: у нас есть информация об оценках студентов по некоторому предмету и мы
хотим иметь возможность с этой информацией работать — например, по имени студента определить,
какую оценку он получил. Мы могли бы пытаться решить эту задачу, создав два списка — один с
именами студентов, а другой с оценками:

In [None]:
students = ["Вася", "Коля", "Петя", "Аня"] # инициализация списка
grades = [5, 4, 2, 3] # инициализация списка
# Вася получил 5, Коля 4 и т.д.

Было бы хорошо, если бы у нас была возможность иметь тип данных, в котором элементы нумеруются
не натуральными числами, а произвольными объектами. Такой тип данных существует: в Python он
называется словарём (dictionary).

Вот так можно создать словарь в Python:

In [None]:
gradebook = {"Вася": 5, "Коля": 4, "Петя":2, "Аня": 3} # инициализация словаря

Это похоже на создание списка, но есть ряд отличий. Во-первых, мы использовали фигурные скобки
вместо квадратных, чтобы показать, что создаём именно словарь. Во-вторых, словарь состоит из
записей, каждая запись состоит из двух частей: ключа (key) и значения (value). Ключ и значение
разделяются двоеточием. Например, у нас есть запись "Аня": 3 с ключом "Аня" и значением 3 .
Всего наш словарь gradebook сейчас содержит четыре записи, ключами которых являются имена
студентов, а значениями — их оценки.

In [None]:
gradebook # вывод словаря

{'Вася': 5, 'Коля': 4, 'Петя': 2, 'Аня': 3}

Заметим, что при печати Python переупорядочил записи в словаре. На самом деле, порядок вывода
записей в словаре является произвольным: внутри словаря записи не имеют никакого порядка.
Поэтому нельзя обратиться, например, к «первой записи», но зато можно обратиться к записи с
данным ключом:


In [None]:
gradebook['Аня'] # вывод значения по ключу

3

In [None]:
gradebook['Вася'] # вывод значения по ключу

5

Можно изменить значение записи, точно так же, как изменить элемент списка.

In [None]:
gradebook['Аня'] = 5 # присваивание значения по ключу

In [None]:
gradebook # вывод значения

{'Вася': 5, 'Коля': 4, 'Петя': 2, 'Аня': 5}

Можно добавить новую запись.

In [None]:
gradebook['Иннокентий'] = 4 # добавление значения по ключу

In [None]:
gradebook # вывод значения словаря

{'Вася': 5, 'Коля': 4, 'Петя': 2, 'Аня': 5, 'Иннокентий': 4}

При попытке обратиться к записи, которой нет, мы получим сообщение об ошибке:

In [None]:
gradebook['Alice'] # вывод значения по ключу (его нет)

KeyError: 'Alice'

Часто нам хочется иметь возможность запросить запись, а в случае, если её нет, получить какоенибудь «значение по умолчанию», а не ошибку. Для этого нужно использовать метод get() вместо
квадратных скобок.

In [None]:
gradebook.get('Alice') # вывод значения по ключу (его нет), но и ошибки тоже т.к. используется get

Здесь вернулось None :


In [None]:
print(gradebook.get('Alice')) # вывод значения по ключу (None)

None


In [None]:
gradebook.get('Вася') # вывод значения по ключу

5

Можно было бы передать get() второй аргумент, и тогда в случае, если такого ключа в словаре нет,
то будет возвращен он.

In [None]:
gradebook.get('Alice', 'No such student') # вывод значения по ключу, но если нету такого значение, получение сообщения

'No such student'

In [None]:
gradebook.get('Вася', 'No such student') # вывод значения по ключу

5

Можно получить список всех ключей словаря:


In [None]:
gradebook.keys() # вывод ключей

dict_keys(['Вася', 'Коля', 'Петя', 'Аня', 'Иннокентий'])

На самом деле это не совсем список, но эта штука ведёт себя почти как список и из неё можно
сделать список. Аналогично со списком всех значений словаря.

In [None]:
gradebook.values() # вывод значений

dict_values([5, 4, 2, 5, 4])

Ключами словарей могут быть не только строчки. Допустим, мы хотим создать словарь, в котором
ключами будут числа. Нет ничего проще:

In [None]:
squares={1:1, 2:4, 3:9} # инициализация словаря

In [None]:
squares # вывод значения

{1: 1, 2: 4, 3: 9}

In [None]:
squares[1] # вывод значения по ключу

1

In [None]:
squares[2] # вывод значения по ключу

4

В предыдущих двух строчках squares ведёт себя примерно как список, но если внимательно
приглядеться, то видно, что это не список, а всё-таки словарь.


In [None]:
squares # вывод значения 

{1: 1, 2: 4, 3: 9}

Например, у любого непустого списка есть элемент с индексом 0, а у squares такого нет:

In [None]:
squares[0] # вывод значения по ключу (ошибка ввиду отсутствии ключа)

KeyError: 0

__Перебор записей в словаре__

Как обрабатывать информацию в словаре? Для перебора всех элементов списка можно было
использовать цикл for . А что будет, если ему скормить словарь вместо списка? Попробуем:
    

In [None]:
for k in gradebook: # цикл по ключам словаря
 print(k) # вывод ключей

Вася
Коля
Петя
Аня
Иннокентий


Понятно! Цикл for в этом случае перебирает все ключи нашего словаря. А зная ключ, можно
получить и значение:

In [None]:
for k in gradebook: # цикл по ключам
 print("Студент", k, "имеет оценку", gradebook[k]) # вывод с ключом и его значением в словаре

Студент Вася имеет оценку 5
Студент Коля имеет оценку 4
Студент Петя имеет оценку 2
Студент Аня имеет оценку 5
Студент Иннокентий имеет оценку 4


Однако, есть более изящный способ получить сразу ключ и значение очередной записи: использовать
items() .

In [None]:
for k, v in gradebook.items(): # перебор по ключам и их значениям
 print("Студент",k,"имеет оценку", v) # вывод с ключом и его значением в словаре

Студент Вася имеет оценку 5
Студент Коля имеет оценку 4
Студент Петя имеет оценку 2
Студент Аня имеет оценку 5
Студент Иннокентий имеет оценку 4


Как работает этот код? Здесь используется метод items() , возвращающий список (точнее,
итератор), состоящий из кортежей вида (ключ, значение) .


In [None]:
list(gradebook.items()) # переход словаря в список

[('Вася', 5), ('Коля', 4), ('Петя', 2), ('Аня', 5), ('Иннокентий', 4)]

Оператор for в этом случае понимает, что нужно при каждом проходе цикла выбрать очередной
кортеж и присвоить его первый элемент (то есть ключ) переменной k , а второй элемент (то есть
значение) переменной v (конечно, эти переменные могли бы называться иначе). С аналогичным
поведением мы уже встречались, когда обсуждали конструкцию enumerate.

Вот так можно найти все записи с заданным значением — например, всех студентов, получивших
оценку 4:

In [None]:
for k, v in gradebook.items(): # перебор значений словаря
 if v==4: # нашли 4-ку?
    print(k) # вывели студента

Коля
Иннокентий


Заметим, что такой «поиск по значению» требует перебора всех записей в словаре и если словарь
большой, то он будет занимать много времени — хотя «поиск по ключу» будет по-прежнему
выполняться быстро. Кстати, можно быстро проверить, существует ли в словаре запись с данным
ключом:

In [None]:
"Коля" in gradebook # есть ли данный ключ в словаре

True

In [None]:
"Alice" in gradebook # есть ли данный ключ в словаре

False

Если бы мы хотели искать среди значений, то нужно было бы явно это указать с помощью метода
values() :


In [None]:
1 in gradebook.values() # есть ли данное значение в словаре

False

In [None]:
4 in gradebook.values() # есть ли данное значение в словаре

True

Вообще оператор in не ограничивается только использованием со словарями: он может
использоваться, например, со списками:


In [None]:
5 in [1,2,3,5,8] # есть ли данное значение в списке

True

In [None]:
6 in range(1,5) #  есть ли данное значение в области

False

__Создание словарей и функция zip()__

Есть разные способы создавать словари. Например, можно создать пустой словарь и постепенно
заполнять его элементами:

In [None]:
my_dict = {}

In [None]:
my_dict[1] = 1
my_dict['hello'] = 'world'

In [None]:
my_dict


{1: 1, 'hello': 'world'}

Заметим, что в одном и том же словаре прекрасно уживаются элементы разных типов (в данном
случае — строки и целые числа).

Можно создать словарь иначе, передав функции dict() список, состоящий из пар ключ-значение (в
некоторо смысл, это обратная операция методу items() ):

In [None]:
dict([('hello','world'), ('one', 'two')])

{'hello': 'world', 'one': 'two'}

Допустим, у нас есть два списка, в одном находятся имена студентов, а в другом их оценки. Как можно
из этих списков создать словарь, для которого имена были бы ключами, а оценки значениями?

А вот так:

In [None]:
students = ["Вася", "Коля", "Петя", "Аня"]
grades = [5, 4, 2, 3]
new_gradebook = list(zip(students,grades))
new_gradebook

[('Вася', 5), ('Коля', 4), ('Петя', 2), ('Аня', 3)]

Здесь используется удобная функция zip() , применение которой не ограничивается созданием
словарей. Подобно застёжки-молнии, она «состёгивает» (отсюда и название) несколько списков.
Например, zip() делает из пары списков список пар:

In [None]:
list(zip([1,2,3],['a','b','c']))


[(1, 'a'), (2, 'b'), (3, 'c')]

Эту конструкцию можно использовать, когда нам нужно перебрать элементы двух связанных между
собой списков. Например, вот так можно вывести информацию о том, какой студент какую оценку
имеет, не используя словари:


In [None]:
for student, grade in zip(students, grades):
 print(student, "has grade", grade)


Вася has grade 5
Коля has grade 4
Петя has grade 2
Аня has grade 3


Функцию zip() можно использовать и более чем с двумя списками:

In [None]:
list(zip([1,2,3,4], [5,6,7,8], ['a','b','c','d']))
# списка три, поэтому на выходе получится список из троек

[(1, 5, 'a'), (2, 6, 'b'), (3, 7, 'c'), (4, 8, 'd')]

Если какой-то из списков окажется короче, то zip() «обрежет» остальные списки:


In [None]:
list(zip([1,2,3], ['a','b']))


[(1, 'a'), (2, 'b')]

__Какие объекты могут быть ключами словарей__

До сих пор мы рассматривали словари, ключами которых являются строки и числа. На самом деле,
ключами могут быть и более сложно устроенные объекты. Например, представим себе такую
реализацию фрагмента таблицы сложения в виде словаря:

In [None]:
sums = {(2,3): 5, (4, 1): 5, (5, 7): 12}


In [None]:
sums

{(2, 3): 5, (4, 1): 5, (5, 7): 12}

Здесь ключами являются кортежи, состоящие из двух чисел, а значениями — суммы этих чисел.


In [None]:
sums[(2,3)]

5

In [None]:
sums[(4,1)]

5

In [None]:
sums[(5,7)]

12

В этом месте проявляется важное отличие кортежей от списков: последние не могут быть ключами
словарей, поскольку могут изменяться.


In [1]:
sums = { [1,2]: 3}

TypeError: unhashable type: 'list'

На этом мы закончим краткое введение в словари и перейдём к следующей теме.


__Списковые включения (list comprehensions)__

Мы ранее частенько сталкивались с такой задачей: дан список, в котором записаны числа, но в виде
строчек. Создать новый список, в котором числа были бы числами. Мы могли решить эту задачу с
помощью цикла:


In [None]:
str_list = ["1", "5", "12", "7"]
int_list = []
for s in str_list:
 int_list.append(int(s))

print(int_list)

[1, 5, 12, 7]


За создание нового списка отвечают три строчки. Писать их каждый раз довольно тоскливо, и
создатели Python придумали (точнее, заимствовали из функциональных языков программирования, а
те его заимствовали у математиков) гораздо более изящный синтаксис. Он устроен вот так:

In [None]:
int_list = [int(s) for s in str_list]

Кадратные скобки вокруг выражения должна подсказать, что мы создаём список (потому что когда
нужно создать список, мы обычно заключаем его элементы в квадратные скобки). Выражение внутри
скобок нужно читать буквально:

список, состоящий из элементов int(s) для ( for ) элементов s из ( in ) списка str_list

In [None]:
int_list

[1, 5, 12, 7]

Видите? Кавычки исчезли — перед нами список, состоящий из чисел. Магия! Исходный список
str_list при этом не изменился:


In [13]:
str_list

['1', '5', '12', '7']

Аналогично можно применять любую операцию к элементам списка. Например, возведём все
элементы из int_list в квадрат:

In [None]:
[x**2 for x in int_list]

[1, 25, 144, 49]

или удвоим все элементы списка:

In [None]:
double_list = [x*2 for x in int_list]

In [None]:
double_list

[2, 10, 24, 14]

или прибавим к ним 1:

In [None]:
[x+1 for x in int_list]

[2, 6, 13, 8]

или превратим их в числа с плавающей точкой:


In [None]:
[float(x) for x in int_list]

[1.0, 5.0, 12.0, 7.0]

Как видите, с элементами списков можно делать что угодно! Однако, это ещё не все. В синтаксисе
списочных включений можно производить фильтрацию. Например, нам нужны только те элементы,
которые больше 6. Мы можем их выбрать таким образом:

In [None]:
[x for x in int_list if x > 6]

[12, 7]

Когда мы пишем здесь x for x мы имеем в виду, что нужно просто подставить в новый список
элементы старого, ничего с ними не делая (только выбирая нужные). Но можно и как-то их
модифицировать:

In [None]:
[x**2 for x in int_list if x > 6]


[144, 49]

Решим теперь такую задачу: есть два списка с числами, а мы хотим найти их поэлементную сумму.


In [None]:
X = [2, 5, 8]
Y = [1, 3, 100]

Её можно решить таким образом (для перебора элементов двух списков одновременно используем
конструкцию zip() , обсуждавшуюся выше):


In [None]:
Z = []
for x, y in zip(X, Y):
 Z.append(x + y)
print(Z)

[3, 8, 108]


Но со списочными включениями тот же код выглядит гораздо симпатичнее:

In [None]:
[x + y for x, y in zip(X, Y)]

[3, 8, 108]

Кстати, можно использовать синтаксис, похожий на списочное включение, чтобы создавать словари:

In [None]:
squared = {i: i**2 for i in range(10)}
squared

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

__Функция map()__

У списочных включений есть аналог, который сейчас считается не слишком удобным, но иногда
встречается: функция map() .

In [14]:
str_list

['1', '5', '12', '7']

Вот так она решается с помощью map() :

In [15]:
int_list = list(map(int, str_list))

In [16]:
list(int_list)

[1, 5, 12, 7]

Функция map() принимает два аргумента. Первым аргументом она принимает функцию, после этого
она применяет эту функцию к каждому из элементов списка. В общем, записи вида list(map(int,
str_list)) и [int(x) for x in str_list] почти эквивалентны.

Когда действие, которое нужно применить, уже существует в виде функции (как в случае с int ), то
конструкция с map() выглядит даже более лаконичной, чем списочное включение. Но если нам
нужно сделать что-то менее тривиальное, списочные включения явно проще:

In [17]:
[int(x)+1 for x in str_list]

[2, 6, 13, 8]

Чтобы реализовать это с помощью map() , нужно объявить новую функцию, которая будет
возвращать значение выражения int(x)+1 и передать её map() .

In [18]:
def my_func(x):
 return int(x)+1


In [19]:
list(map(my_func,str_list))

[2, 6, 13, 8]

Для краткости можно использовать lambda -функции, но такой подход гораздо менее прозрачен, чем
списочные включения, и сейчас использовать его не рекомендуется.


__Два слова об эффективности__

Использовать списочные включения не только приятно, но и полезно: они работают эффективнее, чем
код с циклом.

In [20]:
from random import random
from math import sqrt
N = 10000
mylist = [random() for _ in range(N)]

In [21]:
%%timeit
newlist = []
for x in mylist:
 newlist.append(sqrt(x))

1.69 ms ± 47.3 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [22]:
%%timeit
newlist = [sqrt(x) for x in mylist]

1.49 ms ± 40.9 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
%%timeit
newlist = list(map(sqrt, mylist))

1.13 ms ± 53.8 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Как видно из этих данных (магическое слово %timeit позволяет измерить, сколько времени уходит
на какую-то операцию), списочные включения быстрее обычного цикла. map() работает примерно с
такой же скоростью, как и списочные включения (иногда чуть медленнее, иногда чуть быстрее).

__Сложные структуры данных__

Списки позволяет сохранить некоторый ряд значений, но зачастую нужно уметь работать с более
сложные структурами — например, с таблицами. В некоторых языках программирования есть
двумерные массивы. Аналогом двумерного массива в Python является «список списков», то есть такой
список, элементами которого являются другие списки. С чем-то подобным мы уже встречались.

Рассмотрим пример: таблица, в которой записаны результаты по нескольким домашним работам у
нескольких студентов. (Допустим, мы присвоили студентам некоторые номера и поэтому нам не нужно
знать, кого как зовут.) Её можно записать в виде списка списков, например, по строчкам:

In [24]:
table = [["HW1", "HW2", "HW3", "HW4"], [4, 3, 4, 4], [3, 4, 3, 4], [4, 5, 5, 4]]

Здесь каждый элемент списка table — это строчка нашей таблицы, то есть тоже список. Например,
вот так можно узнать, что записано в третьей строке и четвертом столбце нашей таблицы:

In [25]:
table[2][3]


4

Что здесь произошло? Мы сначала вызвали третью строку таблицы с помощью

In [26]:
table[2]

[3, 4, 3, 4]

А потом из этой третьей строки выбрали четвертый элемент с помощью [3] . Можно было бы
записать это более подробно:

In [27]:
row = table[2]
print(row[3])
# row[3] это то же самое, что table[2][3]


4


Вот так можно напечатать все элементы таблицы по строчкам:


In [28]:
for row in table:
 print(*row)

HW1 HW2 HW3 HW4
4 3 4 4
3 4 3 4
4 5 5 4


Допустим теперь, что нам всё же хочется знать, какой студент какую оценку получил. Тогда мы могли
бы вместо списка списков использовать словарь, у которого списки были бы значениями:

In [29]:
gradebook = {'Bill': [4, 3, 2], 'Alice': [3, 4, 5], 'Bob': [5, 5, 4]}

Вот так можно посмотреть, какую оценку получил Боб по второй домашке:

In [30]:
gradebook['Bob'][1]

5

На сегодня всё! :)

__Задачи к блокноту №5__

1. Создайте словарь с числами от 1 до 10, где ключами будут числа,
а значениями — квадраты этих чисел.

In [4]:
def createQuads():
    quadMap = {}
    for i in range(1, 11):
        quadMap[i] = i**2
    return quadMap

print(createQuads())

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81, 10: 100}


2. Дана строка «verification». Создайте словарь, где ключами будут
буквы строки, а значениями – количество вхождений каждой буквы «i» в
строку.

In [2]:
def whatAQuestion(string : str):
    quadMap = {}
    counter = 0
    for i in string:
        if i == 'i':
            counter += 1
        quadMap[i] = counter
    return quadMap

print(whatAQuestion("verification"))

{'v': 0, 'e': 0, 'r': 0, 'i': 3, 'f': 1, 'c': 2, 'a': 2, 't': 2, 'o': 3, 'n': 3}


3. Объедините два словаря в один (задания 1 и 2), используя
встроенные функции Python.

In [10]:
def unionThem(dict1, dict2):
    for k, i in dict2.items():
        dict1[k] = i
    return dict1

print(unionThem(whatAQuestion("verification"), createQuads()))

{'v': 0, 'e': 0, 'r': 0, 'i': 3, 'f': 1, 'c': 2, 'a': 2, 't': 2, 'o': 3, 'n': 3, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81, 10: 100}


4. Перемножьте все значения словаря (задания 1) и выведите
результат на экран

In [20]:
def multiplyThemAll(dictionary : dict):
    mult = 1
    for v in dictionary.values():
        mult *= v
    return mult

print(multiplyThemAll(createQuads()))

13168189440000


5. Создайте словарь с названиями месяцев и их порядковыми
номерами.

In [23]:
def createMonthDict():
    months = ["январь", "февраль", "март", "апрель", "май", "июнь", "июль", "август", "сентябрь", "октябрь", "ноябрь", "декабрь"]
    dictionary = dict(zip(months, range(1, 13)))
    return dictionary

print(createMonthDict())

{'январь': 1, 'февраль': 2, 'март': 3, 'апрель': 4, 'май': 5, 'июнь': 6, 'июль': 7, 'август': 8, 'сентябрь': 9, 'октябрь': 10, 'ноябрь': 11, 'декабрь': 12}


6. Создайте список квадратов чисел от 0 до 9 с использованием «list
comprehension».

In [25]:
print([x**2 for x in range(0, 10)])

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


7. Создайте словарь с наименованиями знаков зодиака и их
порядковыми номерами.

In [27]:
def zodiacSignsDict():
    zodiacs = ["Овен", "Телец", "Близнецы", "Рак", "Лев", "Дева", "Весы", "Скорпион", "Стрелец", "Козерог", "Водолей", "Рыбы", "Змееносец"]
    return dict(zip(zodiacs, [x for x in range(len(zodiacs))]))

print(zodiacSignsDict())

{'Овен': 0, 'Телец': 1, 'Близнецы': 2, 'Рак': 3, 'Лев': 4, 'Дева': 5, 'Весы': 6, 'Скорпион': 7, 'Стрелец': 8, 'Козерог': 9, 'Водолей': 10, 'Рыбы': 11, 'Змееносец': 12}


8. Создайте список заглавных букв из слова «Парашют», используя
«list comprehension»

In [29]:
def idkQuestionAgain(string : str):
    return [x for x in string.upper()]

print(idkQuestionAgain("Парашют"))

['П', 'А', 'Р', 'А', 'Ш', 'Ю', 'Т']


9. Сформируйте последовательность чисел на основе
предоставленного списка (список задать самостоятельно), удвоив числа
меньше 5 и отняв 2 от остальных.


In [30]:
from random import randint
def idkHowToNameIt(lst):
    return [[item * 2 if item < 5 else item - 2] for item in lst]

lst = [randint(-10, 10) for i in range(20)]
print(lst)
print(idkHowToNameIt(lst))

[10, 1, 0, 0, 2, 4, 7, -10, 8, -8, 4, 8, -6, 5, 8, -1, 7, -4, -7, 8]
[[8], [2], [0], [0], [4], [8], [5], [-20], [6], [-16], [8], [6], [-12], [3], [6], [-2], [5], [-8], [-14], [6]]


10. Создайте функцию, которая принимает массив чисел и возвращает
новый массив, где каждый элемент умножен на 2. Используйте функцию map
для выполнения этой операции.

In [31]:
def quadro(x : int):
    return x ** 2

lst = [randint(-10, 10) for i in range(20)]
print(lst)
list(map(quadro, lst))

[-6, -3, -6, 3, -9, 0, -9, 6, -3, 10, -3, -9, 1, 6, -7, -2, -2, 4, -7, 3]


[36, 9, 36, 9, 81, 0, 81, 36, 9, 100, 9, 81, 1, 36, 49, 4, 4, 16, 49, 9]