## Словари

Словарь (dictionary) — **неупорядоченная** структура данных для хранения пар $<\textit{ключ},\ \textit{значение}>$ 


*словари упорядочены в python 3.7 и новее. сегодня будем игнорировать это.*



### Примеры заведения словарей

**NB!** в словаре **ключом не может быть изменяемый** элемент. 

Список (`list`), например, не может быть ключом.

Некоторые неизменяемые типы: `str`, `int`, `tuple`.

In [1]:
# Ключ: значение
mendeleev_table = {
    "кислород": "O",
    "гелий": "He",
    "дубний": "Db",
    "золото": "Au"
}

gradebook = {
    "Английский": 5,
    "Физическая культура": 4,
    "Алгебра": "отлично",
    "Геометрия": None
}

empty_dict = {}  # пустой словарь

# функция dict() тоже используется для конструирования словарей
# dict() словарей -- это аналог list() списков
empty_dict2 = dict()

print(mendeleev_table)
print(gradebook)
print(empty_dict)
print(empty_dict2)

{'кислород': 'O', 'гелий': 'He', 'дубний': 'Db', 'золото': 'Au'}
{'Английский': 5, 'Физическая культура': 4, 'Алгебра': 'отлично', 'Геометрия': None}
{}
{}


### Доступ к элементам словаря

Осуществляется примерно как доступ к элементам списка. Отличие - при вызове несуществующего элемента мы создадим пару, а при замене существующего - перепишем значение


In [2]:
mendeleev_table = {
    "кислород": "O",
    "золото": "Au"
}

print(mendeleev_table["золото"])

Au


In [3]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au'}

In [4]:
mendeleev_table["висмут"] = "Bm"  # добавит в словарь новую пару "висмут": "Bi"
print(mendeleev_table["висмут"])

Bm


In [5]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au', 'висмут': 'Bm'}

In [6]:
mendeleev_table["висмут"] = "Bi"
print(mendeleev_table["висмут"])

Bi


In [7]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au', 'висмут': 'Bi'}

In [12]:
mendeleev_table['золото']

'Au'

#### Либо давайте удалим неправильное значение 

In [13]:
mendeleev_table["бронза"] = "Br"

In [14]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au', 'висмут': 'Bi', 'бронза': 'Br'}

In [15]:
qq = mendeleev_table.pop('бронза')

In [17]:
qq

'Br'

In [16]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au', 'висмут': 'Bi'}

In [18]:
mendeleev_table['металлы'] = 'Au'

In [20]:
mendeleev_table['металлы'] = ['Au', 'Ag']

In [21]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au', 'висмут': 'Bi', 'металлы': ['Au', 'Ag']}

### Словарь &mdash; **неупорядоченная** коллекция.

* Неизвестно, в каком порядке расположены элементы
* Элементы не расположены ни в каком порядке
* **Срезы** (`smth[2:7]`) **не сработают**

In [22]:
mendeleev_table.keys()

dict_keys(['кислород', 'золото', 'висмут', 'металлы'])

### Обновление словаря

Добавить к словарю содержимое другого словаря можно с помощью метода `.update()`

In [23]:
mendeleev_table = {
    "кислород": "O",
    "золото": "Au"
}

rare_earth_metals = {"скандий": "СК", "иттрий": "И", "лантан": "La"}
mendeleev_table.update(rare_earth_metals)
print(mendeleev_table)



{'кислород': 'O', 'золото': 'Au', 'скандий': 'СК', 'иттрий': 'И', 'лантан': 'La'}


In [24]:
mendeleev_table.update({"скандий": "Sc", "иттрий": "Y"})
print(mendeleev_table)

{'кислород': 'O', 'золото': 'Au', 'скандий': 'Sc', 'иттрий': 'Y', 'лантан': 'La'}


### Итерирование по словарям

Итерироваться можно по
* ключам словаря `for elem_key in my_dict.keys():`     
  * `for elem_key in my_dict` -- сокращение для `for elem_key in my_dict.keys()`

* значениям словаря `for elem_key in my_dict.values():`
* парам $<\textit{ключ},\ \textit{значение}>$ из словаря `for elem_key in my_dict.items():`


In [25]:
mendeleev_table = {
    "кислород": "O",
    "золото": "Au"
}

# итерируемся по ключам
for key_mendeley in mendeleev_table.keys():
    print(key_mendeley, end='\t')
print("\n***")

# итерируемся по значениям
for mendelee_v in mendeleev_table.values():
    print(mendelee_v, end='\t')
print("\n***")

# итерируемся по парам <ключ, значение>
for mendeleev_table_entry in mendeleev_table.items():
    print(mendeleev_table_entry, end='\t')

кислород	золото	
***
O	Au	
***
('кислород', 'O')	('золото', 'Au')	

#### Ключи, значения и пары не сработают как списки.

* Так `my_dict.keys()[2]` нельзя
* Так `my_dict.values()[2]` нельзя
* Так `my_dict.items()[2]` нельзя

Лечится так: `list(my_dict.values())[2]`

In [30]:
list(mendeleev_table.keys())[1]

'золото'

In [31]:
list({"кислород": "O",
      "золото": "Au"}.items()
    )[1]

('золото', 'Au')

#### Можем также проверить есть ли вхождение элемента в словарь

In [32]:
mendeleev_table

{'кислород': 'O', 'золото': 'Au'}

In [33]:
'кислород' in mendeleev_table

True

In [34]:
'водород' in mendeleev_table

False

In [38]:
mendeleev_table.values()

dict_values(['O', 'Au'])

In [39]:
'O' in mendeleev_table.values()

True

In [37]:
'Z' in mendeleev_table.values()

False

#### О порядке

Порядок, в котором будут выдаваться ключи или значения словаря, может изменяться в разных версиях Python или (в Python < 3.7) вообще случайно.


Бывает полезно получать элементы словаря, упорядоченные по ключу или значению. Это можно сделать с помощью встроенной функции `sorted()`:

In [40]:
dic = {5: 'пять', 2: 'два', 1: 'один', 3: 'три', 4: 'четыре'}
for k in sorted(dic):
    # печатает пару ключ-значение, ключи упорядочены
	print(k, dic[k], end='\t')

print("\n***")

for v in sorted(dic.values()):
    print(v, end='\t')

1 один	2 два	3 три	4 четыре	5 пять	
***
два	один	пять	три	четыре	

Почему получился разный порядок?

### Пример: частотный анализ (курильщика)



Напишем простую функцию, которой передается список слов, а она возвращает словарь с парами слово—абсолютная частота его встречаемости.

In [46]:
def word_freqs(words):
    """Возвращает словарь {слово: абсолютная частота встречаемости} на основе списка слов words"""
    freq = {}  # создаем пустой словарь
    for word in words:
       if word.lower() in freq:  # если слово уже входит в словарь, то увеличим соответствующую частоту
           freq[word.lower()] += 1
       else:  # если не входит, то создадим новую запись в словарь
           freq[word.lower()] = 1
    return freq

Скачаем файл произведения "Капитанская дочка"

https://clck.ru/anQtn

In [47]:
captain_daughter_text = ''
with open("captain_daughter (1).txt") as c_daughter_f:
    for line in c_daughter_f:
        captain_daughter_text += ' '+line.strip()

print(captain_daughter_text)

  РВБ  XVIII в. XIX в. XX в.  А. С. Пушкин Собр. соч. в 10 тт. Т. 5 Капитанская дочка  КАПИТАНСКАЯ ДОЧКА Береги честь смолоду. Пословица. Глава I СЕРЖАНТ ГВАРДИИ — Был бы гвардии он завтра ж капитан. — Того не надобно; пусть в армии послужит. — Изрядно сказано! пускай его потужит... . . . . . . . . . . . . . . . . . . . . . . . . . . . . Да кто его отец? Княжнин.  Отец мой Андрей Петрович Гринев в молодости своей служил при графе Минихе и вышел в отставку премьер-майором в 17.. году. С тех пор жил он в своей Симбирской деревне, где и женился на девице Авдотье Васильевне Ю., дочери бедного тамошнего дворянина. Нас было девять человек детей. Все мои братья и сестры умерли во младенчестве.  Матушка была еще мною брюхата, как уже я был записан в Семеновский полк сержантом, по милости майора гвардии князя Б., близкого нашего родственника. Если бы паче всякого чаяния матушка родила дочь, то батюшка объявил бы куда следовало о смерти неявившегося сержанта, и дело тем бы и кончилось. Я считалс

In [49]:
captain_daughter_words = []
for word in captain_daughter_text.split():
    captain_daughter_words.append(word)

captain_daughter_word_freqs = word_freqs(captain_daughter_words)

In [50]:
print(captain_daughter_word_freqs)

{'рвб': 1, 'xviii': 1, 'в.': 3, 'xix': 1, 'xx': 1, 'а.': 5, 'с.': 2, 'пушкин': 1, 'собр.': 1, 'соч.': 1, 'в': 764, '10': 2, 'тт.': 1, 'т.': 2, '5': 1, 'капитанская': 4, 'дочка': 2, 'береги': 2, 'честь': 4, 'смолоду.': 1, 'пословица.': 3, 'глава': 16, 'i': 1, 'сержант': 2, 'гвардии': 8, '—': 1072, 'был': 141, 'бы': 70, 'он': 245, 'завтра': 6, 'ж': 20, 'капитан.': 1, 'того': 21, 'не': 627, 'надобно;': 1, 'пусть': 3, 'армии': 2, 'послужит.': 1, 'изрядно': 1, 'сказано!': 1, 'пускай': 3, 'его': 231, 'потужит...': 1, '.': 29, 'да': 126, 'кто': 29, 'отец?': 1, 'княжнин.': 3, 'отец': 21, 'мой': 57, 'андрей': 7, 'петрович': 3, 'гринев': 13, 'молодости': 2, 'своей': 18, 'служил': 2, 'при': 39, 'графе': 1, 'минихе': 1, 'и': 1254, 'вышел': 16, 'отставку': 1, 'премьер-майором': 1, '17..': 1, 'году.': 3, 'с': 453, 'тех': 4, 'пор': 5, 'жил': 2, 'симбирской': 2, 'деревне,': 1, 'где': 40, 'женился': 3, 'на': 476, 'девице': 1, 'авдотье': 1, 'васильевне': 1, 'ю.,': 1, 'дочери': 4, 'бедного': 7, 'тамошнег

Посмотрим на первые пять частотных токенов в Капитанской дочке

In [55]:
list(sorted(captain_daughter_word_freqs.items(), 
                  reverse=True, 
                  key=take_first_elem))[:5]

[('и', 1254), ('—', 1072), ('я', 775), ('в', 764), ('не', 627)]

In [51]:
def take_first_elem(seq):
    return seq[1]

print(list(sorted(captain_daughter_word_freqs.items(), 
                  reverse=True, 
                  key=take_first_elem)
          )[0:5])

[('и', 1254), ('—', 1072), ('я', 775), ('в', 764), ('не', 627)]


# Задача

Скачайте данные World Bank c описанием стран мира - https://clck.ru/anRUo

1. Питоном откройте файл json с ней (file=open(filename))
2. Получите словарь из файла (import json; countries_dict=json.load(file))
3. Поймите, что в этом словаре бывает: какие ключи, какие подсловари
4. Посчитайте количество стран по регионам (в результате тоже получится словарь)

In [56]:
import json
file = open('countries.json')
countries_dict = json.load(file)

In [61]:
c_d = {}
for i in countries_dict[1]:
    country_name = i['name']
    c_d[country_name] = i

In [72]:
c_d['Aruba']['region']['id']

'LCN'

In [80]:
for i in c_d:
    print(i)

Aruba
Africa Eastern and Southern
Afghanistan
Africa
Africa Western and Central
Angola
Albania
Andorra
Arab World
United Arab Emirates
Argentina
Armenia
American Samoa
Antigua and Barbuda
Australia
Austria
Azerbaijan
Burundi
East Asia & Pacific (IBRD-only countries)
Europe & Central Asia (IBRD-only countries)
Belgium
Benin
Burkina Faso
Bangladesh
Bulgaria
IBRD countries classified as high income
Bahrain
Bahamas, The
Bosnia and Herzegovina
Latin America & the Caribbean (IBRD-only countries)
Belarus
Belize
Middle East & North Africa (IBRD-only countries)
Bermuda
Bolivia
Brazil
Barbados
Brunei Darussalam
Sub-Saharan Africa (IBRD-only countries)
Bhutan
Botswana
Sub-Saharan Africa (IFC classification)
Central African Republic
Canada
East Asia and the Pacific (IFC classification)
Central Europe and the Baltics
Europe and Central Asia (IFC classification)
Switzerland
Channel Islands
Chile
China
Cote d'Ivoire
Latin America and the Caribbean (IFC classification)
Middle East and North Africa (IF

In [81]:
for i in c_d.values():
    print(i)

{'id': 'ABW', 'iso2Code': 'AW', 'name': 'Aruba', 'region': {'id': 'LCN', 'iso2code': 'ZJ', 'value': 'Latin America & Caribbean '}, 'adminregion': {'id': '', 'iso2code': '', 'value': ''}, 'incomeLevel': {'id': 'HIC', 'iso2code': 'XD', 'value': 'High income'}, 'lendingType': {'id': 'LNX', 'iso2code': 'XX', 'value': 'Not classified'}, 'capitalCity': 'Oranjestad', 'longitude': '-70.0167', 'latitude': '12.5167'}
{'id': 'AFE', 'iso2Code': 'ZH', 'name': 'Africa Eastern and Southern', 'region': {'id': 'NA', 'iso2code': 'NA', 'value': 'Aggregates'}, 'adminregion': {'id': '', 'iso2code': '', 'value': ''}, 'incomeLevel': {'id': 'NA', 'iso2code': 'NA', 'value': 'Aggregates'}, 'lendingType': {'id': '', 'iso2code': '', 'value': 'Aggregates'}, 'capitalCity': '', 'longitude': '', 'latitude': ''}
{'id': 'AFG', 'iso2Code': 'AF', 'name': 'Afghanistan', 'region': {'id': 'SAS', 'iso2code': '8S', 'value': 'South Asia'}, 'adminregion': {'id': 'SAS', 'iso2code': '8S', 'value': 'South Asia'}, 'incomeLevel': {'

In [78]:
regions = {}
for country in c_d.values():
    if country['region']['id'] in regions.keys():
        regions[country['region']['id']] += 1
    else:
        regions[country['region']['id']] = 1

print(regions)

{'LCN': 42, 'NA': 81, 'SAS': 8, 'SSF': 48, 'ECS': 58, 'MEA': 21, 'EAS': 38, 'NAC': 3}


In [73]:
import json

with open('countries.json', 'r', encoding='utf-8') as file:
    list = json.load(file)
regions = {}
list = list[1]
for i in list:  
    if i['region']['value'] in regions:      
        regions[i['region']['value']] += 1    
    else:        
        regions[i['region']['value']] = 1
print(regions)

{'Latin America & Caribbean ': 42, 'Aggregates': 81, 'South Asia': 8, 'Sub-Saharan Africa ': 48, 'Europe & Central Asia': 58, 'Middle East & North Africa': 21, 'East Asia & Pacific': 38, 'North America': 3}


In [74]:
'Latin America & Caribbean ' in regions

True

##  Функции dir() и help()


In [82]:
my_dict = {1:2, 3:4}

# забыл, что вообще с этими словарями можно делать
my_dict_methods = dir(my_dict)  # даст мне список всех методов моего словаря
print(my_dict_methods)

['__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']


In [83]:
my_dict.values()

dict_values([2, 4])

In [86]:
my_dict.items()

dict_items([(1, 2), (3, 4)])

In [84]:
my_dict.get(1)

2

In [85]:
help(my_dict.items)  # напечатает подсказку про интересный мне метод словаря

Help on built-in function items:

items(...) method of builtins.dict instance
    D.items() -> a set-like object providing a view on D's items



In [87]:
help(word_freqs)

Help on function word_freqs in module __main__:

word_freqs(words)
    Возвращает словарь {слово: абсолютная частота встречаемости} на основе списка слов words



In [88]:
help(my_dict)  # напечатает общую подсказку про мой словарь

Help on dict object:

class dict(object)
 |  dict() -> new empty dictionary
 |  dict(mapping) -> new dictionary initialized from a mapping object's
 |      (key, value) pairs
 |  dict(iterable) -> new dictionary initialized as if via:
 |      d = {}
 |      for k, v in iterable:
 |          d[k] = v
 |  dict(**kwargs) -> new dictionary initialized with the name=value pairs
 |      in the keyword argument list.  For example:  dict(one=1, two=2)
 |  
 |  Built-in subclasses:
 |      StgDict
 |  
 |  Methods defined here:
 |  
 |  __contains__(self, key, /)
 |      True if the dictionary has the specified key, else False.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>va