# Словари 3

_Dict comprehensions, сложные задачи_

#### Ответы на тест
* В каком порядке хранятся данные в множествах (до 3.7) - **Порядка нет, священный рандом**
* Соедините понятие и функцию - 
    * объединение - **Union**
    * пересечение - **Intersection**
    * вычитание - **-**
* Как вызвать библиотеку для работы с файлами json? - **import json**
* Общее количество медалей Бразилии - 
```python
from csv import DictReader
olympics = DictReader(open('olympics.csv'))
for country in olympics:
    if country['Country'] == 'Brazil (BRA)':
        print(country['Combined total'])
```
* Выведите все страны, у которых медалей за зимние игры больше, чем за летние
```python
from csv import DictReader
olympics = DictReader(open('olympics.csv'))
for country in olympics:
    if int(country['# Winter']) > int(country['# Summer']):
        print(country['Country'])
```
* Выведите все страны, у которых больше 50 медалей в сумме
```python
from csv import DictReader
olympics = DictReader(open('olympics.csv'))
for country in olympics:
    if int(country['Combined total']) > 50 and country['Country'] != 'Totals':
        print(country['Country'])
```

## Dict comprehensions

### Теория 

Сокращения словарей — один из способов сократить количество строк кода, когда нужно завести словарь динамически, основываясь на переборе элементов for-циклом.

**Было**

In [5]:
keys_list = ["key1", "key2", "key3"]
my_dict = {}
for item in keys_list:
    my_dict[item] = 0

In [6]:
my_dict

{'key1': 0, 'key2': 0, 'key3': 0}

**Стало**

In [7]:
keys_list = ["key1", "key2", "key3"]
my_dict = {key: 0 for key in keys_list}

In [8]:
my_dict

{'key1': 0, 'key2': 0, 'key3': 0}

In [9]:
keys_list = "key1"
my_dict = {key: 0 for key in keys_list}

In [10]:
my_dict

{'k': 0, 'e': 0, 'y': 0, '1': 0}

### Алгоритм

Как написать такое сокращение:

1. определяемся с переменной, откуда будем брать ключи (список, строка, etc.)
2. определяемся с тем, как будет выглядеть значение
3. укладываем в формулу: `{ключ: значение for ключ in переменная_с_ключами}`

### Практика

Следующие три цикла нужно свернуть в dict comprehension:

In [12]:
names = ["Аня", "Ваня", "Петя", "Соня"]
name_length = {}
for name in names:
    name_length[name] = len(name)

In [13]:
name_length

{'Аня': 3, 'Ваня': 4, 'Петя': 4, 'Соня': 4}

In [14]:
name_lens = {name: len(name) for name in names}
name_lens

{'Аня': 3, 'Ваня': 4, 'Петя': 4, 'Соня': 4}

In [16]:
name_length = {key: len(key) for key in names}
name_length

{'Аня': 3, 'Ваня': 4, 'Петя': 4, 'Соня': 4}

In [17]:
vowels = "аеёиоуэюя"
vowel_codes = {}
for vowel in vowels:
    vowel_codes[vowel] = ord(vowel)
vowel_codes

{'а': 1072,
 'е': 1077,
 'ё': 1105,
 'и': 1080,
 'о': 1086,
 'у': 1091,
 'э': 1101,
 'ю': 1102,
 'я': 1103}

In [18]:
vowels = "аеёиоуэюя"
vowel_codes = {vowel: ord(vowel) for vowel in vowels}

In [19]:
vowel_codes

{'а': 1072,
 'е': 1077,
 'ё': 1105,
 'и': 1080,
 'о': 1086,
 'у': 1091,
 'э': 1101,
 'ю': 1102,
 'я': 1103}

In [None]:
ord()

In [21]:
sentence = "Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему"
words = {}
for word in sentence.split():
    words[word] = 0
words

{'Все': 0,
 'счастливые': 0,
 'семьи': 0,
 'похожи': 0,
 'друг': 0,
 'на': 0,
 'друга,': 0,
 'каждая': 0,
 'несчастливая': 0,
 'семья': 0,
 'несчастлива': 0,
 'по-своему': 0}

In [23]:
sentence = "Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему"

words ={word: 0 for word in sentence.split()}
words

{'Все': 0,
 'счастливые': 0,
 'семьи': 0,
 'похожи': 0,
 'друг': 0,
 'на': 0,
 'друга,': 0,
 'каждая': 0,
 'несчастливая': 0,
 'семья': 0,
 'несчастлива': 0,
 'по-своему': 0}

Следующие три сокращения нужно развернуть в циклы:

In [25]:
greetings = ["hello", "hi", "hello", "today", "morning", "again", "hello"]
greetings_reversed = {greet: greet[::-1] for greet in greetings}
greetings_reversed

{'hello': 'olleh',
 'hi': 'ih',
 'today': 'yadot',
 'morning': 'gninrom',
 'again': 'niaga'}

In [26]:
greetings = ["hello", "hi", "hello", "today", "morning", "again", "hello"]
greetings_reversed = {}
for greet in greetings:
    greetings_reversed[greet] = greet[::-1]
greetings_reversed

{'hello': 'olleh',
 'hi': 'ih',
 'today': 'yadot',
 'morning': 'gninrom',
 'again': 'niaga'}

In [29]:
hashes = {number: hash(number)^2 for number in range(10)}

In [30]:
hashes

{0: 2, 1: 3, 2: 0, 3: 1, 4: 6, 5: 7, 6: 4, 7: 5, 8: 10, 9: 11}

In [31]:
nums = list(range(10))
hashes = {}
for num in nums:
    hashes[num] = hash(num)^2
hashes

{0: 2, 1: 3, 2: 0, 3: 1, 4: 6, 5: 7, 6: 4, 7: 5, 8: 10, 9: 11}

In [35]:
hash()

17

In [38]:
hashes = {}
for i in range(10):
    hashes[i] = hash(i)**2

In [39]:
from random import choice
grades = {surname: choice(list(range(1,11))) for surname in ["Студент1", "Студент2", "Студент3"]}

In [40]:
grades

{'Студент1': 6, 'Студент2': 5, 'Студент3': 2}

In [41]:
from random import choice
grades = {}
for surname in ["Студент1", "Студент2", "Студент3"]:
    grades[surname] = choice(list(range(1,11)))

In [42]:
grades

{'Студент1': 1, 'Студент2': 2, 'Студент3': 3}

## Соединяем словари и другие структуры: задачи

### Задача полегче

Возьмите текст Франкенштейна по ссылке: https://gutenberg.org/files/84/84-0.txt

Для каждого уникального слова в тексте составьте список слов-«соседей» — то есть слов слева и справа от заданного. Получившийся список отсортируйте в лексикографическом порядке и оставьте первые 5 слов.

In [62]:
with open("frankenstein.txt", "r", encoding="utf-8-sig") as src:
    frankenstein = src.read()
    
frank_words = frankenstein.lower().split()
neigh = {}
for i, word in enumerate(frank_words):
    existing_neighbours = neigh.get(word, [])
    if i-1 > 0:
        existing_neighbours.append(frank_words[i-1])
    if i+1 < len(frank_words):
        existing_neighbours.append(frank_words[i+1])
    neigh[word] = existing_neighbours

# your code here

In [63]:
for key in neigh:
    neigh[key] = sorted(neigh[key])[:5]

In [64]:
neigh

{'the': ['"right', '(as', '1.c.', '1.d.', '1.e.1.'],
 'project': ['1.f.1.', 'a', 'a', 'a', 'a'],
 'gutenberg': ['are', 'ebook', 'ebook', 'ebook', 'ebooks'],
 'ebook': ['for', 'frankenstein', 'frankenstein', 'gutenberg', 'gutenberg'],
 'of': ['"right', '20%', '20%', '27th', '_paradise'],
 'frankenstein,': ['be', 'by', 'dear', 'heard!', 'i'],
 'by': ['(or', '1.a.', '_ennui_,', 'a', 'a'],
 'mary': ['author:', 'by', 'by', 'wollstonecraft', 'wollstonecraft'],
 'wollstonecraft': ['(godwin)', '(godwin)', '(godwin)', 'mary', 'mary'],
 '(godwin)': ['shelley',
  'shelley',
  'shelley',
  'wollstonecraft',
  'wollstonecraft'],
 'shelley': ['(godwin)', '(godwin)', '(godwin)', 'contents', 'release'],
 'this': ['*****', '*****', '1.f.3,', '17—”', 'a'],
 'is': ['64-6221541.', 'a', 'a', 'a', 'a'],
 'for': ['a', 'a', 'a', 'a', 'a'],
 'use': ['all', 'already', 'and', 'and', 'for'],
 'anyone': ['anywhere', 'anywhere', 'except', 'foundation,', 'if'],
 'anywhere': ['anyone', 'anyone', 'in', 'in'],
 'in': [

In [55]:
with open('frankenstein.txt', encoding='utf-8') as file:
    words = file.read().split()
    
neigh = {}
for i, word in enumerate(words):
    if word not in neigh.keys():
        neigh[word] = []
    if i - 1 > 0:
        neigh[word].append(words[i - 1])
    if i + 1 < len(words):
        neigh[word].append(words[i + 1])

### Задача посложнее

У вас есть файл с разметкой «Горя от ума» Грибоедова: https://shorturl.at/quDLT

Значения в нём разделены запятыми и идут в таком порядке:

* `play` — название пьесы
* `line` — текст строки
* `line lemmas` — лемматизированный текст строки
* `line type` — речь персонажа (spoken) или авторская ремарка (stage)
* `RuSentiLex`, `EmoLex`, `LinisCrowd`, `ChenSkiena`, `ProductSentiRus`, `SentiRusColl`, `Eduard` — оценка эмоциональности строки по мнению того или иного словаря эмоциональной лексики

Считайте его (при помощи `DictReader`-а). Соберите список лемматизированных строк, у которых не менее четырёх словарей сошлись в оценке (имеют одинаковую оценку), а затем составьте частотный словарь из этих строк.

In [1]:
import csv

In [4]:
gore_lines = csv.DictReader(open("gore_out_uma_by_line.csv"))

# your code here

In [66]:
from csv import DictReader
 
lines = DictReader(open('gore_out_uma_by_line.csv', encoding='utf-8'))
correctlines = []
for line in lines:
    ratings = {}
    for rating in [line[src] for src in ['RuSentiLex', 'EmoLex', 'LinisCrowd', 'ChenSkiena', 'ProductSentiRus', 'SentiRusColl', 'Eduard']]:
        if rating not in ratings.keys():
            ratings[rating] = 1
        else:
            ratings[rating] += 1
 
    if max(ratings.values()) >= 4:
        correctlines.append(line['line lemmas'])

freqlist = {}
for line in correctlines:
    for word in line.split():
        if word not in freqlist:
            freqlist[word] = 1
        else:
            freqlist[word] += 1
#freqlist.get(word,0)+1
freqlist

{'светать': 1,
 'ах': 48,
 'как': 109,
 'скоро': 16,
 'ночь': 15,
 'минуть': 1,
 'вчера': 4,
 'проситься': 1,
 'спать': 7,
 'отказ': 1,
 'ждать': 11,
 'друг': 24,
 'нужный': 3,
 'глаз': 14,
 'да': 66,
 'не': 312,
 'покудова': 1,
 'скатиться': 1,
 'со': 16,
 'стул': 3,
 'теперь': 27,
 'вот': 71,
 'только': 20,
 'что': 184,
 'вздремнуть': 1,
 'уж': 32,
 'день': 21,
 'сказать': 48,
 'они': 52,
 'господин': 3,
 'эй': 4,
 'софья': 19,
 'павловна': 10,
 'беда': 11,
 'зайти': 5,
 'беседа': 1,
 'ваш': 35,
 'за': 54,
 'вы': 212,
 'глухой': 3,
 'алексей': 4,
 'степаныч': 3,
 'сударыня': 8,
 'и': 367,
 'страх': 10,
 'их': 9,
 'брать': 5,
 'ну': 32,
 'гость': 4,
 'неприглашенный': 1,
 'быть': 122,
 'мочь': 33,
 'батюшка': 22,
 'входить': 4,
 'просить': 16,
 'служить': 11,
 'у': 46,
 'барышня': 9,
 'влюблять': 2,
 'расходиться': 2,
 'утро': 4,
 'с': 157,
 'который': 20,
 'час': 19,
 'все': 85,
 'в': 286,
 'дом': 13,
 'подниматься': 3,
 'седьмой': 1,
 'осьмой': 1,
 'девятый': 2,
 'неправда': 1,
 'ам

In [None]:
assessm = [line['RuSentiLex'], line['EmoLex'], line['LinisCrowd'], line['ChenSkiena'], line['ProductSentiRus'], line['SentiRusColl'], line['Eduard']]
if assessm.count('-1') >=4 or assessm.count('0') >=4 or assessm.count('1') >=4

### ОС - <a href = 'https://clck.ru/at35Y'>clck.ru/at35Y</a>

