# Гарри Поттер и Последний Крестраж 

![cauldron](cauldron.png)

### Описание

Ваша задача - помочь неразлучной тройке расшифровать загадочное послание, оставленное на компьютере Артура Уизли. В каждой части послания зашифрован очередной кусочек информации о крестраже:
- где он находится
- как его уничтожить
- какая его форма

Если вы выполните задание на паре сегодня или на следующей, то у вас будет реальный шанс помочь в борьбе с Волан-Де-Мортом!

Все задания нужно решать в файле `potter.py`.

### CSV

Первая часть информации - о том, где можно найти крестраж, скрывается в файле формата `CSV`. Этот формат чаще всего используется для экспорта / импорта данных в базу данных или в Excel. Выглядят такие файлы следующим образом:
- на первой строке располагаются названия столбцов
- на последующих располагаются строки с данными таблицы
- значения разделены с помощью запятой
- если в значении есть какой-то зарезервированный символ (`,`, `"`, `;`, переход на следующую строку), то строка обрамляется в двойные кавычки

*Пример:* 

Для файла с заклинаниями:
```
Spell ID,Incantation,Spell Name,Effect,Light
1,Accio,Summoning Charm,Summons an object,
2,Aguamenti,Water-Making Spell,Conjures water,Icy blue
3,Alarte Ascendare,"Object goes up, into the air",Rockets target upward,Red
```

Таблица будет выглядеть:

| Spell ID | Incantation      | Spell Name                    | Effect                | Light    |
|----------|------------------|-------------------------------|-----------------------|----------|
| 1        | Accio            | Summoning Charm               | Summons an object     |          | 
| 2        | Aguamenti        | Water-Making Spell            | Conjures water        | Icy blue |  
| 3        | Alarte Ascendare | Object goes up, into the air  | Rockets target upward | Red      |


Обратите внимание:
- После последнего столбца запятая не ставится
- Если для какого-то столбца значение пустое, то запятую все равно поставить нужно (как в первом столбце, цвета заклинания нет, но запятая есть)
- Если в строке есть спецсимволы, то она должна быть в кавычках (как третья строка). Кавычки при рендеринге убираются

### CSV файлы в Python

В Python для работы с CSV файлами используется модуль [csv](https://docs.python.org/3/library/csv.html).  

Чтобы прочесть содержимое файла, можно воспользоваться `csv.DictReader()`. Туда можно передать аргумент `fieldnames` - список с названиями столбцов (если их не передать, то считаем, что они написаны в файле в первой строке).

*Пример:*

In [8]:
import csv

with open('spells.csv', newline='') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row['Incantation'])
        print(row['Effect'])

Accio
Summons an object
Aguamenti
Conjures water
Alarte Ascendare
Rockets target upward


Как вы могли заметить, в этом способе `row`, возвращаемый из `DictReader` при итерации, является словарем, в котором ключ - название столбца, а значение - значение этого столбца для текущей строки таблицы.  
Помимо этого, файлы можно читать с помощью `cvs.reader()`. В этом случае вместо словаря каждая строка файла будет представлена как список со значениями столбцов. Подробности можно прочесть в документации

Помимо чтения, можно еще данные в csv формате и записывать. Делается это с помощью `csv.writer` и `csv.DictWriter`. Давайте посмотрим, как работать с последним:  

In [9]:
import csv

with open('characters.csv', 'w') as f:
    writer = csv.DictWriter(f, fieldnames=['Id', 'Character', 'Age in first book'])
    writer.writeheader()
    writer.writerow({'Id': '1', 'Character': 'Harry', 'Age in first book': '11'})

### Задание

В файле `avito.csv` лежит набор данных об объявлениях с сайта авито за 2021 год.
Вам нужно написать функцию `find_place(filename)`, которая ищет записи с параметрами:
- город указан Новосибирск
- цена товара от 4 до 5 тысяч (включая товары за 4 и 5 тысяч)

*Здесь и далее `filename` - это параметр, через который передаем имя файла с данными, которые нужно обработать* 

Все найденные записи функция сохраняет в файл `where.csv`. При этом нужно сохранить не все столбцы, а только:
- price
- title

После того как вы найдете все такие записи, откройте созданный файл `where.csv`. Предмет, который продается в 10 записи (не считая название столбца) - это место, где нужно искать крестраж.

**Подсказки**

- Если у вас при открытии файла `avito.csv` питон падает и ругается на неправильную кодировку, то попробуйте в `open` передавать именованный параметр `encoding='utf-8'`
- Если у вас в `where.csv` при записи появляются лишние пустые строки между записями, то попробуйте в `open` передать именованные параметр `newline=''`

### XML

Теперь узнаем, что же нужно сделать с крестражем, когда мы его найдем.
Для этого изучим еще один популярный формат данных - XML.

XML файлы выглядят примерно так:
```xml
<books>
    <book title="sourcers stone">
        <chapters>
            <chapter>The Boy Who Lived</chapter>
            <chapter>The Vanishing Glass</chapter>
            <chapter>The Letters from No One</chapter>
            <chapter>The Keeper of the Keys</chapter>
            <chapter>Diagon Alley</chapter>
            <chapter>The Journey from Platform Nine and Three-quarters</chapter>
            <chapter>The Sorting Hat</chapter>
            <chapter>The Potions Master</chapter>
            <chapter>The Midnight Duel</chapter>
            <chapter>Halloween</chapter>
            <chapter>Quidditch</chapter>
            <chapter>The Mirror of Erised</chapter>
            <chapter>Nicolas Flamel</chapter>
            <chapter>Norbert The Norwegian Ridgeback</chapter>
            <chapter>The Forbidden Forest</chapter>
            <chapter>Through the Trapdoor</chapter>
            <chapter>The Man with Two Faces.</chapter>
        </chapters>
        <extra/>
    </book>
</books>
```

Он состоит из:
- тегов  
Тег - это все в угловых скобках (включая сами скобки). Бывает три вида тегов - открывающий (например, `<book>`), закрывающий (например, `</chapters>`) и пустой (`<extra/>`). У них внутри есть содержимое (кроме пустых тегов, например `<extra/>` эквивалентен `<extra></extra>`, просто короче)
- аттрибутов  
У тегов могут быть аттрибуты, последовательность пар ключ=значение. Например, у тега `book` есть аттрибут `title`, который в данном случае равен `sourcers stone`
- содержимого тегов  
Это то, что написано внутри тега. Например, для `<chapter>Nicolas Flamel</chapter>` содержимое - это `Nicolas Flamel`
- элементов  
Это тег + его содержимое. Например, есть элемент `<chapter>Diagon Alley</chapter>`

### XML файлы в Python

Для работы с XML файлами в Python есть модуль [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html#module-xml.etree.ElementTree)

Чтобы обойти файл можно воспользоваться функцией `iterparse`. В нее нужно передать два аргумента - файл, из которого читаем данные и то, какие события ожидаем. Файл читается инкрементально, поэтому в процессе чтения у вас функция будет возвращать пары `event` и `element`. Например:


In [10]:
import xml.etree.ElementTree as etree

it = iter(etree.iterparse("books.xml", events=["start", "end"])) # объект, который будет итеративно читать файл и возвращать нам информацию о прогрессе
_, root = next(it) # читаем только первую строку из файла. это будет начало самого верхнеуровнего элемента

for event, elem in it: # читаем все последующие
    print(f"event: {event}") # всегда start или end
    print(f"this event happened for element with tag: {elem.tag}")
    print('-' * 10)

event: start
this event happened for element with tag: book
----------
event: start
this event happened for element with tag: chapters
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with tag: chapter
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with tag: chapter
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with tag: chapter
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with tag: chapter
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with tag: chapter
----------
event: start
this event happened for element with tag: chapter
----------
event: end
this event happened for element with ta

Кроме того, при чтении нужно удалять уже прочитанную и обработанную информацию. Это нужно для того, чтобы у вас данные не засоряли оперативную память: ведь если данных будет слишком много, то память закончится и программа вылетит в самый неожиданный момент! Чтобы удалить уже прочитанную информацию, можно периодически вызывать в цикле `root.clear()`, чуть ниже будет пример

Чтобы делать что-то с найденными тегами, можно воспользоваться одной из следующих функций:
- `elem.iter('название тега')` - получить все вложенные теги с заданным именем (рекурсивно)
- `next(elem.iter('название тега')` - найти первый вложенный тег с заданным именем (рекурсивно)
- `elem.find('названи тега')` - найти вложенный тег с заданным именем (не рекурсивно)
- `elem.findall('названи тега')` - получать все вложенные теги с заданным именем (не рекурсивно)
- `elem.get('название атрибута')` - получить значение какого-то атрибута текущего тага
- `elem.text` - получить текст тега
- `elem.tag` - получить название тега

*Пример - делаем словарь, где ключ - название книги, а значение - количество глав:*

In [11]:
import xml.etree.ElementTree as etree

it = iter(etree.iterparse("books.xml", events=["start", "end"])) # объект, который будет итеративно читать файл и возвращать нам информацию о прогрессе
_, root = next(it) # читаем только первую строку из файла. это будет начало самого верхнеуровнего элемента

n_chapters = {}
clear_root = True
for event, elem in it: # читаем все последующие
    if elem.tag == 'book':
        if event == 'start':
            # мы только начали читать из файла информацию про очередную книгу
            # если мы будем в следующие разы вызывать root.clear(), то информация о ней будет удаляться каждый раз
            clear_root = False
        else:
            # сейчас event == 'end', значит, мы дочитали из файла информацию об очередной книге. можно очищать root, мы сейчас информацию о ней себе запишем
            clear_root = True
            title = elem.get('title') # берем название книги
            ch = 0
            # альтернативно можно было бы сделать len(elem.iter('chapters')), здесь цикл для примера обхода
            for chapter in elem.iter('chapter'): # используем iter, поскольку chapter вложен в chapters, то есть find их уже не найдет, глубоко 
                ch += 1
            n_chapters[title] = ch
    if clear_root:
        # удалить из оперативной памяти прочитанную информацию
        root.clear()

print(n_chapters)

{'sourcers stone': 17}


### Задание

В файле `opcorpora.xml` лежат размеченные тексты на русском, в формате xml. 
Ваша задача - написать функцию `find_method(filename)`, которая ищет в файле самый употребимый глагол. 
Будем считать, что глаголы только те слова в файле, которые помечены как `VERB`.
Функция должна возвращать форму глагола, которая лежит в теге `l`.

Найденный глагол и будет тем способом, которым можно уничтожить крестраж.

*Подсказка*:

У xml файла довольно сложная структура, рекомендуется:
- проверять события связанные с тегом `token`
- внутри него искать первый тег `g` (рекурсивно!)
- смотреть у этого тега атрибут `v` (часть речи)
- аналогично искать атрибут `l` и для него тег `t` (тоже рекурсивно!)
- не забудьте чистить корневой узел в нужные моменты

### JSON

Осталось совсем немного - давайте выясним, какую же форму принял крестраж!

Последний из форматов файлов, который нам осталось изучить - Json файлы. Разберем его на примере:
```
{
  "movies": [
  {
    "name": "Harry Potter and the Half-Blood Prince",
    "year_release": 2009,
    "main_actors": [{"name": "Daniel Radcliffe", "role": "Harry Potter"}, {"name": "Rupert Grint", "role": "Ron Weasly"}, {"name": "Emma Watson", "role": "Hermione Granger"}],
    "score": null,
    "liked": true
  },
  {
    "name": "Harry Potter and the Order of the Phoenix",
    "year_release": 2007,
    "main_actors": [{"name": "Daniel Radcliffe", "role": "Harry Potter"}, {"name": "Rupert Grint", "role": "Ron Weasly"}, {"name": "Emma Watson", "role": "Hermione Granger"}],
    "score": 5.0,
    "liked": true
  }
  ]
}
```

Как видите, в json все представлено в виде пар ключ-значение. Ключи могут быть:
- числами
- строками (в двойных кавычках)

Значения могут быть:
- строками
- числами (в том числе дробными)
- литералами `null`, `true`, `false`
- массивами
- объектами

Массив - это последовательность значений, заключенных в квадратные скобки и перечисленных через запятую (пример - `main_actors`)
Объект - это последовательность пар ключ-значение, перечисленных через запятую. Ключ и значение разделены двоеточием (пример - значения в массиве `movies`)

### Json файлы в Python

В Python, как это не удивительно, для работы с Json файлами используется модуль-библиотека [json](https://docs.python.org/3/library/json.html).

Для того чтобы считать json файл, достаточно воспользоваться функцией `json.load()`:
 

In [12]:
import json

with open('mdb.json') as f:
    movies = json.load(f)
    for movie in movies['movies']:
        print(movie['name'])

Harry Potter and the Half-Blood Prince
Harry Potter and the Order of the Phoenix


Чтобы записать в файл используется функция `json.dump()`:

In [13]:
with open('result.json', 'w') as f:
    students = [{"name": "Harry", "age": 11}, {"name": "Ron", "age": 11}, {"name": "Hermione", "age": 12}]
    json.dump(students, f, indent=2)

### Задание

В файле `movies.json` лежат диалоги из всех частей фильма о Гарри Поттере. Вам нужно написать функцию `find_item(filename)` в которой:
- найти сцены, в которых 1) есть Дамблдор 2) могут быть Гарри, Рон и Гермиона (в т.ч. по отдельности) 3) больше никого нет
- взять все слова из реплик Дамблдора (не забудьте привести их к нижнему регистру с помощью `lower()`). чтобы получить слова можно просто разбить его реплики по пробелам
- подсчитать, какое слово сколько раз встречается
- записать в файл `result.txt` топ-20 по встречаемости слов (каждое на новой строке)

19 слово в файле и будет той формой, которую обрел крестраж.

Для этой задачи вам будет удобно использовать `Counter` из модуля `collections`. Возможно, мы изучим его подробнее в дальнейших лабах, но пока что давайте посмотрим самый простой вариант, как его можно применить:


In [14]:
from collections import Counter

cnt = Counter()
words = "hello world hello"
more_words = "hi hello halo hi"
cnt.update(words.split(' ')) # запоминает слова и сколько раз каждое использовалось
cnt.update(more_words.split(' '))

print(cnt.most_common(2)) # печатает 2 самых используемых слова

[('hello', 3), ('hi', 2)]


### Результат

Итак, можно вас поздравить! Теперь у вас есть вся необходимая информация о том, как уничтожить крестраж!

Не медлите, сделайте это! Ну а после того, как насладитесь вкусом победы, можете отправить ваше гениальное решение - для этого нужно в файле `potter.py` удалить вызовы ваших функций и запушить его.