# Собери корпус из газет

## Про проект
Итак, уже скоро мы завершаем марафон "Собери корпус из газет". Через 2 недели, 7-го октября (в 23:59), в репозитории должен лежать готовый код, который умеет делать всё, что перечислено ниже, а также в файле Readme.md в папке с проектом должна находиться ссылка на скачанные и обработанные файлы вашей газеты, лежащие **одним архивом** на Яндекс.Диске, Google Drive, Облаке@Мэйл.ру или на чём угодно подобном (но, пожалуйста, не надо заливать эти архивы на гитхаб).

При этом 

1. Общий объём скачанных текстов должен быть не меньше 100 тыс. слов. 
2. В именах файлов не должно быть не-ascii символов (убираем их из url - [stackoverflow](https://stackoverflow.com/questions/4389572/how-to-fetch-a-non-ascii-url-with-python-urlopen)).
3. Структура каталогов, в которых хранятся файлы, должна быть следующей: корень/год/месяц/файлы с материалами за этот месяц
4. В корне также должна лежать csv-таблица с такими полями (разделитель - знак табуляции):

In [None]:
path	author	sex	birthday	header	created	sphere	genre_fi	type	topic	chronotop	style	audience_age	audience_level	audience_size	source	publication	publisher	publ_year	medium	country	region	language

Имена полей означают следующее:

**path** -- это путь к чистому неразмеченному файлу со статьёй, <br>
**author** -- имя автора, если его можно достать со страницы (и вообще если оно есть),<br>
**sex** -- поле оставить пустым,<br>
**birthday** -- оставить пустым<br>
**header** -- название статьи<br>
**created** -- дата в формате 07.01.2012 (день.месяц.год)<br>
**sphere** -- слово "публицистика"<br>
**genre_fi** -- оставить пустым<br>
**type** -- оставить пустым<br>
**topic** -- категория, если мы её можем найти на странице со статьёй<br>
**chronotop** -- оставить пустым<br>
**style** -- слово "нейтральный"<br>
**audience_age** -- слово "н-возраст"<br>
**audience_level** -- слово "н-уровень"<br>
**audience_size** -- "районная", если газета районная, "республиканская", если газета республиканская, "городская" -- если городская<br>
**source** -- URL, откуда статья была скачана<br>
**publication** -- название газеты<br>
**publisher** -- оставить пустой<br>
**publ_year** -- год публикации<br>
**medium** -- слово "газета"<br>
**country** -- слово "Россия"<br>
**region** -- Название региона, откуда ваша газета<br>
**language** -- слово "ru"<br>

Таким образом, со страницы со статьей нужно еще извлечь, если возможно, имя автора, дату публикации, название публикации, приписанные категории.

Кроме того, коллекция текстов с сайта газеты должна быть представлена в трёх видах (каждый вид в отдельной папке):

1. Неразмеченный текст. 

    В нём перед текстом должны быть такие строки (после собаки и примыкающего к ней слова через пробел нужно написать релевантную информацию):

    @au имя автора (если автора нет, пишем Noname)<br>
    @ti Название статьи<br>
    @da дата в формате 12.02.2012<br>
    @topic категория, если мы её можем найти на странице со статьёй<br>
    @url URL, откуда мы скачали страницу<br><br>

2. Размеченный mystem текст в формате XML

3. Размеченный mystem текст в формате plain text


Соответственно, сама программа (в одном или в нескольких файлах) должна уметь:

1. Скачивать страницы с выбранного сайта, обходя его по принципу краулера. При этом программа не должна заходить на одни и те же страницы несколько раз.
2. Извлекать со страниц информацию для метатаблицы (если она доступна) и сам текст.
3. Раскладывать скачанные тексты по папкам.
4. Вызывать mystem и делать морфологическую разметку текста (таким образом, чтобы каждому слову была присвоена информация о лемме и грамматическая информация с учётом контекстно снятой омонимии).


## Про каталог еще раз

Каталог должен выглядеть вот так:

In [None]:
📂газета
|
|____ metadata.csv
|
|____📂plain
|    |
|    |____📂2016
|    |    |
|    |    |____📂1
|    |    |    |
|    |    |    |____ статья1.txt
|    |    |    |
|    |    |    |____ статья2.txt
|    |    |
|    |    |____📁2
|    |
|    |____📁2015
|
|____📂mystem-xml<br>
|    |
|    |____📂2016
|    |    |
|    |    |____📂1
|    |    |    |
|    |    |    |____ статья1.xml
|    |    |    |
|    |    |    |____ статья2.xml
|    |    |
|    |    |____📁2
|    |
|    |____📁2015
|
|____📂mystem-plain
     |
     |____📂2016
     |    |
     |    |____📂1
     |    |    |
     |    |    |____ статья1.txt
     |    |    |
     |    |    |____ статья2.txt
     |    |
     |    |____📁2
     |
     |____📁2015

## Про устройство программы

Подумаем, как может быть устроена ваша программа.

**Путь первый** 

Для каждой задачи написать отдельную функцию. Написать главную функцию, которая запускает программу.


**Путь второй**

Можно для каждой логической группы функций создать отдельный файл, например, файл для функций, работающих с майстемом, файл для функций, выкачивающих газетные страницы и т.д. Создать главный файл, в котором прописана основная логика программы. В этот главный файл импортируются все остальные функции.


## Про папки

Вспомним, как на питоне работать с папками. Для этого используется модуль `os`.

Создать папку:  `os.mkdir(dirname)` или `os.makedirs(dirname)`. `mkdir` создает директорию и вызывает ошибку, если она существует. `makedirs` создает директории и все несуществующие директории в указанном пути (например, если в `dirname` указан путь `./dir1/dir2/dir3`, и при этом dir1 и dir2 не существуют, то функция их создаст).
    
Проверить, существует ли папка: `os.path.exists(dirname)` (возвращает `True` или `False`).
Пройтись по каталогу: `os.walk(dirname)`.

Вот такой маленький сниппет, возможно, вам пригодится:

In [None]:
import os

if not os.path.exists(directory):
    os.makedirs(directory)

## Как просто вставить куски строки в шаблон

Для такого форматирования можно использовать оператор %. 

`%s` в строке значит, что в это место вставится строка. `%d` значит, что в это место вставится число. Эти последовательности пишутся в том месте строки, куда нужно что-то вставить. 

После строки пишется знак `%` и затем кортеж (в круглых скобочках) из элементов, которые нужно вставить:

In [8]:
row = '%s\t%s\t\t\t%s\t%s\tпублицистика\t\t\t%s\t\tнейтральный\tн-возраст\tн-уровень\tрайонная(если районная)\t%s\tназвание газеты\t\t%s\tгазета\tРоссия\tкакой-то регион\tru'

print(row % ('тут ссылка', 'Петя', 'Название статьи', '26.09.2016', 'образование', 'url', '2016'))

тут ссылка	Петя			Название статьи	26.09.2016	публицистика			образование		нейтральный	н-возраст	н-уровень	районная(если районная)	url	название газеты		2016	газета	Россия	какой-то регион	ru


In [9]:
print(row % ('тут другая ссылка', 'Автор', 'Другая статья', '27.09.2016', 'спорт', 'url2', '2016'))

тут другая ссылка	Автор			Другая статья	27.09.2016	публицистика			спорт		нейтральный	н-возраст	н-уровень	районная(если районная)	url2	название газеты		2016	газета	Россия	какой-то регион	ru


## Задания


### Задание 1

Придумать любой словарь, например, Страна -> (столица, население) или Имя -> (город проживания, возраст).

Распечатать словарь, используя форматирование с %.


### Задание 2

Для каждого элемента словаря из задания 1 создать папку. Внутри этой папки создать файл, в котором будет записано значение соответствующего элемента в словаре.

Например, у вас есть в словаре Россия -> (Москва, 7000000). Тогда нужно создать папку "Россия", а в ней файл с любым названием, содержащий запись "Москва, 7000000".


### Задание 3

Вспомните адрес сайта своей газеты. =В 

Напишите программу, которая извлекает со страницы газетной статьи метаданные: 

1. Название статьи
2. Имя автора (если указано)
3. Дату публикации
4. Категории (если есть)

Для начала можно скачать html-код какой-то статьи и попробовать вытаскивать информацию из него. А потом убедитесь, что программа не падает на разных статьях.