## Все данные будем извлекать с двух ресурсов: [fanfics.me](fanfics.me) и [ficbook.ru](ficbook.ru)

Какие вообще данные в теории понадобятся?
- название
- ссылка
- описание фанфика
- персонажи
- пейринги
- фандомы
- возрастной рейтинг
- теги отношений (слеш/джен/гет/фем)
- тег размера (мини/миди/макси/драббл)
- размер
- статус
- события (можно получить только для фанфиков с [fanfics.me](fanfics.me))
- жанры
- предупреждения

## Что вообще происходит?

Сейчас мы будем доставать все вышеописанные данные с сайта. Для этого нужно открыть страницу со списком фанфиков и достать оттуда все названия, описания, персонажей и так далее. Чтобы произвести эти действия, нужно использовать специализированные библиотеки.

In [1]:
import requests # библиотека для доступа к исходному коду страниц
from bs4 import BeautifulSoup # библиотека для «вытаскивания» нужных нам данных из исходного кода страницы

Каждая страница с фанфикам по Гарри Поттеру на [fanfics.me](fanfics.me) выглядит следующим образом: 
>https://fanfics.me/find?fandom1=2&page=1

где последнее число отвечает за номер страницы. Всего таких страниц с фанфиками 1031 на момент написания этого кода. Давайте вытащим исходный код каждой страницы в цикле.

In [2]:
URLs = ['https://fanfics.me/find?fandom1=2&page=' + str(page) for page in range(1, 3)]
page_sources = [requests.get(url) for url in URLs]

Исходный код надо превратить в «суп», с которым будем удобно работать для поиска информации на странице. «Суп» будем искать для каждой страницы, исходный код которой мы получили. Тем самым получим список с «супами».

In [3]:
soups = [BeautifulSoup(page_source.content, 'html.parser') for page_source in page_sources]

Вся информация о фанфике содержится в контейнере 
```html
<table class='FicTbl'>
```
Поэтому для каждого «супа» найдём все разделы с информацией о фанфиках, тем самым мы получим «суп» для каждого фанфика.

In [4]:
fanfic_soups = []
for soup in soups:
    fanfic_soups += soup.find_all('table', class_='FicTbl')

## Названия
Если внимательно посмотреть на код страницы, то становится ясно, что интересующее нас название лежит в контейнере 
```html
<div class='FicTable_Title'>
``` 
так что ищем этот контейнер (он всего один для каждого «супа», поэтому используем `find` вместо `find_all`)

In [5]:
title_meta = [soup.find('div', class_='FicTable_Title') for soup in fanfic_soups]
title_meta[0]

<div class="FicTable_Title">
<h4><a href="/fic100769">Невилл и все, все, все</a> <span class="small gen">(джен)</span></h4>
<div class="FicTable_Stat"><span class="Views" style="margin-right:20px;" title="Количество просмотров 153 305">153k</span>
<span class="ReadersCount" style="margin-right:20px;" title="Количество читателей 1 023">1k</span><span class="Comments" style="margin-right:20px;" title="Количество комментариев 236">236</span><span class="RecommendsCount" style="margin-right:20px;" title="Количество рекомендаций">4</span><span class="DateUpdate" style="margin-right:20px;" title="Опубликовано 21.01.2017, изменено 08.02.2021">08.02.2021</span></div>
</div>

Проблема в том, что контейнер содержит не только название, но и ещё массу лишней информации, поэтому находим уникальный для названия контейнер -- это контейнер `<a>`, он применяется только к названию.

In [6]:
titles = [soup.find('a').text for soup in title_meta]
titles[0]

'Невилл и все, все, все'

## Ссылка

In [7]:
links = ['fanfics.me' + soup.find('a')['href'] for soup in title_meta]
links[0]

'fanfics.me/fic100769'

## Описания
Описание лежит в контейнере 
```html
<td class='FicTbl_sammary'>
``` 
так что ищем этот контейнер (он всего один для каждого «супа», поэтому используем `find` вместо `find_all`)

In [8]:
summaries = [soup.find('td', class_='FicTbl_sammary').text for soup in fanfic_soups]
summaries[0]

'Когда Невиллу дядя подарил жабу, началась цепь событий, встряхнувших  и изменивших магический мир.'

## Персонажи

In [9]:
import re

In [35]:
characters = []
for soup in fanfic_soups:
    single = [char.text for char in soup.find_all(href=re.compile('/character.*'))]
    pairings = [pair.text.split('/') for pair in soup.find_all(href=re.compile('/paring.*'))]
    for pairing in pairings:
        single += pairing
    single = list(set(single))
    characters.append(', '.join(single))
characters[0]

'Кащей Бессмертный, Беллатриса Лестрейндж, Драко Малфой, Невилл Лонгботтом, Гарри Поттер, Люциус Малфой, Родольфус Лестрейндж, Новый Женский Персонаж, Царевна-лягушка, Нарцисса Малфой, Августа Лонгботтом, Северус Снейп'

## Пейринги

In [36]:
pairings = []
for soup in fanfic_soups:
    fic_pairings = [pair.text for pair in soup.find_all(href=re.compile('/paring.*'))]
    pairings.append(', '.join(fic_pairings))
pairings[0]

'Беллатриса Лестрейндж/Родольфус Лестрейндж, Люциус Малфой/Нарцисса Малфой'

## Фандомы

In [37]:
fandoms = []
for soup in fanfic_soups:
    fic_fandoms = [fandom.text for fandom in soup.find_all(href=re.compile('/fandom.*'))]
    fandoms.append(', '.join(fic_fandoms))
fandoms[0]

'Гарри Поттер, Русские народные сказки'

## Возрастной рейтинг

In [13]:
ratings = [soup.find('span', class_='FicTable_Rating').text for soup in fanfic_soups]
ratings[0]

'General'

## Теги отношений

In [14]:
relationships = [soup.find('div', class_='FicTable_Title').find('h4').find('span').text.strip('()') for soup in fanfic_soups]
relationships[0]

'джен'

## Теги размера + размер

In [45]:
sizes_full = [soup.find('span', class_='FicTable_Size').text.split('|') for soup in fanfic_soups]
size_tags = [size_full[0].strip() for size_full in sizes_full]
sizes = [size_full[1].strip()[:-3] for size_full in sizes_full]
(size_tags[0], sizes[0])

('Макси', '2164')

## Статус

In [16]:
statuses = [soup.find('span', class_='FicTable_Status').text.replace('\xa0', ' ') for soup in fanfic_soups]
statuses[0]

'В процессе'

## События

In [38]:
events = []
for soup in fanfic_soups:
    fic_events = [event.text for event in soup.find_all(href=re.compile('/find\?keyword=.*'))]
    events.append(', '.join(fic_events))
events[0]

'Детство героев, Том Риддл - человек, Много оригинальных героев, Путешествие во времени, Экзотическое место действия, Адекватные Дурсли, Тайный план Дамблдора'

## Жанры

In [18]:
meta_unfiltered = [soup.find('td', class_='FicTbl_meta').text for soup in fanfic_soups]
meta_unfiltered[0]

'\nАвторы:\xa0б-кап, Adelaidetweetie\n\nФандомы:\xa0Гарри Поттер, Русские народные сказки\n\nПерсонажи:\xa0Невилл Лонгботтом, Августа Лонгботтом, Гарри Поттер, Царевна-лягушка, Кащей Бессмертный, Беллатриса Лестрейндж/Родольфус Лестрейндж, Драко Малфой, Новый Женский Персонаж, Люциус Малфой/Нарцисса Малфой, Северус Снейп\nРейтинг:\xa0General\n\nЖанры:\xa0Сказка, Кроссовер\n                    \nРазмер:\xa0Макси | 2164 Кб\n\nСтатус:\xa0В\xa0процессе\nПредупреждения:\xa0AU, ООС\n                    События:\xa0Детство героев, Том Риддл - человек, Много оригинальных героев, Путешествие во времени, Экзотическое место действия, Адекватные Дурсли, Тайный план Дамблдора\n3\n'

In [19]:
genres_regex = re.compile('Жанры:\\xa0(.*)\\n +')

In [39]:
genres = []
for meta in meta_unfiltered:
    match = re.search(genres_regex, meta)
    if match:
        genres.append(match.group(1))
    else:
        genres.append('')
genres[0]

'Сказка, Кроссовер'

## Предупреждения

In [21]:
warnings_regex = re.compile('Предупреждения:\\xa0(.*)\\n +')

In [40]:
warnings = []
for meta in meta_unfiltered:
    match = re.search(warnings_regex, meta)
    if match:
        warnings.append(match.group(1))
    else:
        warnings.append('')
warnings[0]

'AU, ООС'

## Делаем pandas датафрейм!

In [46]:
data = {
    'title': titles,
    'summary': summaries,
    'characters': characters,
    'pairings': pairings,
    'fandoms': fandoms,
    'rating': ratings,
    'size_tag': size_tags,
    'size': sizes,
    'statuse': statuses,
    'events': events,
    'genres': genres,
    'warnings': warnings,
    'link': links
}

In [50]:
import pandas as pd
fanfictionDF = pd.DataFrame(data, columns = data.keys())
fanfictionDF

Unnamed: 0,title,summary,characters,pairings,fandoms,rating,size_tag,size,statuse,events,genres,warnings,link
0,"Невилл и все, все, все","Когда Невиллу дядя подарил жабу, началась цепь...","Кащей Бессмертный, Беллатриса Лестрейндж, Драк...","Беллатриса Лестрейндж/Родольфус Лестрейндж, Лю...","Гарри Поттер, Русские народные сказки",General,Макси,2164,В процессе,"Детство героев, Том Риддл - человек, Много ори...","Сказка, Кроссовер","AU, ООС",fanfics.me/fic100769
1,Укрощение строптивых (Хорошее дело браком не н...,"Часть 2 ""Хорошее дело браком не назовут"". \nТа...","Беллатриса Лестрейндж, Рабастан Лестрейндж, Ло...",Беллатриса Лестрейндж/Северус Снейп,Гарри Поттер,R,Миди,22,В процессе,"Аристократия, Первая война с Волдемортом","Экшен, Юмор, Первый раз, AU","AU, Насилие, Нецензурная лексика, Чёрный юмор,...",fanfics.me/fic159169
2,Истина во сне,"«И часто ты бываешь в моих снах, Гарри? Я не к...","Гарри Поттер, Лорд Волдеморт (Том Риддл)",Гарри Поттер/Лорд Волдеморт (Том Риддл),Гарри Поттер,NC-17,Макси,263,В процессе,Шестой курс,"Ангст, Даркфик, Hurt/comfort, Драма","AU, Насилие",fanfics.me/fic157201
3,Только ты,"Гермиона даже в самые тяжелые годы считала, чт...","Джинни Уизли, Рон Уизли, Гарри Поттер, Гермион...","Гермиона Грейнджер/Северус Снейп, Гермиона Гре...",Гарри Поттер,NC-17,Макси,536,В процессе,"ПостХогвартс, Жизнь среди маглов, Волдеморт по...",Драма,"UST, ООС",fanfics.me/fic140892
4,Другие берега,"А, что если Гарри по-настоящему любил только Г...","Рон Уизли, Гарри Поттер, Изабелла Свон (Белла)...","Гарри Поттер/Гермиона Грейнджер, Изабелла Свон...","Гарри Поттер, Сумерки",PG-13,Макси,210,В процессе,,"Фэнтези, Кроссовер, Приключения, Романтика","AU, Гет",fanfics.me/fic71494
5,Панси Паркинсон и ее волшебные твари,"Панси Паркинсон в поиске. А кто ищет, тот найдет.","Драко Малфой, Дадли Дурсль, Симус Финниган, Па...","Панси Паркинсон/Симус Финниган, Гарри Поттер/П...",Гарри Поттер,PG-13,Мини,10,Закончен,ПостХогвартс,Романтика,"Нецензурная лексика, ООС",fanfics.me/fic159266
6,Последняя из Слизеринов. Книга IV,"Пятый курс остался за плечами, расставив некот...","Драко Малфой, Гарри Поттер, Новый Мужской Перс...","Драко Малфой/Новый Женский Персонаж, Новый Жен...",Гарри Поттер,NC-17,Макси,1033,В процессе,"Шестой курс, Вторая война с Волдемортом, Дамби...",Даркфик,"AU, Гет, Мэри Сью, ООС, От первого лица (POV)",fanfics.me/fic150110
7,Большая Игра профессора Дамблдора. Продолжение,Многие знают о существовании Большой Игры – те...,"Северус Снейп, Гарри Поттер, Альбус Дамблдор",,Гарри Поттер,General,Макси,2240,В процессе,,Статья,,fanfics.me/fic140884
8,Беглец из прошлого,"Северус Снейп и Дилан Бэрк, волею судьбы попав...","Северус Снейп, Гарри Поттер, Альбус Дамблдор, ...",Северус Снейп/Новый Мужской Персонаж,Гарри Поттер,R,Макси,227,В процессе,"Четвертый курс, Чужая душа в теле героя Поттер...","Попаданцы, Приключения, AU","ООС, AU, Нецензурная лексика",fanfics.me/fic157064
9,Игра теней,Великий маг играет людьми ради Всеобщего Блага...,"Гермиона Грейнджер, Гарри Поттер",Гарри Поттер/Гермиона Грейнджер,,R,Мини,23,Закончен,,Романтика,,fanfics.me/fic54048


## Пришло время сделать одну большую функцию для всего этого непотребства

In [78]:
genres_regex = re.compile('Жанры:\\xa0(.*)\\n +')
warnings_regex = re.compile('Предупреждения:\\xa0(.*)\\n +')

def processPage(url):
    page_source = requests.get(url)
    soup = BeautifulSoup(page_source.content, 'html.parser')
    fanfic_soups = soup.find_all('table', class_='FicTbl')
    
    characters = []
    pairings = []
    fandoms = []
    ratings = []
    relationships = []
    size_tags = []
    sizes = []
    statuses = []
    events = []
    genres = []
    warnings = []
    titles = []
    links = []
    summaries = []
    
    for soup in fanfic_soups:
        title_meta = soup.find('div', class_='FicTable_Title')
        titles.append(soup.find('a').text)
        links.append('fanfics.me' + soup.find('a')['href'])
        
        summaries.append(soup.find('td', class_='FicTbl_sammary').text)
        
        single = [char.text for char in soup.find_all(href=re.compile('/character.*'))]
        fic_pairings = [pair.text.split('/') for pair in soup.find_all(href=re.compile('/paring.*'))]
        for fic_pairing in fic_pairings:
            single += fic_pairing
        single = list(set(single))
        characters.append(', '.join(single))
            
        fic_pairings = [pair.text for pair in soup.find_all(href=re.compile('/paring.*'))]
        pairings.append(', '.join(fic_pairings))
        
        fic_fandoms = [fandom.text for fandom in soup.find_all(href=re.compile('/fandom.*'))]
        fandoms.append(', '.join(fic_fandoms))
        
        ratings.append(soup.find('span', class_='FicTable_Rating').text)
        relationships.append(soup.find('div', class_='FicTable_Title').find('h4').find('span').text.strip('()'))
    
        size_full = soup.find('span', class_='FicTable_Size').text.split('|')
        size_tags.append(size_full[0].strip())
        sizes.append(size_full[1].strip()[:-3])
    
        statuses.append(soup.find('span', class_='FicTable_Status').text.replace('\xa0', ' '))
        
        fic_events = [event.text for event in soup.find_all(href=re.compile('/find\?keyword=.*'))]
        events.append(', '.join(fic_events))

        meta_unfiltered = soup.find('td', class_='FicTbl_meta').text
        
        genres_match = re.search(genres_regex, meta)
        if match:
            genres.append(genres_match.group(1))
        else:
            genres.append('')
        
        warnings_match = re.search(warnings_regex, meta)
        if match:
            warnings.append(warnings_match.group(1))
        else:
            warnings.append('')
            
    data = {
        'title': titles,
        'summary': summaries,
        'characters': characters,
        'pairings': pairings,
        'fandoms': fandoms,
        'rating': ratings,
        'size_tag': size_tags,
        'size': sizes,
        'statuse': statuses,
        'events': events,
        'genres': genres,
        'warnings': warnings,
        'link': links
    }
    
    fanfictionDF = pd.DataFrame(data, columns = data.keys())
    return fanfictionDF

In [80]:
testDF = processPage('https://fanfics.me/find?fandom1=2&page=1')

In [81]:
testDF.to_csv('testDF.csv')

## Теперь надо медленно, но верно проходить по каждой странице и добавлять в датафрейм результаты парсинга