# Объединяем данные из разных категорий

In [21]:
import pandas as pd

russian_poets = pd.read_csv('data/russian-poets-pages.csv')
russian_poets.set_index('title', inplace=True)
russian_poets

Unnamed: 0_level_0,pageid,ns
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Проект:Литература/Списки/Русские поэты Украины,89076,104
Проект:Литература/Списки/Русские поэты XIX века,87816,104
Поэтессы Серебряного века,4692805,0
Русские поэты Серебряного века,87820,0
Русские поэты-футуристы,89092,0
...,...,...
Категория:Игорь Северянин,3779567,14
Категория:Русские поэты США,4672187,14
Категория:Русские поэты Украины,4762218,14
Категория:Даниил Хармс,1666311,14


In [22]:
poets_of_russia = pd.read_csv('data/poets-of-russia-pages.csv')
poets_of_russia.set_index('title', inplace=True)
poets_of_russia.rename(columns={'pageid': 'por_pageid', 'ns': 'por_ns'}, inplace=True)
poets_of_russia

Unnamed: 0_level_0,por_pageid,por_ns
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Поэты-фронтовики,283774,0
"Абдулаев, Леча Шарипович",5735959,0
Абдулкадир Инан,3947572,0
"Абитов, Владимир Кадырович",5066268,0
"Абитов, Хизир Яхьяевич",8426220,0
...,...,...
Категория:Поэтессы России,4524265,14
Категория:Поэты Крыма,1543153,14
Категория:Поэты России по алфавиту,6914193,14
Категория:Поэты Российской империи,2822245,14


In [23]:
russian_wmn_poets = pd.read_csv('data/russian-wmn-poets-pages.csv')
russian_wmn_poets.set_index('title', inplace=True)
russian_wmn_poets.rename(columns={'pageid': 'rwp_pageid', 'ns': 'rwp_ns'}, inplace=True)
russian_wmn_poets

Unnamed: 0_level_0,rwp_pageid,rwp_ns
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Агашина, Маргарита Константиновна",1584087,0
"Агурбаш, Анжелика Анатольевна",2190621,0
"Азарова, Наталия Михайловна",4043156,0
"Айвазян, Галина Николаевна",6853362,0
"Акулова, Валерия Константиновна",5513006,0
...,...,...
"Якушева, Ада",79145,0
"Янбулатова, Рагида Саитгалеевна",3788328,0
"Яшина, Лариса Ивановна",3192440,0
Категория:Поэтессы Российской империи,3412574,14


In [66]:
poets = pd.concat([russian_poets, poets_of_russia], axis=1)
poets = pd.concat([poets, russian_wmn_poets], axis=1)

print('Total number of poets: {}'.format(len(poets)))

poets.to_csv('data/poets-joined.csv')

Total number of poets: 3534


## Деление на категории и страницы индивидуальных поэтов не представляется перспективным

In [34]:
categories = poets.loc[(poets.ns > 0) | (poets.por_ns > 0) | (poets.rwp_ns > 0)]
print('Category pages: {}'.format(len(categories)))
categories

Category pages: 31


Unnamed: 0,pageid,ns,por_pageid,por_ns,rwp_pageid,rwp_ns
Проект:Литература/Списки/Русские поэты Украины,89076.0,104.0,,,,
Проект:Литература/Списки/Русские поэты XIX века,87816.0,104.0,,,,
Категория:Николай Асеев,7258677.0,14.0,,,,
Категория:Анна Ахматова,2507209.0,14.0,,,,
Категория:Константин Бальмонт,4687262.0,14.0,,,,
Категория:Валерий Брюсов,4761930.0,14.0,,,,
Категория:Пётр Вяземский,5936444.0,14.0,,,,
Категория:Пётр Ершов,7264745.0,14.0,,,,
Категория:Владимир Набоков,694782.0,14.0,,,,
Категория:Борис Пастернак,1681440.0,14.0,,,,


In [40]:
individual_poets = poets.loc[~(poets.ns > 0) & ~(poets.por_ns > 0) & ~(poets.rwp_ns > 0)]
print('Category pages: {}'.format(len(individual_poets)))
individual_poets

Category pages: 3503


Unnamed: 0,pageid,ns,por_pageid,por_ns,rwp_pageid,rwp_ns
Поэтессы Серебряного века,4692805.0,0.0,,,,
Русские поэты Серебряного века,87820.0,0.0,,,,
Русские поэты-футуристы,89092.0,0.0,,,,
"Абдуллаев, Евгений Викторович",1041399.0,0.0,,,,
"Абдуллаев, Шамшад Маджитович",68329.0,0.0,,,,
...,...,...,...,...,...,...
Элхэ Ниэннах,,,,,244647.0,0.0
Юта (певица),,,,,3419263.0,0.0
Яжевика,,,,,3331686.0,0.0
"Якушева, Ада",,,,,79145.0,0.0
