In [11]:
%config IPCompleter.greedy=True
import pandas as pd
import json

In [3]:
data = pd.read_csv('properties_data.csv')

In [4]:
data.head()

Unnamed: 0,ID,label,description,aliases,Data type,Count
0,P6,глава правительства,"высшее административное лицо, глава исполнител...","бургомистр, глава администрации самоуправляемо...",wikibase-item,19453
1,P10,видеофайл,"видеозапись, соответствующая элементу","запись видео, медиафайл, файл видео",commonsMedia,1990
2,P14,знак автотрассы,графическое изображение знака,,commonsMedia,12077
3,P15,карта этой дороги,изображение карты для этой дороги,"автодорожная карта, железнодорожная карта, кар...",commonsMedia,16927
4,P16,система автомагистралей,system (or specific country specific road type...,"дорожная система, сеть автодорог",wikibase-item,38122


### Фильтрация по типу данных

In [5]:
data['Data type'].value_counts()

external-id          3437
wikibase-item        1202
quantity              478
string                250
url                    49
commonsMedia           49
time                   43
monolingualtext        35
math                   12
wikibase-property      11
wikibase-sense          9
globe-coordinate        9
wikibase-lexeme         8
tabular-data            4
wikibase-form           4
geo-shape               2
Name: Data type, dtype: int64

Уберем отношения:

 - *external-id* - большинство из них содержит что-то специфическое;
 - *commonsMedia* - медиафайлы
 - *url* - ссылки
 - *wikibase-property* - отношения между отношениями
 - *tabular-data* - ссылки на таблицы
 - *wikibase-form* - служебная информация
 - *geo-shape* - геоданные

In [4]:
data = data[data['Data type'] != 'external-id']

data = data[data['Data type'] != 'commonsMedia']

data = data[data['Data type'] != 'url']

data = data[data['Data type'] != 'wikibase-property']

data = data[data['Data type'] != 'tabular-data']

data = data[data['Data type'] != 'wikibase-form']

data = data[data['Data type'] != 'geo-shape']

In [5]:
data_tagged = pd.read_csv('properties_data_wo_bad_datatypes_tagged.csv')

In [6]:
data_tagged = data_tagged[(data_tagged['Goodness'] == '1') | (data_tagged['Goodness'] == 'q')]

In [7]:
popular_and_good_properties = data_tagged[data_tagged['Goodness'] == '1']

In [8]:
popular_and_good_properties.head(500)

Unnamed: 0,ID,Goodness,label,description,aliases,Data type,Count
3,P577,1,дата публикации,"дата, когда произведение было выпущено в свет","дата издания, дата премьеры, дата релиза",time,24343636
6,P1545,1,порядковый номер,позиция элемента в некоторой последовательност...,"номер по порядку, позиция, порядок, №ПП",string,19970992
9,P478,1,том,том серии книг,,string,19202486
12,P17,1,государство,суверенное государство этого элемента,страна,wikibase-item,10226479
14,P131,1,административно-территориальная единица,,"АТЕ, вышестоящая административная единица, гор...",wikibase-item,7271771
16,P21,1,пол или гендер,,п,wikibase-item,4123711
17,P106,1,род занятий,профессия персоны; см. также свойство «область...,"деятельность, профессия, ремесло, род деятельн...",wikibase-item,3557593
18,P921,1,основная тема,"главная тема работы, произведения","о, описывает, предмет, про, тема произведения",wikibase-item,3346327
19,P569,1,дата рождения,"день, месяц, год, в который субъект был рождён","др, родилась, родился",time,3304427
21,P735,1,личное имя,первое имя персоны,имя,wikibase-item,2923659


In [9]:
popular_and_good_properties[popular_and_good_properties['description'].isna()]

Unnamed: 0,ID,Goodness,label,description,aliases,Data type,Count
14,P131,1,административно-территориальная единица,,"АТЕ, вышестоящая административная единица, гор...",wikibase-item,7271771
16,P21,1,пол или гендер,,п,wikibase-item,4123711
54,P156,1,следующее по порядку,,"next, предшествует, следующее в списке, следую...",wikibase-item,587363
113,P463,1,участник организации или клуба,,"участник, член в, член клуба, член организации...",wikibase-item,173020
126,P1350,1,число сыгранных матчей,,"игр, матчей",quantity,135780
146,P101,1,область деятельности,,"направление деятельности, научная сфера, поле ...",wikibase-item,93394
207,P490,1,временное обозначение,,,string,50595
401,P1923,1,команда-участница,,,wikibase-item,8963


In [47]:
popular_and_good_properties[['ID', 'label', 'Count']].to_csv('top_properties.csv', index=False)

In [10]:
cnt = 0
for ind, row in popular_and_good_properties.iterrows():
    cnt += 1
    aliases = []
    if str(row['aliases']) != 'nan':
        aliases = row['aliases'].split(', ')
    print(f'# {cnt}.')
    print(f'PID: {row["ID"]}')
    print(f'Label: {row["label"]}')
    print(f'Count: {row["Count"]}')
    print(f'Description: {row["description"]}')
    print('Aliases:')
    for alias in aliases:
          print(alias)
    print('Question forms:\n')
    print('####')

# 1.
PID: P577
Label: дата публикации
Count: 24343636
Description: дата, когда произведение было выпущено в свет
Aliases:
дата издания
дата премьеры
дата релиза
Question forms:

####
# 2.
PID: P1545
Label: порядковый номер
Count: 19970992
Description: позиция элемента в некоторой последовательности, обычно квалификатор
Aliases:
номер по порядку
позиция
порядок
№ПП
Question forms:

####
# 3.
PID: P478
Label: том
Count: 19202486
Description: том серии книг
Aliases:
Question forms:

####
# 4.
PID: P17
Label: государство
Count: 10226479
Description: суверенное государство этого элемента
Aliases:
страна
Question forms:

####
# 5.
PID: P131
Label: административно-территориальная единица
Count: 7271771
Description: nan
Aliases:
АТЕ
вышестоящая административная единица
город
находится в
находится в административно-территориальной единице
регион
Question forms:

####
# 6.
PID: P21
Label: пол или гендер
Count: 4123711
Description: nan
Aliases:
п
Question forms:

####
# 7.
PID: P106
Label: род за

научная сфера
поле деятельности
соответствует деятельности
сфера работы
Question forms:

####
# 92.
PID: P180
Label: изображённый объект
Count: 90090
Description: изображённая персона, место, объект или событие
Aliases:
изображает
изображенный объект
изображено
описываемый объект
описывает
Question forms:

####
# 93.
PID: P2047
Label: продолжительность
Count: 89855
Description: продолжительность по времени
Aliases:
время
длительность
Question forms:

####
# 94.
PID: P162
Label: продюсер
Count: 89082
Description: person(s) who produced the film, musical work, theatrical production, etc. (for film, this does not include executive producers, associate producers, etc.) [for production company, use P272, video games - use P178]
Aliases:
Question forms:

####
# 95.
PID: P509
Label: причина смерти
Count: 85410
Description: элемент с описанием причины смерти персоны или организма. Например: лейкемия, автокатастрофа
Aliases:
метод убийства
Question forms:

####
# 96.
PID: P512
Label: учёная сте


####
# 196.
PID: P412
Label: певческий голос
Count: 25326
Description: person's voice type. expected values: soprano, mezzo-soprano, contralto, countertenor, tenor, baritone, bass (and derivatives)
Aliases:
голос
тембр
Question forms:

####
# 197.
PID: P1618
Label: номер игрока
Count: 24799
Description: номер на одежде участника спортивного состязания
Aliases:
Question forms:

####
# 198.
PID: P2053
Label: площадь бассейна
Count: 24751
Description: площадь, с которой собираются воды в данный водный объект
Aliases:
бассейн водоёма
площадь бассейна водоёма
Question forms:

####
# 199.
PID: P1249
Label: первое письменное упоминание
Count: 24723
Description: дата, когда объект был впервые упомянут в письменном источнике
Aliases:
впервые упоминается
дата первого упоминания
первое упоминание
Question forms:

####
# 200.
PID: P1813
Label: короткое название
Count: 23627
Description: сокращённое название места, организации, персоны и т. д.
Aliases:
аббревиатура
акроним
короткое имя
краткое наз

Count: 8699
Description: перечисленные через дробь сокращения взлётных и посадочных магнитных путевых углов рабочих направлений ВПП
Aliases:
ВПП
номер ВПП
обозначение ВПП
Question forms:

####
# 298.
PID: P2515
Label: дизайнер костюмов
Count: 8651
Description: person who designed the costumes for a film, television programme, etc
Aliases:
художник-костюмер
костюмер
художник по костюмам
Question forms:

####
# 299.
PID: P1680
Label: подзаголовок
Count: 8624
Description: второй заголовок
Aliases:
пз
Question forms:

####
# 300.
PID: P1332
Label: самая северная точка
Count: 8539
Description: northernmost point of a location. For an administrative entity this includes offshore islands
Aliases:
Question forms:

####
# 301.
PID: P1056
Label: продукция
Count: 8516
Description: что: сырьё, продукцию или материал
Aliases:
выпускает что
изготовляет что
продукт
производимый продукт
производит что
Question forms:

####
# 302.
PID: P747
Label: издание(я) или перевод(ы)
Count: 8513
Description: ссыл

Question forms:

####
# 395.
PID: P1327
Label: партнёр в спорте или профессии
Count: 4077
Description: человек, с которым спортсмен или другой профессионал работал в паре (например, в фигурном катании или парном разряде тенниса)
Aliases:
Question forms:

####
# 396.
PID: P547
Label: в память о
Count: 4063
Description: то, что чтит данное место, монумент, памятник или выходной
Aliases:
ознаменовывает
чтит
Question forms:

####
# 397.
PID: P1451
Label: текст девиза
Count: 4047
Description: short motivation sentence associated to item
Aliases:
девиз
слоган
Question forms:

####
# 398.
PID: P610
Label: наивысшая точка
Count: 4037
Description: наивысшая точка в стране, регионе, городе или области
Aliases:
Question forms:

####
# 399.
PID: P2121
Label: призовой фонд
Count: 4028
Description: значение в указанной валюте
Aliases:
Question forms:

####
# 400.
PID: P898
Label: транскрипция в МФА
Count: 3998
Description: транскрипция в международном фонетическом алфавите
Aliases:
транскрипция МФА


# 477.
PID: P1373
Label: ежедневный пассажиропоток
Count: 2511
Description: число людей, которые пользуются автобусным маршрутом в течение дня
Aliases:
Question forms:

####
# 478.
PID: P2175
Label: применяется для лечения медицинского состояния
Count: 2479
Description: disease that this pharmaceutical drug, procedure, or therapy is used to treat
Aliases:
используется при болезни
используется при медицинском состоянии
применяется при болезни
применяется при медицинском состоянии
Question forms:

####
# 479.
PID: P1200
Label: категория бассейна
Count: 2470
Description: категория водосборного бассейна водного объекта
Aliases:
Question forms:

####
# 480.
PID: P726
Label: кандидаты
Count: 2444
Description: лица или партии, включённые в избирательный бюллетень на данных выборах
Aliases:
Question forms:

####
# 481.
PID: P1560
Label: вариант личного имени для другого пола
Count: 2433
Description: ссылка на эквивалентное имя в том же языке, которое имеет то же происхождение
Aliases:
аналогич

мощность
Question forms:

####
# 584.
PID: P2233
Label: большая полуось
Count: 1164
Description: наибольшее удаление точки эллипса от его центра
Aliases:
Question forms:

####
# 585.
PID: P1773
Label: приписываемый автор
Count: 1162
Description: возможный создатель произведения, которому оно обычно приписывается
Aliases:
Question forms:

####
# 586.
PID: P2184
Label: история темы
Count: 1152
Description: элемент, в котором описана история объекта
Aliases:
Question forms:

####
# 587.
PID: P770
Label: причина разрушения
Count: 1149
Description: item which caused the destruction of the subject item
Aliases:
Question forms:

####
# 588.
PID: P1314
Label: число пролётов
Count: 1147
Description: число пролётов моста
Aliases:
Question forms:

####
# 589.
PID: P1596
Label: наказание
Count: 1140
Description: по приговору суда
Aliases:
Question forms:

####
# 590.
PID: P5389
Label: постоянный резидент
Count: 1124
Description: country or region that person have the legal status of permanent resi

Generate properties PID-label json

In [12]:
pids = []
for ind, row in popular_and_good_properties.iterrows():
    pids.append((row['ID'], row['label']))
with open('pids.json', 'w') as ouf:
    json.dump(pids, ouf, ensure_ascii=False, indent=4)