# Тезаурус EuroVoc

У овој секцији упознаћемо детаљније тезаурус **EuroVoc** и начин на који је организован.

Тезаурус <a href='https://op.europa.eu/en/web/eu-vocabularies/dataset/-/resource?uri=http://publications.europa.eu/resource/dataset/eurovoc'> EuroVoc </a> је врста речника која обједињује концепте који се придружују званичним документима Европске уније зарад систематичне организације. На пример, документу који се бави миграцијама се могу придружити концепти *family migration* или *geographical mobility*. Овако контролисани вокабулар омогућава униформу организацију докумената између свих чланица Европске уније и њихово лакше претраживање.  

<figure style='text-align: center'>
    <img src='assets/eurovoc_small.png'>
    <figcaption> 
        Организација тезауруса EuroVoc (слика је преузета са <a href='https://medium.com/datapy-ai/extreme-multi-label-classification-for-eurovoc-b51d74623820'> ове </a> адресе)
    </figcaption>
</figure>

Информације које су садржане у тезаурусу су физички подељене у већи број датотека и могу се презети са званичне адресе у већем броју формата. Ми ћемо користити архиву <a href='https://op.europa.eu/o/opportal-service/euvoc-download-handler?cellarURI=http%3A%2F%2Fpublications.europa.eu%2Fresource%2Fcellar%2Fb868cf85-c47b-11eb-a925-01aa75ed71a1.0001.07%2FDOC_1&fileName=eurovoc_xml.zip'>eurovoc_xml.zip</a> која садржи датотеке у формату XML, као и попис свих концепата <a href='http://publications.europa.eu/resource/dataset/eurovoc'>DOC_1.xml</a>. 

Посебно, на нивоу архиве пратићемо документе који се односе на енглески језик тј. документе који у називу имају суфикс *_eng*.

За обраду информација записаних у XML формату користићемо библиотеку <a href='https://www.crummy.com/software/BeautifulSoup/'> BeаutifulSoup</a>. Функције ове библиотеке нам омогућавају да се лако крећемо кроз хијерархијску структуру докумената, као и да једноставно издвојимо елементе на основу имена или атрибута који им је придружен. 

In [1]:
from bs4 import BeautifulSoup

## Домени

На највишем нивоу хијерархије тезауруса налазе се домени. Домени се представљају двоцифреним идентификаторима и има их укупно 21. Физички, информације о доменима тезауруса се налазе у датотеци `dom_en.xml`. Следећим блоком кода се из ове датотека могу издвојити идентификатори и имена домена. 

In [2]:
domains_file = open('../data/eurovoc_thesaurus/dom_en.xml', 'r') 
domains_file_content = domains_file.read()

In [3]:
domains_soup = BeautifulSoup(domains_file_content, 'html.parser')
domain_ids = [id.get_text() for id in domains_soup.find_all('domaine_id')]
domain_names = [name.get_text() for name in domains_soup.find_all('libelle')]

In [4]:
print('Identifikatori i imena domena: ')
for id, name in zip (domain_ids, domain_names):
    print (id, name)

Identifikatori i imena domena: 
04 POLITICS
08 INTERNATIONAL RELATIONS
10 EUROPEAN UNION
12 LAW
16 ECONOMICS
20 TRADE
24 FINANCE
28 SOCIAL QUESTIONS
32 EDUCATION AND COMMUNICATIONS
36 SCIENCE
40 BUSINESS AND COMPETITION
44 EMPLOYMENT AND WORKING CONDITIONS
48 TRANSPORT
52 ENVIRONMENT
56 AGRICULTURE, FORESTRY AND FISHERIES
60 AGRI-FOODSTUFFS
64 PRODUCTION, TECHNOLOGY AND RESEARCH
66 ENERGY
68 INDUSTRY
72 GEOGRAPHY
76 INTERNATIONAL ORGANISATIONS


Сличан блок кода искористићемо да сачувамо овај пар идентификатора и имена у датотеци *domains_with_id_and_name.txt*.

In [6]:
domains_with_id_and_name = {}

for id, name in zip (domain_ids, domain_names):
    domains_with_id_and_name[id] = name
    
with open('../data/domains_with_id_and_name.txt', 'w') as file:
    file.write(str(domains_with_id_and_name))

## Микротезауруси

Микротезауруси представљају сегменте тезауруса који се односе на специфичне домене. Њих карактеришу четвороцифрени идентификатори чије се прве две цифре преклапају са идентификатором домена. Тако, на пример, домену "наука" са идентификатором 36 одговарају два микротезауруса 3606 и 3611 - први обједињује концепте који се односе на природне и примењене науке, а други концепте који се односе на хуманистичке науке. Микротезауруса има укупно 127, а њихова имена и кодови се могу прочитати из датотеке са именом `thes_en.xml`. 

Следећим блоком кода ћемо издвојити имена и кодове микротезауруса.

In [7]:
microthesaurus_file = open('../data/eurovoc_thesaurus/thes_en.xml', 'r') 
microthesaurus_file_content = microthesaurus_file.read()

In [8]:
microthesaurus_soup = BeautifulSoup(microthesaurus_file_content, 'html.parser')
microthesaurus_ids = [id.get_text() for id in microthesaurus_soup.find_all('thesaurus_id')]
microthesaurus_names = [name.get_text() for name in microthesaurus_soup.find_all('libelle')]

In [9]:
print('Identifikatori i imena mikrotezaurusa: ')
for id, name in zip(microthesaurus_ids, microthesaurus_names):
    print(id, name)

Identifikatori i imena mikrotezaurusa: 
0406 political framework
0411 political party
0416 electoral procedure and voting
0421 parliament
0426 parliamentary proceedings
0431 politics and public safety
0436 executive power and public service
0806 international affairs
0811 cooperation policy
0816 international security
0821 defence
1006 EU institutions and European civil service
1011 European Union law
1016 European construction
1021 EU finance
1206 sources and branches of the law
1211 civil law
1216 criminal law
1221 justice
1226 organisation of the legal system
1231 international law
1236 rights and freedoms
1606 economic policy
1611 economic conditions
1616 regions and regional policy
1621 economic structure
1626 national accounts
1631 economic analysis
2006 trade policy
2011 tariff policy
2016 trade
2021 international trade
2026 consumption
2031 marketing
2036 distributive trades
2406 monetary relations
2411 monetary economics
2416 financial institutions and credit
2421 free movemen

На основу прочитаних информација можемо објединити домене и микротезаурусе који им припадају. Искористићемо својство да се прве две цифре идентификатора микротезауруса преклапају са идентификатором домена.

In [10]:
microthesauruses_per_domain = {}

for domain_id in domain_ids:
    microthesauruses_per_domain[domain_id] = []

for microthesaurus_id in microthesaurus_ids:
    domain_id = microthesaurus_id[0:2]
    microthesauruses_per_domain[domain_id].append(microthesaurus_id)  

In [11]:
microthesauruses_per_domain

{'04': ['0406', '0411', '0416', '0421', '0426', '0431', '0436'],
 '08': ['0806', '0811', '0816', '0821'],
 '10': ['1006', '1011', '1016', '1021'],
 '12': ['1206', '1211', '1216', '1221', '1226', '1231', '1236'],
 '16': ['1606', '1611', '1616', '1621', '1626', '1631'],
 '20': ['2006', '2011', '2016', '2021', '2026', '2031', '2036'],
 '24': ['2406',
  '2411',
  '2416',
  '2421',
  '2426',
  '2431',
  '2436',
  '2441',
  '2446',
  '2451'],
 '28': ['2806',
  '2811',
  '2816',
  '2821',
  '2826',
  '2831',
  '2836',
  '2841',
  '2846'],
 '32': ['3206', '3211', '3216', '3221', '3226', '3231', '3236'],
 '36': ['3606', '3611'],
 '40': ['4006', '4011', '4016', '4021', '4026', '4031'],
 '44': ['4406', '4411', '4416', '4421', '4426'],
 '48': ['4806', '4811', '4816', '4821', '4826'],
 '52': ['5206', '5211', '5216'],
 '56': ['5606', '5611', '5616', '5621', '5626', '5631', '5636', '5641'],
 '60': ['6006', '6011', '6016', '6021', '6026', '6031', '6036'],
 '64': ['6406', '6411', '6416'],
 '66': ['6606

Највећи број микротезауруса је придружен домену "финансије" са идентификатором 24.

In [13]:
for (domain, all_thesauruses) in microthesauruses_per_domain.items():
    print ('Domen ', domain, ': broj mikrotezaurusa: ', len(all_thesauruses))

Domen  04 : broj mikrotezaurusa:  7
Domen  08 : broj mikrotezaurusa:  4
Domen  10 : broj mikrotezaurusa:  4
Domen  12 : broj mikrotezaurusa:  7
Domen  16 : broj mikrotezaurusa:  6
Domen  20 : broj mikrotezaurusa:  7
Domen  24 : broj mikrotezaurusa:  10
Domen  28 : broj mikrotezaurusa:  9
Domen  32 : broj mikrotezaurusa:  7
Domen  36 : broj mikrotezaurusa:  2
Domen  40 : broj mikrotezaurusa:  6
Domen  44 : broj mikrotezaurusa:  5
Domen  48 : broj mikrotezaurusa:  5
Domen  52 : broj mikrotezaurusa:  3
Domen  56 : broj mikrotezaurusa:  8
Domen  60 : broj mikrotezaurusa:  7
Domen  64 : broj mikrotezaurusa:  3
Domen  66 : broj mikrotezaurusa:  5
Domen  68 : broj mikrotezaurusa:  9
Domen  72 : broj mikrotezaurusa:  8
Domen  76 : broj mikrotezaurusa:  5


## Концепти и њихове релације

Концепти тезауруса су, такође, хијерархијски организовани. Главни концепти (енгл. top terms) се налазе на врху хијерархије и везани за сам микротезаурус, док су преостали концепти везани за главне концепте према нивоима специфичности. Актуелна верзија тезауруса подржава везе генеричког (на пример, концепти *protected area* и *national park*) и партитивног (на пример, *chemistry* и *analytical chemistry*) типа, као и угњежђавања највише дубине два.  

### Издвајање свих концепата  микротезауруса

Сви концепти тезауруса се могу прочитати из датотеке *DOC_1.xml*. Нама ће бити занимљиво да издвојимо концепте који припадају одређеном микротезаурусу - идентификатори концепата ће нам значити за само кодирање док ће нам имена ових концепата омогућити да лакше испратимо организацију. 

Следећим блоком кода ћемо припремити датотеку *DOC_1.xml* за рад, док ће нам функција *get_concepts_for_microthesaurus* омогућити да из овако припремљене датотеке за задати идентификатор микротезауруса прочитамо концепте који му припадају.

In [14]:
main_thesaurus_file = open('../data/eurovoc_thesaurus/DOC_1.xml', 'r', encoding='utf-8')
main_thesaurus_content = main_thesaurus_file.read()

In [15]:
main_thesaurus_soup = BeautifulSoup(main_thesaurus_content, 'html.parser')

In [16]:
def get_concepts_for_microthesaurus(microthesaurus_id, main_thesaurus_soup):
    concepts = {}
    for record in main_thesaurus_soup.find_all(thesaurus_id=microthesaurus_id):
        id = record['id']
        concept_wrapper = record.parent.parent.find_all('xs:documentation')[0].get_text()
        concept = concept_wrapper[0:concept_wrapper.find('/')-1]
        concepts[id] = concept
    return concepts

У наставку можемо видети све концепте микротезауруса за природне и примењене науке.

In [17]:
get_concepts_for_microthesaurus('3606', main_thesaurus_soup)

{'1147': 'geochemistry',
 '1148': 'geography',
 '1149': 'economic geography',
 '1150': 'political geography',
 '1151': 'geology',
 '1152': 'geophysics',
 '1246': 'histology',
 '1276': 'hydrogeology',
 '1278': 'hydrology',
 '1835': 'mathematics',
 '1892': 'meteorology',
 '1896': 'metrology',
 '1936': 'mineralogy',
 '2114': 'oceanography',
 '2232': 'parasitology',
 '2367': 'pharmacology',
 '2373': 'photochemistry',
 '2376': 'nuclear physics',
 '3282': 'neurobiology',
 '3291': 'acoustics',
 '3292': 'optics',
 '3293': 'cybernetics',
 '3294': 'petrology',
 '3790': 'astronomy',
 '3925': 'information science',
 '3931': 'soil science',
 '3941': 'life sciences',
 '3946': 'physical sciences',
 '3949': 'applied sciences',
 '3952': 'earth sciences',
 '4107': 'aerodynamics',
 '4108': 'thermodynamics',
 '4109': 'plasma physics',
 '4110': 'laser physics',
 '4176': 'seismology',
 '442765': 'animal taxonomy',
 '442791': 'plant taxonomy',
 '4770': 'volcanology',
 '4810': 'zoology',
 '4889': 'biochemistr

Сдржај датотеке *DOC_1.xml* можемо искористи и за очитавање имена појединачних концепата на основу њихових идентификатора. Функција *get_concept_name* имплементира баш овај задатак. Њеним коришћењем је генерисан и листинг свих концепата *eurovoc_concepts.jsonl* који смо упознали у секцији o EuroLex57k скупу података.  

In [18]:
def get_concept_name(concept_id, main_thesaurus_soup):
    concept_value = "eurovoc:" + concept_id
    concept_parent = main_thesaurus_soup.find("xs:enumeration", value=concept_value)
    concept_wrapper = concept_parent.find('xs:documentation').get_text()
    concept = concept_wrapper[0:concept_wrapper.find('/')-1]
    return concept

In [19]:
get_concept_name('1016', main_thesaurus_soup)

'international finance'

### Издвајање главних концепата микротезауруса

Главни концепти тезаурзса EuroVoc су концепти који се налазе на врху хијерархије микротезауруса и који немају даљих уопштења. Док је све концепте микротезауруса лако издвојити, да би се добили ови концепти потребно је нешто мало више техничког посла. Датотека *mappings.xml* која садржи информације о овим мапирањима главних концепата и микротезауруса преузета је са <a href='http://publications.europa.eu/resource/authority/eurovoc/100141'> ове </a> адресе. 

In [20]:
top_terms_file = open('../data/eurovoc_thesaurus/mappings.xml', 'r')
top_terms_file_content = top_terms_file.read()
top_terms_soup = BeautifulSoup(top_terms_file_content, 'html.parser')

Из овако припремљеног документа могу се издвојити линкови до страница које садрже попис главних концепата одговарајућих микротезауруса. Линкова има укупно 127 - са сваки микротезаурус по један. Функција *get_top_terms* нам омогућава да пратећи линк дохватимо тражене информације.

In [21]:
import requests

In [22]:
top_terms_resources = [resource['rdf:resource'] for resource in top_terms_soup.find_all('ns5:haspart')]

In [23]:
def get_top_terms(resource_link):
    
    response = requests.get(resource_link)
    if response.status_code != 200:
        print('Resource ', resource_link, 'could not be fetched (status code: ', response.status_code, ')')
        return 
    response_text = response.text
    
    soup = BeautifulSoup(response_text, 'html.parser')
    
    microthesaurus_id = soup.find('skos:notation').text
    
    top_terms = []
    for top_term in soup.find_all('skos:hastopconcept'):
        resource = top_term['rdf:resource']
        index = resource.rfind('/') + 1
        id = resource[index: ]
        top_terms.append(id)
    
    return microthesaurus_id, top_terms

In [24]:
top_terms_per_microthesaurus = {}
for top_term_resource in top_terms_resources:
    microthesaurus_id, top_terms = get_top_terms(top_term_resource)
    top_terms_per_microthesaurus[microthesaurus_id] = top_terms

In [25]:
top_terms_per_microthesaurus

{'6626': ['744'],
 '2441': ['2698', '394', '929', '1012'],
 '5636': ['2505', '1063', '651'],
 '1016': ['4040', '26', '5442', '4057', '4060'],
 '1606': ['2402', '712', '2497'],
 '6026': ['1258', '2736', '2735'],
 '6031': ['656', '1360'],
 '6016': ['6788', '239', '2775', '2763'],
 '6021': ['5017', '4314'],
 '6411': ['4415', '4418', '3641', '3632', '3689', '3797'],
 '6416': ['4185', '2478', '2914', '2817'],
 '6036': ['4416', '6052'],
 '6406': ['2707', '2481'],
 '5621': ['4363', '4412', '4630'],
 '5626': ['2014', '5962'],
 '5611': ['2972', '2493', '2477'],
 '5616': ['3605', '4358', '2551', '962', '2814', '937'],
 '6006': ['2414',
  '1602',
  '1115',
  '2413',
  '2418',
  '2417',
  '5360',
  '2416',
  '2412'],
 '6011': ['2737'],
 '5631': ['2711', '1277', '711', '5877', '2723', '2734'],
 '5641': ['2320', '5913', '1652', '1372', '2476', '3544'],
 '4821': ['4515', '4522', '2512'],
 '4826': ['4505', '3092'],
 '4811': ['3098', '1954', '2181', '2015'],
 '4816': ['4539'],
 '5216': ['2090', '343', 

### Издвајање концепата на основу хијерархије

Хијерархијске релације између концепата су пописане у датотеци *relation_bt.xml*.

In [26]:
relations_file = open('../data/eurovoc_thesaurus/relation_bt.xml', 'r')
relations_content = relations_file.read()
relations_soup = BeautifulSoup(relations_content, 'html.parser')

Функција *get_children_for_concept* нам може помоћи да прочитамо индетификаторе концепата који се налазе у хијерархији испод задатог концепта (обично такве концепте зовемо *децом*). 

In [27]:
def get_children_for_concept(concept_id, relations_soup):
    records = relations_soup.find_all('record')    
    source_ids = []
    for record in records:
        source_id = record.select('source_id')[0].get_text()
        cible_id = record.select('cible_id')[0].get_text()

        if cible_id == concept_id:
            source_ids.append(source_id)
    return source_ids

Можемо проверити који се то концепти налазе у хијерархији испод концепта *population dynamics* са иденгификатором 3318.

In [28]:
get_children_for_concept('3318', relations_soup)

['3324', '405', '4231', '4343', '4852', '6544']

Имена ових концепата можемо добити помоћу функције *get_concept_name*.

In [29]:
children_concepts_3318 = get_children_for_concept('3318', relations_soup)
for concept in children_concepts_3318:
    concept_name = get_concept_name(concept, main_thesaurus_soup)
    print(concept_name)

population ageing
depopulation
underpopulation
overpopulation
population growth
generation renewal


Како ЕuroVoc хијерархија дозвољава угњежђавање концепата до дубине два, уколико желимо да добијемо и ову децу за задати концепт можемо искористити функцију *get_all_children_for_concept*. 

In [30]:
def get_all_children_for_concept(concept_id, relations_soup):
    all_children = []
    
    children = get_children_for_concept(concept_id, relations_soup)
    for child in children:
        all_children.append(child)
        
        children_level_1 = get_children_for_concept(child, relations_soup)
        
        for inner_child in children_level_1:
            all_children.append(inner_child)
            
            children_level_2 = get_children_for_concept(inner_child, relations_soup)
            for very_inner_child in children_level_2:
                all_children.append(very_inner_child)
        
    return all_children

Тако се, на пример, сва деца концепта "демографија" са идентификатором 385 могу добити следећим позивом:

In [31]:
all_children_concepts_385 = get_all_children_for_concept('385', relations_soup)

In [32]:
for concept in all_children_concepts_385:
    concept_name = get_concept_name(concept, main_thesaurus_soup)
    print(concept_name)

demographic analysis
world population
population census
population statistics
migration statistics
population forecast
mortality
infant mortality
occupational mortality
births
fertility
marriage rate
population policy
birth policy
life expectancy


## Упаривање домена и свих концепата који му припадају

Следећим блоком кода упарићемо информације о доменима и концептима који им припадају. Оваква структура нам је неопходне за трансформацију обележја скупа EurlLex57k на начин који је подесан за вишелабеларну класификацију. 

In [33]:
concepts_per_domain = {}

for (domain, microthesauruses) in microthesauruses_per_domain.items():
    concepts = []
    for microthesaurus_id in microthesauruses:
        concepts_per_microthesaurus = get_concepts_for_microthesaurus(microthesaurus_id, main_thesaurus_soup)
        concepts += concepts_per_microthesaurus
        
    concepts_per_domain[domain] = concepts

Сада се лако могу добити сви концепти који припадају домену науке. Има их укупно 133!

In [34]:
science_concepts = concepts_per_domain['36']

In [35]:
len(science_concepts)

133

Овако креирану структуру ћемо сачувати за даље коришћење у датотеци са именом *concepts_per_domain.txt*. 

In [37]:
with open('../data/concepts_per_domain.txt', 'w') as file:
    file.write(str(concepts_per_domain))