In [1]:
import json
from json import JSONDecoder

import sys
sys.path.append('../')
sys.path.append('../andre')
import andre.utils as utils

# json extraction

In [2]:
# Specify the path to the JSON file
file_path = '../book_themes_alignment_data/thema_v1.5_fr.json'


class CustomDecoder(JSONDecoder):
    def decode(self, s):
        s = s.replace('\xa0', ' ')
        return super().decode(s)

# Read the JSON file
with open(file_path, 'r', encoding="utf8") as file:
    data = json.load(file, cls=CustomDecoder)

print(data.keys())
# Access the extracted data
thema_codes = data["CodeList"]["ThemaCodes"]["Code"]

# Print the extracted data
print(len(thema_codes))


dict_keys(['CodeList'])
8645


In [3]:
thema_codes

[{'CodeValue': 'A',
  'CodeDescription': 'Arts',
  'CodeNotes': 'Utilisez tous les codes A* pour les ouvrages spécialisés et généraux, qu’ils soient richement illustrés ou majoritairement textuel. Préférez les codes WF* pour les ouvrages liés à un loisir ou un passe-temps, en le complétant au besoin par le(s) code(s) A*. Utilisez au besoin tous les codes A* avec d’autres codes et qualificateurs, particulièrement avec les qualificateurs de style 6*, de lieux 1* et historiques 3*',
  'CodeParent': '',
  'IssueNumber': 1,
  'Modified': 1.4},
 {'CodeValue': 'AB',
  'CodeDescription': 'Arts : généralités',
  'CodeNotes': '',
  'CodeParent': 'A',
  'IssueNumber': 1,
  'Modified': 1.5},
 {'CodeValue': 'ABA',
  'CodeDescription': 'Théorie de l’art',
  'CodeNotes': 'Lié : QDTN',
  'CodeParent': 'AB',
  'IssueNumber': 1,
  'Modified': ''},
 {'CodeValue': 'ABC',
  'CodeDescription': 'Conservation, restauration et entretien d’œuvres d’art',
  'CodeNotes': 'Utilisez tous les codes A* pour les ouvra

In [4]:
import json
thema_code_dict = {}
for node in thema_codes:
    thema_code_dict[node["CodeValue"]] = node
thema_code_dict
# Specify the path to the JSON file
file_path = '../book_themes_alignment_data/thema_code_dict.json'

# Dump the dictionary to JSON
with open(file_path, 'w') as file:
    json.dump(thema_code_dict, file)

In [5]:
len(thema_code_dict)

8645

In [6]:
import re
from collections import defaultdict

depth_dict = defaultdict(list)
for code in thema_code_dict:
    node_depth = utils.get_thema_node_depth(code)
    depth_dict[node_depth].append(code)
    
depth_dict

defaultdict(list,
            {0: ['A',
              'C',
              'D',
              'F',
              'G',
              'J',
              'K',
              'L',
              'M',
              'N',
              'P',
              'Q',
              'R',
              'S',
              'T',
              'U',
              'V',
              'W',
              'X',
              'Y',
              1,
              2,
              3,
              4,
              5,
              6],
             1: ['AB',
              'AF',
              'AG',
              'AJ',
              'AK',
              'AM',
              'AT',
              'AV',
              'CB',
              'CF',
              'CJ',
              'DB',
              'DC',
              'DD',
              'DN',
              'DS',
              'FB',
              'FC',
              'FD',
              'FF',
              'FG',
              'FH',
              'FJ',
              'FK',
             

In [18]:
from tabulate import tabulate
for key in depth_dict:
    print(key, len(depth_dict[key]))    
    table = []
    for key in depth_dict:
        table.append([key, len(depth_dict[key])])

    table_headers = ["Depth", "Count"]
    table_str = tabulate(table, headers=table_headers, tablefmt="grid")

print(table_str)

0 26
1 202
2 1505
3 2137
4 1284
5 751
6 1103
7 1279
8 334
9 22
10 2
+---------+---------+
|   Depth |   Count |
|       0 |      26 |
+---------+---------+
|       1 |     202 |
+---------+---------+
|       2 |    1505 |
+---------+---------+
|       3 |    2137 |
+---------+---------+
|       4 |    1284 |
+---------+---------+
|       5 |     751 |
+---------+---------+
|       6 |    1103 |
+---------+---------+
|       7 |    1279 |
+---------+---------+
|       8 |     334 |
+---------+---------+
|       9 |      22 |
+---------+---------+
|      10 |       2 |
+---------+---------+


# all nodes

## description

In [8]:
all_nodes_descriptions = [node["CodeDescription"] for node in thema_codes]
all_nodes_descriptions

['Arts',
 'Arts : généralités',
 'Théorie de l’art',
 'Conservation, restauration et entretien d’œuvres d’art',
 'Contrefaçon, falsification et vol d’œuvres d’art',
 'Art : aspects financiers',
 'Arts : formes d’art',
 'Peinture et tableaux',
 'Tableaux, aquarelle et pastels',
 'Tableaux et peinture à l’huile',
 'Peintures murales et fresques',
 'Tableaux et peinture à l’encre',
 'Dessin et dessins',
 'Dessin et dessins au crayon, fusain ou pastel',
 'Dessin et dessins à la plume, au pinceau et à l’encre',
 'Estampes et gravure',
 'Autres formes d’art graphique ou visuel',
 'Body art et tatouage',
 'Formes d’art non graphique et électroniques',
 'Sculpture',
 'Sculptures, masques, reliefs',
 'Métal précieux, pierres précieuses et bijoux : techniques et procédés',
 'Installation artistique',
 'Performance artistique',
 'Art digital, vidéo et des nouveaux médias',
 'Céramique, mosaïque et verre : œuvres d’art',
 'Arts décoratifs',
 'Arts du textile',
 'Arts : techniques et sujets',
 'His

In [9]:
all_nodes_descriptions_preprocessed = utils.preprocess_theme_list(all_nodes_descriptions)
all_nodes_descriptions_preprocessed = list(set(all_nodes_descriptions_preprocessed))
print(all_nodes_descriptions_preprocessed)

['miscellanées', 'conakry', 'long', 'neurochirurgie', 'conduite', 'matera', 'ecole', 'gifu', 'mondes', 'vannes', 'niveau', 'musiciens', 'découverte', 'ferme', 'armagnac', 'guéret', 'tai-chi', 'endocrinologie', '1918–1943', 'poméranie', 'eubée', 'beaune', 'gnosticisme', 'garfagnana', 'sarre', 'psycholinguistique', 'namur', 'charente', 'dogrib', 'stavanger', 'classes', 'cher', 'jouets', 'thrace', 'iwate', 'gange', 'troubles', 'palaiseau', 'architectes', 'reportage', 'fagernes', 'varèse', 'guingamp', 'alep', 'düsseldorf', 'état-libre', 'outer', 'jack', 'a-stroom', 'loch', 'provinces', 'mauriac', 'émilie-romagne', 'fauske', 'nomenclature', 'taxonomie', 'loire-atlantique', 'récifs', 'bengale-occidental', 'nouvelle', 'haute-vienne', '1845-1852', 'leknes', 'bermudes', 'southampton', 'meaux', 'avestique', 'lodz', 'saguenay', 'paysages', 'lucques', 'virus', 'forêt-noire', 'lincolnshire', 'alpes', 'samba', 'réparation', 'terni', 'science-fiction:', 'suédois', 'cricket', 'poitou', 'age', 'lens', 

In [10]:
len(all_nodes_descriptions_preprocessed)

4308

## description and notes

In [11]:
all_nodes_descriptions_notes_raw = {}
for node in thema_codes:
    all_nodes_descriptions_notes_raw[node["CodeDescription"]] = node["CodeNotes"]

In [12]:
all_nodes_descriptions_notes_raw

{'Arts': 'Utilisez tous les codes A* pour les ouvrages spécialisés et généraux, qu’ils soient richement illustrés ou majoritairement textuel. Préférez les codes WF* pour les ouvrages liés à un loisir ou un passe-temps, en le complétant au besoin par le(s) code(s) A*. Utilisez au besoin tous les codes A* avec d’autres codes et qualificateurs, particulièrement avec les qualificateurs de style 6*, de lieux 1* et historiques 3*',
 'Arts : généralités': '',
 'Théorie de l’art': 'Lié : QDTN',
 'Conservation, restauration et entretien d’œuvres d’art': 'Utilisez tous les codes A* pour les ouvrages sur la conservation, la préservation, la rénovation, la restauration ou l’entretien de tout type d’art, y compris les bâtiments, les structures, les sculptures, les photos, les peintures, les arts décoratifs, etc.',
 'Contrefaçon, falsification et vol d’œuvres d’art': '',
 'Art : aspects financiers': 'Classez ici : les ventes d’art et vente aux enchères, le financement, le parrainage et le sponsoring

In [13]:
import json

# Specify the path to the JSON file
file_path = 'thema_all_nodes_descriptions_notes_raw_fr.json'

# Create a dictionary

# Dump the dictionary to JSON
with open(file_path, 'w') as file:
    json.dump(all_nodes_descriptions_notes_raw, file)


# root nodes

In [14]:
root_nodes = [node for node in thema_codes if node["CodeParent"] == ""]
root_nodes

[{'CodeValue': 'A',
  'CodeDescription': 'Arts',
  'CodeNotes': 'Utilisez tous les codes A* pour les ouvrages spécialisés et généraux, qu’ils soient richement illustrés ou majoritairement textuel. Préférez les codes WF* pour les ouvrages liés à un loisir ou un passe-temps, en le complétant au besoin par le(s) code(s) A*. Utilisez au besoin tous les codes A* avec d’autres codes et qualificateurs, particulièrement avec les qualificateurs de style 6*, de lieux 1* et historiques 3*',
  'CodeParent': '',
  'IssueNumber': 1,
  'Modified': 1.4},
 {'CodeValue': 'C',
  'CodeDescription': 'Langage et linguistique',
  'CodeNotes': 'Utilisez tous les codes C* pour les ouvrages spécialisés et généraux. Ne pas utiliser le code C, mais sélectionnez une catégorie spécifique de la section C*. Utilisez tous les codes C* avec d’autres catégories et au besoin un qualificateur, en particulier les qualificateurs de langue 2*, de lieux 1*, historiques 3* et éducatifs 4*',
  'CodeParent': '',
  'IssueNumber':

In [15]:
root_nodes_descriptions = [node["CodeDescription"] for node in root_nodes]
root_nodes_descriptions

['Arts',
 'Langage et linguistique',
 'Biographie, littérature et études littéraires',
 'Fiction',
 'Références, informations et sujets interdisciplinaires',
 'Société et sciences sociales',
 'Economie, finance, affaire et management',
 'Droit',
 'Médecine et services infirmiers',
 'Histoire et archéologie',
 'Mathématiques et sciences',
 'Philosophie et religion',
 'Sciences de la Terre, géographie, environnement et urbanisme',
 'Sports et activités de plein air',
 'Technologie, ingénierie et agriculture, procédés industriels',
 'Informatique et technologies de l’information',
 'Santé, relations et développement personnel',
 'Mode de vie, passe-temps et loisirs',
 'Romans graphiques, livres de bande dessinée, mangas, dessins animés',
 'Enfant, adolescent et enseignement',
 'Qualificateurs de lieux',
 'Qualificateurs de langue',
 'Qualificateurs historiques',
 'Qualificateurs éducatifs',
 'Qualificateurs d’intérêt',
 'Qualificateurs de style']

In [16]:
utils.preprocess_theme_list(root_nodes_descriptions)

['arts',
 'langage',
 'biographie',
 'fiction',
 'références',
 'société',
 'economie',
 'droit',
 'médecine',
 'histoire',
 'mathématiques',
 'philosophie',
 'sciences',
 'sports',
 'technologie',
 'informatique',
 'santé',
 'mode',
 'romans',
 'enfant',
 'qualificateurs',
 'qualificateurs',
 'qualificateurs',
 'qualificateurs',
 'qualificateurs',
 'qualificateurs']

In [17]:
node_descriptions = [node["CodeDescription"] for node in thema_codes]
node_descriptions

['Arts',
 'Arts : généralités',
 'Théorie de l’art',
 'Conservation, restauration et entretien d’œuvres d’art',
 'Contrefaçon, falsification et vol d’œuvres d’art',
 'Art : aspects financiers',
 'Arts : formes d’art',
 'Peinture et tableaux',
 'Tableaux, aquarelle et pastels',
 'Tableaux et peinture à l’huile',
 'Peintures murales et fresques',
 'Tableaux et peinture à l’encre',
 'Dessin et dessins',
 'Dessin et dessins au crayon, fusain ou pastel',
 'Dessin et dessins à la plume, au pinceau et à l’encre',
 'Estampes et gravure',
 'Autres formes d’art graphique ou visuel',
 'Body art et tatouage',
 'Formes d’art non graphique et électroniques',
 'Sculpture',
 'Sculptures, masques, reliefs',
 'Métal précieux, pierres précieuses et bijoux : techniques et procédés',
 'Installation artistique',
 'Performance artistique',
 'Art digital, vidéo et des nouveaux médias',
 'Céramique, mosaïque et verre : œuvres d’art',
 'Arts décoratifs',
 'Arts du textile',
 'Arts : techniques et sujets',
 'His