# Explore French headers

In [1]:
# Register tools
import os
import sys

sys.path.append(os.path.abspath("../"))

In [2]:
from collections import Counter

import regex as re

from tqdm import tqdm

from extract import iterate_dump

In [3]:
# Look at French corpus
path = "../frwiktionary-latest-pages-articles.xml.bz2"

In [4]:
# Process the whole dump
with open("header.txt", "w", encoding="utf-8", newline="\n") as file:
    for title, text in tqdm(iterate_dump(path)):

        # Add header to easily go back to source page
        file.write(f"\n>>> {title} <<<\n")
        for line in text.split("\n"):

            # Check for markdown header
            if line[:2] == "==":
                file.write(line)
                file.write("\n")

3820284it [10:20, 6161.59it/s]


In [5]:
# Load lines
with open("header.txt", "r", encoding="utf-8", newline="\n") as file:
    lines = [line.rstrip("\n") for line in file]

In [6]:
# Show extract
for line in lines[:50]:
    print(line)


>>> accueil <<<
== {{langue|fr}} ==
=== {{S|étymologie}} ===
=== {{S|nom|fr}} ===
==== {{S|dérivés}} ====
==== {{S|apparentés}} ====
==== {{S|synonymes}} ====
==== {{S|traductions}} ====
===== {{S|traductions à trier}} =====
=== {{S|prononciation}} ===
=== {{S|anagrammes}} ===
=== {{S|voir aussi}} ===
=== {{S|références}} ===

>>> lire <<<
== {{langue|fr}} ==
=== {{S|étymologie}} ===
=== {{S|verbe|fr}} ===
==== {{S|dérivés}} ====
==== {{S|traductions}} ====
===== {{S|traductions à trier}} =====
=== {{S|nom|fr}} ===
==== {{S|méronymes}} ====
==== {{S|synonymes}} ====
==== {{S|traductions}} ====
=== {{S|prononciation}} ===
==== {{S|homophones|fr}} ====
=== {{S|anagrammes}} ===
=== {{S|voir aussi}} ===
== {{langue|fro}} ==
=== {{S|étymologie}} ===
=== {{S|nom|fro}} ===
== {{langue|af}} ==
=== {{S|étymologie}} ===
=== {{S|nom|af}} ===

>>> encyclopédie <<<
== {{langue|fr}} ==
=== {{S|étymologie}} ===
=== {{S|nom|fr}} ===
==== {{S|variantes orthographiques}} ====
==== {{S|dérivés}} ====
==

In [7]:
# Count most common templates
template_r = re.compile(r"\{\{[^\|\{\}]+[\|\}]")
counter = Counter()
for line in tqdm(lines):
    counter.update(template_r.findall(line))

100%|██████████████████████████████████████████████████████████████████| 19434218/19434218 [01:40<00:00, 194118.71it/s]


In [9]:
# Show most common ones
counter.most_common()

[('{{S|', 7753999),
 ('{{langue|', 4008622),
 ('{{caractère}', 30564),
 ('{{ar-racine/page|', 21),
 ('{{lien|', 10),
 ('{{eo-azotit}', 6),
 ('{{note}', 5),
 ('{{ S|', 5),
 ('{{pron|', 5),
 ('{{usage}', 4),
 ('{{S |', 3),
 ('{{zh|', 2),
 ('{{note|', 2),
 ('{{S[références}', 1),
 ('{{lang|', 1),
 ('{{hyponymes|', 1),
 ('{{antonymes}', 1),
 ('{{vocabulaire}', 1),
 ('{{fr-rég|', 1)]

In [10]:
# Collect "syn" templates
template_r = re.compile(r"\{\{S\|.+\}\}")
counter = Counter()
for line in tqdm(lines):
    counter.update(template_r.findall(line))

100%|██████████████████████████████████████████████████████████████████| 19434218/19434218 [01:31<00:00, 211599.52it/s]


In [12]:
# Show most common ones
counter.most_common(50)

[('{{S|étymologie}}', 1269079),
 ('{{S|verbe|fr|flexion}}', 1125197),
 ('{{S|références}}', 514795),
 ('{{S|traductions}}', 340365),
 ('{{S|prononciation}}', 295239),
 ('{{S|voir aussi}}', 255278),
 ('{{S|nom|se|flexion}}', 233047),
 ('{{S|nom|fr}}', 213113),
 ('{{S|synonymes}}', 167776),
 ('{{S|nom|fr|flexion}}', 158659),
 ('{{S|notes}}', 132790),
 ('{{S|verbe|se|flexion}}', 127123),
 ('{{S|nom de famille|ru|flexion}}', 120473),
 ('{{S|dérivés}}', 111402),
 ('{{S|adjectif|fr|flexion}}', 108884),
 ('{{S|verbe|bg|flexion}}', 107467),
 ('{{S|nom propre|fr}}', 101015),
 ('{{S|verbe|es|flexion}}', 85503),
 ('{{S|anagrammes}}', 64886),
 ('{{S|adjectif|fr}}', 63444),
 ('{{S|apparentés}}', 58185),
 ('{{S|vocabulaire}}', 50492),
 ('{{S|nom|en|flexion}}', 50308),
 ('{{S|verbe|eo|flexion}}', 43542),
 ('{{S|variantes orthographiques}}', 43436),
 ('{{S|verbe|fr}}', 43150),
 ('{{S|nom|en}}', 41622),
 ('{{S|variantes}}', 40349),
 ('{{S|verbe|en|flexion}}', 39593),
 ('{{S|écriture}}', 39265),
 ('{{S|

In [13]:
# Count tags
template_r = re.compile(r"\{\{S\|([^\|]*).*\}\}")
tag_counter = Counter()
for key, count in counter.items():
    tag = template_r.match(key).group(1)
    tag_counter[tag] += count

In [16]:
# Show all
tag_counter.most_common()

[('verbe', 1838191),
 ('nom', 1359901),
 ('étymologie', 1269081),
 ('références', 514795),
 ('adjectif', 375419),
 ('traductions', 340365),
 ('prononciation', 295239),
 ('voir aussi', 255278),
 ('nom propre', 195128),
 ('nom de famille', 167874),
 ('synonymes', 167776),
 ('notes', 132790),
 ('dérivés', 111402),
 ('anagrammes', 64886),
 ('apparentés', 58185),
 ('vocabulaire', 50492),
 ('variantes orthographiques', 43436),
 ('sinogramme', 41639),
 ('variante typographique', 40762),
 ('variantes', 40349),
 ('écriture', 39265),
 ('prénom', 36620),
 ('antonymes', 32281),
 ('gentilés', 31445),
 ('adverbe', 28023),
 ('dico sinogrammes', 21252),
 ('hyperonymes', 20855),
 ('homophones', 20235),
 ('taux de reconnaissance', 16835),
 ('dérivés autres langues', 16140),
 ('Références', 12836),
 ('paronymes', 12611),
 ('hyponymes', 9205),
 ('variantes dialectales', 7577),
 ('quasi-synonymes', 7272),
 ('symbole', 6525),
 ('composés', 6064),
 ('adjectif numéral', 5961),
 ('interjection', 4029),
 ('suff

In [21]:
# Only consider level 3 "syn" tags
template_r = re.compile(r"^=== \{\{S\|([^\|]*).*\}\}")
counter = Counter()
for line in tqdm(lines):
    match = template_r.match(line)
    if match is not None:
        counter[match.group(1)] += 1

100%|██████████████████████████████████████████████████████████████████| 19434218/19434218 [00:51<00:00, 378261.30it/s]


In [23]:
# Show all
counter.most_common()

[('verbe', 1838145),
 ('nom', 1359844),
 ('étymologie', 1269023),
 ('références', 513225),
 ('adjectif', 375399),
 ('prononciation', 295048),
 ('voir aussi', 254711),
 ('nom propre', 195115),
 ('nom de famille', 167874),
 ('anagrammes', 64658),
 ('sinogramme', 41633),
 ('variante typographique', 40761),
 ('prénom', 36620),
 ('adverbe', 28008),
 ('dico sinogrammes', 21252),
 ('taux de reconnaissance', 16835),
 ('Références', 12829),
 ('symbole', 6525),
 ('adjectif numéral', 5961),
 ('interjection', 4026),
 ('suffixe', 3822),
 ('lettre', 3756),
 ('préposition', 3308),
 ('préfixe', 2712),
 ('pronom personnel', 2461),
 ('locution-phrase', 2332),
 ('numéral', 2008),
 ('conjonction', 1663),
 ('adj', 1652),
 ('pronom', 1183),
 ('voir', 1057),
 ('nom scientifique', 1002),
 ('pronom indéfini', 742),
 ('adjectif possessif', 693),
 ('nom commun', 662),
 ('modification phonétique', 518),
 ('pronom démonstratif', 508),
 ('pronom interrogatif', 487),
 ('particule', 478),
 ('variante par contrainte t

In [37]:
# Mapping with Universal Dependencies Part-of-Speech tags
TAGS = {
    "ADJ": {
        "adj",
        "adj-excl",
        "adjectif",
        "adjectif démonstratif",
        "adjectif exclamatif",
        "adjectif indéfini",
        "adjectif interrogatif",
        "adjectif possessif",
        "adjectif relatif",
    },
    "ADP": {
        "particule",
        "particule numérale",
        "postposition",
        "prép",
        "préposition",
    },
    "ADV": {
        "adv",
        "adv-pron",
        "adverbe",
        "adverbe indéfini",
        "adverbe interrogatif",
        "adverbe pronominal",
        "adverbe relatif",
    },
    "CCONJ": {
        "conjonction de coordination",
    },
    "DET": {
        "article",
        "article défini",
        "article indéfini",
        "article partitif",
        "déterminant",
    },
    "INTJ": {
        "interj",
        "interjection",
        "onom",
        "onomatopée",
    },
    "NOUN": {
        "nom",
        "nom commun",
        "nom scientifique",
    },
    "NUM": {
        "adjectif numéral",
        "adj-num",
        "numéral",
    },
    "PART": {
        # Not meaningful as a stand-alone word
    },
    "PRON": {
        "pronom",
        "pronom démonstratif",
        "pronom indéfini",
        "pronom interrogatif",
        "pronom personnel",
        "pronom possessif",
        "pronom relatif",
        "pronom-indéf",
    },
    "PROPN": {
        "nom propre",
        "nom-pr",
        "nom de famille",
        "nom-fam",
        "prénom",
    },
    "PUNCT": {
        # Tagged as SYM, as Wiktionary do not differentiate between them
    },
    "SCONJ": {
        "conj": "",
        "conjonction": "",
    },
    "SYM": {
        "lettre",
        "symbole",
        "sinogramme",
        "dico sinogrammes",
    },
    "VERB": {
        "verbe",
        "verb",
    },
}

# Invert mapping
MAPPING = {v: k for k, vs in TAGS.items() for v in vs}