In [1]:
import xml.etree.ElementTree as ET
import datetime
from rdflib.graph import Graph, Literal, Namespace, URIRef
from rdflib.namespace import Namespace, OWL, RDF, RDFS, FOAF, DCTERMS, XSD, SDO
import pandas as pd

In [2]:
df = pd.read_csv("../CSVS/famille.csv", sep=",", encoding="utf-8").fillna("")


In [3]:
ns = Namespace("http://www.semanticweb.org/marceau/ontologies/2023/2/langues_indo_eu#")
graph = Graph()
graph.bind("langues", ns)
graph.bind("owl", OWL)
graph.bind("rdf", RDF)
graph.bind("rdfs", RDFS)
graph.bind("foaf", FOAF)
graph.bind("dcterms", DCTERMS)
graph.bind("xsd", XSD)
graph.bind("sdo", SDO)


In [4]:
for index, row in df.iterrows():
    label = row["Label"]
    origine = row["Langue_origine"]
    proprietes = row["Propriété"].split(",")
    proprietes = [p.strip() for p in proprietes]
    proprietes = [p for p in proprietes if p]

    graph.add((ns[label], RDF.type, ns["Famille_de_langue"]))
    graph.add((ns[label], RDFS.label, Literal(label, lang="fr")))
    graph.add((ns[label], ns.langue_origine, ns[origine]))
    for p in proprietes:
        graph.add((ns[label], ns.a_propriété_famille, ns[p]))


In [5]:
df = pd.read_csv("../CSVS/region.csv", sep=",", encoding="utf-8").fillna("")
df

Unnamed: 0,Label,Continent,Région
0,Balkans,Europe,Europe_Sud_Est
1,Europe_Sud_Est,Europe,Europe_Est
2,Europe_Est,Europe,
3,Europe_Nord_Est,Europe,Europe_Est
4,Europe_Centrale,Europe,
5,Europe_Sud_Ouest,Europe,Europe_Ouest
6,Europe_Ouest,Europe,
7,Europe_Nord_Ouest,Europe,Europe_Ouest
8,Afrique_Nord,Afrique,
9,Afrique_Sud,Afrique,


In [6]:
for index, row in df.iterrows():
    label = row["Label"]
    continent = row["Continent"]
    region_mere = row["Région"]

    graph.add((ns[label], RDF.type, ns["Région"]))
    graph.add((ns[label], RDFS.label, Literal(label, lang="fr")))
    graph.add((ns[label], ns.du_continent, ns[continent]))
    if region_mere:
        graph.add((ns[label], ns.région_mère, ns[region_mere]))



In [7]:
df = pd.read_csv("../CSVS/pays.csv", sep=",", encoding="utf-8").fillna("")
df


Unnamed: 0,Label,Région
0,Serbie,Balkans
1,Croatie,Balkans
2,Fédération_de_Russie,Europe_Nord_Est
3,Ukraine,Europe_Nord_Est
4,Biélorussie,Europe_Nord_Est
5,Pologne,Europe_Centrale
6,République_Tchèque,Europe_centrale
7,Slovaquie,Europe_Centrale
8,Slovénie,Europe_Centrale
9,Macédoine_du_Nord,Balkans


In [8]:
for index, row in df.iterrows():
    label = row["Label"]
    region = row["Région"]

    graph.add((ns[label], RDF.type, ns["Pays"]))
    graph.add((ns[label], RDFS.label, Literal(label, lang="fr")))
    graph.add((ns[label], ns.vient_de_region, ns[region]))


In [9]:
df = pd.read_csv("../CSVS/langues_ad.csv", sep=",", encoding="utf-8").fillna("")
df

Unnamed: 0,Langue,Pays,Alphabet,Locuteurs_n,Locuteurs_s,Famille,Propriété,Organisations,ISO_639-3,Pays_origine,Langue_origine
0,Serbe,"Serbie, Croatie, Bosnie-Herzégovine, Monténégr...",Cyrillique,9000000,3000000,Slave,"Cas,Flexion",,srp,Serbie,Proto-slave
1,Croate,"Serbie, Croatie, Bosnie-Herzégovine, Monténégro",Cyrillique,55000000,7000000,Slave,"Cas,Flexion",Union_européenne_(UE),hrv,Croatie,Proto-slave
2,Russe,"Fédération_de_Russie, Biélorussie, Kazakhstan,...",Cyrillique,155000000,103000000,Slave,"Cas,Flexion",Organisation_du_traité_de_sécurité_collective_...,rus,Fédération_de_Russie,Proto-slave
3,Ukrainien,"Ukraine, Roumanie, Pologne, République_Tchèque...",Cyrillique,37000000,10000000,Slave,"Cas,Flexion",Organisation_pour_la_sécurité_et_la_coopératio...,ukr,Ukraine,Proto-slave
4,Biélorusse,"Biélorussie, Fédération_de_Russie, Ukraine, Po...",Cyrillique,4000000,1000000,Slave,"Cas,Flexion",,bel,Biélorussie,Proto-slave
5,Polonais,"Pologne, Ukraine, Etats-Unis, Allemagne, Répub...",Cyrillique,45000000,10000000,Slave,"Cas,Flexion",,pol,Pologne,Proto-slave
6,Tchèque,"République_Tchèque, Slovaquie",Cyrillique,11000000,3000000,Slave,"Cas,Flexion",Union_européenne_(UE),ces,République_Tchèque,Proto-slave
7,Slovaque,"Slovaquie, Pologne, Hongrie, Autriche, Républi...",Cyrillique,55000000,11000000,Slave,"Cas,Flexion",Organisation_du_traité_de_l'Atlantique_Nord_(O...,slk,Slovaquie,Proto-slave
8,Slovène,"Slovénie, Italie, Autriche, Croatie, Hongrie",Cyrillique,25000000,3000000,Slave,"Cas,Flexion",Organisation_du_traité_de_l'Atlantique_Nord_(O...,slv,Slovénie,Proto-slave
9,Macédonien,"Macédoine_du_Nord, Serbie, Albanie, Bulgarie",Cyrillique,21000000,25000000,Slave,"Cas,Flexion",,mkd,Macédoine_du_Nord,Proto-slave


In [10]:
for index, row in df.iterrows():
    label = row["Langue"]
    pays = row["Pays"].split(",")
    pays = [p.strip() for p in pays]
    pays = [p for p in pays if p]
    alphabet = row["Alphabet"]
    locuteurs_natifs = row["Locuteurs_n"]
    locuteurs_natifs = int(locuteurs_natifs) if locuteurs_natifs else 0
    locuteurs_secondaires = row["Locuteurs_s"]
    locuteurs_secondaires = int(locuteurs_secondaires) if locuteurs_secondaires else 0
    famille = row["Famille"]
    proprietes = row["Propriété"].split(",")
    proprietes = [p.strip() for p in proprietes]
    proprietes = [p for p in proprietes if p]
    organisations = row["Organisations"].split(",")
    organisations = [o.strip() for o in organisations]
    organisations = [o for o in organisations if o]
    code_iso = row["ISO_639-3"]
    pays_origine = row["Pays_origine"].split(",")
    pays_origine = [p.strip() for p in pays_origine]
    pays_origine = [p for p in pays_origine if p]
    langue_origine = row["Langue_origine"].split(",")
    langue_origine = [l.strip() for l in langue_origine]
    langue_origine = [l for l in langue_origine if l]

    graph.add((ns[label], RDF.type, ns["Langue"]))
    graph.add((ns[label], RDFS.label, Literal(label, lang="fr")))
    graph.add((ns[label], ns.a_alphabet, ns[alphabet]))
    graph.add((ns[label], ns.a_famille, ns[famille]))
    graph.add((ns[label], ns.a_code_iso, Literal(code_iso)))
    graph.add((ns[label], ns.a_locuteurs_natifs, Literal(locuteurs_natifs, datatype=XSD.int)))
    graph.add((ns[label], ns.a_locuteurs_secondaires, Literal(locuteurs_secondaires, datatype=XSD.int)))
    for p in proprietes:
        graph.add((ns[label], ns.a_propriété, ns[p]))
    for o in organisations:
        graph.add((ns[label], ns.a_organisation, ns[o]))
    for p in pays:
        graph.add((ns[label], ns.a_pays, ns[p]))
    for p in pays_origine:
        graph.add((ns[label], ns.a_pays_origine, ns[p]))
    for l in langue_origine:
        graph.add((ns[label], ns.a_langue_mere, ns[l]))





In [11]:
# create relations

a_pays = ns["a_pays"]
a_pays_origine = ns["a_pays_origine"]
a_organisation = ns["a_organisation"]
a_propriete = ns["a_propriété"]
a_propriete_famille = ns["a_propriété_famille"]
a_famille = ns["a_famille"]
a_alphabet = ns["a_alphabet"]
a_langue_mere = ns["a_langue_mere"]
vient_de = ns["vient_de"]
du_continent = ns["continent"]
region_mere = ns["région_mère"]
langue_origine = ns["langue_origine"]

def create_relation(relation, label, domain, range, rel_sup = []):
    graph.add((relation, RDF.type, OWL.ObjectProperty))
    graph.add((relation, RDFS.label, Literal(label, lang="fr")))
    graph.add((relation, RDFS.domain, ns[domain]))
    graph.add((relation, RDFS.range, ns[range]))
    for e in rel_sup:
        graph.add((relation, RDFS.subPropertyOf, ns[e]))

create_relation(a_pays, "a_pays", "Langue", "Pays")
create_relation(a_pays_origine, "a_pays_origine", "Langue", "Pays", [a_pays])
create_relation(a_organisation, "a_organisation", "Langue", "Organisation")
create_relation(a_propriete, "a_propriété", "Langue", "Propriété")
create_relation(a_propriete_famille, "a_propriété_famille", "Famille", "Propriété")
create_relation(a_famille, "a_famille", "Langue", "Famille")
create_relation(a_alphabet, "a_alphabet", "Langue", "Alphabet")
create_relation(a_langue_mere, "a_langue_mere", "Langue", "Langue")
create_relation(vient_de, "vient_de", "Langue", "Région")
create_relation(du_continent, "continent", "Région", "Continent")
create_relation(region_mere, "région_mère", "Région", "Région")
create_relation(langue_origine, "langue_origine", "Langue", "Langue")



In [12]:
a_locuteurs_natifs = ns["a_locuteurs_natifs"]
a_locuteurs_secondaires = ns["a_locuteurs_secondaires"]
a_code_iso = ns["a_code_iso"]

In [13]:
graph.serialize(destination="../RDFs/langues.ttl", format="turtle")


<Graph identifier=N1f35007d78df4b3393796be5dc7ed745 (<class 'rdflib.graph.Graph'>)>

In [None]:
# Parse the csvs
famille_de_langue = {}
df = pd.read_csv("../CSVS/famille.csv").fillna("")
for index, row in df.iterrows():
    label = row["Label"]
    origine = row["Langue_origine"]
    proprietes = row["Propriété"].split(",")
    proprietes = [p.strip() for p in proprietes]
    proprietes = [p for p in proprietes if p]

        famille_de_langue[label] = {
            "origine": origine,
            "proprietes": proprietes
        }

pays = {}
df = pd.read_csv("../CSVS/pays.csv").fillna("")
for index, row in df.iterrows():
    label = row["Label"]
    region = row["Région"]

    pays[label] = {
        "region": region
    }

region = {}
df = pd.read_csv("../CSVS/region.csv").fillna("")
for index, row in df.iterrows():
    label = row["Label"]
    continent = row["Continent"]
    region_mere = row["Région"]

    region[label] = {
        "continent": continent,
        "region_mere": region_mere
    }


langues = {}
df = pd.read_csv("../CSVS/langues_ad.csv").fillna("")
df
for index, row in df.iterrows():
    label = row["Langue"]
    pays = row["Pays"].split(",")
    pays = [p.strip() for p in pays]
    pays = [p for p in pays if p]
    alphabet = row["Alphabet"]
    locuteurs_natifs = parse_int(row["Locuteurs_n"])
    locuteurs_secondaires = parse_int(row["Locuteurs_s"])
    famille = row["Famille"]
    proprietes = parse_multiple_values(row, "Propriété")
    organisations = parse_multiple_values(row, "Organisations")
    code_iso = row["ISO_639-3"]
    pays_origine =parse_multiple_values(row, "Pays_origine")
    langue_mere = parse_multiple_values(row, "Langue_origine")

    langues[label] = {
        "pays": pays,
        "alphabet": alphabet,
        "locuteurs_natifs": locuteurs_natifs,
        "locuteurs_secondaires": locuteurs_secondaires,
        "famille": famille,
        "proprietes": proprietes,
        "organisations": organisations,
        "code_iso": code_iso,
        "pays_origine": pays_origine,
        "langue_mere": langue_mere
    }
