# Notebook d'importation des données de Wikidata

ce notebook sert de base pour la création des différentes tables utiles pour la base de données. il est structuré en fonction des données nécessaire à mon analyse

# import des librairies

In [1]:
### Librairie à installer dans l'environnement conda
# qui sera choisi pour exécuter le carnet
from SPARQLWrapper import SPARQLWrapper, SPARQLWrapper2, JSON, TURTLE, XML, RDFXML
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### Librairies déjà installées avec Python
import pprint
import csv
import sys

import sqlite3 as sql

import time
import datetime
from dateutil import parser

from importlib import reload
from shutil import copyfile

### Importer un module de fonctions crées ad hoc
##  ATTENTION : le fichier 'sparql_functions.py' doit se trouver 
#   dans un dossier qui se situe dans le chemin ('path') de recherche
#   vu par le présent carnet Jupyter afin que
#   l'importation fonctionne correctement

# Add parent directory to the path
sys.path.insert(0, '..')

### If you want to add the parent-parent directory,
# sys.path.insert(0, '../..')

import sparql_functions as spqf

print("Les imports se sont bien passés")

Les imports se sont bien passés


## table des personnes et des partis

Déroulement de l'exécution du notebook:
1. Récupérer les personnes avec leur parti
2. Nettoyer les données (eg. annee_naissance doit être un integer et pas une chaîne de caractères)
3. Construire la liste des partis à partir de la liste des personnes
4. Créer la table des partis à partir du dataframe des partis:
   - colonnes: id, code_parti, parti_uri
5. On sauve les partis dans une table `wdt_partis`
4. Créer la table des personne avec la contrainte fk_parti_id
   ```sql
   CREATE TABLE wdt_personnes ( 
    index INTEGER PRIMARY KEY, 
    person_uri TEXT,
    nom_prenom TEXT,
    genre_uri TEXT,
    genre_code TEXT,
    genre_label TEXT,
    annee_naissance INTEGER,
    FOREIGN KEY (fk_parti_index) REFERENCES wdt_partis(index)
   );
   ```
6. On insert les personnes avec la méthode `to_sql` du dataframe mais **avec l'option `if_exists='append'`**.

# étape 1 - import des personnes dans un dataframe

In [2]:
## define SPARQL enpoint
endpoint = "https://query.wikidata.org/sparql"

In [3]:
query = """
SELECT DISTINCT ?item  ?itemLabel  ?gender ?birthYear ?partiUri
        WHERE {
            {
         
          {?item wdt:P39 wd:Q18510612} #p39 position held et Q18510612 pour conseil national
            UNION
            {?item wdt:P17 wd:Q39} # p17 country et Q39 switzerland
         
              }
          
          ?item wdt:P31 wd:Q5;  # Any instance of a human.
              wdt:P569 ?birthDate;
                wdt:P21 ?gender;
                wdt:P102 ?partiUri;
        BIND(REPLACE(str(?birthDate), "(.*)([0-9]{4})(.*)", "$2") AS ?birthYear)
        FILTER(xsd:integer(?birthYear) > 1900 )

          SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
        } 
     ORDER BY ?birthYear
"""

print ("u nail it")

u nail it


In [4]:
### Executer la requête avec les fonctions de la librairie locale
qr = spqf.get_json_sparql_result(endpoint,query)

print ("tt est bon")

tt est bon


In [5]:
r = [l for l in spqf.sparql_result_to_list(qr)]
print(len(r))
r[:3]

1147


[['http://www.wikidata.org/entity/Q120229',
  'Robert Tobler',
  'http://www.wikidata.org/entity/Q6581097',
  '1901',
  'http://www.wikidata.org/entity/Q672926'],
 ['http://www.wikidata.org/entity/Q120229',
  'Robert Tobler',
  'http://www.wikidata.org/entity/Q6581097',
  '1901',
  'http://www.wikidata.org/entity/Q684909'],
 ['http://www.wikidata.org/entity/Q120229',
  'Robert Tobler',
  'http://www.wikidata.org/entity/Q6581097',
  '1901',
  'http://www.wikidata.org/entity/Q13142801']]

In [6]:
### Créer un DataFrame à partir du résultat
df_personnes = pd.DataFrame(r)
df_personnes.columns = ['personne_uri', 'nom_prenom', 'genre_uri', 'annee_naissance', 'parti_uri']
df_personnes.head()

Unnamed: 0,personne_uri,nom_prenom,genre_uri,annee_naissance,parti_uri
0,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q672926
1,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q684909
2,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q13142801
3,http://www.wikidata.org/entity/Q121118,Gabriel Despland,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q13850128
4,http://www.wikidata.org/entity/Q122856,Joseph Ackermann,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q667725


In [7]:
print(df_personnes.dtypes)

personne_uri       object
nom_prenom         object
genre_uri          object
annee_naissance    object
parti_uri          object
dtype: object


# étape 2 - nettoyage des données

## transformer les années de naissance de str à int

In [8]:
def annee_naissance_int(annee_naissance):
    return int(annee_naissance)

### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['annee_naissance'] = df_personnes.apply(lambda x: annee_naissance_int(x['annee_naissance']), axis=1)

In [9]:
print(df_personnes.dtypes)

personne_uri       object
nom_prenom         object
genre_uri          object
annee_naissance     int64
parti_uri          object
dtype: object


## création du genCode

In [10]:
 def code_genre(genre_uri):
    if genre_uri == 'http://www.wikidata.org/entity/Q6581097':
        # genre masculin
        a = 'M'
    elif genre_uri =='http://www.wikidata.org/entity/Q6581072':
        # genre féminin
        a = 'F'
    else :
        return 'A'
    return a  
     
### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['genre_code'] = df_personnes.apply(lambda x: code_genre(x['genre_uri']), axis=1)

In [11]:
### On inspecte les cinq premières lignes qui ont la valeur 'F' = féminin
df_personnes[df_personnes['genre_code']=='F'][:5]

Unnamed: 0,personne_uri,nom_prenom,genre_uri,annee_naissance,parti_uri,genre_code
105,http://www.wikidata.org/entity/Q73909077,Liselotte Spreng,http://www.wikidata.org/entity/Q6581072,1912,http://www.wikidata.org/entity/Q13850128,F
109,http://www.wikidata.org/entity/Q78072982,Hanny Thalmann,http://www.wikidata.org/entity/Q6581072,1912,http://www.wikidata.org/entity/Q659461,F
120,http://www.wikidata.org/entity/Q1515691,Gertrud Spiess,http://www.wikidata.org/entity/Q6581072,1914,http://www.wikidata.org/entity/Q659461,F
135,http://www.wikidata.org/entity/Q1903085,Martha Ribi,http://www.wikidata.org/entity/Q6581072,1915,http://www.wikidata.org/entity/Q13850128,F
199,http://www.wikidata.org/entity/Q1330086,Elisabeth Lardelli,http://www.wikidata.org/entity/Q6581072,1921,http://www.wikidata.org/entity/Q385258,F


In [12]:
print(df_personnes.dtypes)

personne_uri       object
nom_prenom         object
genre_uri          object
annee_naissance     int64
parti_uri          object
genre_code         object
dtype: object


## création du code_parti

In [13]:
def code_parti(parti_uri):
    if parti_uri == 'http://www.wikidata.org/entity/Q303745':
        # PS
        a = 'PS'
    elif parti_uri =='http://www.wikidata.org/entity/Q385258':
        # UDC
        a = 'UDC'
    elif parti_uri =='http://www.wikidata.org/entity/Q13850128':
        # PRD
        a = 'PRD'
    elif parti_uri =='http://www.wikidata.org/entity/Q659461':
        # PDC
        a = 'PRD'
    elif parti_uri =='http://www.wikidata.org/entity/Q659739':
        # Les Verts
        a = 'Verts'
    elif parti_uri =='http://www.wikidata.org/entity/Q202638':
        # PLR
        a = 'PLR'
    elif parti_uri =='http://www.wikidata.org/entity/Q667785':
        # PLS
        a = 'PLS'
    elif parti_uri =='http://www.wikidata.org/entity/Q550295':
        # alliance des indépendants
        a = 'ALL_IND'
    elif parti_uri =='http://www.wikidata.org/entity/Q545900':
        # PVL
        a = 'PVL'
    elif parti_uri =='http://www.wikidata.org/entity/Q100934025':
        # le centre
        a = 'LC'
    elif parti_uri =='http://www.wikidata.org/entity/Q151768':
        # parti bourgeois démocrate
        a = 'PBD'
    elif parti_uri =='http://www.wikidata.org/entity/Q477228':
        # parti des paysans et artisans indépendants
        a = 'PAI'
    elif parti_uri =='http://www.wikidata.org/entity/Q667718':
        # parti évangélique suisse
        a = 'PEV'
    elif parti_uri =='http://www.wikidata.org/entity/Q661771':
        # parti suisse du travail
        a = 'PST'
    elif parti_uri =='http://www.wikidata.org/entity/Q660046':
        # démocrates suisse ou action nationale
        a = 'DS'
    elif parti_uri =='http://www.wikidata.org/entity/Q668101':
        # ligue des Tessinois
        a = 'lega'
    elif parti_uri =='http://www.wikidata.org/entity/Q2145393':
        # mouvement républicain
        a = 'MR'
    elif parti_uri =='http://www.wikidata.org/entity/Q667836':
        # union démocratique fédérale
        a = 'UDF'
    elif parti_uri =='http://www.wikidata.org/entity/Q681843':
        # parti démocrate suisse
        a = 'PDS'
    elif parti_uri =='http://www.wikidata.org/entity/Q667725':
        # parti chrétien social
        a = 'PDC'
    elif parti_uri =='http://www.wikidata.org/entity/Q663580':
        # mouvement citoyens genevois
        a = 'MCG'
    elif parti_uri =='http://www.wikidata.org/entity/Q362949':
        # organisation progressistes de Suisse
        a = 'POCH'
    elif parti_uri =='http://www.wikidata.org/entity/Q327591':
        # indépendant
        a = 'IND'
    elif parti_uri =='http://www.wikidata.org/entity/Q13124':
        # parti libéral démocrate
        a = 'FDP'
    elif parti_uri =='http://www.wikidata.org/entity/Q684909':
        # collection fédérale Eidgenössische Sammlung
        a = 'CF'
    elif parti_uri =='http://www.wikidata.org/entity/Q677491':
        # mouvement socio-libéral
        a = 'SLB'
    elif parti_uri =='http://www.wikidata.org/entity/Q672946':
        # parti suisse de la liberté
        a = 'PSL'
    elif parti_uri =='http://www.wikidata.org/entity/Q672926':
        # front national
        a = 'FN'
    elif parti_uri =='http://www.wikidata.org/entity/Q3366732':
        # parti socialiste autonome
        a = 'PSA'
    elif parti_uri =='http://www.wikidata.org/entity/Q3366188':
        # parti chrétien-social indépendant
        a = 'PCSI'
    elif parti_uri =='http://www.wikidata.org/entity/Q286683':
        # solidaritéS
        a = 'Sol'
    elif parti_uri =='http://www.wikidata.org/entity/Q255650':
        # la Gauche alternative linke
        a = 'AL'
    elif parti_uri =='http://www.wikidata.org/entity/Q20012603':
        # ensemble à gauche
        a = 'EaG'
    elif parti_uri =='http://www.wikidata.org/entity/Q13142801':
        # Neue Front
        a = 'NeF'
    elif parti_uri =='http://www.wikidata.org/entity/Q1254507':
        # alliance verte et sociale bernoise, grünes bündnis
        a = 'GB'
    elif parti_uri =='http://www.wikidata.org/entity/Q1186111':
        # demokratisch-soziale partei
        a = 'PDC'
    elif parti_uri =='http://www.wikidata.org/entity/Q1084149':
        # parti chrétien-social d'obwald
        a = 'PCS'
    elif parti_uri =='http://www.wikidata.org/entity/Q10594788':
        # action nationale pour le peuple et la patrie
        a = 'NA'
    else:
        return 'A'
        
    return a 

### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['code_parti'] = df_personnes.apply(lambda x: code_parti(x['parti_uri']), axis=1)

In [14]:
### On inspecte les cinq premières lignes qui ont la valeur 'PAI' = xxx
df_personnes[df_personnes['code_parti']=='PAI'][:5]

Unnamed: 0,personne_uri,nom_prenom,genre_uri,annee_naissance,parti_uri,genre_code,code_parti
5,http://www.wikidata.org/entity/Q125303,Dewet Buri,http://www.wikidata.org/entity/Q6581097,1901,http://www.wikidata.org/entity/Q477228,M,PAI
34,http://www.wikidata.org/entity/Q2543940,Walter Degen,http://www.wikidata.org/entity/Q6581097,1904,http://www.wikidata.org/entity/Q477228,M,PAI
55,http://www.wikidata.org/entity/Q2173417,Rudolf Meier,http://www.wikidata.org/entity/Q6581097,1907,http://www.wikidata.org/entity/Q477228,M,PAI
75,http://www.wikidata.org/entity/Q23888175,Hans Weber,http://www.wikidata.org/entity/Q6581097,1908,http://www.wikidata.org/entity/Q477228,M,PAI
85,http://www.wikidata.org/entity/Q2039809,Otto Locher,http://www.wikidata.org/entity/Q6581097,1910,http://www.wikidata.org/entity/Q477228,M,PAI


# étape 3 - Construire la liste des partis à partir de la liste des personnes

In [15]:
dict_partis = dict()

for index, row in df_personnes.iterrows():
    if row['code_parti'] not in dict_partis:
        dict_partis[row['code_parti']] = row['parti_uri']

df_partis = pd.DataFrame.from_dict({'parti_code': dict_partis.keys(), 'parti_uri': dict_partis.values()})

print(df_partis)

   parti_code                                  parti_uri
0          FN     http://www.wikidata.org/entity/Q672926
1          CF     http://www.wikidata.org/entity/Q684909
2         NeF   http://www.wikidata.org/entity/Q13142801
3         PRD   http://www.wikidata.org/entity/Q13850128
4         PDC     http://www.wikidata.org/entity/Q667725
5         PAI     http://www.wikidata.org/entity/Q477228
6          PS     http://www.wikidata.org/entity/Q303745
7         PLS     http://www.wikidata.org/entity/Q667785
8         PDS     http://www.wikidata.org/entity/Q681843
9     ALL_IND     http://www.wikidata.org/entity/Q550295
10        FDP      http://www.wikidata.org/entity/Q13124
11        PST     http://www.wikidata.org/entity/Q661771
12         DS     http://www.wikidata.org/entity/Q660046
13        UDC     http://www.wikidata.org/entity/Q385258
14        PEV     http://www.wikidata.org/entity/Q667718
15         MR    http://www.wikidata.org/entity/Q2145393
16      Verts     http://www.wi

# étape 4 - Créer la table des partis à partir du dataframe des partis

In [16]:
### Se connecter à la base de données dans laquelle on va insérer
# le résultat de la requête SPARQL
cn = sql.connect('../../data/conseil_national_import.db')
cn

<sqlite3.Connection at 0x284bdd29b70>

In [17]:
### Tester une requête SQL sur une table existante
cur = cn.cursor()
l = cur.execute("SELECT * FROM person limit 3").fetchall()

In [18]:
[print(e) for e in l]

(1, 'http://www.wikidata.org/entity/Q118295', 'Tornare', 'Manuel', '1951-04-20T00:00:00Z', 'male', 'http://www.wikidata.org/entity/Q6581097')
(2, 'http://www.wikidata.org/entity/Q118327', 'Fässler', 'Hildegard', '1951-06-22T00:00:00Z', 'female', 'http://www.wikidata.org/entity/Q6581072')
(3, 'http://www.wikidata.org/entity/Q118380', 'Frösch', 'Therese', '1951-06-22T00:00:00Z', 'female', 'http://www.wikidata.org/entity/Q6581072')


[None, None, None]

In [19]:
### Créer une nouvelle table contenant le DataFrame
# Si on tente de la recréer, alor qu'elle existe déjà,
# un message d'erreur est renvoyé
try:
    l = df_partis.to_sql(name='wdt_partis', con=cn, if_exists='replace', index_label='id_pa')
except Exception as e:
    print('Erreur: ',  e)

Erreur:  Execution failed on sql 'DROP TABLE "wdt_partis"': database is locked


# étape 6 - créer la table des personnes avec la contraintes fk_partis_index

In [20]:
# On supprime la table si elle est déjà là
query = "DROP TABLE IF EXISTS wdt_personnes"
cur = cn.cursor()
cur.execute(query)

OperationalError: database is locked

In [108]:
query = """
CREATE TABLE wdt_personnes ( 
 id INTEGER PRIMARY KEY, 
 personne_uri TEXT,
 nom_prenom TEXT,
 genre_uri TEXT,
 genre_code TEXT,
 annee_naissance INTEGER,
 fk_parti_id INTEGER,
 FOREIGN KEY (fk_parti_id) REFERENCES wdt_partis(id_pa)
 )
 """

cur = cn.cursor()
cur.execute(query)

<sqlite3.Cursor at 0x229cf35ad40>

# étape 7 - insertion des individus dans la table wdt_personnes

In [109]:
def ajout_fk_parti_id(parti_code):
    ligne_parti = df_partis.index[df_partis['parti_code']== parti_code].tolist()[0]
    return ligne_parti

print(ajout_fk_parti_id('UDC'))

13


In [110]:
### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['fk_parti_id'] = df_personnes.apply(lambda x: ajout_fk_parti_id(x['code_parti']), axis=1)

In [111]:
### On inspecte les cinq premières lignes qui ont la valeur 'PAI' = xxx
df_personnes[df_personnes['code_parti']=='UDC'][:5]

Unnamed: 0,personne_uri,nom_prenom,genre_uri,annee_naissance,parti_uri,genre_code,code_parti,fk_parti_id
94,http://www.wikidata.org/entity/Q16101728,Otto Bretscher,http://www.wikidata.org/entity/Q6581097,1911,http://www.wikidata.org/entity/Q385258,M,UDC,13
114,http://www.wikidata.org/entity/Q1582102,Hans Roth,http://www.wikidata.org/entity/Q6581097,1913,http://www.wikidata.org/entity/Q385258,M,UDC,13
125,http://www.wikidata.org/entity/Q2543559,Walter Baumann,http://www.wikidata.org/entity/Q6581097,1914,http://www.wikidata.org/entity/Q385258,M,UDC,13
142,http://www.wikidata.org/entity/Q1579071,Hans Conzett,http://www.wikidata.org/entity/Q6581097,1915,http://www.wikidata.org/entity/Q385258,M,UDC,13
151,http://www.wikidata.org/entity/Q74448938,Georg Brosi,http://www.wikidata.org/entity/Q6581097,1916,http://www.wikidata.org/entity/Q385258,M,UDC,13


In [117]:
df_personnes = df_personnes.drop(['code_parti', 'parti_uri'], axis=1)

In [118]:
df_personnes.head()

Unnamed: 0,personne_uri,nom_prenom,genre_uri,annee_naissance,genre_code,fk_parti_id
0,http://www.wikidata.org/entity/Q1447990,Franz Landolt,http://www.wikidata.org/entity/Q6581097,1901,M,0
1,http://www.wikidata.org/entity/Q122856,Joseph Ackermann,http://www.wikidata.org/entity/Q6581097,1901,M,1
2,http://www.wikidata.org/entity/Q125303,Dewet Buri,http://www.wikidata.org/entity/Q6581097,1901,M,2
3,http://www.wikidata.org/entity/Q1758783,Paul Schib,http://www.wikidata.org/entity/Q6581097,1901,M,3
4,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q6581097,1901,M,4


In [119]:
### Créer une nouvelle table contenant le DataFrame
# Si on tente de la recréer, alor qu'elle existe déjà,
# un message d'erreur est renvoyé
try:
    l = df_personnes.to_sql(name='wdt_personnes', con=cn, if_exists='append', index_label='id')
except Exception as e:
    print('Erreur: ',  e)

# table des langues

Déroulement de l'exécution du notebook:
1. Récupérer les personnes avec leur langues
2. nettoyage des données (ex code_langues pour les langues)
3. se connecter à la base de données pour prendre la table `wdt_personnes`
4. Créer la table  `wdt_langues` à partir du dataframe des langues
   - colonnes: id_ln, langues_uri, languesLabel
5.  ajouter le lien à la table des personne avec la contrainte fk_langue_id
   ```sql
   ALTER TABLE wdt_personnes
ADD CONSTRAINT fk_langues
FOREIGN KEY (fk_langue_id)
REFERENCES wdt_langues (id);

   ```
7. On insert les personnes avec la méthode `to_sql` du dataframe mais **avec l'option `if_exists='append'`**.

### étape 1 - Récupérer les personnes avec leur langue

In [58]:
## define SPARQL enpoint
endpoint = "https://query.wikidata.org/sparql"

In [117]:
query = """
SELECT DISTINCT ?item ?itemLabel ?langues ?languesLabel
        WHERE {
            {
         
          {?item wdt:P39 wd:Q18510612} #p39 position held et Q18510612 pour conseil national
            UNION
            {?item wdt:P17 wd:Q39} # p17 country et Q39 switzerland
         
              }
          
          ?item wdt:P31 wd:Q5;  # Any instance of a human.
              wdt:P569 ?birthDate;
                wdt:P21 ?gender;
                wdt:P102 ?partiUri;
                wdt:P1412 ?langues;
                wdt:P19 ?lieu_naissance
        BIND(REPLACE(str(?birthDate), "(.*)([0-9]{4})(.*)", "$2") AS ?birthYear)
        FILTER(xsd:integer(?birthYear) > 1900 )
     

          SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
        } 
     ORDER BY ?birthYear
"""

print ("u nail it")

u nail it


In [118]:
### Executer la requête avec les fonctions de la librairie locale
qr = spqf.get_json_sparql_result(endpoint,query)

print ("tt est bon")

tt est bon


In [119]:
r = [l for l in spqf.sparql_result_to_list(qr)]
print(len(r))
r[:3]

1038


[['http://www.wikidata.org/entity/Q1758783',
  'Paul Schib',
  'http://www.wikidata.org/entity/Q188',
  'German'],
 ['http://www.wikidata.org/entity/Q120229',
  'Robert Tobler',
  'http://www.wikidata.org/entity/Q279350',
  'Standard High German'],
 ['http://www.wikidata.org/entity/Q120229',
  'Robert Tobler',
  'http://www.wikidata.org/entity/Q387066',
  'Swiss German']]

In [113]:
## certains de mes individus parlent plusieurs langues ce qui fait qu'il y a des doublons

In [120]:
### Créer un DataFrame à partir du résultat
df_personnes = pd.DataFrame(r)
df_personnes.columns = ['personne_uri', 'nom_prenom', 'langues_uri', 'langues']
df_personnes.head()

Unnamed: 0,personne_uri,nom_prenom,langues_uri,langues
0,http://www.wikidata.org/entity/Q1758783,Paul Schib,http://www.wikidata.org/entity/Q188,German
1,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q279350,Standard High German
2,http://www.wikidata.org/entity/Q120229,Robert Tobler,http://www.wikidata.org/entity/Q387066,Swiss German
3,http://www.wikidata.org/entity/Q1447990,Franz Landolt,http://www.wikidata.org/entity/Q188,German
4,http://www.wikidata.org/entity/Q1579473,Hans Fischer,http://www.wikidata.org/entity/Q188,German


In [121]:
print(df_langues.dtypes)

0    object
1    object
2    object
3    object
4    object
5    object
dtype: object


## étape 2 - nettoyage des données

In [122]:
## ce code_langues permet de déterminer 3 langues et de regrouper toutes les mentions 
## de suisse allemand ou high standard german sous la catégorie 'allemand'

def code_langues(langues_uri):
    if langues_uri == 'http://www.wikidata.org/entity/Q652':
        # italien
        a = 'IT'
    elif langues_uri =='http://www.wikidata.org/entity/Q150':
        # français
        a = 'FR'
    elif langues_uri =='http://www.wikidata.org/entity/Q188	':
        # allemand
        a = 'ALL'
    else :
        return 'ALL'
    return a  
     
### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['code_langues'] = df_personnes.apply(lambda x: code_langues(x['langues_uri']), axis=1)

In [123]:
### On inspecte les cinq premières lignes qui ont la valeur 'FR' = français
df_personnes[df_personnes['code_langues']=='FR'][:5]

Unnamed: 0,personne_uri,nom_prenom,langues_uri,langues,code_langues
9,http://www.wikidata.org/entity/Q15621580,Jacques Chamorel,http://www.wikidata.org/entity/Q150,French,FR
10,http://www.wikidata.org/entity/Q121118,Gabriel Despland,http://www.wikidata.org/entity/Q150,French,FR
13,http://www.wikidata.org/entity/Q116107,Jean Bourgknecht,http://www.wikidata.org/entity/Q150,French,FR
15,http://www.wikidata.org/entity/Q119847,Jean Peitrequin,http://www.wikidata.org/entity/Q150,French,FR
18,http://www.wikidata.org/entity/Q23636365,René Villard,http://www.wikidata.org/entity/Q150,French,FR


## étape 3 - Construire la liste des langues à partir de la liste des personnes

In [124]:
dict_langues = dict()

for index, row in df_personnes.iterrows():
    if row['code_langues'] not in dict_langues:
        dict_langues[row['code_langues']] = row['langues_uri']

df_langues = pd.DataFrame.from_dict({'code_langues': dict_langues.keys(), 'langues_uri': dict_langues.values()})

print(df_langues)

  code_langues                          langues_uri
0          ALL  http://www.wikidata.org/entity/Q188
1           FR  http://www.wikidata.org/entity/Q150
2           IT  http://www.wikidata.org/entity/Q652


## étape 4 - se connecter à la base de données pour prendre la table `wdt_personnes`

In [125]:
cn = sql.connect('../../data/conseil_national_import.db')
cn

<sqlite3.Connection at 0x130e8cfcc70>

In [126]:
### On récupère tout la table et on la met dans la list 'l'
cur = cn.cursor()
l = cur.execute("SELECT * FROM wdt_personnes limit 3 ").fetchall()

In [102]:
[print(e) for e in l]

(0, 'http://www.wikidata.org/entity/Q1447990', 'Franz Landolt', 'http://www.wikidata.org/entity/Q6581097', 'M', 1901, 0, None)
(1, 'http://www.wikidata.org/entity/Q122856', 'Joseph Ackermann', 'http://www.wikidata.org/entity/Q6581097', 'M', 1901, 1, None)
(2, 'http://www.wikidata.org/entity/Q125303', 'Dewet Buri', 'http://www.wikidata.org/entity/Q6581097', 'M', 1901, 2, None)


[None, None, None]

## étape 5 - Construire la liste des langues à partir de la liste des personnes

In [127]:
### Créer une nouvelle table contenant le DataFrame
# Si on tente de la recréer, alor qu'elle existe déjà,
# un message d'erreur est renvoyé
try:
    l = df_langues.to_sql(name='wdt_langues', con=cn, if_exists='replace', index_label='id')
except Exception as e:
    print('Erreur: ',  e)

## étape 6 - insertion des langues dans la table wdt_personnes

In [136]:
def ajout_fk_langues_id(code_langues):
    ligne_langues = df_langues.index[df_langues['code_langues']== code_langues].tolist()[0]
    return ligne_langues

print(ajout_fk_langues_id('FR'))

1


In [137]:
### On ajoute une nouvelle colonne et y on met pour chaque ligne le résultat de la fonction
df_personnes['fk_langues_id'] = df_personnes.apply(lambda x: ajout_fk_langues_id(x['code_langues']), axis=1)

## étape 5 - création dans la table 'wdt_personnes' de la 'fk_langues'

In [139]:
# Ajouter une colonne à table1 pour servir de clé étrangère
cursor.execute("""
ALTER TABLE wdt_personnes
ADD COLUMN fk_langues_id INTEGER;
""")

# Ajouter la contrainte de clé étrangère pour relier table1 à table2
cursor.execute("""
CREATE INDEX idx_wdt_personnes_fk_langues_id ON wdt_personnes(fk_langues_id);
""")

cursor.execute("""
PRAGMA foreign_keys = ON;
""")

cursor.execute("""
ALTER TABLE table1
ADD CONSTRAINT fk_table2_id FOREIGN KEY (table2_id) REFERENCES table2(id);
""")

OperationalError: duplicate column name: fk_langues_id