# üöÄ Requ√™te WIKIDATA

## üî® Construction de l'environnement n√©cessaire et configuration

### Installation des modules

In [None]:
%pip install SPARQLWrapper tqdm pandas

print("‚¨áÔ∏è Installation termin√©e !")

### Configuration

In [1]:
# üîß CONFIGURATION ET IMPORTS
import json
import csv
import time
import re
import os
from datetime import datetime
from SPARQLWrapper import SPARQLWrapper, JSON
from tqdm import tqdm
import pandas as pd

# Configuration
WIKIDATA_ENDPOINT = "https://query.wikidata.org/sparql"
RATE_LIMIT_DELAY = 3.0 
BATCH_SIZE = 10  
MAX_RETRIES = 3  
REQUEST_TIMEOUT = 60
ENRICHMENT_BATCH_SIZE = 15
LOOP_LIMIT = 25
LOOP_OFFSET = 0

# Dossier de sortie
output_dir = "./output"
os.makedirs(output_dir, exist_ok=True)

print("üöÄ CONFIGURATION TERMIN√âE")
print(f"üìÅ Dossier de sortie: {output_dir}")
print(f"‚è±Ô∏è  Rate limit: {RATE_LIMIT_DELAY}s entre requ√™tes")
print(f"üì¶ Taille des batches: {BATCH_SIZE}")

üöÄ CONFIGURATION TERMIN√âE
üìÅ Dossier de sortie: ./output
‚è±Ô∏è  Rate limit: 3.0s entre requ√™tes
üì¶ Taille des batches: 10


In [2]:
def create_sparql_client():
    """
    Cr√©er un client SPARQL pour interagir avec Wikidata
    :return: Instance de SPARQLWrapper configur√©e pour Wikidata
    """
    sparql = SPARQLWrapper(WIKIDATA_ENDPOINT)
    sparql.setReturnFormat(JSON)
    sparql.setTimeout(REQUEST_TIMEOUT)
    return sparql

def execute_sparql_query(query, max_retries=MAX_RETRIES, use_pagination=False, limit=None, max_results=None):
    """
    Ex√©cute une requ√™te SPARQL avec gestion des erreurs, rate limiting et pagination optionnelle
    :param query: La requ√™te SPARQL √† ex√©cuter
    :param max_retries: Nombre maximum de tentatives en cas d'√©chec
    :param use_pagination: Si True, active la pagination automatique
    :param limit: Taille des pages pour la pagination (d√©faut: LOOP_LIMIT)
    :param max_results: Nombre maximum de r√©sultats √† r√©cup√©rer (None = illimit√©)
    :return: R√©sultats de la requ√™te ou une liste vide en cas d'√©chec
    """
    sparql = create_sparql_client()
    
    # Mode simple sans pagination
    if not use_pagination:
        for attempt in range(max_retries):
            try:
                sparql.setQuery(query)
                results = sparql.query().convert()
                time.sleep(RATE_LIMIT_DELAY)
                return results["results"]["bindings"]
            except Exception as e:
                print(f"‚ö†Ô∏è  Tentative {attempt + 1}/{max_retries} √©chou√©e: {e}...")
                if attempt < max_retries - 1:
                    time.sleep(RATE_LIMIT_DELAY * (attempt + 2))
                else:
                    print(f"‚ùå Requ√™te √©chou√©e apr√®s {max_retries} tentatives")
                    return []
        return []
    
    # Mode pagination
    if limit is None:
        limit = LOOP_LIMIT
    
    all_results = []
    offset = 0
    
    print(f"üîç D√©but de la pagination (limit={limit})...")
    
    while True:
        # Ajouter LIMIT et OFFSET √† la requ√™te
        paginated_query = f"{query.rstrip()} LIMIT {limit} OFFSET {offset}"
        
        print(f"üîπ Requ√™te OFFSET {offset}, LIMIT {limit}")
        
        success = False
        for attempt in range(max_retries):
            try:
                sparql.setQuery(paginated_query)
                results = sparql.query().convert()
                bindings = results["results"]["bindings"]
                
                if not bindings:
                    print("‚úÖ Fin de la pagination - Aucun r√©sultat suppl√©mentaire.")
                    success = True
                    break
                
                all_results.extend(bindings)
                print(f"‚úÖ R√©cup√©r√© {len(bindings)} r√©sultats (total: {len(all_results)})")
                
                # V√©rifier la limite max_results
                if max_results and len(all_results) >= max_results:
                    print(f"üéØ Limite de {max_results} r√©sultats atteinte.")
                    all_results = all_results[:max_results]  # Tronquer si n√©cessaire
                    success = True
                    break
                
                success = True
                break
                
            except Exception as e:
                print(f"‚ö†Ô∏è  Tentative {attempt + 1}/{max_retries} √©chou√©e √† l'offset {offset}: {e}")
                if attempt < max_retries - 1:
                    time.sleep(RATE_LIMIT_DELAY * (attempt + 2))
                else:
                    print(f"‚ùå Requ√™te √©chou√©e apr√®s {max_retries} tentatives √† l'offset {offset}")
                    return all_results  # Retourner ce qu'on a r√©ussi √† r√©cup√©rer
        
        if not success or (max_results and len(all_results) >= max_results):
            break
        
        # Incr√©menter l'offset pour la prochaine page
        offset += limit
        
        # Rate limiting crucial
        print(f"‚è≥ Attente de {RATE_LIMIT_DELAY}s...")
        time.sleep(RATE_LIMIT_DELAY)
    
    print(f"üéØ Total final r√©cup√©r√© : {len(all_results)} r√©sultats.")
    return all_results

def clean_entity_id(entity_uri):
    """
    Extrait l'ID d'une entit√© √† partir de son URI
    :param entity_uri: URI de l'entit√© (ex: "http://www.wikidata.org/entity/Q42'")
    :return: ID de l'entit√© (ex: "Q42") ou une cha√Æne vide si l'URI est vide
    """
    if not entity_uri:
        return ""
    return entity_uri.split("/")[-1] if "/" in entity_uri else entity_uri

def execute_batch_queries(queries, description="Requ√™tes", use_pagination=False):
    """
    Ex√©cute une liste de requ√™tes SPARQL en batch
    :param queries: Liste de requ√™tes SPARQL √† ex√©cuter
    :param description: Description de la t√¢che pour l'affichage
    :param use_pagination: Active la pagination pour chaque requ√™te
    :return: Liste de tous les r√©sultats combin√©s
    """
    all_results = []
    for i, query in enumerate(tqdm(queries, desc=description)):
        results = execute_sparql_query(query, use_pagination=use_pagination)
        all_results.extend(results)
        if (i + 1) % BATCH_SIZE == 0:
            time.sleep(RATE_LIMIT_DELAY)
    return all_results

def execute_paginated_query(base_query, limit=None, max_results=None):
    """
    Fonction helper pour ex√©cuter facilement une requ√™te avec pagination
    :param base_query: Requ√™te SPARQL de base (sans LIMIT/OFFSET)
    :param limit: Taille des pages (d√©faut: LOOP_LIMIT)
    :param max_results: Nombre maximum de r√©sultats (None = illimit√©)
    :return: Liste de tous les r√©sultats
    """
    return execute_sparql_query(
        base_query, 
        use_pagination=True, 
        limit=limit, 
        max_results=max_results
    )

print("""üîó FONCTIONS CONFIGUR√âES :
      - create_sparql_client: Cr√©e un client SPARQL pour Wikidata
      - execute_sparql_query: Ex√©cute une requ√™te SPARQL avec gestion
        des erreurs, rate limiting et pagination optionnelle
        - clean_entity_id: Extrait l'ID d'une entit√© √† partir de son URI
        - execute_batch_queries: Ex√©cute une liste de requ√™tes SPARQL en batch
        - execute_paginated_query: Ex√©cute une requ√™te SPARQL avec pagination
      """)

üîó FONCTIONS CONFIGUR√âES :
      - create_sparql_client: Cr√©e un client SPARQL pour Wikidata
      - execute_sparql_query: Ex√©cute une requ√™te SPARQL avec gestion
        des erreurs, rate limiting et pagination optionnelle
        - clean_entity_id: Extrait l'ID d'une entit√© √† partir de son URI
        - execute_batch_queries: Ex√©cute une liste de requ√™tes SPARQL en batch
        - execute_paginated_query: Ex√©cute une requ√™te SPARQL avec pagination
      


## üöß Construction de la requ√™te


### Rechercher une entit√© par nom

In [3]:
# üéØ IDENTIFICATION DE L'ENTIT√â

def find_aeronautics_entity():
    """
    Demande √† l'utilisateur le nom de l'entit√© √† rechercher dans Wikidata
    :return: Tuple contenant l'ID et le label de l'entit√©
    """
    entity_name = input("Entrez le nom de l'entit√© √† rechercher dans wikidata, en anglais (ex: aeronautics) : ").strip()
    if not entity_name:
        print("‚ùå Aucun nom d'entit√© fourni.")
        return None, None  # ‚úÖ Coh√©rent avec l'assignation

    # Choix de la requ√™te √† utiliser
    query_choice = input(
        "Quel type de requ√™te utiliser ?\n"
        "1Ô∏è‚É£ Recherche d'une cha√Æne dans les labels\n"
        "2Ô∏è‚É£ Requ√™te d'une cha√Æne dans les parents\n"
        "Entrez le num√©ro de votre choix (1 ou 2) : "
    ).strip()

    if query_choice == "1":
        query_regex = f"""
        SELECT ?item ?itemLabel
        WHERE {{
            ?item rdfs:label ?itemLabel.
            FILTER(LANG(?itemLabel) = "en").
            FILTER(CONTAINS(LCASE(?itemLabel), "{entity_name}")).
        }}
        """
    elif query_choice == "2":
        query_regex = f"""
        SELECT ?item ?itemLabel
        WHERE {{
            ?item wdt:P31*/wdt:P279* ?parent.
            ?parent rdfs:label ?parentLabel.
            FILTER(LANG(?parentLabel) = "en").
            FILTER(CONTAINS(LCASE(?parentLabel), "{entity_name}")).
            SERVICE wikibase:label {{ bd:serviceParam wikibase:language "en". }}
        }}
        """
    else:
        print("‚ùå Choix invalide. Veuillez entrer 1 ou 2.")
        return None, None  # ‚úÖ Coh√©rent avec l'assignation

    print(f"üîç Recherche de l'entit√© principale '{entity_name}'...")
    results = execute_paginated_query(query_regex)  # Limite pour voir plusieurs r√©sultats

    if results:
        print(f"\nüìã {len(results)} entit√©s trouv√©es:")
        print("-" * 50)
        
        # Afficher les premiers r√©sultats pour que l'utilisateur puisse voir
        for i, entity in enumerate(results[:5]):
            entity_id = clean_entity_id(entity["item"]["value"])
            entity_label = entity["itemLabel"]["value"]
            print(f"{i+1}. {entity_label} ({entity_id})")
        
        if len(results) > 5:
            print(f"... et {len(results) - 5} autres r√©sultats")

In [4]:
def execute_and_save_query(query, filename=None, limit=None, max_results=None, description="Requ√™te SPARQL"):
    """
    Ex√©cute une requ√™te SPARQL avec pagination et sauvegarde automatiquement en JSON
    :param query: Requ√™te SPARQL √† ex√©cuter
    :param filename: Nom du fichier JSON (sans extension). Si None, g√©n√®re automatiquement
    :param limit: Taille des pages pour la pagination (d√©faut: LOOP_LIMIT)
    :param max_results: Nombre maximum de r√©sultats (None = illimit√©)
    :param description: Description pour les logs
    :return: Tuple (results, json_filepath) - R√©sultats et chemin du fichier JSON
    """
    print(f"üöÄ EX√âCUTION: {description}")
    print("="*50)
    
    # Ex√©cuter la requ√™te avec pagination
    print(f"üîç Ex√©cution de la requ√™te...")
    results = execute_paginated_query(query, limit=limit, max_results=max_results)
    
    if not results:
        print("‚ùå Aucun r√©sultat trouv√©")
        return [], None
    
    print(f"‚úÖ {len(results)} r√©sultats r√©cup√©r√©s")
    
    # G√©n√©rer le nom de fichier si non fourni
    if filename is None:
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"query_results_{timestamp}"
    
    # Ajouter l'extension .json si elle n'est pas pr√©sente
    if not filename.endswith('.json'):
        filename += '.json'
    
    # Chemin complet du fichier
    json_filepath = os.path.join(output_dir, filename)
    
    # Cr√©er les donn√©es √† sauvegarder avec m√©tadonn√©es
    data_to_save = {
        "metadata": {
            "description": description,
            "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
            "total_results": len(results),
            "query": query.strip(),
            "pagination_limit": limit or LOOP_LIMIT,
            "max_results": max_results
        },
        "results": results
    }
    
    # Sauvegarder en JSON
    try:
        with open(json_filepath, 'w', encoding='utf-8') as jsonfile:
            json.dump(data_to_save, jsonfile, ensure_ascii=False, indent=2)
        
        print(f"üíæ R√©sultats sauvegard√©s: {filename}")
        print(f"üìÅ Chemin: {json_filepath}")
        
        # Afficher un aper√ßu des r√©sultats
        print(f"\nüìä APER√áU DES R√âSULTATS:")
        for i, result in enumerate(results[:3]):
            print(f"üîπ R√©sultat {i+1}:")
            for key, value in result.items():
                if isinstance(value, dict) and 'value' in value:
                    print(f"   ‚Ä¢ {key}: {value['value'][:100]}...")
                else:
                    print(f"   ‚Ä¢ {key}: {str(value)[:100]}...")
            print()
        
        if len(results) > 3:
            print(f"... et {len(results) - 3} autres r√©sultats")
        
        return results, json_filepath
        
    except Exception as e:
        print(f"‚ùå Erreur lors de la sauvegarde: {e}")
        return results, None

def execute_custom_query():
    """
    Fonction interactive pour ex√©cuter une requ√™te personnalis√©e
    """
    print("üéØ EX√âCUTION D'UNE REQU√äTE PERSONNALIS√âE")
    print("="*45)
    
    # Demander la requ√™te √† l'utilisateur
    print("üìù Entrez votre requ√™te SPARQL (tapez 'END' sur une ligne vide pour terminer):")
    query_lines = []
    while True:
        line = input()
        if line.strip().upper() == 'END':
            break
        query_lines.append(line)
    
    query = '\n'.join(query_lines)
    
    if not query.strip():
        print("‚ùå Requ√™te vide")
        return None, None
    
    # Demander les param√®tres optionnels
    description = input("üìã Description de la requ√™te (optionnel): ").strip()
    if not description:
        description = "Requ√™te personnalis√©e"
    
    filename = input("üìÅ Nom du fichier de sauvegarde (optionnel, sans extension): ").strip()
    if not filename:
        filename = None
    
    limit_input = input(f"üìä Limite par page (d√©faut: {LOOP_LIMIT}): ").strip()
    limit = int(limit_input) if limit_input.isdigit() else None
    
    max_results_input = input("üéØ Nombre maximum de r√©sultats (optionnel): ").strip()
    max_results = int(max_results_input) if max_results_input.isdigit() else None
    
    # Ex√©cuter la requ√™te
    return execute_and_save_query(
        query=query,
        filename=filename,
        limit=limit,
        max_results=max_results,
        description=description
    )

print("‚úÖ Fonctions d'ex√©cution g√©n√©rique configur√©es:")
print("   ‚Ä¢ execute_and_save_query(): Ex√©cute et sauvegarde une requ√™te")
print("   ‚Ä¢ execute_custom_query(): Interface interactive pour requ√™tes personnalis√©es")

‚úÖ Fonctions d'ex√©cution g√©n√©rique configur√©es:
   ‚Ä¢ execute_and_save_query(): Ex√©cute et sauvegarde une requ√™te
   ‚Ä¢ execute_custom_query(): Interface interactive pour requ√™tes personnalis√©es


In [5]:
# üéØ IDENTIFICATION DE L'ENTIT√â

def find_aeronautics_entity():
    """
    Demande √† l'utilisateur le nom de l'entit√© √† rechercher dans Wikidata
    :return: Tuple contenant l'ID et le label de l'entit√©
    """
    entity_name = input("Entrez le nom de l'entit√© √† rechercher dans wikidata, en anglais (ex: aeronautics) : ").strip()
    if not entity_name:
        print("‚ùå Aucun nom d'entit√© fourni.")
        return None, None  # ‚úÖ Coh√©rent avec l'assignation

    # Choix de la requ√™te √† utiliser
    query_choice = input(
        "Quel type de requ√™te utiliser ?\n"
        "1Ô∏è‚É£ Recherche d'une cha√Æne dans les labels\n"
        "2Ô∏è‚É£ Requ√™te d'une cha√Æne dans les parents\n"
        "Entrez le num√©ro de votre choix (1 ou 2) : "
    ).strip()

    if query_choice == "1":
        query_regex = f"""
        SELECT ?item ?itemLabel
        WHERE {{
            ?item rdfs:label ?itemLabel.
            FILTER(LANG(?itemLabel) = "en").
            FILTER(CONTAINS(LCASE(?itemLabel), "{entity_name}")).
        }}
        """
    elif query_choice == "2":
        query_regex = f"""
        SELECT ?item ?itemLabel
        WHERE {{
            ?item wdt:P31*/wdt:P279* ?parent.
            ?parent rdfs:label ?parentLabel.
            FILTER(LANG(?parentLabel) = "en").
            FILTER(CONTAINS(LCASE(?parentLabel), "{entity_name}")).
            SERVICE wikibase:label {{ bd:serviceParam wikibase:language "en". }}
        }}
        """
    else:
        print("‚ùå Choix invalide. Veuillez entrer 1 ou 2.")
        return None, None  # ‚úÖ Coh√©rent avec l'assignation

    print(f"üîç Recherche de l'entit√© principale '{entity_name}'...")
    print(f"üîç Requ√™te s√©lectionn√©e:{query_regex}")
    return execute_and_save_query(query_regex)
find_aeronautics_entity()
    

üîç Recherche de l'entit√© principale 'gallifrey'...
üîç Requ√™te s√©lectionn√©e:
        SELECT ?item ?itemLabel
        WHERE {
            ?item rdfs:label ?itemLabel.
            FILTER(LANG(?itemLabel) = "en").
            FILTER(CONTAINS(LCASE(?itemLabel), "gallifrey")).
        }
        
üöÄ EX√âCUTION: Requ√™te SPARQL
üîç Ex√©cution de la requ√™te...
üîç D√©but de la pagination (limit=25)...
üîπ Requ√™te OFFSET 0, LIMIT 25
‚ö†Ô∏è  Tentative 1/3 √©chou√©e √† l'offset 0: The read operation timed out
‚ö†Ô∏è  Tentative 2/3 √©chou√©e √† l'offset 0: The read operation timed out
‚ö†Ô∏è  Tentative 3/3 √©chou√©e √† l'offset 0: The read operation timed out
‚ùå Requ√™te √©chou√©e apr√®s 3 tentatives √† l'offset 0
‚ùå Aucun r√©sultat trouv√©


([], None)

### Requ√™tes SPARQL

In [6]:
def build_aeronautics_extraction_queries():
    """Construit les requ√™tes d'extraction des donn√©es"""
    queries = {
        "manufacturers": """
        SELECT DISTINCT ?item 
              
                ?itemLabel
               (COALESCE(?itemDescription_fr, ?itemDescription_en, ?itemDescription_any, "") AS ?itemDescription)
               ?parent
               ?parentLabel
               (GROUP_CONCAT(DISTINCT ?synonym_fr; separator=",") AS ?synonyms_fr)
        WHERE {
          # Tous les √©quipements d'aviation (instances ou sous-classes ou parties)
          ?item wdt:P31*/wdt:P279*/wdt:P361*/wdt:P452*/wdt:P749* wd:Q936518 .
        
          # On cherche le parent imm√©diat selon diff√©rentes relations
            OPTIONAL { ?item wdt:P361 ?partOf . }
            OPTIONAL { ?item wdt:P279 ?subclassOf . }
            OPTIONAL { ?item wdt:P31 ?instanceOf . }
            OPTIONAL { ?item wdt:P452 ?secteur .}
            OPTIONAL { ?item wdt:P176 ?constructeur.}
            OPTIONAL { ?item wdt:P749 ?constructeur.}
            
            BIND(COALESCE(?partOf, ?subclassOf, ?instanceOf, ?secteur, ?constructeur) AS ?parent)
        
          # Description de l'item (fr > en > autre)
          OPTIONAL { ?item schema:description ?itemDescription_fr . FILTER(LANG(?itemDescription_fr) = "fr") }
          OPTIONAL { ?item schema:description ?itemDescription_en . FILTER(LANG(?itemDescription_en) = "en") }
          OPTIONAL { ?item schema:description ?itemDescription_any .
                     FILTER(LANG(?itemDescription_any) != "fr" && LANG(?itemDescription_any) != "en") }

          # Synonymes en fran√ßais (P1709 est "synonymes exacts")
          OPTIONAL { ?item skos:altLabel ?synonym_fr . FILTER(LANG(?synonym_fr) = "fr") }
        
          SERVICE wikibase:label {
            bd:serviceParam wikibase:language "fr,en,[AUTO_LANGUAGE]"
          }
        }
        GROUP BY ?item ?itemLabel ?itemDescription_fr ?itemDescription_en ?itemDescription_any ?parent ?parentLabel
        """,

        "aircraft_models": """
        SELECT DISTINCT ?item 
               ?itemLabel
               (COALESCE(?itemDescription_fr, ?itemDescription_en, ?itemDescription_any, "") AS ?itemDescription)
               ?parent
               ?parentLabel
               (GROUP_CONCAT(DISTINCT ?synonym_fr; separator=" , ") AS ?synonyms_fr)
        WHERE {
          # Tous les mod√®les d'avions (instances ou sous-classes ou parties)
          ?item wdt:P31/wdt:P279* wd:Q11436 .
          
        
          # On cherche le parent imm√©diat selon diff√©rentes relations         
            OPTIONAL { ?item wdt:P179 ?series .}
            OPTIONAL { ?item wdt:176 ?constructeur.}
            OPTIONAL { ?item wdt:P31 ?instanceOf . } 
            OPTIONAL { ?item wdt:P361 ?partOf . }
            OPTIONAL { ?item wdt:P279 ?subclassOf . }
                       
            BIND(COALESCE(?partOf, ?subclassOf, ?instanceOf, ?series, ?constructeur) AS ?parent)
        
          # Description de l'item (fr > en > autre)
          OPTIONAL { ?item schema:description ?itemDescription_fr . FILTER(LANG(?itemDescription_fr) = "fr") }
          OPTIONAL { ?item schema:description ?itemDescription_en . FILTER(LANG(?itemDescription_en) = "en") }
          OPTIONAL { ?item schema:description ?itemDescription_any .
                     FILTER(LANG(?itemDescription_any) != "fr" && LANG(?itemDescription_any) != "en") }

          # Synonymes en fran√ßais
          OPTIONAL { ?item skos:altLabel ?synonym_fr . FILTER(LANG(?synonym_fr) = "fr") }
        
          SERVICE wikibase:label {
            bd:serviceParam wikibase:language "fr,en,[AUTO_LANGUAGE]"
          }
        }
        GROUP BY ?item ?itemLabel ?itemDescription_fr ?itemDescription_en ?itemDescription_any ?parent ?parentLabel
        """,

        "aircraft_components": """
        SELECT DISTINCT ?item 
               ?itemLabel
               (COALESCE(?itemDescription_fr, ?itemDescription_en, ?itemDescription_any, "") AS ?itemDescription)
               ?parent
               ?parentLabel
               (GROUP_CONCAT(DISTINCT ?synonym_fr; separator=" , ") AS ?synonyms_fr)
        WHERE {
          # Tous les √©quipements d'aviation (instances ou sous-classes ou parties)
          ?item wdt:P31*/wdt:P279*/wdt:P361* wd:Q16693356 .
        
          # On cherche le parent imm√©diat selon diff√©rentes relations
            OPTIONAL { ?item wdt:P361 ?partOf . }
            OPTIONAL { ?item wdt:P279 ?subclassOf . }
            OPTIONAL { ?item wdt:P31 ?instanceOf . }
            OPTIONAL { ?item wdt:P452 ?secteur .}
            OPTIONAL { ?item wdt:P176 ?constructeur.}
            
            BIND(COALESCE(?partOf, ?subclassOf, ?instanceOf, ?secteur, ?constructeur) AS ?parent)
        
          # Description de l'item (fr > en > autre)
          OPTIONAL { ?item schema:description ?itemDescription_fr . FILTER(LANG(?itemDescription_fr) = "fr") }
          OPTIONAL { ?item schema:description ?itemDescription_en . FILTER(LANG(?itemDescription_en) = "en") }
          OPTIONAL { ?item schema:description ?itemDescription_any .
                     FILTER(LANG(?itemDescription_any) != "fr" && LANG(?itemDescription_any) != "en") }

          # Synonymes en fran√ßais
          OPTIONAL { ?item skos:altLabel ?synonym_fr . FILTER(LANG(?synonym_fr) = "fr") }
        
          SERVICE wikibase:label {
            bd:serviceParam wikibase:language "fr,en,[AUTO_LANGUAGE]"
          }
        }
        GROUP BY ?item ?itemLabel ?itemDescription_fr ?itemDescription_en ?itemDescription_any ?parent ?parentLabel
        """,

        "aeronautic_profession": """
        SELECT DISTINCT ?item 
               ?itemLabel
               (COALESCE(?itemDescription_fr, ?itemDescription_en, ?itemDescription_any, "") AS ?itemDescription)
               ?parent
               ?parentLabel
               (GROUP_CONCAT(DISTINCT ?synonym_fr; separator=" , ") AS ?synonyms_fr)
        WHERE {
        ?item wdt:P425* ?domaine.
        VALUES ?domaine { wd:Q765633 wd:Q906438 wd:Q1434048 wd:Q206814 wd:Q627716 wd:Q221395 wd:Q765633 wd:Q22719}.  
        
          # On cherche le parent imm√©diat selon diff√©rentes relations
            OPTIONAL { ?item wdt:P361 ?partOf . }
            OPTIONAL { ?item wdt:P279 ?subclassOf . }
            OPTIONAL { ?item wdt:P31 ?instanceOf . }
            OPTIONAL { ?item wdt:P452 ?secteur .}
            OPTIONAL { ?item wdt:P176 ?constructeur.}
            OPTIONAL { ?item wdt:P749 ?constructeur.}
            
            BIND(COALESCE(?partOf, ?subclassOf, ?instanceOf, ?secteur, ?constructeur, ?domaine) AS ?parent) # Attention √† coalesce pour √©viter les doublons
        
          # Description de l'item (fr > en > autre)
          OPTIONAL { ?item schema:description ?itemDescription_fr . FILTER(LANG(?itemDescription_fr) = "fr") }
          OPTIONAL { ?item schema:description ?itemDescription_en . FILTER(LANG(?itemDescription_en) = "en") }
          OPTIONAL { ?item schema:description ?itemDescription_any .
                     FILTER(LANG(?itemDescription_any) != "fr" && LANG(?itemDescription_any) != "en") }

          # Synonymes en fran√ßais
          OPTIONAL { ?item skos:altLabel ?synonym_fr . FILTER(LANG(?synonym_fr) = "fr") }
        
          SERVICE wikibase:label {
            bd:serviceParam wikibase:language "fr,en,[AUTO_LANGUAGE]"
          }
        }
        GROUP BY ?item ?itemLabel ?itemDescription_fr ?itemDescription_en ?itemDescription_any ?parent ?parentLabel
        """
    }
    return queries

print("‚úÖ Requ√™tes d√©finies (avec synonymes fran√ßais)")

‚úÖ Requ√™tes d√©finies (avec synonymes fran√ßais)


## üîé Lancer la recherche

In [1]:
def extract_all_aeronautics_data():
    """Extrait toutes les donn√©es a√©ronautiques de mani√®re optimis√©e"""
    print("üèóÔ∏è EXTRACTION HI√âRARCHIQUE EXHAUSTIVE")
    print("="*50)
    
    queries = build_aeronautics_extraction_queries()
    all_results = []
    
    for category, query in queries.items():
        print(f"\nüîç Extraction: {category}")
        results = execute_sparql_query(query)
        
        # Enrichir chaque r√©sultat avec sa cat√©gorie
        for result in results:
            result["source_category"] = category
        
        all_results.extend(results)
        print(f"‚úÖ {len(results)} entit√©s trouv√©es pour {category}")
    
    print(f"\nüéØ TOTAL: {len(all_results)} entit√©s extraites")
    return all_results

raw_aeronautics_data = extract_all_aeronautics_data()

üèóÔ∏è EXTRACTION HI√âRARCHIQUE EXHAUSTIVE


NameError: name 'build_aeronautics_extraction_queries' is not defined

### Aper√ßu

In [6]:
print(raw_aeronautics_data[:5])  # pour afficher un aper√ßu

json_filename = f"raw.json"
json_filepath = os.path.join(output_dir, json_filename)

with open(json_filepath, 'w', encoding='utf-8') as jsonfile:
    json.dump(raw_aeronautics_data, jsonfile, ensure_ascii=False, indent=2)

NameError: name 'raw_aeronautics_data' is not defined

## üìÅ Export

### Construction du fichier

In [None]:
# üèóÔ∏è CONSTRUCTION DE LA HI√âRARCHIE FINALE

# def get_id_from_uri(uri):
#     # Ex: "http://www.wikidata.org/entity/Q105557" ‚Üí "Q105557"
#     return uri.split("/")[-1] if uri else ""

def build_final_hierarchy(raw_aeronautics_data):
    """Construit la hi√©rarchie finale avec parents imm√©diats et cat√©gories"""
    print("üèóÔ∏è CONSTRUCTION DE LA HI√âRARCHIE FINALE")
    print("="*45)
    
    # Cr√©er la hi√©rarchie structur√©e
    hierarchy = []
    for entry in raw_aeronautics_data:
    
        hierarchy.append(
            {
            "ID": clean_entity_id(entry.get("item", {}).get("value", "")),
            "Terme": entry.get("itemLabel", {}).get("value", ""),
            "ID_TG": clean_entity_id(entry.get("parent", {}).get("value", "")),
            "TG": entry.get("parentLabel", {}).get("value", ""),
            "Def": entry.get("itemDescription", {}).get("value", ""),
            "EP": entry.get("synonyms_fr", {}).get("value", ""),
            "TA": entry.get("source_category", {})
        }
        )
    
 
    print(f"‚úÖ Hi√©rarchie construite: {len(hierarchy)} entr√©es totales")
    return hierarchy

final_thesaurus = build_final_hierarchy(raw_aeronautics_data)
print(f"üéØ Th√©saurus final: {len(final_thesaurus)} entr√©es")

### Export du fichier

In [None]:
# üíæ EXPORT FINAL UNIQUE - CSV Occidental European Format (semicolon separated)

import os
import csv
import json
from datetime import datetime

def export_final_thesaurus(thesaurus_data):
    """Exporte le th√©saurus final en CSV (point-virgule, format europ√©en) et JSON"""
    print("üíæ EXPORT FINAL UNIQUE")
    print("="*25)
    
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    # 1. Export CSV - Occidental European (semicolon separator, utf-8-sig BOM)
    csv_filename = f"thesaurus_aeronautique_FINAL_{timestamp}.csv"
    csv_filepath = os.path.join(output_dir, csv_filename)
    
    fieldnames = [
        'ID', 'Terme', 'ID_TG','TG', 'Def', 'EP',
        'TA'
    ]
    
    print(f"üìÑ Export CSV: {csv_filename}")
    with open(csv_filepath, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.DictWriter(
            csvfile, 
            fieldnames=fieldnames,
            delimiter=';',         # Use semicolon as separator
            quoting=csv.QUOTE_MINIMAL
        )
        writer.writeheader()
        for entry in sorted(thesaurus_data, key=lambda x: x["ID"]):
            # Ensure all values are strings and convert None to empty string
            row = {k: ('' if v is None else str(v)) for k, v in entry.items()}
            # Guarantee all required fields exist in row
            for field in fieldnames:
                row.setdefault(field, '')
            writer.writerow(row)
    
    # 2. Export JSON avec m√©tadonn√©es
    json_filename = f"thesaurus_aeronautique_FINAL_{timestamp}.json"
    json_filepath = os.path.join(output_dir, json_filename)
    
    stats = analyze_thesaurus_statistics(thesaurus_data)
    
    json_data = {
        "metadata": {
            "title": "Th√©saurus A√©ronautique Final - Wikidata",
            "description": "Th√©saurus exhaustif avec hi√©rarchie et parents imm√©diats",
            "version": "1.0-FINAL",
            "created": timestamp,
            "source": "Wikidata SPARQL optimis√©",
            "total_entries": len(thesaurus_data),
            "extraction_method": "multi-query_hierarchical",
            "parent_detection": "automatic_wikidata_relations",
            "multilingual_support": True,
            "format": "structured_hierarchical_thesaurus"
        },
        "statistics": stats,
        "data": thesaurus_data
    }
    
    print(f"üìÑ Export JSON: {json_filename}")
    with open(json_filepath, 'w', encoding='utf-8') as jsonfile:
        json.dump(json_data, jsonfile, ensure_ascii=False, indent=2)
    
    return csv_filepath, json_filepath, stats

def analyze_thesaurus_statistics(thesaurus_data):
    """Analyse les statistiques du th√©saurus final"""
    stats = {
        "total_entries": len(thesaurus_data),
        "categories": {},
        "relation_types": {},
        "languages": {},
        "hierarchy_depth": 0,
        "entries_with_synonyms": 0,
        "entries_with_descriptions": 0
    }
    
    for entry in thesaurus_data:
        # Cat√©gories
        category = entry.get("category", "unknown")
        stats["categories"][category] = stats["categories"].get(category, 0) + 1
        
        # Types de relation
        rel_type = entry.get("relation_type", "unknown")
        stats["relation_types"][rel_type] = stats["relation_types"].get(rel_type, 0) + 1
        
        # Langues
        lang = entry.get("lang", "unknown")
        stats["languages"][lang] = stats["languages"].get(lang, 0) + 1
        
        # Enrichissements
        if entry.get("synonyms"):
            stats["entries_with_synonyms"] += 1
        if entry.get("description"):
            stats["entries_with_descriptions"] += 1
    
    return stats

def display_final_summary(stats, csv_file, json_file):
    """Affiche un r√©sum√© final du th√©saurus g√©n√©r√©"""
    print("\nüéØ R√âSUM√â FINAL DU TH√âSAURUS A√âRONAUTIQUE")
    print("="*50)
    
    print(f"üìä STATISTIQUES G√âN√âRALES:")
    print(f"   ‚Ä¢ Total d'entr√©es: {stats['total_entries']}")
    print(f"   ‚Ä¢ Entr√©es avec synonymes: {stats['entries_with_synonyms']}")
    print(f"   ‚Ä¢ Entr√©es avec descriptions: {stats['entries_with_descriptions']}")
    
    print(f"\nüìÇ R√âPARTITION PAR CAT√âGORIE:")
    for category, count in sorted(stats["categories"].items(), key=lambda x: x[1], reverse=True):
        percentage = (count / stats['total_entries']) * 100
        print(f"   ‚Ä¢ {category}: {count} ({percentage:.1f}%)")
    
    print(f"\nüîó TYPES DE RELATIONS:")
    for rel_type, count in sorted(stats["relation_types"].items(), key=lambda x: x[1], reverse=True):
        print(f"   ‚Ä¢ {rel_type}: {count}")
    
    print(f"\nüåê LANGUES:")
    for lang, count in stats["languages"].items():
        print(f"   ‚Ä¢ {lang}: {count}")
    
    print(f"\nüìÅ FICHIERS G√âN√âR√âS:")
    print(f"   ‚úÖ CSV: {os.path.basename(csv_file)}")
    print(f"   ‚úÖ JSON: {os.path.basename(json_file)}")
    
    print(f"\nüèÜ MISSION ACCOMPLIE !")
    print(f" {stats['total_entries']} entr√©es de th√©saurus")

# Export et r√©sum√© final
if final_thesaurus:
    csv_file, json_file, statistics = export_final_thesaurus(final_thesaurus)
    display_final_summary(statistics, csv_file, json_file)
else:
    print("‚ùå Aucun th√©saurus √† exporter")

### Nettoyage des doublons

In [None]:
# Lire le CSV (remplace 'ton_fichier.csv' par le tien)
df = pd.read_csv(csv_file, sep=';', dtype=str).fillna('')

# Fonction pour concat√©ner les valeurs uniques (s√©par√©es par "|")
def concat_unique(series):
    uniques = set([v.strip() for v in series if v.strip() != ''])
    return " | ".join(sorted(uniques)) if uniques else ''

# Grouper par 'ID', en concat√©nant les valeurs diff√©rentes pour chaque colonne
df_clean = df.groupby('ID', as_index=False).agg(concat_unique)

# Sauvegarder le r√©sultat
df_clean.to_csv(csv_file, sep=';', index=False, encoding='utf-8-sig')

print(f"‚úÖ CSV nettoy√© et export√© sous {csv_file}")

