## Extraction de donn√©es depuis Wikidata

Ce notebook illustre la m√©thode utilis√©e pour extraire des donn√©es depuis **Wikidata** √† l‚Äôaide de requ√™tes **SPARQL**.

Les informations r√©cup√©r√©es concernent les **entra√Æneurs ayant offici√© en Serie A**, leurs **clubs entra√Æn√©s**, leurs **dates de mandat**, ainsi que leur **parcours de joueur**.

La majorit√© des QIDs a √©t√© obtenue en croisant :
- la **cat√©gorie Wikip√©dia** `Category:Serie_A_managers`  
- avec les correspondances sur Wikidata √† l‚Äôaide de requ√™tes SPARQL.

Les requ√™tes ont √©t√© ex√©cut√©es avec le module **SPARQLWrapper** en Python, avec une logique de **pause entre chaque appel** (pour √©viter les erreurs 429) et une gestion des erreurs automatis√©e.


## R√©cup√©ration des QIDs des entra√Æneurs depuis Wikipedia

Pour obtenir la liste compl√®te des entra√Æneurs de Serie A pr√©sents sur la page Wikipedia suivante :

[Category:Serie A managers](https://en.wikipedia.org/wiki/Category:Serie_A_managers)

j'ai utilis√© l'outil **[PetScan](https://petscan.wmflabs.org/)**, qui permet d'extraire automatiquement les identifiants Wikidata (QIDs) associ√©s √† chaque page de cat√©gorie Wikipedia.  
Cela m'a permis de cr√©er un fichier `SerieA_managers.csv` contenant une ligne par entra√Æneur, avec le **titre de la page Wikipedia** et son **identifiant Wikidata**.


## Exemple de requ√™te type utilis√©e pour extraire les donn√©es de Wikidata

Ci-dessous un exemple repr√©sentatif du type de requ√™tes SPARQL utilis√©es pour construire notre base de donn√©es.

La requ√™te suivante, ex√©cut√©e en Python √† l‚Äôaide de la librairie `SPARQLWrapper`, permet de r√©cup√©rer, pour chaque entra√Æneur identifi√© par un QID :
- les **√©quipes** qu‚Äôil a entra√Æn√©es (`entityLabel`),
- les **QIDs** de ces √©quipes (`entity_qid`),
- les **dates de d√©but et de fin** de ses mandats (`startDate`, `endDate`),
- uniquement si ces informations sont disponibles sur **Wikidata** via la propri√©t√© `P6087` (*coach of sports team*).

Cette logique a √©t√© appliqu√©e pour cr√©er les autres fichiers csv.

Un d√©lai (`time.sleep(2)`) et un m√©canisme de relance automatique en cas d‚Äôerreur (`retry`) ont √©t√© int√©gr√©s pour √©viter le blocage de l‚ÄôAPI SPARQL de Wikidata.


In [None]:
import pandas as pd
import time
from SPARQLWrapper import SPARQLWrapper, JSON

# Charger le fichier
df_qids = pd.read_csv("SerieA_managers.csv")
qids = df_qids["Wikidata"].dropna().unique()

# Config SPARQL
sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
sparql.setReturnFormat(JSON)
sparql.addCustomHttpHeader("User-Agent", "noto-student-wikidata/1.0 (mailto:ton.email@epfl.ch)")

# Fonction de requ√™te avec retry
def get_mandates_with_retry(qid, max_tries=5):
    tries = 0
    while tries < max_tries:
        try:
            query = f"""
            SELECT ?entity ?entityLabel ?startDate ?endDate WHERE {{
              wd:{qid} p:P6087 ?statement.
              ?statement ?prop ?entity.
              OPTIONAL {{ ?statement pq:P580 ?startDate. }}
              OPTIONAL {{ ?statement pq:P582 ?endDate. }}
              FILTER(STRSTARTS(STR(?prop), "http://www.wikidata.org/prop/"))
              FILTER(STRSTARTS(STR(?entity), "http://www.wikidata.org/entity/Q"))
              SERVICE wikibase:label {{ bd:serviceParam wikibase:language "en". }}
            }}
            ORDER BY ?startDate
            """
            sparql.setQuery(query)
            results = sparql.query().convert()
            return results["results"]["bindings"]
        except Exception as e:
            print(f" Erreur tentative {tries+1}/5 pour {qid} : {e}")
            tries += 1
            time.sleep(10)
    return None

# Boucle principale
all_data = []
errors = []

for qid in qids:
    print(f"üîé Traitement de {qid}...")
    results = get_mandates_with_retry(qid)
    if results is None:
        errors.append(qid)
        continue
    for res in results:
        all_data.append({
            "coach_qid": qid,
            "entity_qid": res["entity"]["value"].split("/")[-1],
            "entityLabel": res["entityLabel"]["value"],
            "startDate": res.get("startDate", {}).get("value", ""),
            "endDate": res.get("endDate", {}).get("value", "")
        })
    time.sleep(2)

# Sauvegarde des donn√©es
df_out = pd.DataFrame(all_data)
df_out.to_csv("mandats_entraineurs2.csv", index=False)
print("‚úÖ Export termin√© ‚Üí mandats_entraineurs2.csv")

# QID √©chou√©s
if errors:
    pd.DataFrame(errors, columns=["qid"]).to_csv("qids_non_traite.csv", index=False)
    print(f" {len(errors)} QID non trait√©s. Sauvegard√©s dans qids_non_traite.csv.")