# AI Pair Programming

Dans ce notebook nous allons demander à une intelligence artificielle de générer du code Python pour réaliser des tâches de traitement automatique de corpus.

Avant de commencer, choisissez un outil comme [Bard](https://bard.google.com/u/2/chat) ou [ChatGPT](https://chat.openai.com/) et créez un compte.

Vous pouvez ensuite demander à l'outil de créer du code. Avant de commencer, n'hésitez pas à lire [cet article](https://exocoding.com/ai-code-generation/) qui détaille les **bonnes pratiques** pour créer des _prompts_ efficaces dans le cadre de la génération de code par l'intelligence artificielle.


### 1. Algorithme simple en Python

Demandez à l'IA de générer un code python qui lance un décompte du réveillon du Nouvel An. Le code doit imprimer les nombres de 10 à 0 avec un intervalle d'une seconde, puis imprimer "Bonne année" à la fin.

In [1]:
# Votre code ici

import time

for i in range(10, 0, -1):
    print(i)
    time.sleep(1)

print("Happy New Year!")


10
9
8
7
6
5
4
3
2
1
Happy New Year!


### 2. Détection du sujet de la phrase

Demandez à l'IA d'extraire le sujet dans une phrase.
Demandez ensuite de générer le code Python qui réalise cette tâche et testez le ci-dessous.

In [None]:
# Votre code ici


### 3. Entités nommmées liées à Wikidata

Demandez à l'IA d'extraire les entités nommées d'un texte en français, et de les lier à un identifiant wikidata.
Demandez ensuite à l'IA de générer le code Python pour réaliser cette tâche et testez le ci-dessous.

In [3]:
!pip install EntityLinker

[31mERROR: Could not find a version that satisfies the requirement EntityLinker (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for EntityLinker[0m[31m
[0m

In [2]:
# Votre code ici

import spacy
from spacy_entity_linker import EntityLinker

# Charge un modèle spaCy pour le français
# (assure-toi d'avoir installé un modèle français, par exemple "fr_core_news_md" ou "fr_core_news_sm")
nlp = spacy.load("fr_core_news_md")

# Ajoute le pipeline "entityLinker"
linker = EntityLinker()
nlp.add_pipe("entityLinker", last=True)

# Exemple de texte
texte = (
    "Ces deux jeux de données présentent une ontologie sur plusieurs niveaux "
    "avec un nombre important de classes, de tokens et d’entités. À la suite de cette étape d’identification, "
    "nous avons retenu celui qui présentait le meilleur score d’accord inter-annotateur (Kappa de Cohen à 0.87) : DWIE. "
    "DWIE est annoté avec 169 classes organisées dans une taxonomie à 4 niveaux."
)

# Traite le texte
doc = nlp(texte)

# Récupère les entités liées
linked = doc._.linkedEntities

# Affiche chaque entité trouvée avec le span, le label Wikidata (QID), et l’URL
for entity in linked:
    span = entity.get_span(doc)
    print(f"Texte reconnu : «{span.text}»")
    print(f" - Wikidata ID : {entity.get_id()}")
    print(f" - Label : {entity.get_label()}")
    print(f" - Description : {entity.get_description()}")
    print(f" - URL : {entity.get_url()}")
    print("---")


ModuleNotFoundError: No module named 'spacy_entity_linker'

### 4. A vous de jouer

Pensez à une analyse que vous voudriez faire sur un texte. Demandez à l'IA de générer un code python qui réalise cette analyse et testez le ci-dessous

In [6]:
# Votre code ici

import spacy
from spacy_entity_linker import EntityLinker

# -----------------------------
# 1. Charger le modèle français
# -----------------------------
nlp = spacy.load("fr_core_news_md")

# -----------------------------
# 2. Ajouter le linker Wikidata
# -----------------------------
linker = EntityLinker()
nlp.add_pipe("entityLinker", last=True)

# -----------------------------
# 3. Texte à analyser
# -----------------------------
texte = """
D’une part, ces évaluations mesurent l’impact de chaque méthode d’alignement sur le jeu de données produit ; 
l’objectif ici est d’évaluer à quel point les transferts de classes de la version anglaise vers la version 
traduite ont été correctement effectués. D’autre part, elles donnent une indication sur la qualité globale 
du jeu de données produit.
Pour chacun des trois jeux de données, un échantillon de 1000 tokens a été annoté par chacun des sept experts 
(chaque expert a annoté des échantillons différents) en respectant la typologie d’erreurs présentée dans le 
Tableau 3. Au total, 298 phrases ont été évaluées.
"""

# -----------------------------
# 4. Analyse NER + Linking
# -----------------------------
doc = nlp(texte)

print("\n=== ENTITÉS NOMMÉES DÉTECTÉES ===")
for ent in doc.ents:
    print(f"- {ent.text}  ({ent.label_})")

print("\n=== LIENS WIKIDATA (si disponibles) ===")
linked = doc._.linkedEntities

for entity in linked:
    span = entity.get_span(doc)
    print(f"\nTexte : «{span.text}»")
    print(f" - Wikidata ID : {entity.get_id()}")
    print(f" - Label : {entity.get_label()}")
    print(f" - Description : {entity.get_description()}")
    print(f" - URL : {entity.get_url()}")


ModuleNotFoundError: No module named 'spacy_entity_linker'


### Pour aller plus loin...

En tant qu'étudiant ULB vous avez accès gratuitement au [Github student pack](https://education.github.com/pack). Ce pack vous donne permet d'utiliser [Github copilot](https://github.com/features/copilot), un outil d'auto-complétion de code grâce à l'intelligence artificielle. Ceci peut être très utile si vous voulez réaliser des tâches complexes sans être un expert en python.

In [7]:
import spacy
import requests

# Charger un modèle français
nlp = spacy.load("fr_core_news_md")

# Fonction pour interroger Wikidata
def wikidata_search(ent_text):
    url = "https://www.wikidata.org/w/api.php"
    params = {
        "action": "wbsearchentities",
        "language": "fr",
        "format": "json",
        "search": ent_text
    }
    r = requests.get(url, params=params).json()
    
    if "search" in r and len(r["search"]) > 0:
        best = r["search"][0]
        return {
            "id": best["id"],
            "label": best.get("label", ""),
            "description": best.get("description", "")
        }
    return None

# Texte à analyser
texte = """
D’une part, ces évaluations mesurent l’impact de chaque méthode d’alignement sur le jeu de données produit ;
l’objectif ici est d’évaluer à quel point les transferts de classes de la version anglaise vers la version traduite
ont été correctement effectués. D’autre part, elles donnent une indication sur la qualité globale du jeu de
données produit. Pour chacun des trois jeux de données, un échantillon de 1000 tokens a été annoté par chacun
des sept experts (chaque expert a annoté des échantillons différents) en respectant la typologie d’erreurs
présentée dans le Tableau 3. Au total, 298 phrases ont été évaluées.
"""

# Analyse spaCy
doc = nlp(texte)

print("=== ENTITÉS ===")
for ent in doc.ents:
    print(f"- {ent.text} ({ent.label_})")
    
    # Recherche Wikidata
    info = wikidata_search(ent.text)
    if info:
        print(f"   → Wikidata : {info['id']}")
        print(f"     Label : {info['label']}")
        print(f"     Description : {info['description']}")
    else:
        print("   → Aucune correspondance trouvée")


=== ENTITÉS ===
- Tableau 3 (MISC)


JSONDecodeError: Expecting value: line 1 column 1 (char 0)