# Évaluation d'un corpus annoté : Accord inter-annotateurs

## Étape 1 : Chargement des données

In [None]:
import pandas as pd

# Données simulées pour deux annotateurs
data_A = {
    "sentence_id": [1]*5 + [2]*5 + [3]*4,
    "token": ["Amazon", "est", "une", "entreprise", "américaine",
              "Paris", "accueille", "le", "festival", "Cannes",
              "John", "travaille", "chez", "Google"],
    "annotation": ["B-ORG", "O", "O", "O", "B-MISC",
                   "B-LOC", "O", "O", "O", "B-MISC",
                   "B-PER", "O", "O", "B-ORG"]
}

data_B = {
    "sentence_id": [1]*5 + [2]*5 + [3]*4,
    "token": ["Amazon", "est", "une", "entreprise", "américaine",
              "Paris", "accueille", "le", "festival", "Cannes",
              "John", "travaille", "chez", "Google"],
    "annotation": ["B-LOC", "O", "O", "O", "O",
                   "B-LOC", "O", "O", "O", "B-LOC",
                   "B-PER", "O", "O", "B-MISC"]
}

df_A = pd.DataFrame(data_A)
df_B = pd.DataFrame(data_B)

## Étape 2 : Fusion des annotations

In [None]:
merged = df_A.merge(df_B, on=["sentence_id", "token"], suffixes=('_A', '_B'))
print("Annotations fusionnées :\n", merged.head())

## Étape 3 : Calcul de Cohen's Kappa

In [None]:
from sklearn.metrics import cohen_kappa_score

kappa = cohen_kappa_score(merged["annotation_A"], merged["annotation_B"])
print("\nCohen’s Kappa:", round(kappa, 2))

## Étape 4 : Identification des divergences

In [None]:
disagreements = merged[merged["annotation_A"] != merged["annotation_B"]]
print("\nDivergences détectées :\n", disagreements)

## Étape 5 : Suggestions

In [None]:
print("- Définir des règles claires pour les entités ambigües comme 'Amazon' ou 'Cannes'.")
print("- Organiser une session de relecture entre annotateurs.")
print("- Fournir un guide d’annotation avec exemples typiques.")