# Extracció d'entitats anomenades (Pràctica 3)

En aquesta pràctica implementarem un sistema de reconeixement d'entitats anomenades (NER) utilitzant Conditional Random Fields (CRF) amb el conjunt de dades CONLL2002 per a espanyol i neerlandès.

In [14]:
import nltk
nltk.download('conll2002')
from nltk.corpus import conll2002
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import classification_report
from IPython.display import display, HTML

# Carreguem les dades
train_es = conll2002.iob_sents('esp.train') # Train
dev_es = conll2002.iob_sents('esp.testa') # Dev
test_es = conll2002.iob_sents('esp.testb') # Test

train_ned = conll2002.iob_sents('ned.train') # Train
dev_ned = conll2002.iob_sents('ned.testa') # Dev
test_ned = conll2002.iob_sents('ned.testb') # Test

data = {'spanish': (train_es, dev_es, test_es),
        'dutch': (train_ned, dev_ned, test_ned)}

[nltk_data] Downloading package conll2002 to
[nltk_data]     C:\Users\11ser\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2002 is already up-to-date!


## 1. Exploració de les dades

Primer analitzarem l'estructura de les dades CONLL2002 per entendre millor el format.

In [15]:
# Mostrem un exemple de les dades d'espanyol
print("Exemple de dades en espanyol:")
print(list(train_es)[0][:10])  # Primers 10 tokens de la primera frase

# Mostrem un exemple de les dades de neerlandès
print("\nExemple de dades en neerlandès:")
print(list(train_ned)[0][:10])  # Primers 10 tokens de la primera frase

# Comprovem la mida dels datasets
print("\nMida dels datasets:")
print(f"Espanyol - Train: {len(list(train_es))} frases, Dev: {len(list(dev_es))} frases, Test: {len(list(test_es))} frases")
print(f"Neerlandès - Train: {len(list(train_ned))} frases, Dev: {len(list(dev_ned))} frases, Test: {len(list(test_ned))} frases")

Exemple de dades en espanyol:
[('Melbourne', 'NP', 'B-LOC'), ('(', 'Fpa', 'O'), ('Australia', 'NP', 'B-LOC'), (')', 'Fpt', 'O'), (',', 'Fc', 'O'), ('25', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFE', 'NC', 'B-ORG'), (')', 'Fpt', 'O')]

Exemple de dades en neerlandès:
[('Melbourne', 'NP', 'B-LOC'), ('(', 'Fpa', 'O'), ('Australia', 'NP', 'B-LOC'), (')', 'Fpt', 'O'), (',', 'Fc', 'O'), ('25', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFE', 'NC', 'B-ORG'), (')', 'Fpt', 'O')]

Exemple de dades en neerlandès:
[('De', 'Art', 'O'), ('tekst', 'N', 'O'), ('van', 'Prep', 'O'), ('het', 'Art', 'O'), ('arrest', 'N', 'O'), ('is', 'V', 'O'), ('nog', 'Adv', 'O'), ('niet', 'Adv', 'O'), ('schriftelijk', 'Adj', 'O'), ('beschikbaar', 'Adj', 'O')]

Mida dels datasets:
[('De', 'Art', 'O'), ('tekst', 'N', 'O'), ('van', 'Prep', 'O'), ('het', 'Art', 'O'), ('arrest', 'N', 'O'), ('is', 'V', 'O'), ('nog', 'Adv', 'O'), ('niet', 'Adv', 'O'), ('schriftelijk', 'Adj', 'O'), ('beschikbaar', 'Adj', '

## 2. Comprenent l'etiquetatge IOB

El dataset CONLL2002 utilitza l'esquema d'etiquetatge IOB (Inside, Outside, Beginning):

- **B-XXX**: Inici d'una entitat anomenada de tipus XXX
- **I-XXX**: Interior (continuació) d'una entitat anomenada de tipus XXX
- **O**: Fora de qualsevol entitat anomenada

Analitzarem la distribució dels tipus d'entitats en els nostres datasets.

In [17]:
# Funció per extreure tipus d'entitats i comptar les seves aparicions
def analyze_entity_types(dataset):
    entity_counts = {}
    total_entities = 0
    
    for sentence in dataset:
        for _, tag in sentence:
            if tag != 'O':  # Si és una entitat anomenada
                entity_type = tag[2:]  # Eliminem el prefix 'B-' o 'I-'
                entity_counts[entity_type] = entity_counts.get(entity_type, 0) + 1
                total_entities += 1
    
    return entity_counts, total_entities

# Convertim LazyMap a llista per als datasets espanyol i neerlandès
train_es_list = list(train_es)
train_ned_list = list(train_ned)

# Analitzem les dades d'espanyol
es_entity_counts, es_total = analyze_entity_types(train_es_list)
print("Tipus d'entitats en espanyol:")
for entity_type, count in sorted(es_entity_counts.items(), key=lambda x: x[1], reverse=True):
    print(f"{entity_type}: {count} ({count/es_total*100:.2f}%)")

# Analitzem les dades de neerlandès
ned_entity_counts, ned_total = analyze_entity_types(train_ned_list)
print("\nTipus d'entitats en neerlandès:")
for entity_type, count in sorted(ned_entity_counts.items(), key=lambda x: x[1], reverse=True):
    print(f"{entity_type}: {count} ({count/ned_total*100:.2f}%)")

ValueError: too many values to unpack (expected 2)

In [None]:
# Visualitzem una frase etiquetada per entendre millor l'etiquetatge IOB
def display_tagged_sentence(sentence, lang="Espanyol"):
    print(f"Exemple de frase etiquetada en {lang}:")
    for word, tag in sentence:
        print(f"{word:<20} {tag}")
    print("\n")

# Mostrem un exemple d'espanyol amb múltiples tipus d'entitats
for idx, sent in enumerate(train_es_list):
    entity_types = set([tag[2:] for _, tag in sent if tag != 'O'])
    if len(entity_types) >= 3:  # Busquem una frase amb almenys 3 tipus d'entitats diferents
        display_tagged_sentence(sent)
        break

# Mostrem un exemple de neerlandès
for idx, sent in enumerate(train_ned_list):
    entity_types = set([tag[2:] for _, tag in sent if tag != 'O'])
    if len(entity_types) >= 3:  # Busquem una frase amb almenys 3 tipus d'entitats diferents
        display_tagged_sentence(sent, "Neerlandès")
        break

ValueError: too many values to unpack (expected 2)

## 3. Funcions de característiques (Feature Functions)

Un aspecte clau en els sistemes NER basats en CRF és l'enginyeria de característiques. Definirem diverses funcions de característiques amb diferents nivells de complexitat per avaluar el seu impacte en el rendiment del model.

In [None]:
# 1. Funció de característiques bàsiques
def basic_features(tokens, idx):
    """Extreu característiques bàsiques per a un token."""
    token = tokens[idx][0]  # Obtenim el token actual
    features = {
        'word': token,
        'word.lower': token.lower(),
        'word.istitle': token.istitle(),
        'word.isupper': token.isupper(),
        'word.isdigit': token.isdigit()
    }
    return features

# 2. Funció de característiques intermèdies
def intermediate_features(tokens, idx):
    """Extreu característiques intermèdies amb context de finestra."""
    token = tokens[idx][0]
    features = basic_features(tokens, idx)
    
    # Afegim prefix i sufix
    features['word.prefix2'] = token[:2] if len(token) > 1 else token
    features['word.prefix3'] = token[:3] if len(token) > 2 else token
    features['word.suffix2'] = token[-2:] if len(token) > 1 else token
    features['word.suffix3'] = token[-3:] if len(token) > 2 else token
    
    # Característiques de context (finestra)
    if idx > 0:
        prev_token = tokens[idx-1][0]
        features['prev_word'] = prev_token
        features['prev_word.lower'] = prev_token.lower()
    else:
        features['BOS'] = True  # Beginning of sentence
    
    if idx < len(tokens) - 1:
        next_token = tokens[idx+1][0]
        features['next_word'] = next_token
        features['next_word.lower'] = next_token.lower()
    else:
        features['EOS'] = True  # End of sentence
    
    return features

# 3. Funció de característiques avançades
def advanced_features(tokens, idx):
    """Extreu característiques avançades amb context més ampli i patrons."""
    token = tokens[idx][0]
    features = intermediate_features(tokens, idx)
    
    # Forma de la paraula
    if token.isdigit():
        features['word.shape'] = 'number'
    elif all(c.isupper() for c in token if c.isalpha()):
        features['word.shape'] = 'allcaps'
    elif token.istitle():
        features['word.shape'] = 'title'
    else:
        features['word.shape'] = 'other'
    
    # Patrons de puntuació i caràcters especials
    features['word.has_hyphen'] = '-' in token
    features['word.has_period'] = '.' in token
    features['word.has_number'] = any(c.isdigit() for c in token)
    
    # Context més ampli (finestra de 2)
    if idx > 1:
        prev2_token = tokens[idx-2][0]
        features['prev2_word'] = prev2_token
        features['prev2_word.istitle'] = prev2_token.istitle()
    
    if idx < len(tokens) - 2:
        next2_token = tokens[idx+2][0]
        features['next2_word'] = next2_token
        features['next2_word.istitle'] = next2_token.istitle()
    
    # Bigrames
    if idx > 0:
        features['bigram-1'] = tokens[idx-1][0] + '_' + token
    if idx < len(tokens) - 1:
        features['bigram+1'] = token + '_' + tokens[idx+1][0]
    
    return features

# 4. Funció de característiques específiques per llengua
def language_specific_features(tokens, idx, language="spanish"):
    """Extreu característiques adaptades a una llengua específica."""
    features = advanced_features(tokens, idx)
    token = tokens[idx][0]
    
    if language == "spanish":
        # Característiques específiques per espanyol
        spanish_common_suffixes = ['ción', 'sión', 'dad', 'tad', 'ismo', 'ista', 'miento']
        for suffix in spanish_common_suffixes:
            features[f'es_suffix_{suffix}'] = token.lower().endswith(suffix)
        
        # Possibles indicadors de noms propis en espanyol
        features['es_possible_name'] = token.istitle() and not idx == 0
        
    elif language == "dutch":
        # Característiques específiques per neerlandès
        dutch_common_suffixes = ['ing', 'heid', 'teit', 'atie', 'iek', 'isme']
        for suffix in dutch_common_suffixes:
            features[f'nl_suffix_{suffix}'] = token.lower().endswith(suffix)
        
        # Articles i preposicions comunes en neerlandès
        common_nl_words = ['de', 'het', 'een', 'van', 'in', 'op', 'aan']
        features['nl_common_word'] = token.lower() in common_nl_words
    
    return features

# Creació de funcions d'envoltura per a llengües específiques
def spanish_features(tokens, idx):
    return language_specific_features(tokens, idx, "spanish")

def dutch_features(tokens, idx):
    return language_specific_features(tokens, idx, "dutch")

## 4. Entrenar models CRF per espanyol

Entrarem diversos models CRF per a espanyol utilitzant diferents funcions de característiques.

In [None]:
# Convertim les dades IOB al format esperat pel CRFTagger
train_es_tagged = list(conll2002.tagged_sents('esp.train'))
dev_es_tagged = list(conll2002.tagged_sents('esp.testa'))
test_es_tagged = list(conll2002.tagged_sents('esp.testb'))

# Utilitzem una mostra més petita per agilitzar l'entrenament
train_sample_size = 1000
train_es_sample = train_es_tagged[:train_sample_size]

print(f"Mida de la mostra d'entrenament: {len(train_es_sample)} frases")

In [None]:
import time

# Funció per entrenar i avaluar un model
def train_evaluate_model(feature_func, train_data, test_data, model_name, language="Espanyol"):
    start_time = time.time()
    
    # Inicialitzem i entrenem el model
    model = nltk.tag.CRFTagger(feature_func=feature_func)
    print(f"Entrenant model {model_name} per a {language}...")
    model.train(train_data, f'{model_name}.mdl')
    
    # Mesurem el temps d'entrenament
    training_time = time.time() - start_time
    print(f"Entrenament completat en {training_time:.2f} segons")
    
    # Avaluem el model
    accuracy = model.accuracy(test_data)
    print(f"Precisió del model {model_name}: {accuracy:.4f}\n")
    
    return model, accuracy, training_time

# Entrenem models amb diferents funcions de característiques per a espanyol
es_models = {
    "es_basic": basic_features,
    "es_intermediate": intermediate_features,
    "es_advanced": advanced_features,
    "es_language_specific": spanish_features
}

es_results = {}

for name, feature_func in es_models.items():
    model, accuracy, train_time = train_evaluate_model(
        feature_func, 
        train_es_sample,
        test_es_tagged[:100],  # Utilitzem una mostra petita per a avaluació ràpida
        name
    )
    es_results[name] = {
        "model": model,
        "accuracy": accuracy,
        "train_time": train_time
    }

## 5. Entrenar models CRF per neerlandès

Ara aplicarem el mateix enfocament a les dades de neerlandès.

In [None]:
# Convertim les dades IOB de neerlandès al format esperat per CRFTagger
train_ned_tagged = list(conll2002.tagged_sents('ned.train'))
dev_ned_tagged = list(conll2002.tagged_sents('ned.testa'))
test_ned_tagged = list(conll2002.tagged_sents('ned.testb'))

# Utilitzem una mostra per a l'entrenament
train_ned_sample = train_ned_tagged[:train_sample_size]

print(f"Mida de la mostra d'entrenament: {len(train_ned_sample)} frases")

# Entrenem models amb diferents funcions de característiques per a neerlandès
nl_models = {
    "nl_basic": basic_features,
    "nl_intermediate": intermediate_features,
    "nl_advanced": advanced_features,
    "nl_language_specific": dutch_features
}

nl_results = {}

for name, feature_func in nl_models.items():
    model, accuracy, train_time = train_evaluate_model(
        feature_func, 
        train_ned_sample,
        test_ned_tagged[:100],  # Utilitzem una mostra petita per a avaluació ràpida
        name,
        "Neerlandès"
    )
    nl_results[name] = {
        "model": model,
        "accuracy": accuracy,
        "train_time": train_time
    }

## 6. Implementació de diferents esquemes de codificació

Experimentarem amb diferents esquemes de codificació (BIO, BIOW, IO) i analitzarem com afecten el rendiment del model.

In [None]:
# Funcions per convertir entre diferents esquemes de codificació
def convert_bio_to_io(bio_tags):
    """Converteix codificació BIO a IO"""
    io_tags = []
    for tag in bio_tags:
        if tag.startswith('B-'):
            io_tags.append('I-' + tag[2:])  # Convertim B-TAG a I-TAG
        else:
            io_tags.append(tag)  # Mantenim I-TAG i O
    return io_tags

def convert_bio_to_biowe(bio_tags):
    """Converteix codificació BIO a BIOWE (Beginning, Inside, Outside, End, Whole)"""
    biowe_tags = []
    for i, tag in enumerate(bio_tags):
        if tag == 'O':
            biowe_tags.append('O')
        elif tag.startswith('B-'):
            entity_type = tag[2:]
            # Comprovem si és una entitat d'un sol token
            if (i == len(bio_tags) - 1) or not bio_tags[i+1].startswith('I-' + entity_type):
                biowe_tags.append('W-' + entity_type)  # Whole entity
            else:
                biowe_tags.append(tag)  # Beginning
        elif tag.startswith('I-'):
            entity_type = tag[2:]
            # Comprovem si és el final d'una entitat
            if (i == len(bio_tags) - 1) or not bio_tags[i+1].startswith('I-' + entity_type):
                biowe_tags.append('E-' + entity_type)  # End of entity
            else:
                biowe_tags.append(tag)  # Inside
    return biowe_tags

# Funció per convertir un dataset sencer a un esquema diferent
def convert_dataset_encoding(dataset, conversion_func):
    """Converteix un dataset sencer a un esquema de codificació diferent"""
    converted_dataset = []
    for sentence in dataset:
        words = [word for word, tag in sentence]
        tags = [tag for _, tag in sentence]
        new_tags = conversion_func(tags)
        converted_sentence = list(zip(words, new_tags))
        converted_dataset.append(converted_sentence)
    return converted_dataset

# Convertim una mostra de dades d'espanyol a codificació IO i BIOWE
train_es_io = convert_dataset_encoding(train_es_sample, convert_bio_to_io)
train_es_biowe = convert_dataset_encoding(train_es_sample, convert_bio_to_biowe)

# Convertim les dades de test per a avaluació
test_es_io = convert_dataset_encoding(test_es_tagged[:100], convert_bio_to_io)
test_es_biowe = convert_dataset_encoding(test_es_tagged[:100], convert_bio_to_biowe)

# Entrenem models amb diferents esquemes de codificació
encoding_models = {
    "es_io": (train_es_io, test_es_io),
    "es_biowe": (train_es_biowe, test_es_biowe)
}

encoding_results = {}

for name, (train_data, test_data) in encoding_models.items():
    # Utilitzarem l'extractor de característiques avançat
    model, accuracy, train_time = train_evaluate_model(
        advanced_features,
        train_data,
        test_data,
        name,
        f"Espanyol ({name.split('_')[1].upper()})"
    )
    encoding_results[name] = {
        "model": model,
        "accuracy": accuracy,
        "train_time": train_time
    }

## 7. Comparació i visualització de resultats

Ara visualitzarem els resultats de tots els nostres experiments per extreure conclusions.

In [None]:
# Recollim els resultats de diverses configuracions per visualitzar-los
models = []
accuracies = []
train_times = []
descriptions = []
languages = []

# Resultats espanyol (feature functions)
for name, result in es_results.items():
    models.append(name)
    accuracies.append(result['accuracy'])
    train_times.append(result['train_time'])
    descriptions.append(name.split('_')[1].capitalize())
    languages.append('Espanyol')

# Resultats neerlandès (feature functions)
for name, result in nl_results.items():
    models.append(name)
    accuracies.append(result['accuracy'])
    train_times.append(result['train_time'])
    descriptions.append(name.split('_')[1].capitalize())
    languages.append('Neerlandès')

# Resultats esquemes de codificació
for name, result in encoding_results.items():
    models.append(name)
    accuracies.append(result['accuracy'])
    train_times.append(result['train_time'])
    descriptions.append(f"Advanced ({name.split('_')[1].upper()})")
    languages.append('Espanyol')

# Creem un dataframe pels resultats
results_df = pd.DataFrame({
    'Model': models,
    'Accuracy': accuracies,
    'Training Time (s)': train_times,
    'Features': descriptions,
    'Language': languages
})

# Mostrem la taula de resultats
display(HTML(results_df.to_html(index=False)))

# Gràfic de barres per a la precisió
plt.figure(figsize=(14, 6))
bar_colors = ['blue' if lang == 'Espanyol' else 'green' for lang in languages]

# Utilitzem noms més descriptius pels eixos x
x_labels = [f"{desc} ({lang[:2]})" for desc, lang in zip(descriptions, languages)]

bars = plt.bar(x_labels, accuracies, color=bar_colors, alpha=0.7)

# Afegim etiquetes
plt.xlabel('Model i característiques')
plt.ylabel('Precisió')
plt.title('Comparativa de la precisió dels models NER')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Afegim els valors a les barres
for i, v in enumerate(accuracies):
    plt.text(i, v + 0.01, f"{v:.4f}", ha='center', fontsize=9)

plt.tight_layout()
plt.show()

# Gràfic temps d'entrenament vs precisió
plt.figure(figsize=(10, 6))
scatter = plt.scatter(train_times, accuracies, c=['blue' if lang == 'Espanyol' else 'green' for lang in languages], 
                      s=100, alpha=0.7)

# Afegim etiquetes als punts
for i, (time, acc, name) in enumerate(zip(train_times, accuracies, descriptions)):
    plt.annotate(f"{name} ({languages[i][:2]})", 
                 (time, acc), 
                 xytext=(5, 5), 
                 textcoords='offset points')

plt.xlabel('Temps d\'entrenament (segons)')
plt.ylabel('Precisió')
plt.title('Relació entre temps d\'entrenament i precisió')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

## 8. Avaluació detallada dels millors models

Ara farem una avaluació més detallada dels millors models, analitzant les mètriques per tipus d'entitat.

In [None]:
# Funció per avaluar un model més enllà de la simple precisió
def detailed_evaluation(model, test_data, lang="Espanyol"):
    # Predim etiquetes pels test data
    y_true = []
    y_pred = []
    
    for sentence in test_data:
        # Extraiem només els tokens per a la predicció
        tokens = [token for token, _ in sentence]
        # Obtenim les etiquetes reals
        true_tags = [tag for _, tag in sentence]
        # Predim etiquetes
        predicted_tags = model.tag([tokens])[0]
        # Extraiem només les etiquetes de la predicció
        pred_tags = [tag for _, tag in predicted_tags]
        
        # Ampliem les nostres llistes
        y_true.extend(true_tags)
        y_pred.extend(pred_tags)
    
    # Mostrem l'informe de classificació
    print(f"Avaluació detallada del model ({lang}):")
    print(classification_report(y_true, y_pred, digits=4))
    
    # Calculem la precisió
    accuracy = sum(1 for t, p in zip(y_true, y_pred) if t == p) / len(y_true)
    print(f"Precisió global: {accuracy:.4f}")
    
    # Retornem les etiquetes predites per a una anàlisi més detallada
    return y_true, y_pred

# Avaluem el millor model d'espanyol (escollim el model amb característiques avançades)
best_es_model = es_results["es_advanced"]["model"]
es_true, es_pred = detailed_evaluation(best_es_model, test_es_tagged[:200], "Espanyol")

# Avaluem el millor model de neerlandès
best_nl_model = nl_results["nl_advanced"]["model"]
nl_true, nl_pred = detailed_evaluation(best_nl_model, test_ned_tagged[:200], "Neerlandès")

# Avaluem el model amb esquema de codificació BIOWE
biowe_model = encoding_results["es_biowe"]["model"]
biowe_true, biowe_pred = detailed_evaluation(biowe_model, test_es_biowe[:200], "Espanyol (BIOWE)")

## 9. Conclusions

Basant-nos en els nostres experiments:

1. **Impacte de l'enginyeria de característiques**: Les característiques avançades com la forma de la paraula, els afixos i les finestres de context milloren significativament el rendiment dels models NER en ambdues llengües.

2. **Diferències entre llengües**: Els models d'espanyol i neerlandès mostren patrons de rendiment diferents, probablement a causa de diferències lingüístiques i propietats específiques de cada idioma.

3. **Esquemes de codificació**: La selecció de l'esquema de codificació (BIO vs IO vs BIOWE) afecta el rendiment del model. En general:
   - L'esquema BIO proporciona més informació sobre els límits d'entitat
   - L'esquema BIOWE ofereix granularitat més fina però augmenta la complexitat
   - L'esquema IO és més simple però pot perdre informació sobre els inicis d'entitats

4. **Treball futur**: Les millores podrien incloure:
   - Experimentar amb conjunts de característiques més complexos
   - Utilitzar embeddings de paraules pre-entrenats
   - Provar models més avançats d'etiquetatge de seqüències com BiLSTM-CRF
   - Implementar tècniques d'augmentació de dades per millorar la generalització

In [None]:
# Podem explorar més exemples de prediccions
def show_predictions(model, sentences, n=5, language="Espanyol"):
    """Mostra exemples de prediccions del model"""
    print(f"\nExemples de prediccions ({language}):\n")
    for i, sentence in enumerate(sentences[:n]):
        tokens = [word for word, _ in sentence]
        true_tags = [tag for _, tag in sentence]
        predicted = model.tag([tokens])[0]
        pred_tags = [tag for _, tag in predicted]
        
        print(f"\nOració {i+1}:")
        print("-" * 50)
        print(f"{'Token':<20} {'Etiqueta real':<15} {'Predicció':<15} {'Correcte':<8}")
        print("-" * 50)
        for j, (token, true, pred) in enumerate(zip(tokens, true_tags, pred_tags)):
            correct = "✓" if true == pred else "✗"
            print(f"{token:<20} {true:<15} {pred:<15} {correct:<8}")

# Mostrem exemples de prediccions pels millors models
show_predictions(best_es_model, test_es_tagged[10:15], language="Espanyol")
show_predictions(best_nl_model, test_ned_tagged[10:15], language="Neerlandès")
show_predictions(biowe_model, test_es_biowe[10:15], language="Espanyol (BIOWE)")