# **Useful functions for your lab assigments**



**numpy.argmax: Returns the indices of the maximum values along an axis. See: https://numpy.org/doc/stable/reference/generated/numpy.argmax.html**

In [1]:
import numpy as np
array = np.random.rand(10)
print ("Sample array")
print (array)
idxmax = np.argmax(array)
print ("Index {} has the highest value ({}) of the array".format(idxmax, array[idxmax]))

Sample array
[0.59935275 0.99050926 0.84837064 0.38341885 0.21861369 0.49378841
 0.69413672 0.31575224 0.56926611 0.00267327]
Index 1 has the highest value (0.9905092633135911) of the array


**tqdm - Helps estimate the computation time of a loop**

In [3]:
import tqdm
import time

for i in tqdm.tqdm(range(1000)):
  time.sleep(0.005)

100%|████████████████████████████████████████████████████████████████| 1000/1000 [00:05<00:00, 191.37it/s]


In [None]:
def load_conllu_data(filepath):
    """
    Carga y procesa un archivo CoNLL-U, extrayendo las oraciones y sus etiquetas UPOS.
    """
    sentences = []
    tags = []
    current_sentence = []
    current_tags = []

    with open(filepath, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()

            # 1. Ignorar comentarios y líneas vacías que no sean separadores de oración
            if line.startswith('#'):
                continue
            
            # 2. Línea en blanco: indica el final de una oración
            elif line == '':
                if current_sentence:
                    sentences.append(current_sentence)
                    tags.append(current_tags)
                    current_sentence = []
                    current_tags = []
            
            # 3. Procesar línea de palabra
            else:
                fields = line.split('\t')
                
                # Ignorar tokens multiword (ID con guion, e.g., '1-2') o nodos vacíos (ID con punto, e.g., '1.1') 
                if '-' in fields[0] or '.' in fields[0]:
                    continue

                # Extraer la palabra (FORM, índice 1) y la etiqueta PoS (UPOS, índice 3)
                word = fields[1]
                pos_tag = fields[3]
                
                current_sentence.append(word)
                current_tags.append(pos_tag)

    # Asegurarse de añadir la última oración si el archivo no termina en línea vacía
    if current_sentence:
        sentences.append(current_sentence)
        tags.append(current_tags)

    return sentences, tags

# Ejemplo de uso (asumiendo que los archivos están en la misma carpeta):
# train_sents, train_tags = load_conllu_data('en_ewt-ud-train.conllu')
# dev_sents, dev_tags = load_conllu_data('en_ewt-ud-dev.conllu')
# test_sents, test_tags = load_conllu_data('en_ewt-ud-test.conllu')