# Text Classification with TECLA Dataset

This notebook demonstrates how to load and use the TECLA dataset from Hugging Face's datasets library for text classification tasks in Catalan language.

TECLA (TEChniques for LAnguage processing) is a dataset for Catalan text classification tasks.

In [2]:
# Cargar el dataset de projecte-aina/tecla desde Hugging Face
from datasets import load_dataset

# Cargar el dataset TECLA
tecla_dataset = load_dataset("projecte-aina/tecla")

# Mostrar información sobre el dataset
print(f"Claves del dataset: {tecla_dataset.keys()}")
print(f"Tamaño del conjunto de entrenamiento: {len(tecla_dataset['train'])}")
print(f"Tamaño del conjunto de validación: {len(tecla_dataset['validation'])}")
print(f"Tamaño del conjunto de prueba: {len(tecla_dataset['test'])}")

# Mostrar las columnas disponibles en el dataset
print(f"\nColumnas disponibles: {tecla_dataset['train'].column_names}")

# Mostrar un ejemplo de los datos
print("\nEjemplo de los datos:")
print(tecla_dataset['train'][0])

# Explorar las clases/etiquetas disponibles para label1 y label2
label1_values = set(tecla_dataset['train']['label1'])
label2_values = set(tecla_dataset['train']['label2'])

print(f"\nNúmero de clases en label1: {len(label1_values)}")
print(f"Clases disponibles en label1: {label1_values}")

print(f"\nNúmero de clases en label2: {len(label2_values)}")
print(f"Clases disponibles en label2: {label2_values}")

# Ver la distribución de las etiquetas
print("\nDistribución de label1:")
label1_counts = {}
for label in tecla_dataset['train']['label1']:
    label1_counts[label] = label1_counts.get(label, 0) + 1
for label, count in sorted(label1_counts.items(), key=lambda x: x[1], reverse=True):
    print(f"{label}: {count} ({count/len(tecla_dataset['train'])*100:.2f}%)")

print("\nDistribución de label2:")
label2_counts = {}
for label in tecla_dataset['train']['label2']:
    label2_counts[label] = label2_counts.get(label, 0) + 1
for label, count in sorted(label2_counts.items(), key=lambda x: x[1], reverse=True):
    print(f"{label}: {count} ({count/len(tecla_dataset['train'])*100:.2f}%)")

Claves del dataset: dict_keys(['train', 'validation', 'test'])
Tamaño del conjunto de entrenamiento: 90700
Tamaño del conjunto de validación: 5669
Tamaño del conjunto de prueba: 17007

Columnas disponibles: ['sentence', 'label1', 'label2']

Ejemplo de los datos:
{'sentence': "L'ACA reactiva el retorn del cànon de l'aigua que s'envia a Tarragona i millorarà l'eficiència del canal de l'esquerra. L'obra corregirà pèrdues d'aigua a la sèquia del Cementiri de Deltebre amb una inversió de 900.000 euros. Després d'alguns exercici de paràlisi, la Comunitat de Regants de l'Esquerra de l'Ebre i l'ACA han signat, aquest dilluns, un nou conveni per reactivar obres de millora de l'eficiència d'infraestructures de reg i evitar la pèrdua d'aigua. Les actuacions començaran al febrer de l'any que ve en un tram de 4,9 quilòmetres de la sèquia del Cementiri, al terme municipal de Deltebre (Baix Ebre).Es col·locaran plaques i llits de graves, làmines de geotèxtil, i es revestiran més de 3 quilòmetres de l