# Semantic Textual Similarity EDA in Catalan


It consists of more than 3000 sentence pairs, annotated (manually by 4 people) with the semantic similarity between them, using a scale from 0 (no similarity at all) to 5 (semantic equivalence).

More info can be found in in the publisher's site: https://zenodo.org/record/4761434

The aim of this notebook is an to explore the dataset used on the Semantic Textual Similarity in Catalan benchmark. We use Version 1.0.2, which was released in February 10, 2021.


In [1]:
import pandas as pd
from zipfile import ZipFile


In [2]:
# file_url = https://zenodo.org/record/4761434/files/STS-ca_v.1.0.2.zip
zip_path = "data/STS-ca_v.1.0.2.zip"
file_names = [
    "1.0.2/splits/sts_cat_train_v1.tsv",
    "1.0.2/splits/sts_cat_test_v1.tsv",
    "1.0.2/splits/sts_cat_dev_v1.tsv",
]

merged_df = pd.DataFrame()

with ZipFile(zip_path) as z:
    for path in file_names:
        with z.open(path) as f:
            df_aux = pd.read_csv(f, sep="\t")
            print(df_aux.shape, "\t", df_aux["avg"].mean())
            merged_df = pd.concat([merged_df, df_aux], ignore_index=True)

merged_df.drop(columns=["Unnamed: 0"], inplace=True)
print("\n" + str(merged_df.shape), "\t", merged_df["avg"].mean())

merged_df.head()


(2043, 5) 	 2.5666960352422916
(492, 5) 	 2.5926016260162603
(493, 5) 	 2.575212981744421

(3028, 4) 	 2.5722919418758265


Unnamed: 0,id,sentence1,sentence2,avg
0,ACN2_111,Atorga per primer cop les mencions Encarna San...,Creen la menció M. Encarna Sanahuja a la inclu...,3.5
1,Oscar2_211,"Finalment, afegiu-hi els bolets que haureu sal...","Finalment, poseu-hi les minipastanagues tallad...",1.25
2,ACN2_574,El TC suspèn el pla d'acció exterior i de rela...,El Constitucional manté la suspensió del pla e...,3.67
3,Viqui2_341,Virgin Galactic va ser fundada el 2004 per l'e...,Virgin Atlantic és una de les aerolínies de Ri...,2.25
4,ACN2_1184,Identifiquen un nou biomarcador per realitzar ...,Nous tractaments contra el càncer de mama,2.0


In [3]:
# merged_df.to_pickle("data/similar_sentences.pkl")


In [4]:
dataset_name = "1.0.2/sts_dataset.tsv"
gt_name = "1.0.2/sts_ground_truth.tsv"

dataset_df = pd.DataFrame()
gt_df = pd.DataFrame()

with ZipFile(zip_path) as z:
    with z.open(dataset_name) as f:
        dataset_df = pd.read_csv(f, sep="\t")
        dataset_df.drop(columns=["Unnamed: 0"], inplace=True)
    with z.open(gt_name) as f:
        gt_df = pd.read_csv(f, sep="\t")
        gt_df.drop(columns=["Unnamed: 0"], inplace=True)

print("Merged dataset\t", merged_df.shape, "\t", merged_df["avg"].mean())
print("Ground truth\t", gt_df.shape, "\t", gt_df["ground_truth"].mean())
print("Full dataset\t", dataset_df.shape, "\t", dataset_df["avg"].mean())


Merged dataset	 (3028, 4) 	 2.5722919418758265
Ground truth	 (3034, 4) 	 2.5720877308707135
Full dataset	 (3079, 11) 	 2.5548067554400777


In [5]:
gt_df.head()


Unnamed: 0,id,sentence 1,sentence 2,ground_truth
0,ACN2_1,Jordi Cuixart i Carme Forcadell declararan en ...,Jordi Cuixart i Carme Forcadell declararan dim...,4.25
1,ACN2_10,"El 82,4% de les persones oculten de forma parc...","El 82,4% oculten de forma parcial o total que ...",4.5
2,ACN2_100,Bonvehí respecta les declaracions de Junqueras...,Bonvehí respecta les declaracions de Junqueras...,4.25
3,ACN2_1000,En l'acumulat dels primers onze mesos del 2016...,En els primers sis mesos de l'any l'increment ...,1.33
4,ACN2_1001,Les matriculacions de les comarques lleidatane...,Les matriculacions de les comarques tarragonin...,2.75


In [6]:
dataset_df.head(3)


Unnamed: 0,id,sentence 1,sentence 2,m47_1,m47_2,trad_1,trad_2,avg,newavg,annotators_excluded,sentences_excluded
0,ACN2_1,Jordi Cuixart i Carme Forcadell declararan en ...,Jordi Cuixart i Carme Forcadell declararan dim...,4,4,5,4,4.25,4.25,[],no
1,ACN2_10,"El 82,4% de les persones oculten de forma parc...","El 82,4% oculten de forma parcial o total que ...",4,4,5,5,4.5,4.5,[],no
2,ACN2_100,Bonvehí respecta les declaracions de Junqueras...,Bonvehí respecta les declaracions de Junqueras...,5,4,4,4,4.25,4.25,[],no


In [7]:
# Exploring the differences in the datasets
# After removing the 6 conflicts, we can conclude they are the same
conflicts = ~(gt_df["id"].isin(merged_df["id"]))

print(merged_df.shape, gt_df[~conflicts].shape)

print(merged_df["avg"].mean())
print(gt_df[~conflicts]["ground_truth"].mean())

print("\nNumber of conflicts:", conflicts.sum())
gt_df[conflicts]


(3028, 4) (3028, 4)
2.5722919418758265
2.5722919418758265

Number of conflicts: 6


Unnamed: 0,id,sentence 1,sentence 2,ground_truth
919,ACN2_746,Les Corts Valencianes votaran aquest dijous un...,Les Corts Valencianes debatran aquest dijous u...,2.0
925,ACN2_751,L'aeroport del Prat supera els dos milions de ...,L'aeroport de Girona programa més de 75.000 se...,2.0
941,ACN2_766,Detingut per tràfic de drogues el president d’...,Detenen el president d'una associació cannàbic...,3.0
1179,ACN2_985,El 2016 les exportacions catalanes a la zona v...,"Les exportacions catalanes creixen un 2,9% dur...",2.67
1707,Oscar2_576,"Si no treus el cap, no ets ningú.","Si no hi ets, és com si no existissis.",
1881,Oscar2_84,I ningú no vessarà cap llàgrima per res.,"I no passa res, ningú no es queixa.",


In [8]:
# Proving both datasets have the same values, not only with the metrics

merged_df = merged_df.sort_values(by="id").reset_index(drop=True)

# Renaming columns is needed, to be equal to merged_df
df2 = (
    gt_df[~conflicts]
    .rename(
        columns={
            "sentence 1": "sentence1",
            "sentence 2": "sentence2",
            "ground_truth": "avg",
        }
    )
    .reset_index(drop=True)
)

merged_df.eq(df2).all().all()


True

In [9]:
# Printing conflicts full sentences

conflicts_dict = gt_df[conflicts].to_dict()
for i in list(conflicts_dict["id"].keys()):
    print(conflicts_dict["sentence 1"][i])
    print(conflicts_dict["sentence 2"][i])
    print()


Les Corts Valencianes votaran aquest dijous una proposta de resolució per exigir l'acta de senadora a Rita Barberá
Les Corts Valencianes debatran aquest dijous una resolució que insta Camps a abandonar el Consell Jurídic Consultiu

L'aeroport del Prat supera els dos milions de seients programats per Setmana Santa
L'aeroport de Girona programa més de 75.000 seients per Setmana Santa

Detingut per tràfic de drogues el president d’una associació cannàbica a Sant Carles de la Ràpita, al Montsià
Detenen el president d'una associació cannàbica de l'Hospitalet per tràfic de drogues i precinten el local

El 2016 les exportacions catalanes a la zona van assolir els 1.600 MEUR
Les exportacions catalanes creixen un 2,9% durant el primer semestre de 2018 i assoleixen els 36.658 MEUR

Si no treus el cap, no ets ningú.
Si no hi ets, és com si no existissis.

I ningú no vessarà cap llàgrima per res.
I no passa res, ningú no es queixa.



In [10]:
# Print some samples, using a mask

mask = merged_df["avg"] > 4
sample_dict = merged_df[mask].sample(5).to_dict()

for i in list(sample_dict["id"].keys()):
    print(sample_dict["id"][i], "\t", sample_dict["avg"][i])
    print(sample_dict["sentence1"][i])
    print(sample_dict["sentence2"][i])
    print()


Oscar2_440 	 4.5
Si navegues per la nostra web, estaràs acceptant l'ús de les cookies.
Si continues navegant per la pàgina, estaràs acceptant l'ús que fem de les cookies.

Oscar2_284 	 5.0
L'hospital de Viladecans rep el 1r Premi a la Millor Experiència Innovadora a l'Institut Català de la Salut
Hospital de Viladecans - 1r Premi a la Millor Experiència Innovadora a l'Institut Català de la Salut

Oscar2_19 	 4.75
Una prova on és imprescindible un perfecte entrenament físic i mental.
En aquesta prova és imprescindible un perfecte entrenament físic i mental.

Oscar2_434 	 4.67
Per a recordar la seva contrasenya, siusplau introdueixi el seu email per tal de rebre un correu electrònic amb les instruccions a seguir.
Introdueix el teu correu electrònic i t'enviarem les instruccions per recuperar la teva contrasenya.

Viqui2_764 	 4.67
Visqué a Nord-amèrica i Àsia entre l'Oligocè i el Miocè.
Visqué a Nord-amèrica i Àsia durant l'Oligocè i el Miocè.

