# Data exploration

This notebook was created to explore the metadata extracted from the dataset we are using, as well as a comparison between the datasets.

In [1]:
import pandas as pd
import os

In [2]:
# Change working directory to the project root directory
current_dir = os.getcwd()
os.chdir(current_dir + "/../")
os.getcwd()

'/Users/gustavosantos/code/omdena/SaoPauloBrazilChapter_BrazilianSignLanguage'

In [3]:
def text_normalization(text):
    text = text.lower()
    text = text.strip()
    text = text.replace("\n", " ")
    text = text.replace("\r", " ")
    text = text.replace("\t", " ")
    text = text.replace("-", " ")
    text = text.replace(" ", "_")
    return text

In [4]:
BASE_DIR = os.getcwd() + "/data/raw/"

# Set paths to the raw data files
ne_path = BASE_DIR + "INES/"
sb_path = BASE_DIR + "SignBank/"
uf_path = BASE_DIR + "UFV/"
vl_path = BASE_DIR + "V-Librasil/"

In [5]:
try:
    ne_raw_df = pd.read_csv(ne_path + "metadata.csv")
except FileNotFoundError:
    print("INES metadata not found")

try:
    sb_raw_df = pd.read_csv(sb_path + "metadata.csv")
except FileNotFoundError:
    print("SignBank metadata not found")

try:
    uf_raw_df = pd.read_csv(uf_path + "metadata.csv")
except FileNotFoundError:
    print("UFV metadata not found")

try:
    vl_raw_df = pd.read_csv(vl_path + "metadata.csv")
except FileNotFoundError:
    print("V-Librasil metadata not found")

UFV metadata not found


## INES dataset

In [6]:
display(ne_raw_df.head())
display(ne_raw_df.tail())


Unnamed: 0,label,scraped_label,number_in_label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
0,A,A,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Primeira letra do alfabeto da língua portugues...,Invente qualquer palavra que comece com a letr...,VOCÊ INVENTAR QUALQUER PALAVRA COMEÇAR A.,SUBSTANTIVO,Nacional
1,ABACATE,ABACATE,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,"O fruto do abacateiro. Comestível, tem a polpa...",Você gosta de abacate com leite?,VOCÊ GOSTAR ABACATE LEITE JUNTO?,SUBSTANTIVO,Nacional
2,ABACAXI,ABACAXI,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,Fruta de casca grossa e áspera. Sua polpa pode...,"Hoje tomei suco de abacaxi, ele estava ácido.",HOJE S-U-C-O ABACAXI BEBER ÁCID@.,SUBSTANTIVO,Nacional
3,ABAFAR,ABAFAR,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Cobrir ou fechar, para manter o calor.","Se você quer abafar seu quarto, é melhor fecha...",S-I VOCÊ QUERER QUARTO SE@ ABAFAR A-R? MELHOR ...,VERBO,Nacional
4,ABAIXO,ABAIXO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Lugar, posição ou situação inferior, em relaçã...","Não é no primeiro apartamento abaixo, é no seg...",APARTAMENTO PRIMEIR@ NÃO SEGUND@ ABAIXO.,ADV.,Nacional


Unnamed: 0,label,scraped_label,number_in_label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
5814,ZIGUEZAGUEAR,ZIGUEZAGUEAR,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Fazer ziguezagues; andar em linha sinuosa.,"O ônibus tentou frear, mas saiu ziguezagueando...",PISTA MOLHAD@ MOTORISTA ÔNIBUS FREAR veículoZI...,VERBO,Nacional
5815,ZÍPER,ZÍPER,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,,VESTUÁRIO/COMPLEMENTOS,Duas tiras de pano que fecham uma abertura. Pa...,"Olhe lá, o zíper atrás do vestido daquela mulh...",OLHÁR LÁ MULHER VESTIDO ATRÁS ZÍPER ABERT@.,SUBSTANTIVO,Nacional
5816,ZOMBAR,ZOMBAR,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Fazer zombaria em relação a algo ou a alguém.,Eu cai na escada do shopping e as pessoas zomb...,S-H-O-P-P-I-N-G EU ESCADA pessoaCAIR PESSOA 2p...,VERBO,Nacional
5817,ZOOLÓGICO,ZOOLÓGICO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Local onde diversas espécies animais são criad...,Todo os domingos vou ao zoológico com minha fa...,TOD@ DOMINGO IR JUNTO ME@ FAMÍLIA VER Z-Ô-O.,ADJETIVO,Nacional
5818,ZUM,ZUM,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Conjunto de lentes que se ajustam para oferece...,Eu quero comprar uma máquina fotográfica que t...,AGORA MÁQUINA-FOTOGRAFIA MODERN@ ZUM EU QUERER...,SUBSTANTIVO,Nacional


The output obove shows that there was a bug while extracting some letters, this is easily fixed

In [7]:
# Add first label letter to missing values in the 'letter' column

ne_raw_df["letter"] = ne_raw_df["letter"].fillna(ne_raw_df["label"].str[0])

In [8]:
print(f"# of INES samples: {ne_raw_df.shape[0]}")
print(f"# of INES columns: {ne_raw_df.shape[1]}")

# of INES samples: 5819
# of INES columns: 12


In [9]:
ne_raw_df.columns

Index(['label', 'scraped_label', 'number_in_label', 'video_url', 'file_exists',
       'letter', 'assuntos', 'acepção', 'exemplo', 'exemplo libras',
       'classe gramatical', 'origem'],
      dtype='object')

In [10]:
print(
    f"Percentage of file existence in INES dataset: {(ne_raw_df['file_exists'].sum() / ne_raw_df.shape[0]):.2%}"
)

Percentage of file existence in INES dataset: 93.97%


In [11]:
# Remove rows where the file does not exist
ne_df = ne_raw_df[ne_raw_df["file_exists"]]

In [12]:
print(f"# of INES duplicate rows: {ne_df.duplicated().sum()}")

# of INES duplicate rows: 40


In [13]:
# Sort for easier analysis
ne_df[ne_df["scraped_label"].duplicated(keep=False)].head(10).sort_values("label")

Unnamed: 0,label,scraped_label,number_in_label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
1273,CHINELO,CHINELO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,C,VESTUÁRIO/COMPLEMENTOS,"Calçado especial para uso doméstico, praia e a...",Eu sempre uso chinelo na praia.,EU PRAIA SEMPRE CHINELO.,SUBSTANTIVO,Nacional
1274,CHINELO,CHINELO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,C,VESTUÁRIO/COMPLEMENTOS,"Calçado especial para uso doméstico, praia e a...",Eu sempre uso chinelo na praia.,EU PRAIA SEMPRE CHINELO.,SUBSTANTIVO,Nacional
1981,DOIS,DOIS2,True,https://www.ines.gov.br/dicionario-de-libras/p...,True,D,NUMERAL/DINHEIRO,Cardinal dos conjuntos equivalentes a um conju...,Ela tem dois filhos.,EL@ TER FILH@ 2.,NUM.,Nacional
1982,DOIS,DOIS2,True,https://www.ines.gov.br/dicionario-de-libras/p...,True,D,NUMERAL/DINHEIRO,Cardinal dos conjuntos equivalentes a um conju...,Ela tem dois filhos.,EL@ TER FILH@ 2.,NUM.,Nacional
4304,POESIA,POESIA,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,P,NENHUM,A arte do ouvinte que escreve versos; a compos...,Tem tem um livro de poesia? Vou ler.,LIVRO POESIA VOCÊ TER? EU LER.,SUBSTANTIVO,Nacional
4305,POESIA,POESIA,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,P,NENHUM,A arte do ouvinte que escreve versos; a compos...,Tem tem um livro de poesia? Vou ler.,LIVRO POESIA VOCÊ TER? EU LER.,SUBSTANTIVO,Nacional
5760,Z,Z,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,NENHUM,Sinal gráfico elementar com que se representam...,No português tem poucas palavras que começam c...,PORTUGUÊS TER PALAVRA POUC@ COMEÇAR LETRA Z.,SUBSTANTIVO,Nacional
5761,ZAGA,ZAGA,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,ESPORTE/DIVERSÃO,"Posição de defesa, no jogo de futebol.","A zaga do Vasco está fraca, sempre perde.",VASCO ZAGA FRAC@ SEMPRE PERDER.,SUBSTANTIVO,Nacional
5762,ZAGUEIRO,ZAGUEIRO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,ESPORTE/DIVERSÃO,Jogador de futebol que desempenha sua função d...,O zagueiro número três do Brasil é muito descu...,BRASIL ZAQUEIRO NÚMERO 3 DESCUID@muito.,SUBSTANTIVO,Nacional
5763,ZANGADO,ZANGADO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,NENHUM,Aquele que se zangou; aborrecido; irritado.,O professor está zangado porque você faltou à ...,PROFESSOR@ ZANGAD@ VOCÊ ONTEM AULA FALTAR.,ADJETIVO,Nacional


The output above shows that the duplicated entries in the data are not the homographs we're look for. These are simply bugged duplicated entries. Further checking the [dataset website](https://www.ines.gov.br/dicionario-de-libras/), it was possible to check that homograph labels have a numeric entry to them, just like WORD1 and WORD2.

In [14]:
# Get entries that have a number in the label
ne_df = ne_df.drop_duplicates(keep="first")
print(
    f"Number of labels that have more than one appearance: {ne_df[ne_df['number_in_label']].shape[0]}"
)

Number of labels that have more than one appearance: 1343


In [15]:
ne_df["label"] = ne_df["label"].apply(text_normalization)

In [16]:
ne_df.head()

Unnamed: 0,label,scraped_label,number_in_label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
0,a,A,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Primeira letra do alfabeto da língua portugues...,Invente qualquer palavra que comece com a letr...,VOCÊ INVENTAR QUALQUER PALAVRA COMEÇAR A.,SUBSTANTIVO,Nacional
1,abacate,ABACATE,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,"O fruto do abacateiro. Comestível, tem a polpa...",Você gosta de abacate com leite?,VOCÊ GOSTAR ABACATE LEITE JUNTO?,SUBSTANTIVO,Nacional
2,abacaxi,ABACAXI,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,Fruta de casca grossa e áspera. Sua polpa pode...,"Hoje tomei suco de abacaxi, ele estava ácido.",HOJE S-U-C-O ABACAXI BEBER ÁCID@.,SUBSTANTIVO,Nacional
3,abafar,ABAFAR,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Cobrir ou fechar, para manter o calor.","Se você quer abafar seu quarto, é melhor fecha...",S-I VOCÊ QUERER QUARTO SE@ ABAFAR A-R? MELHOR ...,VERBO,Nacional
4,abaixo,ABAIXO,False,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Lugar, posição ou situação inferior, em relaçã...","Não é no primeiro apartamento abaixo, é no seg...",APARTAMENTO PRIMEIR@ NÃO SEGUND@ ABAIXO.,ADV.,Nacional


## SignBank

In [17]:
sb_raw_df.columns

Index(['label', 'video_url', 'signer_number', 'scraped_label',
       'scraped_video_url', 'sign_variant', 'signer_number.1',
       'video_url_root', 'video_url_ext', 'number_in_label'],
      dtype='object')

In [18]:
sb_raw_df.head()

Unnamed: 0,label,video_url,signer_number,scraped_label,scraped_video_url,sign_variant,signer_number.1,video_url_root,video_url_ext,number_in_label
0,À-TOA,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,À-TOA,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
1,À-VISTA,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,À-VISTA,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
2,ABACAXI,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,ABACAXI,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
3,ABANAR,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,ABANAR,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
4,ABANDONAR,https://videos.nals.cce.ufsc.br/SignBank/V%C3%...,1,ABANDONAR,https://videos.nals.cce.ufsc.br/SignBank/V%C3%...,1,1,videos,mp4,False


The SignBank dataset and `SignBank/metadata.csv` were processed in a way a `number_in_label` column was defined. This column will help us focus on possible homographs.

In [19]:
sb_raw_df.duplicated().sum()

0

In [20]:
sb_df = sb_raw_df.drop_duplicates(keep="first")
sb_df["label"] = sb_df["label"].apply(text_normalization)

In [21]:
sb_df.head()

Unnamed: 0,label,video_url,signer_number,scraped_label,scraped_video_url,sign_variant,signer_number.1,video_url_root,video_url_ext,number_in_label
0,à_toa,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,À-TOA,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
1,à_vista,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,À-VISTA,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
2,abacaxi,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,ABACAXI,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
3,abanar,https://videos.nals.cce.ufsc.br/SignBank/Vídeo...,2,ABANAR,https://levantelab.storage.googleapis.com/libr...,1,2,levantelab,mp4,False
4,abandonar,https://videos.nals.cce.ufsc.br/SignBank/V%C3%...,1,ABANDONAR,https://videos.nals.cce.ufsc.br/SignBank/V%C3%...,1,1,videos,mp4,False


In [22]:
print(f"# of SignBank samples: {sb_df.shape[0]}")
print(f"# of SignBank unique labels: {sb_df['label'].nunique()}")
print(
    f"# of SignBank possible homographs: {sb_df['label'].duplicated(keep=False).sum()}"
)

# of SignBank samples: 3084
# of SignBank unique labels: 2510
# of SignBank possible homographs: 1010


## V-Librasil

In [23]:
vl_raw_df.head(5)

Unnamed: 0,label,signer_number,video_url,sign_url,signer_order
0,À noite toda,1,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
1,À noite toda,3,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
2,À noite toda,2,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
3,À tarde toda,1,https://libras.cin.ufpe.br/storage/videos/2020...,https://libras.cin.ufpe.br/sign/100,123
4,À tarde toda,2,https://libras.cin.ufpe.br/storage/videos/2020...,https://libras.cin.ufpe.br/sign/100,123


In [24]:
vl_raw_df.duplicated().sum()

0

In [25]:
vl_df = vl_raw_df.drop_duplicates(keep="first")
vl_df["label"] = vl_df["label"].apply(text_normalization)

In [26]:
vl_df.head()

Unnamed: 0,label,signer_number,video_url,sign_url,signer_order
0,à_noite_toda,1,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
1,à_noite_toda,3,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
2,à_noite_toda,2,https://libras.cin.ufpe.br/storage/videos/2021...,https://libras.cin.ufpe.br/sign/885,132
3,à_tarde_toda,1,https://libras.cin.ufpe.br/storage/videos/2020...,https://libras.cin.ufpe.br/sign/100,123
4,à_tarde_toda,2,https://libras.cin.ufpe.br/storage/videos/2020...,https://libras.cin.ufpe.br/sign/100,123


In [27]:
print(f"# of V-Librasil samples: {vl_df.shape[0]}")
print(f"# of V-Librasil unique labels: {vl_df['label'].nunique()}")

# of V-Librasil samples: 4089
# of V-Librasil unique labels: 1364


To check if there are any possible inner dataset homographs, I'll get the label and signer order and set it as an unique identifier to the entry. If the number of unique IDs is different from the number of unique labels, there are some words that could be homographs in the dataset.

In [28]:
vl_df["entry_id"] = vl_df["label"].astype(str) + "_" + vl_df["signer_order"].astype(str)
vl_df["entry_id"].nunique()

1364

## Combined vocab

In [29]:
ne_vocab = ne_df["label"].unique()
sb_vocab = sb_df["label"].unique()
vl_vocab = vl_df["label"].unique()

# Get the intersection of the vocabularies
combined_vocab = set(ne_vocab) & set(sb_vocab) & set(vl_vocab)
print(f"Combined vocabulary size: {len(combined_vocab)}")

Combined vocabulary size: 494


In [30]:
word_count = {}
for word in combined_vocab:
    word_dict = {}
    word_dict["INES"] = ne_df[ne_df["label"] == word].shape[0]
    word_dict["SignBank"] = sb_df[sb_df["label"] == word].shape[0]
    word_dict["V-Librasil"] = vl_df[vl_df["label"] == word].shape[0]
    word_dict["total"] = (
        ne_df[ne_df["label"] == word].shape[0]
        + sb_df[sb_df["label"] == word].shape[0]
        + vl_df[vl_df["label"] == word].shape[0]
    )
    word_count[word] = word_dict

In [31]:
word_count_df = pd.DataFrame(word_count).T
word_count_df = word_count_df.sort_values("total", ascending=False)
word_count_df = word_count_df.reset_index(drop=False)
word_count_df = word_count_df.rename(columns={"index": "word"})


In [32]:
word_count_df

Unnamed: 0,word,INES,SignBank,V-Librasil,total
0,mais,6,4,3,13
1,cheio,7,3,3,13
2,parar,5,2,3,10
3,ir,6,1,3,10
4,dia,4,3,3,10
...,...,...,...,...,...
489,federal,1,1,3,5
490,quente,1,1,3,5
491,dinheiro,1,1,3,5
492,biscoito,1,1,3,5


Let's check an example from these words to see if there could be words that mean different things.

In [39]:
for _, row in ne_df[ne_df["label"] == "mais"].iterrows():
    print(row["acepção"])
    print(row["video_url"])

O que supera o outro em alguma condição ou característica.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais1Sm_Prog001.mp4
O que indica acréscimo; o mesmo que somar; designativo de adição.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais2Sm_Prog001.mp4
De novo; outra vez.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais3Sm_Prog001.mp4
O que tem maior valor.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais4Sm_Prog001.mp4
Representação de maior trajeto ou distância.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais5Sm_Prog001.mp4
O que ainda falta e deve ser acrescentado.
https://www.ines.gov.br/dicionario-de-libras/public/media/palavras/videos/mais6Sm_Prog001.mp4


All these videos have different signs and, from the portuguese description, slightly different meanings. This is a case of word that will need a further analysis.

In [33]:
combined_vocab

{'abacaxi',
 'abanar',
 'abandonar',
 'abelha',
 'abençoar',
 'acabar',
 'aceitar',
 'acidente',
 'acompanhar',
 'aconselhar',
 'acontecer',
 'acrescentar',
 'adulto',
 'agora',
 'ainda',
 'ajudar',
 'alce',
 'alfinete',
 'alto',
 'amanhã',
 'amarelo',
 'amigo',
 'animal',
 'aniversário',
 'ano',
 'antes',
 'aparelho_auditivo',
 'aprender',
 'ar',
 'aranha',
 'assim',
 'assistir',
 'associação',
 'assumir',
 'atônito',
 'aumentar',
 'avaliar',
 'avião',
 'azul',
 'baleia',
 'balão',
 'banana',
 'banheiro',
 'barato',
 'barba',
 'barco',
 'barulho',
 'batata',
 'bebê',
 'bem',
 'biblioteca',
 'bicicleta',
 'bigode',
 'biscoito',
 'bloquear',
 'bobo',
 'bocejar',
 'bode',
 'boi',
 'bola',
 'bolo',
 'bolsa',
 'bombeiro',
 'bonito',
 'borboleta',
 'borracha',
 'bota',
 'branco',
 'brilhar',
 'brinco',
 'cabelo',
 'cabeça',
 'cada',
 'café',
 'cair',
 'caixa',
 'calculadora',
 'calça',
 'cama',
 'campainha',
 'campeão',
 'cancelar',
 'canguru',
 'capacete',
 'capital',
 'careca',
 'carne',
