# Data exploration

This notebook was created to explore the metadata extracted from the dataset we are using, as well as a comparison between the datasets.

In [1]:
import pandas as pd
import os

In [2]:
# Change working directory to the project root directory
current_dir = os.getcwd()
os.chdir(current_dir + "/../")
os.getcwd()

'/Users/gustavosantos/code/omdena/SaoPauloBrazilChapter_BrazilianSignLanguage'

In [3]:
BASE_DIR = os.getcwd() + "/data/raw/"

# Set paths to the raw data files
ines_path = BASE_DIR + "INES/"
signbank_path = BASE_DIR + "SignBank/"
ufv_path = BASE_DIR + "UFV/"
vlibrasil_path = BASE_DIR + "V-Librasil/"

In [4]:
try:
    ines_raw_df = pd.read_csv(ines_path + "metadata.csv")
except FileNotFoundError:
    print("INES metadata not found")

try:
    signbank_raw_df = pd.read_csv(signbank_path + "metadata.csv")
except FileNotFoundError:
    print("SignBank metadata not found")

try:
    ufv_raw_df = pd.read_csv(ufv_path + "metadata.csv")
except FileNotFoundError:
    print("UFV metadata not found")

try:
    vlibrasil_raw_df = pd.read_csv(vlibrasil_path + "metadata.csv")
except FileNotFoundError:
    print("V-Librasil metadata not found")

UFV metadata not found


## INES dataset

In [5]:
display(ines_raw_df.head())
display(ines_raw_df.tail())


Unnamed: 0,label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
0,A,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Primeira letra do alfabeto da língua portugues...,Invente qualquer palavra que comece com a letr...,VOCÊ INVENTAR QUALQUER PALAVRA COMEÇAR A.,SUBSTANTIVO,Nacional
1,ABACATE,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,"O fruto do abacateiro. Comestível, tem a polpa...",Você gosta de abacate com leite?,VOCÊ GOSTAR ABACATE LEITE JUNTO?,SUBSTANTIVO,Nacional
2,ABACAXI,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,FRUTA,Fruta de casca grossa e áspera. Sua polpa pode...,"Hoje tomei suco de abacaxi, ele estava ácido.",HOJE S-U-C-O ABACAXI BEBER ÁCID@.,SUBSTANTIVO,Nacional
3,ABAFAR,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Cobrir ou fechar, para manter o calor.","Se você quer abafar seu quarto, é melhor fecha...",S-I VOCÊ QUERER QUARTO SE@ ABAFAR A-R? MELHOR ...,VERBO,Nacional
4,ABAIXO,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Lugar, posição ou situação inferior, em relaçã...","Não é no primeiro apartamento abaixo, é no seg...",APARTAMENTO PRIMEIR@ NÃO SEGUND@ ABAIXO.,ADV.,Nacional


Unnamed: 0,label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
5814,ZIGUEZAGUEAR,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Fazer ziguezagues; andar em linha sinuosa.,"O ônibus tentou frear, mas saiu ziguezagueando...",PISTA MOLHAD@ MOTORISTA ÔNIBUS FREAR veículoZI...,VERBO,Nacional
5815,ZÍPER,https://www.ines.gov.br/dicionario-de-libras/p...,True,,VESTUÁRIO/COMPLEMENTOS,Duas tiras de pano que fecham uma abertura. Pa...,"Olhe lá, o zíper atrás do vestido daquela mulh...",OLHÁR LÁ MULHER VESTIDO ATRÁS ZÍPER ABERT@.,SUBSTANTIVO,Nacional
5816,ZOMBAR,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Fazer zombaria em relação a algo ou a alguém.,Eu cai na escada do shopping e as pessoas zomb...,S-H-O-P-P-I-N-G EU ESCADA pessoaCAIR PESSOA 2p...,VERBO,Nacional
5817,ZOOLÓGICO,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Local onde diversas espécies animais são criad...,Todo os domingos vou ao zoológico com minha fa...,TOD@ DOMINGO IR JUNTO ME@ FAMÍLIA VER Z-Ô-O.,ADJETIVO,Nacional
5818,ZUM,https://www.ines.gov.br/dicionario-de-libras/p...,True,,NENHUM,Conjunto de lentes que se ajustam para oferece...,Eu quero comprar uma máquina fotográfica que t...,AGORA MÁQUINA-FOTOGRAFIA MODERN@ ZUM EU QUERER...,SUBSTANTIVO,Nacional


The output obove shows that there was a bug while extracting some letters, this is easily fixed

In [6]:
# Add first label letter to missing values in the 'letter' column

ines_raw_df["letter"] = ines_raw_df["letter"].fillna(ines_raw_df["label"].str[0])

In [7]:
print(f"# of INES samples: {ines_raw_df.shape[0]}")
print(f"# of INES columns: {ines_raw_df.shape[1]}")

# of INES samples: 5819
# of INES columns: 10


In [8]:
ines_raw_df.columns

Index(['label', 'video_url', 'file_exists', 'letter', 'assuntos', 'acepção',
       'exemplo', 'exemplo libras', 'classe gramatical', 'origem'],
      dtype='object')

In [9]:
print(
    f"Percentage of file existence in INES dataset: {(ines_raw_df['file_exists'].sum() / ines_raw_df.shape[0]):.2%}"
)

Percentage of file existence in INES dataset: 93.97%


In [10]:
# Remove rows where the file does not exist
ines_df = ines_raw_df[ines_raw_df["file_exists"]]

In [11]:
print(f"# of INES duplicate rows: {ines_df.duplicated().sum()}")

# of INES duplicate rows: 40


In [12]:
# Sort for easier analysis
ines_df[ines_df["label"].duplicated(keep=False)].head(50).sort_values("label")

Unnamed: 0,label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
5779,-- SELECIONE --,https://www.ines.gov.br/dicionario-de-libras/p...,True,-,NENHUM,Conjunto de lentes que se ajustam para oferece...,Eu quero comprar uma máquina fotográfica que t...,AGORA MÁQUINA-FOTOGRAFIA MODERN@ ZUM EU QUERER...,SUBSTANTIVO,Nacional
5799,-- SELECIONE --,https://www.ines.gov.br/dicionario-de-libras/p...,True,-,NENHUM,Conjunto de lentes que se ajustam para oferece...,Eu quero comprar uma máquina fotográfica que t...,AGORA MÁQUINA-FOTOGRAFIA MODERN@ ZUM EU QUERER...,SUBSTANTIVO,Nacional
1273,CHINELO,https://www.ines.gov.br/dicionario-de-libras/p...,True,C,VESTUÁRIO/COMPLEMENTOS,"Calçado especial para uso doméstico, praia e a...",Eu sempre uso chinelo na praia.,EU PRAIA SEMPRE CHINELO.,SUBSTANTIVO,Nacional
1274,CHINELO,https://www.ines.gov.br/dicionario-de-libras/p...,True,C,VESTUÁRIO/COMPLEMENTOS,"Calçado especial para uso doméstico, praia e a...",Eu sempre uso chinelo na praia.,EU PRAIA SEMPRE CHINELO.,SUBSTANTIVO,Nacional
1982,DOIS2,https://www.ines.gov.br/dicionario-de-libras/p...,True,D,NUMERAL/DINHEIRO,Cardinal dos conjuntos equivalentes a um conju...,Ela tem dois filhos.,EL@ TER FILH@ 2.,NUM.,Nacional
1981,DOIS2,https://www.ines.gov.br/dicionario-de-libras/p...,True,D,NUMERAL/DINHEIRO,Cardinal dos conjuntos equivalentes a um conju...,Ela tem dois filhos.,EL@ TER FILH@ 2.,NUM.,Nacional
4304,POESIA,https://www.ines.gov.br/dicionario-de-libras/p...,True,P,NENHUM,A arte do ouvinte que escreve versos; a compos...,Tem tem um livro de poesia? Vou ler.,LIVRO POESIA VOCÊ TER? EU LER.,SUBSTANTIVO,Nacional
4305,POESIA,https://www.ines.gov.br/dicionario-de-libras/p...,True,P,NENHUM,A arte do ouvinte que escreve versos; a compos...,Tem tem um livro de poesia? Vou ler.,LIVRO POESIA VOCÊ TER? EU LER.,SUBSTANTIVO,Nacional
5760,Z,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,NENHUM,Sinal gráfico elementar com que se representam...,No português tem poucas palavras que começam c...,PORTUGUÊS TER PALAVRA POUC@ COMEÇAR LETRA Z.,SUBSTANTIVO,Nacional
5800,Z,https://www.ines.gov.br/dicionario-de-libras/p...,True,Z,NENHUM,Sinal gráfico elementar com que se representam...,No português tem poucas palavras que começam c...,PORTUGUÊS TER PALAVRA POUC@ COMEÇAR LETRA Z.,SUBSTANTIVO,Nacional


The output above shows that the duplicated entries in the data are not the homographs we're look for. These are simply bugged duplicated entries. Further checking the [dataset website](https://www.ines.gov.br/dicionario-de-libras/), it was possible to check that homograph labels have a numeric entry to them, just like WORD1 and WORD2.

In [13]:
# Get entries that have a number in the label
ines_df = ines_df.drop_duplicates(keep="first")
ines_homographs = ines_df[ines_df["label"].str.contains(r"\d", na=False)]
print(f"Number of labels that have more than one appearance: {ines_homographs.size}")

Number of labels that have more than one appearance: 13430


In [23]:
ines_homographs.head(20)

Unnamed: 0,label,video_url,file_exists,letter,assuntos,acepção,exemplo,exemplo libras,classe gramatical,origem
8,ABANDONAR1,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Desprezar, largar, deixar de cuidar.",O carro velho foi abandonado naquela garagem.,AQUEL@ CARAGEM CARRO VELH@ ABANDONAR.,VERBO,Nacional
9,ABANDONAR2,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Deixar pessoa ou algum objeto, sem intenção de...",Coitada dessa criança tão bonita dormindo na r...,CRIANÇA BONIT@ DORMIR R-U-A COITAD@! P-A-I M-Ã...,VERBO,Nacional
17,ABENÇOAR1,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Dar a benção; benzer.,Eu orei a Deus para abençoar minha vida.,EU ORAR DEUS ABENÇOAR VIDA BEM.,VERBO,Nacional
18,ABENÇOAR2,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Dar a benção; benzer.,"No final do culto, o pastor abençoou a todos.",F-I-M CULTO PASTOR ABENÇOARtodos.,VERBO,Nacional
19,ABERTO1,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,O que permite a passagem; o que não está fechado.,Ontem você deixou a porta da sala aberta.,ONTEM VOCÊ CASA PORTA-ABERT@ DEIXAR S-A-L-A.,ADJETIVO,Nacional
20,ABERTO2,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Acessível, livre, transponível.",O curso de computação vai estar aberto no sábado.,CURSO COMPUTADOR TER ABERT@ SÁBADO.,ADJETIVO,Nacional
23,ABÓBORA1,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,LEGUME/VERDURA,"Tipo de fruto comestível, muito usado em prepa...","Eu já comi doce de abóbora, é gostoso!",DOCE LARANJA^coisa-volumosa-arredondada COMER ...,SUBSTANTIVO,Nacional
24,ABÓBORA2,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,LEGUME/VERDURA,"Tipo de fruto comestível, muito usado em prepa...",Eu nunca comi abóbora verde.,VERDE coisa-sinuosa EU COMER N-U-N-C-A.,SUBSTANTIVO,Nacional
32,ABORTAR1,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,"Sofrer a perda do feto, prematuramente e por v...","No Brasil, a mulher grávida só pode abortar em...",BRASIL MULHER-GRÁVIDA PODER ABORTAR S-Ó PROBLE...,VERBO,Nacional
33,ABORTAR2,https://www.ines.gov.br/dicionario-de-libras/p...,True,A,NENHUM,Expulsão prematura do feto por causas naturais...,"Minha esposa caiu e abortou; fiquei triste, po...",ESPOS@ M@ pessoaCAIRchão ABORTAR EU TRISTE QUE...,VERBO,Nacional
