# IWSLT Experiments

Notebook para carregar os dados do IWSLT num formato compatível com o PyTorch.

Fiz o download de todas os datasets de machine translation. Quero verificar se existem talks em inglês com IDs distintos entre os datasets.

Segundo o artigo, tem que existir 1710 talks distintas.

In [1]:
import os

Primeiro precisamos listar todos os arquivos disponíveis para verificação:

In [2]:
path = 'data/'

files = []

for r, d, f in os.walk(path):
    for file in f:
        if 'train.tags.' in file and file.endswith('.en'):
            files.append(os.path.join(r, file))
files

['data/ar-en/train.tags.ar-en.en',
 'data/ar-en/.ipynb_checkpoints/train.tags.ar-en-checkpoint.en',
 'data/de-en/train.tags.de-en.en',
 'data/en-fr/train.tags.en-fr.en',
 'data/nl-en/train.tags.nl-en.en',
 'data/pl-en/train.tags.pl-en.en',
 'data/pt-br-en/train.tags.pt-br-en.en',
 'data/ro-en/train.tags.ro-en.en',
 'data/ru-en/train.tags.ru-en.en',
 'data/sl-en/train.tags.sl-en.en',
 'data/tr-en/train.tags.tr-en.en',
 'data/zh-en/train.tags.zh-en.en']

Agora é necessário carrega-los em memória.

Toda talk tem um campo \<talkid> com um número específico indicando qual a talks

In [3]:
opened_files = [open(x) for x in files]
talks = [x.readlines() for x in opened_files]
talks[0][:1]

['<url>http://www.ted.com/talks/stephen_palumbi_following_the_mercury_trail.html</url>\n']

Podemos contar a quantidade de talks naquele documento a partir da quantidade dessas chaves

In [4]:
counter = [0] * len(talks)

for index, lines in enumerate(talks):
    for line in lines:
        if '<talkid' in line:
            counter[index] += 1

print("Quantidade de <talkid encontrados em cada arquivo")

for filename, c in zip(files, counter):
    print(f"{filename}:\t\t{c}")

Quantidade de <talkid encontrados em cada arquivo
data/ar-en/train.tags.ar-en.en:		1015
data/ar-en/.ipynb_checkpoints/train.tags.ar-en-checkpoint.en:		1015
data/de-en/train.tags.de-en.en:		976
data/en-fr/train.tags.en-fr.en:		1029
data/nl-en/train.tags.nl-en.en:		963
data/pl-en/train.tags.pl-en.en:		995
data/pt-br-en/train.tags.pt-br-en.en:		1025
data/ro-en/train.tags.ro-en.en:		1034
data/ru-en/train.tags.ru-en.en:		903
data/sl-en/train.tags.sl-en.en:		128
data/tr-en/train.tags.tr-en.en:		941
data/zh-en/train.tags.zh-en.en:		1017


Precisamos verificar o quanto desses são valores únicos.

A nossa hipótese é que juntando todos, temos 1710 talks únicas.

In [5]:
tids = []

for lines in talks:
    for line in lines:
        if '<talkid>' in line:
            l = line.strip()
            l = l[8:-9]
            tids.append(int(l))
tids = set(tids)
print(f"Quantidade de talkids únicos: {len(tids)}")

Quantidade de talkids únicos: 1045


Valor de talkids obtidos 1045 != 1710 descritos no artigo.

#### Perguntas:

- Será um problema na metodologia?
- Será que o artigo está incorreto?
- Será que faltam dados na base de dados?