In [1]:
import pandas as pd
import numpy as np
import json
import os
from matplotlib import pyplot as plt

import datasets

In [2]:
dataset = datasets.load_dataset("uvci/Koumankan_mt_dyu_fr")

dataset

DatasetDict({
    train: Dataset({
        features: ['ID', 'translation'],
        num_rows: 8065
    })
    validation: Dataset({
        features: ['ID', 'translation'],
        num_rows: 1471
    })
    test: Dataset({
        features: ['ID', 'translation'],
        num_rows: 1393
    })
})

In [3]:
train, val, test = dataset["train"], dataset["validation"], dataset["test"]

test

Dataset({
    features: ['ID', 'translation'],
    num_rows: 1393
})

In [4]:
val.features.type

StructType(struct<ID: string, translation: struct<dyu: string, fr: string>>)

In [5]:
val[0]

{'ID': 'ID_17914990255818',
 'translation': {'dyu': 'I tɔgɔ bi cogodɔ',
  'fr': 'Tu portes un nom de fantaisie.'}}

In [6]:
text = val[0]["translation"]["dyu"]
text

'I tɔgɔ bi cogodɔ'

In [7]:
from transformers import AutoTokenizer
checkpoint = "dyula_to_french/models/checkpoint-53091"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(text, return_tensors="pt").input_ids

In [8]:
from transformers import AutoModelForSeq2SeqLM, MarianMTModel

model: MarianMTModel = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
outputs = model.generate(inputs, max_new_tokens=120, do_sample=True, top_k=30, top_p=0.97)

In [9]:
tokenizer.decode(outputs[0], skip_special_tokens=True)

'Comment tappelles-tu?'

In [10]:
def make_prediction(data = val, index = 0):
	query = data[index]
	print(query)
	text = query["translation"]["dyu"]
	inputs = tokenizer(text, return_tensors="pt").input_ids
	outputs = model.generate(inputs, max_new_tokens=300, do_sample=False,) #  top_k=20, top_p=0.97
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))

In [11]:
import random

In [12]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_19567491311817', 'translation': {'dyu': "FIFA FIFA gwɛlɛn ne b'a kan", 'fr': 'Il éprouva des mouvements de tangage très-violents'}}
J'ai de l'expérience dans mon travail


In [13]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_19341068119275', 'translation': {'dyu': "a bi tog'a ka lakoli fɛnw ne ta larusi b'a la", 'fr': 'Il continue toutefois de publier de nouvelles éditions de son ouvrage édité chez Larousse.'}}
Il tient compte de tout ce que je lui ai demandé.


In [14]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_17361367399662', 'translation': {'dyu': 'N ye Obama ka muso le ye.', 'fr': 'Je suis Mme Obama.'}}
Je suis la femme d'Urie.


In [15]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18898945479005', 'translation': {'dyu': 'Kouma ni bi yôrô bê', 'fr': 'La parole est à Madame Danièle Obono.'}}
Lamendement numéro deux cent quarante-huit mille quatre-vingt-dix.


In [16]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18712686375067', 'translation': {'dyu': 'Ne lani tara,iya djougou ya', 'fr': "J'y crois pas comme t'abuses!"}}
Je suis sûr que jai raison.


In [17]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18480418505874', 'translation': {'dyu': 'Ka sôrô alé tounbi yèlè la', 'fr': 'Et Annette riait.'}}
Puis, la nuit tombée, lenfant se lève.


In [18]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_19734016000995', 'translation': {'dyu': 'O bɛ i bi labɛn ne', 'fr': 'Tout un programme !'}}
Tu tapprêtes tous.


In [19]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_19614783481704', 'translation': {'dyu': 'Bon min be sanfɛ ole ta nin le i ko bon ban nin.', 'fr': "L'étage supérieur est traité en attique."}}
La pierre qui est dans le ciel est semblable à cette maison.


In [20]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_17679122404647', 'translation': {'dyu': 'A kɛra komi a nɔgɔni bɛ.', 'fr': 'C’est plus ou moins sale.'}}
C'était tout aussi simple.


In [21]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18421675417026', 'translation': {'dyu': 'A koni kèra olou ka kouma kan yé', 'fr': 'Ce fut, en effet, leur avis.'}}
Elle est issue de lamendement numéro cent quarante-cinq.


In [22]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18065716273646', 'translation': {'dyu': 'Tɔgɔ a ni ɲɔgɔndan', 'fr': 'Titres et Coupons.'}}
L'estime et le respect de sa personne


In [23]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_17359169356753', 'translation': {'dyu': 'A ye ni fla ni ta.', 'fr': 'Prenez ce médicament.'}}
Il a deux parts.


In [24]:
i = random.choice(list(range(len(val))))
make_prediction(val, i)

{'ID': 'ID_18514377322353', 'translation': {'dyu': 'Musodeni fila lo tun be tulon kɛ la.', 'fr': 'Elle jouait avec elle.'}}
Il y avait deux femmes qui étaient restées à l'écart.
