In [1]:
import pandas as pd
import spacy
nlp = spacy.load('ro_core_news_sm')

In [None]:
parallel_corpus = pd.DataFrame(columns=["ro", "rup"])

data = []
with open("../dataset/corpus.ro", "r") as f, open("../dataset/corpus.rup", "r") as g:
    for line1, line2 in zip(f, g):
        data.append({"ro": line1.strip(), "rup": line2.strip()})
        
parallel_corpus = pd.DataFrame(data, columns=["ro", "rup"])

In [None]:
# Save the parallel corpus as csv
parallel_corpus.to_csv("../dataset/parallel_corpus.csv", index=False)

## CYPHER SCRIPTS USED
#### Load csv
```
LOAD CSV WITH HEADERS FROM 'file:///parallel_corpus.csv' AS row
WITH row WHERE row.ro IS NOT NULL AND row.rup IS NOT NULL
MERGE (roNode:RO {text: row.ro})
MERGE (rupNode:RUP {text: row.rup})
MERGE (roNode)-[:TRANSLATES]->(rupNode);
```

In [2]:
import os
from langchain_community.graphs import Neo4jGraph
from langchain_community.callbacks import get_openai_callback
from langchain.chains import GraphCypherQAChain
from langchain_openai import ChatOpenAI
os.environ["NEO4J_URI"] = "bolt://localhost:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "testpassword"
graph = Neo4jGraph()
graph.refresh_schema()
print(graph.schema)

  graph = Neo4jGraph()


Node properties:
RO {text: STRING}
RUP {text: STRING}
WordTranslation {origin_word: STRING, part_of_speech: STRING, similarity_score: FLOAT, translation: STRING}
Relationship properties:

The relationships:
(:RO)-[:TRANSLATES]->(:RUP)
(:WordTranslation)-[:APPEARS_IN]->(:RUP)


In [3]:
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass()

In [None]:
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
chain = GraphCypherQAChain.from_llm(graph=graph, llm=llm, verbose=True)
with get_openai_callback() as cb:
    response = chain.invoke({"query": "How to translate from RO to RUP: 'A fost'", "context": ""})
    print(f"Total Cost (USD): ${cb.total_cost}")
response

In [5]:
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
examples = [
    
]
example_prompt = PromptTemplate.from_template(
    "User input: {question}\nCypher query: {query}"
)
prompt = FewShotPromptTemplate(
    examples=examples[:5],
    example_prompt=example_prompt,
    prefix="You are a Neo4j expert. Given an input question, create a syntactically correct Cypher query to run.\n\nHere is the schema information\n{schema}.\n\nBelow are a number of examples of questions and their corresponding Cypher queries.",
    suffix="User input: {question}\nCypher query: ",
    input_variables=["question", "schema"],
)

In [4]:
from neomodel import db
from neomodel import config
config.DATABASE_URL = 'bolt://neo4j:testpassword@localhost:7687'

# Define the query
query = """
MATCH (p:RUP) -- (wt:WordTranslation)
MATCH (p:RUP) -[translates]- (r:RO)
WHERE p.text CONTAINS $word 
WITH p, r, collect(wt) as dictionary_trans
RETURN p as rup_sent, r as ro_translation, dictionary_trans
LIMIT 1
"""

# Function to execute the query and return results
def fetch_translations(word):
    """
    Given a word, fetches the Aromanian sentence containing the word, the Romanian translation of the Aromanian sentence, and the translations of the contained words.
    """
    # Execute the query
    results, meta = db.cypher_query(query, {'word': word})
    
    # Process the results
    structured_results = []
    for result in results:
        rup_sent = result[0].get('text')
        ro_translation = result[1].get('text')
        contained_word_translations = []
        for dictionary_node in result[2]:
            dictionary_original = dictionary_node.get('origin_word')
            dictionary_translation = dictionary_node.get('translation')
            dictionary_similarity = dictionary_node.get('similarity_score')
            dictionary_pos = dictionary_node.get('part_of_speech')
            contained_word_translations.append({
                'original word': dictionary_original,
                'translation': dictionary_translation,
                'similarity score': dictionary_similarity,
                'part of speech': dictionary_pos,
            })
        structured_results.append({
            'aromanian sentence': rup_sent,
            'romanian translation of the aromanian sentence': ro_translation,
            'contained word translations': contained_word_translations
        })    
    return structured_results

# Fetch and print the results
word = "duse"
results = fetch_translations(word)
for res in results:
    print(res)


{'aromanian sentence': 'Duse vulpea și - glîp-glîp!, glîpui ñearea diprisupră, că aclo duse, aestu-l’i fu pătedzlu.', 'romanian translation of the aromanian sentence': 'Se duse vulpea și - lip-lip! - înghiți mierea de deasupra, că aci venise, ăsta-i era botezul.', 'contained word translations': [{'original word': 'pâtedzu - mi', 'translation': 'boteza, v', 'similarity score': 92.3076923076923, 'part of speech': 'vb 1'}, {'original word': 'aclo', 'translation': 'acolo', 'similarity score': 100.0, 'part of speech': 'adv'}, {'original word': 'că', 'translation': 'ca', 'similarity score': 100.0, 'part of speech': 'conj'}, {'original word': 'ca', 'translation': 'ca', 'similarity score': 100.0, 'part of speech': 'adv'}, {'original word': 'di-pri-suprâ', 'translation': 'de prisos', 'similarity score': 90.9090909090909, 'part of speech': 'adv'}, {'original word': 'si', 'translation': "s'", 'similarity score': 100.0, 'part of speech': 'pron reflex pers 3 sgshi pl'}]}


### This cell uses an english prompt

In [None]:

sentences = ["Ĺepurle ansare d-iu nu te-aştepţ", # Iepurele sare de unde nu te aştepţi.
             "Si mveaşte tu strańile a cafiĝiluiş-acaţă s-ńaură ca nă cătuşe pi ninga uşa iu durńa amirălu.", # Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.
             "Că-ţelo-agudi şi fiĉorlu, measă, ntribă Araplu", # De ce îl lovişi pe băiat, masă, întrebă arapul.
             "Nu ti cârteaşĉe vârnu, că va lă si pară că escu mine.", # Nu se va lega nimeni de tine, căci o să li se pară că sunt eu.
             "Și s-nu pistipsiri, misură tine diznou!", # Și dacă nu crezi, măsoară tu din nou!
             "Nu mi bati, că ț-aduc ș-alti petali io!", # Nu mă bate, că ţi-aduc şi-alte potcoave eu!
             "Acats un oaspi nău, vecljilu s-nu lu agărshestsă.",
             "Gustarea di tahina shi nsurarea di cu tiniru, acatsă locu.",
             "Calea va imnari shi borgea va pălteari.",
            ]

translation_results = []
all_cost = 0
for sentence in sentences:

    results = []
    words = nlp(sentence)
    words = [token.text for token in words if not token.is_punct and not token.is_space]
    print(words)
    for word in words:
        results.extend(fetch_translations(word))
    results_deduped = []
    print(results)
    print(len(results))
    for result in results:
        if result not in results_deduped:
            results_deduped.append(result)
    print(len(results_deduped))

    # Things that were also included in prompt at some point
    other = """ You will be provided with similar sentences, or sentences that contain the same words and their translations.
    Be careful not to confuse the examples sentences with the sentence you have to translate. Give me the translation only.
    Also consider the fact that if a word in aromanian is similar to a word in romanian, it might not have the same meaning, but it also might."""

    prompt_template_str = f"""
    You have to translate sentences from Aromanian to Romanian.
    Consider the context in such a way that the translated sentence makes sense.
    The sentence you have to translate is: "{sentence}".
    The data is provided in the following format as an example, use it to infer the translation:
    """
    # Append the results to the template
    for result in results_deduped:
        prompt_template_str += f"""
        Aromanian example sentence: {result['aromanian sentence']}
        Romanian translation of the Aromanian example sentence: {result['romanian translation of the aromanian sentence']}
        Contained word translations of the example sentence: 
        """
        for contained_word_translation in result['contained word translations']:
            prompt_template_str += f"""
            Original word: {contained_word_translation['original word']}
            Translation: {contained_word_translation['translation']}
            Part of speech: {contained_word_translation['part of speech']}
            Similarity score: {contained_word_translation['similarity score']}
            """
        prompt_template_str += "-------------------"
    print(prompt_template_str)
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2)
    with get_openai_callback() as cb:
        translation_results.append(llm.invoke(prompt_template_str))
        # print(llm.invoke(prompt_template_str))
        print(f"Total Cost (USD): ${cb.total_cost}")
        all_cost += cb.total_cost


### This cell uses a romanian prompt

In [10]:

# Read them from test file
sentences = pd.read_csv("testdata.csv")
sentences = sentences["rup"].tolist()
print(sentences)

translation_results_rag = []
all_cost = 0
for sentence in sentences:

    results = []
    words = nlp(sentence)
    words = [token.text for token in words if not token.is_punct and not token.is_space]
    print(words)
    for word in words:
        results.extend(fetch_translations(word))
    results_deduped = []
    print(results)
    print(len(results))
    for result in results:
        if result not in results_deduped:
            results_deduped.append(result)
    print(len(results_deduped))
    results_deduped = results_deduped[:3]


    prompt_template_str = f"""Trebuie sa traduci propozitii din aromană in română.
    Considera contextul in asa fel incat propozitia tradusa sa aiba sens. Considera ca un cuvant in aromana care este similar cu un cuvant in romana
    poate sa nu aiba aceeasi semnificatie, dar poate sa aiba.
    Propozitia pe care trebuie sa o traduci este: "{sentence}".
    Vei primi propozitii similare, sau propozitii care contin aceleasi cuvinte si traducerile lor. Incearca sa traduci chiar daca nu primesti exemple.
    Datele sunt furnizate in urmatorul format ca exemplu, foloseste-l pentru a deduce traducerea:
    """
    # Append the results to the template
    for result in results_deduped:
        prompt_template_str += f"""
        Propozitie exemplu in aromana: {result['aromanian sentence']}
        Traducerea in romana a propozitiei exemplu din aromana: {result['romanian translation of the aromanian sentence']}
        Ai la dispozitie si urmatoarele traduceri ale cuvintelor:
        """
        for contained_word_translation in result['contained word translations']:
            prompt_template_str += f"""
            Cuvant original aromana: {contained_word_translation['original word']}
            Traducerea in romana: {contained_word_translation['translation']}
            Partea de vorbire: {contained_word_translation['part of speech']}
            """
        prompt_template_str += "Returneaza doar traducerea propozitiei."

    print(prompt_template_str)
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
    with get_openai_callback() as cb:
        translation_results_rag.append(llm.invoke(prompt_template_str))
        # print(llm.invoke(prompt_template_str))
        print(f"Total Cost (USD): ${cb.total_cost}")
        all_cost += cb.total_cost


['NIPOATA AVIGL’ITORULUI', 'Munțîl’i armasiră ca irñii.', 'Fudziră cupiile di oi... s-chirură diparte-n cale picurarl’i învirinaț, s-dipărtară fumeile cu cîrvăñile a lor. Hoara, armasă singură, își plîndze mira-l’i. Pădurile vîzescu, canda vor se-aspună ș-năse jalea ti oaspițl’i a lor duruț, ți fudziră diparte... diparte ș-loară cu năși tută haraua, tută nădia lor.', 'Se-asteasiră cîntițle dulțe di flueară, nu ma se-avdu boțle a armânelor dail’eane. Tu loclu a lor vimtul arăsună jilos, l’ea cu năs frîndză uscate, umple hoara întreagă... u dișteaptă dit γislu a l’ei greu, și-apoia se-astindze diparte, tu văl’iurle stirnoase a munțîlor.', 'Cîtă jale aduțe ș-toamna, cîte iniñi durute nu dispartă... cîte vreri nu arățeaște ș-le-astindze ti totuna.', 'Pluina arațe țe avea cădzută ahîtă oară, păpsi. Diparte-n dzare, pi tu cripiturile a niorlor, alunica mundzîle a soarelui, aproapea s-cheară, cîndu fumeile cu cupiile di oi ș-cîrvăñile fugate din hoară alina cu greu giuglu a muntilui.', 'Bărba

In [15]:
# WITHOUT RAG
# Read them from the test file
sentences = pd.read_csv("testdata.csv")
sentences = sentences["rup"].tolist()

translation_results = []
all_cost = 0
for sentence in sentences:

    prompt_template_str = f"""Trebuie sa traduci propozitii din aromană in română.
    Considera contextul in asa fel incat propozitia tradusa sa aiba sens. Considera ca un cuvant in aromana care este similar cu un cuvant in romana
    poate sa nu aiba aceeasi semnificatie, dar poate sa aiba.
    Propozitia pe care trebuie sa o traduci este: "{sentence}".
    Vei primi propozitii similare, sau propozitii care contin aceleasi cuvinte si traducerile lor.
    Datele sunt furnizate in urmatorul format ca exemplu, foloseste-l pentru a deduce traducerea:
    """
    prompt_template_str += "Returneaza doar traducerea propozitiei. \n -------------------"

    print(prompt_template_str)
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
    with get_openai_callback() as cb:
        translation_results.append(llm.invoke(prompt_template_str))
        # print(llm.invoke(prompt_template_str))
        print(f"Total Cost (USD): ${cb.total_cost}")
        all_cost += cb.total_cost


Trebuie sa traduci propozitii din aromană in română.
    Considera contextul in asa fel incat propozitia tradusa sa aiba sens. Considera ca un cuvant in aromana care este similar cu un cuvant in romana
    poate sa nu aiba aceeasi semnificatie, dar poate sa aiba.
    Propozitia pe care trebuie sa o traduci este: "NIPOATA AVIGL’ITORULUI".
    Vei primi propozitii similare, sau propozitii care contin aceleasi cuvinte si traducerile lor.
    Datele sunt furnizate in urmatorul format ca exemplu, foloseste-l pentru a deduce traducerea:
    Returneaza doar traducerea propozitiei. 
 -------------------
Total Cost (USD): $3.555e-05
Trebuie sa traduci propozitii din aromană in română.
    Considera contextul in asa fel incat propozitia tradusa sa aiba sens. Considera ca un cuvant in aromana care este similar cu un cuvant in romana
    poate sa nu aiba aceeasi semnificatie, dar poate sa aiba.
    Propozitia pe care trebuie sa o traduci este: "Munțîl’i armasiră ca irñii.".
    Vei primi propoziti

In [8]:
translation_results # without rag

[AIMessage(content='"NU E PENTRU MINE."', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 177, 'total_tokens': 187, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0aa8d3e20b', 'finish_reason': 'stop', 'logprobs': None}, id='run-b340a762-744f-4d62-bb48-61d8d37e54f0-0', usage_metadata={'input_tokens': 177, 'output_tokens': 10, 'total_tokens': 187, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}),
 AIMessage(content='"Munții s-au îmbrăcat ca iarna."', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 15, 'prompt_tokens': 180, 'total_tokens': 195, 'completion_tokens_details': {'accepted_prediction_token

In [11]:
translation_results_rag # rag

[AIMessage(content='Propoziția "NIPOATA AVIGL’ITORULUI" poate fi tradusă în română ca "Nimic din ceea ce este al vizitatorului". \n\nDacă ai nevoie de alte traduceri sau exemple, te rog să îmi spui!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 60, 'prompt_tokens': 176, 'total_tokens': 236, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_d02d531b47', 'finish_reason': 'stop', 'logprobs': None}, id='run-4bdf72e3-f35a-4958-8a62-947cf8f48e1b-0', usage_metadata={'input_tokens': 176, 'output_tokens': 60, 'total_tokens': 236, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}),
 AIMessage(content='"Munții s-au îmbrăcat ca niște îngeri."', additional_kwargs={'refusal': 

In [12]:
# To read from the test file
sentences = pd.read_csv("testdata.csv")
sentences = sentences["rup"].tolist()
correct_translations = pd.read_csv("testdata.csv")
correct_translations = correct_translations["ro"].tolist()


In [16]:
for i, translation in enumerate(translation_results_rag):
    print("Raspuns llm:")
    print(translation.content)
    print("****")
    print(f"Original: {sentences[i]}")
    print(f"Traducere corecta: {correct_translations[i]}")
    print("---------------------------------------------------")

Raspuns llm:
Propoziția "NIPOATA AVIGL’ITORULUI" poate fi tradusă în română ca "Nimic din ceea ce este al vizitatorului". 

Dacă ai nevoie de alte traduceri sau exemple, te rog să îmi spui!
****
Original: NIPOATA AVIGL’ITORULUI
Traducere corecta: NEPOATA UNUI PAZNIC
---------------------------------------------------
Raspuns llm:
"Munții s-au îmbrăcat ca niște îngeri."
****
Original: Munțîl’i armasiră ca irñii.
Traducere corecta: Munții rămăseseră pustii.
---------------------------------------------------
Raspuns llm:
"Fură cupele de oi... și se îndepărtară pe calea picurului înverzit, și se depărtară femeile cu țarcile lor. Hoara, înarmată singură, își plânse mirarea. Pădurile văzute, când vor să se așeze, și să nască jalea celor ce au ospățul lor durut, și fură depărtate... depărtate și lăsate cu nașii toată hara, toată nădejdea lor."
****
Original: Fudziră cupiile di oi... s-chirură diparte-n cale picurarl’i învirinaț, s-dipărtară fumeile cu cîrvăñile a lor. Hoara, armasă singură, 

In [46]:
import sacrebleu
translations_result_str = [translation.content for translation in translation_results_rag]

# Compute BLEU score
bleu_score = sacrebleu.corpus_bleu(translations_result_str, [correct_translations])
print("BLEU score:", bleu_score.score)

# Compute ChrF score
chrf_score = sacrebleu.corpus_chrf(translations_result_str, [correct_translations])
print("ChrF score:", chrf_score.score)


BLEU score: 10.355141729974887
ChrF score: 33.5693261238681
