In [2]:
import pandas as pd
import spacy
nlp = spacy.load('ro_core_news_sm')

In [2]:
parallel_corpus = pd.DataFrame(columns=["ro", "rup"])

data = []
with open("../dataset/corpus.ro", "r") as f, open("../dataset/corpus.rup", "r") as g:
    for line1, line2 in zip(f, g):
        data.append({"ro": line1.strip(), "rup": line2.strip()})
        
parallel_corpus = pd.DataFrame(data, columns=["ro", "rup"])

In [3]:
# Save the parallel corpus as csv
parallel_corpus.to_csv("../dataset/parallel_corpus.csv", index=False)

## CYPHER SCRIPTS USED
#### Load csv
```
LOAD CSV WITH HEADERS FROM 'file:///parallel_corpus.csv' AS row
WITH row WHERE row.ro IS NOT NULL AND row.rup IS NOT NULL
MERGE (roNode:RO {text: row.ro})
MERGE (rupNode:RUP {text: row.rup})
MERGE (roNode)-[:TRANSLATES]->(rupNode);
```

In [9]:
import os
from langchain_community.graphs import Neo4jGraph
from langchain_community.callbacks import get_openai_callback
from langchain.chains import GraphCypherQAChain
from langchain_openai import ChatOpenAI
os.environ["NEO4J_URI"] = "bolt://localhost:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "testpassword"
graph = Neo4jGraph()
graph.refresh_schema()
print(graph.schema)

Node properties:
RO {text: STRING}
RUP {text: STRING}
WordTranslation {part_of_speech: STRING, similarity_score: FLOAT, translation: STRING, origin_word: STRING}
Relationship properties:

The relationships:
(:RO)-[:TRANSLATES]->(:RUP)
(:WordTranslation)-[:APPEARS_IN]->(:RUP)


In [10]:
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass()

In [11]:


llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
chain = GraphCypherQAChain.from_llm(graph=graph, llm=llm, verbose=True)
with get_openai_callback() as cb:
    response = chain.invoke({"query": "How to translate from RO to RUP: 'A fost'", "context": ""})
    print(f"Total Cost (USD): ${cb.total_cost}")
response



[1m> Entering new GraphCypherQAChain chain...[0m
Generated Cypher:
[32;1m[1;3mcypher
MATCH (ro:RO {text: 'A fost'})-[:TRANSLATES]->(rup:RUP)
RETURN rup
[0m
Full Context:
[32;1m[1;3m[][0m

[1m> Finished chain.[0m
Total Cost (USD): $0.0


{'query': "How to translate from RO to RUP: 'A fost'",
 'context': '',
 'result': "I don't know the answer."}

In [12]:
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
examples = [
    
]
example_prompt = PromptTemplate.from_template(
    "User input: {question}\nCypher query: {query}"
)
prompt = FewShotPromptTemplate(
    examples=examples[:5],
    example_prompt=example_prompt,
    prefix="You are a Neo4j expert. Given an input question, create a syntactically correct Cypher query to run.\n\nHere is the schema information\n{schema}.\n\nBelow are a number of examples of questions and their corresponding Cypher queries.",
    suffix="User input: {question}\nCypher query: ",
    input_variables=["question", "schema"],
)

In [13]:
from neomodel import db
from neomodel import config
config.DATABASE_URL = 'bolt://neo4j:testpassword@localhost:7687'

# Define the query
query = """
MATCH (p:RUP) -- (wt:WordTranslation)
MATCH (p:RUP) -[translates]- (r:RO)
WHERE p.text CONTAINS $word 
WITH p, r, collect(wt) as dictionary_trans
RETURN p as rup_sent, r as ro_translation, dictionary_trans
LIMIT 1
"""

# Function to execute the query and return results
def fetch_translations(word):
    """
    Given a word, fetches the Aromanian sentence containing the word, the Romanian translation of the Aromanian sentence, and the translations of the contained words.
    """
    # Execute the query
    results, meta = db.cypher_query(query, {'word': word})
    
    # Process the results
    structured_results = []
    for result in results:
        rup_sent = result[0].get('text')
        ro_translation = result[1].get('text')
        contained_word_translations = []
        for dictionary_node in result[2]:
            dictionary_original = dictionary_node.get('origin_word')
            dictionary_translation = dictionary_node.get('translation')
            dictionary_similarity = dictionary_node.get('similarity_score')
            dictionary_pos = dictionary_node.get('part_of_speech')
            contained_word_translations.append({
                'original word': dictionary_original,
                'translation': dictionary_translation,
                'similarity score': dictionary_similarity,
                'part of speech': dictionary_pos,
            })
        structured_results.append({
            'aromanian sentence': rup_sent,
            'romanian translation of the aromanian sentence': ro_translation,
            'contained word translations': contained_word_translations
        })    
    return structured_results

# Fetch and print the results
word = "duse"
results = fetch_translations(word)
for res in results:
    print(res)


{'aromanian sentence': 'Duse vulpea și - glîp-glîp!, glîpui ñearea diprisupră, că aclo duse, aestu-l’i fu pătedzlu.', 'romanian translation of the aromanian sentence': 'Se duse vulpea și - lip-lip! - înghiți mierea de deasupra, că aci venise, ăsta-i era botezul.', 'contained word translations': [{'original word': 'pâtedzu - mi', 'translation': 'boteza, v', 'similarity score': 92.3076923076923, 'part of speech': 'vb 1'}, {'original word': 'aclo', 'translation': 'acolo', 'similarity score': 100.0, 'part of speech': 'adv'}, {'original word': 'că', 'translation': 'ca', 'similarity score': 100.0, 'part of speech': 'conj'}, {'original word': 'ca', 'translation': 'ca', 'similarity score': 100.0, 'part of speech': 'adv'}, {'original word': 'di-pri-suprâ', 'translation': 'de prisos', 'similarity score': 90.9090909090909, 'part of speech': 'adv'}, {'original word': 'si', 'translation': "s'", 'similarity score': 100.0, 'part of speech': 'pron reflex pers 3 sgshi pl'}]}


### This cell uses an english prompt

In [22]:

sentences = ["Ĺepurle ansare d-iu nu te-aştepţ", # Iepurele sare de unde nu te aştepţi.
             "Si mveaşte tu strańile a cafiĝiluiş-acaţă s-ńaură ca nă cătuşe pi ninga uşa iu durńa amirălu.", # Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.
             "Că-ţelo-agudi şi fiĉorlu, measă, ntribă Araplu", # De ce îl lovişi pe băiat, masă, întrebă arapul.
             "Nu ti cârteaşĉe vârnu, că va lă si pară că escu mine.", # Nu se va lega nimeni de tine, căci o să li se pară că sunt eu.
             "Și s-nu pistipsiri, misură tine diznou!", # Și dacă nu crezi, măsoară tu din nou!
             "Nu mi bati, că ț-aduc ș-alti petali io!", # Nu mă bate, că ţi-aduc şi-alte potcoave eu!
            ]

translation_results = []
all_cost = 0
for sentence in sentences:

    results = []
    words = nlp(sentence)
    words = [token.text for token in words if not token.is_punct and not token.is_space]
    print(words)
    for word in words:
        results.extend(fetch_translations(word))
    results_deduped = []
    print(results)
    print(len(results))
    for result in results:
        if result not in results_deduped:
            results_deduped.append(result)
    print(len(results_deduped))

    # Things that were also included in prompt at some point
    other = """ You will be provided with similar sentences, or sentences that contain the same words and their translations.
    Be careful not to confuse the examples sentences with the sentence you have to translate. Give me the translation only.
    Also consider the fact that if a word in aromanian is similar to a word in romanian, it might not have the same meaning, but it also might."""

    prompt_template_str = f"""
    You have to translate sentences from Aromanian to Romanian.
    Consider the context in such a way that the translated sentence makes sense.
    The sentence you have to translate is: "{sentence}".
    The data is provided in the following format as an example, use it to infer the translation:
    """
    # Append the results to the template
    for result in results_deduped:
        prompt_template_str += f"""
        Aromanian example sentence: {result['aromanian sentence']}
        Romanian translation of the Aromanian example sentence: {result['romanian translation of the aromanian sentence']}
        Contained word translations of the example sentence: 
        """
        for contained_word_translation in result['contained word translations']:
            prompt_template_str += f"""
            Original word: {contained_word_translation['original word']}
            Translation: {contained_word_translation['translation']}
            Part of speech: {contained_word_translation['part of speech']}
            Similarity score: {contained_word_translation['similarity score']}
            """
        prompt_template_str += "-------------------"
    print(prompt_template_str)
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
    with get_openai_callback() as cb:
        translation_results.append(llm.invoke(prompt_template_str))
        # print(llm.invoke(prompt_template_str))
        print(f"Total Cost (USD): ${cb.total_cost}")
        all_cost += cb.total_cost


['Ĺepurle', 'ansare', 'd-', 'iu', 'nu', 'te-', 'aştepţ']
[{'aromanian sentence': '- D-iu, cumbară, d-iu, Mară, cu pleașca aestă?', 'romanian translation of the aromanian sentence': '- De unde, cumătră, de unde, Mara, o așa pleașcă?', 'contained word translations': [{'original word': 'pleashcâ', 'translation': 'pleasca', 'similarity score': 93.33333333333333, 'part of speech': 'sf'}, {'original word': 'cu', 'translation': 'cu', 'similarity score': 100.0, 'part of speech': 'conj'}, {'original word': 'marâ', 'translation': 'pasiune', 'similarity score': 100.0, 'part of speech': 'sf pl?'}, {'original word': 'cumarâ', 'translation': 'catina', 'similarity score': 92.3076923076923, 'part of speech': 'sf'}, {'original word': 'iu', 'translation': 'unde', 'similarity score': 100.0, 'part of speech': 'adv'}]}, {'aromanian sentence': '- Ți să știu? Cum fac toată lumea, ș-noi: s-o-ascundem ñearea și dit trei-trei dzîle, s-nă duțem s-mîcăm cîte puțînă.', 'romanian translation of the aromanian senten

### This cell uses a romanian prompt

In [29]:

sentences = ["Ĺepurle ansare d-iu nu te-aştepţ", # Iepurele sare de unde nu te aştepţi.
             "Si mveaşte tu strańile a cafiĝiluiş-acaţă s-ńaură ca nă cătuşe pi ninga uşa iu durńa amirălu.", # Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.
             "Că-ţelo-agudi şi fiĉorlu, measă, ntribă Araplu", # De ce îl lovişi pe băiat, masă, întrebă arapul.
             "Nu ti cârteaşĉe vârnu, că va lă si pară că escu mine.", # Nu se va lega nimeni de tine, căci o să li se pară că sunt eu.
             "Și s-nu pistipsiri, misură tine diznou!", # Și dacă nu crezi, măsoară tu din nou!
             "Nu mi bati, că ț-aduc ș-alti petali io!", # Nu mă bate, că ţi-aduc şi-alte potcoave eu!
            ]

translation_results = []
all_cost = 0
for sentence in sentences:

    results = []
    words = nlp(sentence)
    words = [token.text for token in words if not token.is_punct and not token.is_space]
    print(words)
    for word in words:
        results.extend(fetch_translations(word))
    results_deduped = []
    print(results)
    print(len(results))
    for result in results:
        if result not in results_deduped:
            results_deduped.append(result)
    print(len(results_deduped))



    prompt_template_str = f"""Trebuie sa traduci propozitii din aromană in română.
    Considera contextul in asa fel incat propozitia tradusa sa aiba sens. Considera ca un cuvant in aromana care este similar cu un cuvant in romana
    poate sa nu aiba aceeasi semnificatie, dar poate sa aiba.
    Propozitia pe care trebuie sa o traduci este: "{sentence}".
    Vei primi propozitii similare, sau propozitii care contin aceleasi cuvinte si traducerile lor.
    Datele sunt furnizate in urmatorul format ca exemplu, foloseste-l pentru a deduce traducerea:
    """
    # Append the results to the template
    for result in results_deduped:
        prompt_template_str += f"""
        Propozitie exemplu in aromana: {result['aromanian sentence']}
        Traducerea in romana a propozitiei exemplu din aromana: {result['romanian translation of the aromanian sentence']}
        Ai la dispozitie si urmatoarele traduceri ale cuvintelor:
        """
        for contained_word_translation in result['contained word translations']:
            prompt_template_str += f"""
            Cuvant original aromana: {contained_word_translation['original word']}
            Traducerea in romana: {contained_word_translation['translation']}
            Partea de vorbire: {contained_word_translation['part of speech']}
            """
        prompt_template_str += "Returneaza doar traducerea propozitiei. \n -------------------"

    print(prompt_template_str)
    llm = ChatOpenAI(model="gpt-4o", temperature=0)
    with get_openai_callback() as cb:
        translation_results.append(llm.invoke(prompt_template_str))
        # print(llm.invoke(prompt_template_str))
        print(f"Total Cost (USD): ${cb.total_cost}")
        all_cost += cb.total_cost


['Ĺepurle', 'ansare', 'd-', 'iu', 'nu', 'te-', 'aştepţ']
[{'aromanian sentence': '- D-iu, cumbară, d-iu, Mară, cu pleașca aestă?', 'romanian translation of the aromanian sentence': '- De unde, cumătră, de unde, Mara, o așa pleașcă?', 'contained word translations': [{'original word': 'pleashcâ', 'translation': 'pleasca', 'similarity score': 93.33333333333333, 'part of speech': 'sf'}, {'original word': 'cu', 'translation': 'cu', 'similarity score': 100.0, 'part of speech': 'conj'}, {'original word': 'marâ', 'translation': 'pasiune', 'similarity score': 100.0, 'part of speech': 'sf pl?'}, {'original word': 'cumarâ', 'translation': 'catina', 'similarity score': 92.3076923076923, 'part of speech': 'sf'}, {'original word': 'iu', 'translation': 'unde', 'similarity score': 100.0, 'part of speech': 'adv'}]}, {'aromanian sentence': '- Ți să știu? Cum fac toată lumea, ș-noi: s-o-ascundem ñearea și dit trei-trei dzîle, s-nă duțem s-mîcăm cîte puțînă.', 'romanian translation of the aromanian senten

In [30]:
translation_results

[AIMessage(content='"Șoarecele a spus că nu te așteaptă."', response_metadata={'token_usage': {'completion_tokens': 15, 'prompt_tokens': 1131, 'total_tokens': 1146}, 'model_name': 'gpt-4o-2024-05-13', 'system_fingerprint': 'fp_3cd8b62c3b', 'finish_reason': 'stop', 'logprobs': None}, id='run-18b8117e-440e-4b25-8215-beef74198c19-0', usage_metadata={'input_tokens': 1131, 'output_tokens': 15, 'total_tokens': 1146}),
 AIMessage(content='S-au uitat la hainele cafegiului și au observat că nu avea cătușe la ușă, doar o durere de amiral.', response_metadata={'token_usage': {'completion_tokens': 34, 'prompt_tokens': 4733, 'total_tokens': 4767}, 'model_name': 'gpt-4o-2024-05-13', 'system_fingerprint': 'fp_4e2b2da518', 'finish_reason': 'stop', 'logprobs': None}, id='run-5f918230-7616-44cd-bc6f-bea03852948c-0', usage_metadata={'input_tokens': 4733, 'output_tokens': 34, 'total_tokens': 4767}),
 AIMessage(content='Câinele a mușcat și băiatul, masa, în tribul Arapului.', response_metadata={'token_usag

In [31]:
sentences = ["Ĺepurle ansare d-iu nu te-aştepţ", # Iepurele sare de unde nu te aştepţi.
             "Si mveaşte tu strańile a cafiĝiluiş-acaţă s-ńaură ca nă cătuşe pi ninga uşa iu durńa amirălu.", # Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.
             "Că-ţelo-agudi şi fiĉorlu, measă, ntribă Araplu", # De ce îl lovişi pe băiat, masă, întrebă arapul.
             "Nu ti cârteaşĉe vârnu, că va lă si pară că escu mine.", # Nu se va lega nimeni de tine, căci o să li se pară că sunt eu.
             "Și s-nu pistipsiri, misură tine diznou!", # Și dacă nu crezi, măsoară tu din nou!
             "Nu mi bati, că ț-aduc ș-alti petali io!", # Nu mă bate, că ţi-aduc şi-alte potcoave eu!
            ]
correct_translations = ["Iepurele sare de unde nu te aştepţi.",
                        "Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.",
                        "De ce îl lovişi pe băiat, masă, întrebă arapul.",
                        "Nu se va lega nimeni de tine, căci o să li se pară că sunt eu.",
                        "Și dacă nu crezi, măsoară tu din nou!",
                        "Nu mă bate, că ţi-aduc şi-alte potcoave eu!"]

In [32]:
for i, translation in enumerate(translation_results):
    print("Raspuns llm:")
    print(translation.content)
    print("****")
    print(f"Original: {sentences[i]}")
    print(f"Traducere corecta: {correct_translations[i]}")
    print("---------------------------------------------------")

Raspuns llm:
"Șoarecele a spus că nu te așteaptă."
****
Original: Ĺepurle ansare d-iu nu te-aştepţ
Traducere corecta: Iepurele sare de unde nu te aştepţi.
---------------------------------------------------
Raspuns llm:
S-au uitat la hainele cafegiului și au observat că nu avea cătușe la ușă, doar o durere de amiral.
****
Original: Si mveaşte tu strańile a cafiĝiluiş-acaţă s-ńaură ca nă cătuşe pi ninga uşa iu durńa amirălu.
Traducere corecta: Se îmbracă în straiele cafegiului şi începe să miaune ca o pisică pe lângă uşa unde dormea împăratul.
---------------------------------------------------
Raspuns llm:
Câinele a mușcat și băiatul, masa, în tribul Arapului.
****
Original: Că-ţelo-agudi şi fiĉorlu, measă, ntribă Araplu
Traducere corecta: De ce îl lovişi pe băiat, masă, întrebă arapul.
---------------------------------------------------
Raspuns llm:
Nu te îngrijora, că va părea că sunt cu tine.
****
Original: Nu ti cârteaşĉe vârnu, că va lă si pară că escu mine.
Traducere corecta: Nu 