In [62]:
import xml.etree.ElementTree as ET ##for parsing XML
import pandas as pd ##importing pandas to create a dataframe

In [63]:

# Define the XML namespace
namespace = {'xml': 'http://www.w3.org/XML/1998/namespace'}

# Step 1: Extract data from the TMX file
def extract_tmx_data(file_path):
    try:
        tree = ET.parse(file_path)
        root = tree.getroot()
        data = []

        for tu in root.findall(".//tu"):
            source = tu.find(".//tuv[@xml:lang='en']//seg", namespaces=namespace).text  # Assuming English source text
            target = tu.find(".//tuv[@xml:lang='ar']//seg", namespaces=namespace).text  # Assuming Arabic target text
            data.append({'source': source, 'target': target})

        return data

    except ET.ParseError as e:
        print(f"Error parsing the TMX file: {str(e)}")
        return []


In [64]:
# Step 2: Transform the extracted data (if needed)
def transform_data(data):
    return data

In [65]:
# Step 3: Load the transformed data into a DataFrame
def load_data(data):
    df = pd.DataFrame(data)
    return df

# Main ETL pipeline
def tmx_etl_pipeline(file_path):
    # Extract data from TMX file
    extracted_data = extract_tmx_data(file_path)

    # Transform the extracted data (if needed)
    transformed_data = transform_data(extracted_data)

    # Load the transformed data into a DataFrame
    df = load_data(transformed_data)

    return df

In [66]:
# Executing the tmx function
tmx_file_path = "ar-en.tmx"
final_df = tmx_etl_pipeline(tmx_file_path)

In [67]:
# transformed dataset 
final_df

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
63847,"13. Welcomes, in this regard, the proposal by ...",13 - ترحب في هذا الصدد باقتراح برنامج الأمم ال...
63848,14. Requests the United Nations Development Pr...,14 - تطلب إلى برنامج الأمم المتحدة الإنمائي أن...
63849,15. Requests the Secretary-General to continue...,15 - تطلب إلى الأمين العام أن يواصل جهوده في ت...
63850,16. Requests the United Nations Coordinator of...,16 - تطلب إلى منسق الأمم المتحدة للتعاون الدول...


In [68]:
# importing mysql.connector to connect python with mysql
import mysql.connector

In [69]:
# MySQL database connection parameters
db_config = {
    'host': 'localhost',
    'user': 'Ezworks',
    'password': 'Munavar@786'
}

try:
    # Establish a connection to the MySQL database
    mydb = mysql.connector.connect(**db_config)

    if mydb.is_connected():
        print("Connected to the MySQL database")

except mysql.connector.Error as e:
    print(f"Error connecting to the MySQL database: {e}")

Connected to the MySQL database


In [70]:
#Creating a cursor to work with mysql commands
cursor = mydb.cursor()

In [72]:
cursor.execute('''create database EZ1''') #Creating a database 
cursor.execute('''use EZ1''') 

In [73]:
# creating columns English and Arabic with datatype as Text
cursor.execute('''create table Translator (English text, Arabic text) ''')

In [74]:
final_df

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
63847,"13. Welcomes, in this regard, the proposal by ...",13 - ترحب في هذا الصدد باقتراح برنامج الأمم ال...
63848,14. Requests the United Nations Development Pr...,14 - تطلب إلى برنامج الأمم المتحدة الإنمائي أن...
63849,15. Requests the Secretary-General to continue...,15 - تطلب إلى الأمين العام أن يواصل جهوده في ت...
63850,16. Requests the United Nations Coordinator of...,16 - تطلب إلى منسق الأمم المتحدة للتعاون الدول...


In [75]:
final_df = final_df.head(10000) # Taking a batch of data from the dataframe to check whether the code is working correctly or not
final_df

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
9995,7. Recognizes that respect for cultural divers...,7 - تسلم بأن احترام التنوع الثقافي والحقوق الث...
9996,8. Emphasizes that the promotion of cultural p...,8 - تؤكد أن تشجيع التعدد الثقافي والتسامح على ...
9997,9. Also emphasizes the fact that tolerance and...,9 - تؤكد أيضا أن التسامح واحترام التنوع يعملان...
9998,10. Urges all actors on the international scen...,10 - تحث كافة الجهات الفاعلة في الساحة الدولية...


### Loding data to MySQL server

In [76]:
count_eng = set() 
count_ara = set()

#Running a for loop to insert values in a fast and efficient manner.
for i,j in zip(final_df['source'],final_df['target']): #Zipping both attributes for low chances of error.
    # print(i,j)
    try:
        cursor.execute(f"""INSERT INTO translator (English , Arabic) values("{i}" ,"{j}")""")
        mydb.commit()
    except:
        try:
            cursor.execute(f"""INSERT INTO translator (English , Arabic) values('{i}' ,'{j}')""")
            mydb.commit()
        except: # there are few statements which are having double inverted commas("" ). 
                #To counter this we are using Triple inverted commas (''' ''') to lower the chances of error.
            try:
                cursor.execute(f"""INSERT INTO translator (English , Arabic) values('''{i}''' ,'''{j}''')""")
                mydb.commit()
            except:
                count_eng.add(i) #adding error giving english line of code
                count_ara.add(j) #adding error giving arabic line of code      
                pass

In [77]:
len(count_eng) 

17

In [78]:
import xml.etree.ElementTree as ET

def extract_text_from_tmx(tmx_file):
    tree = ET.parse(tmx_file)
    root = tree.getroot()

    english_sentences = []
    arabic_sentences = []

    for tu in root.findall('.//tu'):
        for seg in tu.findall('.//tuv'):
            lang = seg.attrib.get('{http://www.w3.org/XML/1998/namespace}lang', '').lower()
            text = seg.find('.//seg').text
            if lang == 'en':
                english_sentences.append(text)
            elif lang == 'ar':
                arabic_sentences.append(text)

    return english_sentences, arabic_sentences

english_sentences, arabic_sentences = extract_text_from_tmx("ar-en.tmx")


In [86]:
import mysql.connector

def load_data_into_database(data, table_name):
    conn = mysql.connector.connect(
        user="Ezworks",
        password="Munavar@786",
        host="localhost",
        database="mysql"  # Specify the MySQL database name
    )
    cursor = conn.cursor()

    for sentence in data:
        cursor.execute(f"INSERT INTO {table_name} (sentence) VALUES (%s)", (sentence,))

    conn.commit()
    conn.close()

