In [3]:
import xml.etree.ElementTree as ET #for parsing XML
import pandas as pd #importing pandas to create a dataframe

# Define the XML namespace
namespace = {'xml': 'http://www.w3.org/XML/1998/namespace'}

# Step 1: Extract data from the TMX file
def extract_tmx_data(file_path):
    try:
        tree = ET.parse(file_path)# Parse the TMX file located at 'file_path'
        root = tree.getroot()# Get the root element of the parsed file.
        data = []

        for tu in root.findall(".//tu"):
            source = tu.find(".//tuv[@xml:lang='en']//seg", namespaces=namespace).text  # Assuming English source text
            target = tu.find(".//tuv[@xml:lang='ar']//seg", namespaces=namespace).text  # Assuming Arabic target text
            data.append({'source': source, 'target': target})# Appending key value pair of source and target, so we can built a dataframe easily.

        return data

    except ET.ParseError as e:
        print(f"Error parsing the TMX file: {str(e)}")
        return []

# Step 2: Transform the extracted data (if needed)
def transform_data(data):
    return data

# Step 3: Load the transformed data into a DataFrame
def load_data(data):
    df = pd.DataFrame(data)
    return df

# Main ETL pipeline
def tmx_etl_pipeline(file_path):
    # Extract data from TMX file
    extracted_data = extract_tmx_data(file_path)

    # Transform the extracted data (if needed)
    transformed_data = transform_data(extracted_data)

    # Load the transformed data into a DataFrame
    df = load_data(transformed_data)

    return df


In [4]:
# Executing the function
tmx_file_path = "ar-en.tmx"
resulting_dataframe = tmx_etl_pipeline(tmx_file_path)

In [6]:
resulting_dataframe

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
63847,"13. Welcomes, in this regard, the proposal by ...",13 - ترحب في هذا الصدد باقتراح برنامج الأمم ال...
63848,14. Requests the United Nations Development Pr...,14 - تطلب إلى برنامج الأمم المتحدة الإنمائي أن...
63849,15. Requests the Secretary-General to continue...,15 - تطلب إلى الأمين العام أن يواصل جهوده في ت...
63850,16. Requests the United Nations Coordinator of...,16 - تطلب إلى منسق الأمم المتحدة للتعاون الدول...


In [8]:
import mysql.connector # importing mysql.connector to connect python with mysql

# MySQL database connection parameters
db_config = {
    'host': 'localhost',
    'user': 'root',
    'password': 'Amit@1234'
}

try:
    # Establish a connection to the MySQL database
    mydb = mysql.connector.connect(**db_config)

    # Check if the connection is successful
    if mydb.is_connected():
        print("Connected to the MySQL database")

except mysql.connector.Error as e:
    print(f"Error connecting to the MySQL database: {e}")


Connected to the MySQL database


In [9]:
cursor = mydb.cursor() #Creating a cursor to work with mysql commands

In [10]:
cursor.execute('''create database ez''') #Creating a database to store the data
cursor.execute('''use ez''') # selecting the 'ez' database to run command on it.
# cursor.execute('''drop table translator''')

In [63]:
cursor.execute('''create table Translator (English text, Arabic text) ''') # creating columns English and Arabic with datatype as Text

In [11]:
resulting_dataframe

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
63847,"13. Welcomes, in this regard, the proposal by ...",13 - ترحب في هذا الصدد باقتراح برنامج الأمم ال...
63848,14. Requests the United Nations Development Pr...,14 - تطلب إلى برنامج الأمم المتحدة الإنمائي أن...
63849,15. Requests the Secretary-General to continue...,15 - تطلب إلى الأمين العام أن يواصل جهوده في ت...
63850,16. Requests the United Nations Coordinator of...,16 - تطلب إلى منسق الأمم المتحدة للتعاون الدول...


In [12]:
resulting_dataframe = resulting_dataframe.head(10000)
resulting_dataframe
# Taking a bunch of data from the dataframe to check whether the code is working fine or not 

Unnamed: 0,source,target
0,RESOLUTION 55/100,القرار 55/100
1,"Adopted at the 81st plenary meeting, on 4 Dece...",اتخذ في الجلسة العامة 81، المعقودة في 4 كانون ...
2,"In favour: Afghanistan, Algeria, Angola, Antig...",المؤيدون: الاتحاد الروسي، إثيوبيا، الأرجنتين، ...
3,"Abstentions: Albania, Andorra, Australia, Aust...",الممتنعون: أذربيجان، إسبانيا، أستراليا، إستوني...
4,55/100. Respect for the right to universal fre...,55/100- احترام حق الجميع في حرية السفر والأهمي...
...,...,...
9995,7. Recognizes that respect for cultural divers...,7 - تسلم بأن احترام التنوع الثقافي والحقوق الث...
9996,8. Emphasizes that the promotion of cultural p...,8 - تؤكد أن تشجيع التعدد الثقافي والتسامح على ...
9997,9. Also emphasizes the fact that tolerance and...,9 - تؤكد أيضا أن التسامح واحترام التنوع يعملان...
9998,10. Urges all actors on the international scen...,10 - تحث كافة الجهات الفاعلة في الساحة الدولية...


### Loding data to MySQL server.

In [29]:
count_eng = set() 
count_ara = set()

#Running a for loop to insert values in a fast and efficient manner.
for i,j in zip(resulting_dataframe['source'],resulting_dataframe['target']): #Zipping both attributes for low chances of error.
    # print(i,j)
    try:
        cursor.execute(f"""INSERT INTO translator (English , Arabic) values("{i}" ,"{j}")""")
        mydb.commit()
    except:
        try:
            cursor.execute(f"""INSERT INTO translator (English , Arabic) values('{i}' ,'{j}')""")
            mydb.commit()
        # print('not inserted------------------------')
        # print('lenght',len(i))
        # print('lenght',len(j))
        # print(i)
        # print(j)
        except: # there are few statements which are having double inverted commas("" ). 
                #To counter this we are using Triple inverted commas (''' ''') to lower the chances of error.
            try:
                cursor.execute(f"""INSERT INTO translator (English , Arabic) values('''{i}''' ,'''{j}''')""")
                mydb.commit()
            except:
                count_eng.add(i) #adding error giving english line of code
                count_ara.add(j) #adding error giving arabic line of code      
                pass

In [31]:
## We are getting a good accuracy Since out of 10000 only 17 rows are there which create an error
len(count_eng) 

17

In [1]:
### Rough Work

# for i in range(len(resulting_dataframe)+2):
#     x = resulting_dataframe.iloc[i]
#     english = x[0]
#     arabic = x[1]
#     print(english)
#     print(arabic)
#     cursor.execute(f"""INSERT INTO translator values({english} ,{arabic})""")
#     break

