# Introduction 
In this step of the project, we focus on retrieving the necessary data from our database to begin the process of dialect identification. 

Our objective is to extract this data, merge it into a single cohesive dataframe, and save it as a CSV file for subsequent data preprocessing and model training steps. This consolidated dataframe will facilitate easier manipulation and analysis of the data as we move forward with our natural language processing (NLP) tasks.

The key steps involved in this script/notebook include:
 *  Connecting to the SQLite database.
 *  Retrieving data from the id_text and id_dialect tables.
 *  Merging the data into a single dataframe based on a common identifier.
 *  Saving the merged dataframe as a CSV file for further use.

# Import libraries

In [16]:
import sqlite3
import pandas as pd
pd.set_option('display.max_colwidth', None)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

/kaggle/input/dialects-db/dialects_database.db


# Extract data from database

## what are the tables in our database?

In [19]:
# Connect to the SQLite database
conn = sqlite3.connect('/kaggle/input/dialects-db/dialects_database.db')

# Get a cursor object
cursor = conn.cursor()

# Fetch the table names
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables = cursor.fetchall()

# Display the table names
print("Tables in the database:")
for table in tables:
    print(table[0])

# Close the cursor
cursor.close()


Tables in the database:
id_text
id_dialect


## what are the columns in each table?

In [20]:
# Fetch data from the 'id_text' table
texts_df = pd.read_sql_query("SELECT * FROM id_text", conn)

# Fetch data from the 'id_dialect' table
dialects_df = pd.read_sql_query("SELECT * FROM id_dialect", conn)

# Close the connection
conn.close()

# Display the first few rows of each dataframe to understand the data
print("Texts Data:")
print(texts_df.head())
print("\nDialects Data:")
print(dialects_df.head())

Texts Data:
                    id  \
0  1009754958479151232   
1  1009794751548313600   
2  1019989115490787200   
3  1035479791758135168   
4  1035481122921164800   

                                                                                                                                                                                                                                                                                                       text  
0                                                                                                                                                                                        @toha_Altomy @gy_yah قليلين ادب ومنافقين. لو اختهم او قريبتهم تتعاكس تقولي عليهم من نشاط حقوق المرأة من ردة فعلهم.  
1                                                                                                                                                                                                                                 @

## Merge the two tables in a single dataframe

In [24]:
# Connect to the SQLite database
conn = sqlite3.connect('/kaggle/input/dialects-db/dialects_database.db')

# Fetch data from the 'id_text' table
texts_df = pd.read_sql_query("SELECT * FROM id_text", conn)

# Fetch data from the 'id_dialect' table
dialects_df = pd.read_sql_query("SELECT * FROM id_dialect", conn)

# Close the connection
conn.close()

# Merge the dataframes based on the common column 'id'
dialects_df = pd.merge(texts_df, dialects_df, on='id')

In [26]:
#Display the merged dataframe
print("Merged Data:")
dialects_df.head(5)

Merged Data:


Unnamed: 0,id,text,dialect
0,1009754958479151232,@toha_Altomy @gy_yah قليلين ادب ومنافقين. لو اختهم او قريبتهم تتعاكس تقولي عليهم من نشاط حقوق المرأة من ردة فعلهم.,LY
1,1009794751548313600,@AlmFaisal 😂😂 الليبيين متقلبين!!!\nبس بالنسبة ليا انا ميليشياوي زمان وتوة,LY
2,1019989115490787200,@smsm071990 @ALMOGRBE كل 20 تانيه شاب ليبي بيرتاح لبنت مختلفة ويلاحظ انها غير كل البنات وبيحس كأنه يعرفها من زمان. بعدين يتزوج وحدة منهن وممكن اثنين ولاثلاثة وتنقلب الرومانسية لعياط وشياط وتهزيب\nand they live happily ever after\nذي اند,LY
3,1035479791758135168,@AboryPro @lyranoo85 رانيا عقليتك متخلفة. اولا الانسان يلي يحتاج اهل يخاف منهم علشان يكون محترم هو انسان قليل الادب اصلاً. ثانياً شن ذنب يلي معندهش اب ولا ام ولا خوت ولا خوات؟ يعني اليتيمة متستحقش تتزوج؟ وثالثاً ليش البنت هي بس لازم ادير الف حساب للراجل؟ هي متستحقش يندارلها الف حساب ولا هي عبدة؟,LY
4,1035481122921164800,@lyranoo85 شكلك متعقدة علشان الراجل لي تحبيه ازوج بنت يتيمة ولا بنت معندهش خوت. هدي اعصابك وفكينا من التخلف امتاعك,LY


In [29]:
#Display the shape of the merged dataframe
dialects_df.shape

(147725, 3)

# Save the dataframe as a CSV file

In [31]:
# Save the merged dataframe as a CSV file
dialects_df.to_csv('/kaggle/working/dialects_data.csv', index=False)