In [None]:
import pandas as pd
import sqlite3

dbfile = 'dialects_database.db'

conn = sqlite3.connect(dbfile)

Data_df = pd.read_sql(f"SELECT * FROM id_text", conn)

type_df = pd.read_sql(f"SELECT * FROM id_dialect", conn)

conn.close()

print(Data_df.head())
print(type_df.head())

                    id                                               text
0  1009754958479151232  @toha_Altomy @gy_yah قليلين ادب ومنافقين. لو ا...
1  1009794751548313600  @AlmFaisal 😂😂 الليبيين متقلبين!!!\nبس بالنسبة ...
2  1019989115490787200  @smsm071990 @ALMOGRBE كل 20 تانيه شاب ليبي بير...
3  1035479791758135168  @AboryPro @lyranoo85 رانيا عقليتك متخلفة. اولا...
4  1035481122921164800  @lyranoo85 شكلك متعقدة علشان الراجل لي تحبيه ا...
                    id dialect
0  1009754958479151232      LY
1  1009794751548313600      LY
2  1019989115490787200      LY
3  1035479791758135168      LY
4  1035481122921164800      LY


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(Data_df['text'], type_df['dialect'], test_size=0.2, random_state=42)

print(X_train.shape)
print(X_test.shape)

(118180,)
(29545,)


In [None]:
y_train.unique()

array(['EG', 'LY', 'LB', 'SD', 'MA'], dtype=object)

In [None]:
X_train.isna().sum()

0

In [None]:
y_train.isna().sum()

0

In [None]:
X_train.duplicated().sum()

0

In [None]:
X_train.head(10)

57485     الدُنيا دي فيها الحلو والوحش* https://t.co/2o4...
61118     @shimaagamal انا بقيت ب  اعمل كده على فكرة 😁 ....
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030     احلي birth day gift دي ولا ايه 😂\n#افريقيا_يا_...
96136                @maganenoo حبيبى قدها يا كبير والله ❤😂
1966      @kosai1khauli بيجنننن وحبيت كتير كتير  البرموو...
73177     فيه سمكه إسمها رعيده\nبترعد-بتكهرب يعني\nحجمها...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه\n وبيقو...
92410     اللى هيتابعنى هتابعه\n#كلام_معلمين_الخميس\n#ال...
121942    @weneldawle مشلفه هيدي 😂😂😂\nاذا صبيه تستعمل هي...
Name: text, dtype: object

In [None]:
import re

def remove_english_characters(text):
    pattern = r'[a-zA-Z]'
    text = re.sub(pattern, '', text)
    return text

X_train = X_train.apply(remove_english_characters)

X_train.head(10)

57485              الدُنيا دي فيها الحلو والوحش* ://./24430
61118     @ انا بقيت ب  اعمل كده على فكرة 😁 ... و ليه او...
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030                احلي    دي ولا ايه 😂\n#افريقيا_يا_وداد
96136                         @ حبيبى قدها يا كبير والله ❤😂
1966      @1 بيجنننن وحبيت كتير كتير  البرمووو الف مبروو...
73177     فيه سمكه إسمها رعيده\nبترعد-بتكهرب يعني\nحجمها...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه\n وبيقو...
92410     اللى هيتابعنى هتابعه\n#كلام_معلمين_الخميس\n#ال...
121942    @ مشلفه هيدي 😂😂😂\nاذا صبيه تستعمل هيك منطق وهي...
Name: text, dtype: object

In [None]:
def remove_numbers(text):
    pattern = r'[\d+]'
    text = re.sub(pattern, '', text)
    return text

X_train = X_train.apply(remove_numbers)

X_train.head(10)

57485                   الدُنيا دي فيها الحلو والوحش* ://./
61118     @ انا بقيت ب  اعمل كده على فكرة 😁 ... و ليه او...
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030                احلي    دي ولا ايه 😂\n#افريقيا_يا_وداد
96136                         @ حبيبى قدها يا كبير والله ❤😂
1966      @ بيجنننن وحبيت كتير كتير  البرمووو الف مبرووك...
73177     فيه سمكه إسمها رعيده\nبترعد-بتكهرب يعني\nحجمها...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه\n وبيقو...
92410     اللى هيتابعنى هتابعه\n#كلام_معلمين_الخميس\n#ال...
121942    @ مشلفه هيدي 😂😂😂\nاذا صبيه تستعمل هيك منطق وهي...
Name: text, dtype: object

In [None]:
def remove_special_characters(text):
    pattern = r'[^\w\s]'
    text = re.sub(pattern, '', text)
    return text

X_train = X_train.apply(remove_special_characters)

X_train.head(10)

57485                          الدنيا دي فيها الحلو والوحش 
61118      انا بقيت ب  اعمل كده على فكرة   و ليه اوجع اي...
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030                  احلي    دي ولا ايه \nافريقيا_يا_وداد
96136                             حبيبى قدها يا كبير والله 
1966       بيجنننن وحبيت كتير كتير  البرمووو الف مبرووك ...
73177     فيه سمكه إسمها رعيده\nبترعدبتكهرب يعني\nحجمها ...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه\n وبيقو...
92410     اللى هيتابعنى هتابعه\nكلام_معلمين_الخميس\nالام...
121942     مشلفه هيدي \nاذا صبيه تستعمل هيك منطق وهيك ال...
Name: text, dtype: object

In [None]:
def remove_underscores_and_enter(text):
    pattern = r'[_\n]'
    text = re.sub(pattern, ' ', text)
    return text

X_train = X_train.apply(remove_underscores_and_enter)

X_train.head(10)

57485                          الدنيا دي فيها الحلو والوحش 
61118      انا بقيت ب  اعمل كده على فكرة   و ليه اوجع اي...
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030                   احلي    دي ولا ايه  افريقيا يا وداد
96136                             حبيبى قدها يا كبير والله 
1966       بيجنننن وحبيت كتير كتير  البرمووو الف مبرووك ...
73177     فيه سمكه إسمها رعيده بترعدبتكهرب يعني حجمها صغ...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه  وبيقول...
92410     اللى هيتابعنى هتابعه كلام معلمين الخميس الامير...
121942     مشلفه هيدي  اذا صبيه تستعمل هيك منطق وهيك الف...
Name: text, dtype: object

In [None]:
def remove_extra_spaces(text):
    text = ' '.join(text.split())
    return text

X_train = X_train.apply(remove_extra_spaces)

X_train.head(10)

57485                           الدنيا دي فيها الحلو والوحش
61118     انا بقيت ب اعمل كده على فكرة و ليه اوجع ايدي ت...
48452     البوست بتاع خافيير سولانا طلع انه فيه هاكر ترك...
95030                       احلي دي ولا ايه افريقيا يا وداد
96136                              حبيبى قدها يا كبير والله
1966      بيجنننن وحبيت كتير كتير البرمووو الف مبرووك حب...
73177     فيه سمكه إسمها رعيده بترعدبتكهرب يعني حجمها صغ...
73035     بالنسبه للنجوم اللي بيدافعو عن المقشفه وبيقولو...
92410     اللى هيتابعنى هتابعه كلام معلمين الخميس الامير...
121942    مشلفه هيدي اذا صبيه تستعمل هيك منطق وهيك الفاظ...
Name: text, dtype: object

In [None]:
def clean_text(text):
    text = remove_english_characters(text)
    text = remove_numbers(text)
    text = remove_special_characters(text)
    text = remove_underscores_and_enter(text)
    text = remove_extra_spaces(text)
    return text


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)

model = LogisticRegression()
model.fit(X_train_vectorized, y_train)

X_test = X_test.apply(clean_text)

X_test_vectorized = vectorizer.transform(X_test)

y_pred = model.predict(X_test_vectorized)

accuracy_score(y_test, y_pred)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8295819935691319

In [None]:
new_text = ' ليه اوجع ايدي'
cleaned_text = clean_text(new_text)

new_text_vectorized = vectorizer.transform([cleaned_text])

model.predict(new_text_vectorized)

array(['EG'], dtype=object)

In [None]:
from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

y_pred = model.predict(X_test_vectorized)

accuracy_score(y_test, y_pred)


0.8329666610255543

In [None]:
new_text = ' ليه اوجع ايدي'
cleaned_text = clean_text(new_text)

new_text_vectorized = vectorizer.transform([cleaned_text])

model.predict(new_text_vectorized)

array(['EG'], dtype='<U2')

In [None]:
#make a deep learning model
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding, Dropout
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from keras.callbacks import EarlyStopping
from sklearn.preprocessing import LabelEncoder

tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

X_train_sequences = tokenizer.texts_to_sequences(X_train)

X_test_sequences = tokenizer.texts_to_sequences(X_test)

X_train_padded = pad_sequences(X_train_sequences, padding='post', maxlen=100)

X_test_padded = pad_sequences(X_test_sequences, padding='post', maxlen=100)

label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_train_categorical = to_categorical(y_train_encoded)

model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=100, input_length=100))
model.add(LSTM(100, return_sequences=True))
model.add(LSTM(100))
model.add(Dense(100, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(5, activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

early_stopping = EarlyStopping(patience=3)

model.fit(X_train_padded, y_train_categorical, validation_split=0.2, epochs=10, callbacks=[early_stopping])

y_pred = model.predict(X_test_padded)

y_pred = y_pred.argmax(axis=1)

accuracy_score(y_test, y_pred)


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10


0.0

In [None]:
#save the model
model.save('dialects_model.h5')

  saving_api.save_model(


In [None]:
#try the model
from keras.models import load_model

model = load_model('dialects_model.h5')

new_text = 'يد'
cleaned_text = clean_text(new_text)

new_text_sequence = tokenizer.texts_to_sequences([cleaned_text])

new_text_padded = pad_sequences(new_text_sequence, padding='post', maxlen=100)

model.predict(new_text_padded)

label_encoder.inverse_transform([4])






array(['SD'], dtype=object)