In [None]:
!pip install langid

Collecting langid
  Downloading langid-1.1.6.tar.gz (1.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langid
  Building wheel for langid (setup.py) ... [?25l[?25hdone
  Created wheel for langid: filename=langid-1.1.6-py3-none-any.whl size=1941172 sha256=18cef486176086c90b6ac63a8da69385749a34a93abfa0195b1662a2c8529689
  Stored in directory: /root/.cache/pip/wheels/23/c8/c6/eed80894918490a175677414d40bd7c851413bbe03d4856c3c
Successfully built langid
Installing collected packages: langid
Successfully installed langid-1.1.6


In [None]:
import pandas as pd
import re
from sklearn.feature_extraction.text import CountVectorizer
from langid.langid import LanguageIdentifier, model

# Charger le fichier CSV
df = pd.read_csv('/content/songs.csv')

# Encodage des mots avec CountVectorizer (BOW)
vectorizer = CountVectorizer()
lyrics_encoded = vectorizer.fit_transform(df['Lyrics'].astype(str))
df['Lyrics_encoded'] = list(lyrics_encoded.toarray())

# Gestion des données manquantes
df.fillna('', inplace=True)  # Remplacer les valeurs NaN par des chaînes vides

# Gestion des emojis et des caractères spéciaux
def remove_special_characters(text):
    # Supprimer les caractères spéciaux, y compris les emojis
    text = re.sub(r'[^\w\s]', '', text)
    return text

df['Lyrics_cleaned'] = df['Lyrics'].apply(remove_special_characters)

# Détection de la langue
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
df['Detected_Language'] = df['Lyrics'].apply(lambda x: identifier.classify(x)[0])

# Filtrer le DataFrame par langue
df_arabic = df[df['Detected_Language'] == 'ar']
df_french = df[df['Detected_Language'] == 'fr']
df_english = df[df['Detected_Language'] == 'en']

# Concaténer les DataFrames en un seul
df_combined = pd.concat([df_arabic, df_french, df_english])

# Enregistrer le DataFrame combiné dans un fichier CSV
df_combined.to_csv('/content/cleaned_dataset.csv', index=False)

In [None]:
df_c = pd.read_csv('/content/cleaned_dataset.csv')
df_c.head()

Unnamed: 0,Lyrics,Dialect,Artist,Song,Lyrics_encoded,Lyrics_cleaned,Detected_Language
0,شدة و تزول عادي و يصير عادي بلي نطيح نعلّي...,1,,,[0 0 0 ... 0 0 0],شدة و تزول عادي و يصير عادي بلي نطيح نعلي ...,ar
1,بايع و شاري رابح في خطاري مركيت نهاري تعرف ا...,1,,,[0 0 0 ... 0 0 0],بايع و شاري رابح في خطاري مركيت نهاري تعرف ا...,ar
2,والله دنيا صعيبة زيد الناس غريبة ‎نعيشو في تر...,1,,,[0 0 0 ... 0 0 0],والله دنيا صعيبة زيد الناس غريبة نعيشو في ترك...,ar
3,دنيا تحب الكاش كيما الانثى تحب الرانج نحك...,1,,,[0 0 0 ... 0 0 0],دنيا تحب الكاش كيما الانثى تحب الرانج نحك...,ar
4,تزعز خاطري في نص الليل روحت شوار اللي بيا اس...,1,,,[0 0 0 ... 0 0 0],تزعز خاطري في نص الليل روحت شوار اللي بيا اس...,ar


In [None]:
df.isna()

Unnamed: 0,Lyrics,Dialect,Artist,Song,Lyrics_encoded,Lyrics_cleaned,Detected_Language
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
987,False,False,False,False,False,False,False
988,False,False,False,False,False,False,False
989,False,False,False,False,False,False,False
990,False,False,False,False,False,False,False


In [None]:
df.isnull()

Unnamed: 0,Lyrics,Dialect,Artist,Song,Lyrics_encoded,Lyrics_cleaned,Detected_Language
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
987,False,False,False,False,False,False,False
988,False,False,False,False,False,False,False
989,False,False,False,False,False,False,False
990,False,False,False,False,False,False,False


In [None]:
!pip install langdetect

Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/981.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.2/981.5 kB[0m [31m2.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993225 sha256=b044c49263a342382cdf051f612602e471933dab16dee0919a5b5b65440bd569
  Stored in directory: /root/.cache/pip/wheels/95/03/7d/59ea870c70ce4e5a370638b5462a7711ab78fba2f655d05106
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9


In [None]:
! pip install farasa

Collecting farasa
  Downloading Farasa-0.0.1-py2.py3-none-any.whl (12.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.6/12.6 MB[0m [31m74.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: farasa
Successfully installed farasa-0.0.1


In [None]:
!pip install farasapy

Collecting farasapy
  Downloading farasapy-0.0.14-py3-none-any.whl (11 kB)
Installing collected packages: farasapy
Successfully installed farasapy-0.0.14


In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
import spacy
from langdetect import detect
from nltk.tokenize import RegexpTokenizer
from snowballstemmer import stemmer
from farasa.segmenter import FarasaSegmenter

In [None]:
!pip install stemming

Collecting stemming
  Downloading stemming-1.0.1.zip (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: stemming
  Building wheel for stemming (setup.py) ... [?25l[?25hdone
  Created wheel for stemming: filename=stemming-1.0.1-py3-none-any.whl size=11123 sha256=0f79b152e13fbec9dc06f05f16853d75b689d5d4df8a9635c04248bc1d813f75
  Stored in directory: /root/.cache/pip/wheels/c5/f9/3f/8fe1ec182ce66145d7ded39bad9a690960469dc350fbec0181
Successfully built stemming
Installing collected packages: stemming
Successfully installed stemming-1.0.1


In [None]:
from stemming.porter2 import stem as porter_stemmer

# Charger le fichier CSV
df = pd.read_csv('/content/cleaned_dataset.csv')

# Step 1: Tokenization and Lowercasing
tokenizer = RegexpTokenizer(r'\w+')
df['Tokens'] = df['Lyrics'].apply(lambda x: tokenizer.tokenize(str(x).lower()))

# Save intermediate result
df.to_csv('tokens.csv', index=False)

# Step 2: Remove Stopwords
stop_words_english = set(stopwords.words('english'))
df['Tokens'] = df['Tokens'].apply(lambda tokens: [token for token in tokens if token not in stop_words_english])

# Save intermediate result
df.to_csv('no_stopwords.csv', index=False)

# Step 3: Stemming
df['Stemmed'] = df['Tokens'].apply(lambda tokens: [porter_stemmer(token) for token in tokens])

# Save intermediate result
df.to_csv('stemmed.csv', index=False)

# Step 4: Lemmatization
nlp_english = spacy.load('en_core_web_sm')
df['Lemmatized'] = df['Lyrics'].apply(lambda x: [token.lemma_ for token in nlp_english(x)])

# Save final result
df.to_csv('data_cleaned.csv', index=False)

In [None]:
d = pd.read_csv('data_cleaned.csv')
d.head()

Unnamed: 0,Lyrics,Dialect,Artist,Song,Lyrics_encoded,Lyrics_cleaned,Detected_Language,Tokens,Stemmed,Lemmatized
0,شدة و تزول عادي و يصير عادي بلي نطيح نعلّي...,1,,,[0 0 0 ... 0 0 0],شدة و تزول عادي و يصير عادي بلي نطيح نعلي ...,ar,"['شدة', 'و', 'تزول', 'عادي', 'و', 'يصير', 'عاد...","['شدة', 'و', 'تزول', 'عادي', 'و', 'يصير', 'عاد...","[' ', 'شدة', 'و', 'تزول', 'عادي', 'و', 'يصي..."
1,بايع و شاري رابح في خطاري مركيت نهاري تعرف ا...,1,,,[0 0 0 ... 0 0 0],بايع و شاري رابح في خطاري مركيت نهاري تعرف ا...,ar,"['بايع', 'و', 'شاري', 'رابح', 'في', 'خطاري', '...","['بايع', 'و', 'شاري', 'رابح', 'في', 'خطاري', '...","[' ', 'بايع', 'و', 'شاري', 'رابح', 'في', 'خطا..."
2,والله دنيا صعيبة زيد الناس غريبة ‎نعيشو في تر...,1,,,[0 0 0 ... 0 0 0],والله دنيا صعيبة زيد الناس غريبة نعيشو في ترك...,ar,"['والله', 'دنيا', 'صعيبة', 'زيد', 'الناس', 'غر...","['والله', 'دنيا', 'صعيبة', 'زيد', 'الناس', 'غر...","[' ', 'والله', 'دنيا', 'صعيبة', 'زيد', 'الناس'..."
3,دنيا تحب الكاش كيما الانثى تحب الرانج نحك...,1,,,[0 0 0 ... 0 0 0],دنيا تحب الكاش كيما الانثى تحب الرانج نحك...,ar,"['دنيا', 'تحب', 'الكاش', 'كيما', 'الانثى', 'تح...","['دنيا', 'تحب', 'الكاش', 'كيما', 'الانثى', 'تح...","[' ', 'دنيا', 'تحب', 'الكاش', 'كيما', 'الا..."
4,تزعز خاطري في نص الليل روحت شوار اللي بيا اس...,1,,,[0 0 0 ... 0 0 0],تزعز خاطري في نص الليل روحت شوار اللي بيا اس...,ar,"['تزعز', 'خاطري', 'في', 'نص', 'الليل', 'روحت',...","['تزعز', 'خاطري', 'في', 'نص', 'الليل', 'روحت',...","[' ', 'تزعز', 'خاطري', 'في', 'نص', 'الليل', '..."
