In [2]:
import os
import re
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer


In [17]:
directory_path = 'C:\\Users\\tech\\Desktop\\MoroccoEconomyYTAnalysis\\data\\raw' 
all_subtitles = []

for filename in os.listdir(directory_path):
    if filename.endswith('.txt'):
        with open(os.path.join(directory_path, filename), 'r', encoding='utf-8') as f:
            content = f.read()
            all_subtitles.append(content)

df = pd.DataFrame(all_subtitles, columns=['subtitles'])
df.head()  # Display the first few rows to inspect your data


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains\n\nrésid...
1,prépondérant dans l'économie le système\n\nban...
2,[Musique]\n\nbon\n\n[Musique]\n\nmais messieur...
3,en tout\n\nbonsoir à toutes et à tous et rende...
4,[Musique]\n\nmerci tout d'abord d'avoir répond...


In [18]:
def remove_music(text):
    return re.sub(r'\[Musique\]', '', text)  

df['subtitles'] = df['subtitles'].apply(remove_music)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains\n\nrésid...
1,prépondérant dans l'économie le système\n\nban...
2,\n\nbon\n\n\n\nmais messieurs bonsoir et bienv...
3,en tout\n\nbonsoir à toutes et à tous et rende...
4,\n\nmerci tout d'abord d'avoir répondu à\n\nno...


In [19]:
def remove_newlines(text):
    return re.sub(r'\n', ' ', text)  # replacing with space to keep words separate

df['subtitles'] = df['subtitles'].apply(remove_newlines)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans l'économie le système banca...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout d'abord d'avoir répondu à notre ...


In [20]:
df['subtitles'] = df['subtitles'].str.lower()
df.head()



Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans l'économie le système banca...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout d'abord d'avoir répondu à notre ...


In [21]:
def remove_punctuation(text):
    # This regex keeps French alphabets, spaces, and French special characters
    return re.sub(r'[^a-zàâçéèêëîïôûùüÿæœ\s]', '', text)

df['subtitles'] = df['subtitles'].apply(remove_punctuation)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans léconomie le système bancai...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout dabord davoir répondu à notre ap...


In [22]:
nltk.download('punkt')  

df['tokens'] = df['subtitles'].apply(word_tokenize)
df.head()


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\tech\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


Unnamed: 0,subtitles,tokens
0,madame monsieur bonsoir les marocains résiden...,"[madame, monsieur, bonsoir, les, marocains, ré..."
1,prépondérant dans léconomie le système bancai...,"[prépondérant, dans, léconomie, le, système, b..."
2,bon mais messieurs bonsoir et bienvenue d...,"[bon, mais, messieurs, bonsoir, et, bienvenue,..."
3,en tout bonsoir à toutes et à tous et rendez ...,"[en, tout, bonsoir, à, toutes, et, à, tous, et..."
4,merci tout dabord davoir répondu à notre ap...,"[merci, tout, dabord, davoir, répondu, à, notr..."


In [23]:
nltk.download('stopwords')
stop_words = set(stopwords.words('french'))  # Now using French stopwords

df['tokens'] = df['tokens'].apply(lambda x: [word for word in x if word not in stop_words])
df.head()


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tech\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


Unnamed: 0,subtitles,tokens
0,madame monsieur bonsoir les marocains résiden...,"[madame, monsieur, bonsoir, marocains, résiden..."
1,prépondérant dans léconomie le système bancai...,"[prépondérant, léconomie, système, bancaire, m..."
2,bon mais messieurs bonsoir et bienvenue d...,"[bon, messieurs, bonsoir, bienvenue, minutes, ..."
3,en tout bonsoir à toutes et à tous et rendez ...,"[tout, bonsoir, toutes, tous, rendez, retrouve..."
4,merci tout dabord davoir répondu à notre ap...,"[merci, tout, dabord, davoir, répondu, appel, ..."


In [27]:
df.to_csv('cleaned_dataset.csv', index=False)
