In [22]:
import os
import re
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer


In [23]:
directory_path = 'C:\\Users\\tech\\Desktop\\MoroccoEconomyYTAnalysis\\data\\raw' 
all_subtitles = []

for filename in os.listdir(directory_path):
    if filename.endswith('.txt'):
        with open(os.path.join(directory_path, filename), 'r', encoding='utf-8') as f:
            content = f.read()
            all_subtitles.append(content)

df = pd.DataFrame(all_subtitles, columns=['subtitles'])
df.head()  # Display the first few rows to inspect your data


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains\n\nrésid...
1,prépondérant dans l'économie le système\n\nban...
2,[Musique]\n\nbon\n\n[Musique]\n\nmais messieur...
3,en tout\n\nbonsoir à toutes et à tous et rende...
4,[Musique]\n\nmerci tout d'abord d'avoir répond...


In [24]:
def remove_music(text):
    return re.sub(r'\[Musique\]', '', text)  

df['subtitles'] = df['subtitles'].apply(remove_music)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains\n\nrésid...
1,prépondérant dans l'économie le système\n\nban...
2,\n\nbon\n\n\n\nmais messieurs bonsoir et bienv...
3,en tout\n\nbonsoir à toutes et à tous et rende...
4,\n\nmerci tout d'abord d'avoir répondu à\n\nno...


In [25]:
def remove_newlines(text):
    return re.sub(r'\n', ' ', text)  # replacing with space to keep words separate

df['subtitles'] = df['subtitles'].apply(remove_newlines)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans l'économie le système banca...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout d'abord d'avoir répondu à notre ...


In [26]:
df['subtitles'] = df['subtitles'].str.lower()
df.head()



Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans l'économie le système banca...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout d'abord d'avoir répondu à notre ...


In [27]:
def remove_punctuation(text):
    # This regex keeps French alphabets, spaces, and French special characters
    return re.sub(r'[^a-zàâçéèêëîïôûùüÿæœ\s]', '', text)

df['subtitles'] = df['subtitles'].apply(remove_punctuation)
df.head()


Unnamed: 0,subtitles
0,madame monsieur bonsoir les marocains résiden...
1,prépondérant dans léconomie le système bancai...
2,bon mais messieurs bonsoir et bienvenue d...
3,en tout bonsoir à toutes et à tous et rendez ...
4,merci tout dabord davoir répondu à notre ap...


In [28]:
nltk.download('punkt')  

df['tokens'] = df['subtitles'].apply(word_tokenize)
df.head()


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\tech\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,subtitles,tokens
0,madame monsieur bonsoir les marocains résiden...,"[madame, monsieur, bonsoir, les, marocains, ré..."
1,prépondérant dans léconomie le système bancai...,"[prépondérant, dans, léconomie, le, système, b..."
2,bon mais messieurs bonsoir et bienvenue d...,"[bon, mais, messieurs, bonsoir, et, bienvenue,..."
3,en tout bonsoir à toutes et à tous et rendez ...,"[en, tout, bonsoir, à, toutes, et, à, tous, et..."
4,merci tout dabord davoir répondu à notre ap...,"[merci, tout, dabord, davoir, répondu, à, notr..."


In [29]:
nltk.download('stopwords')
stop_words = set(stopwords.words('french'))  # Now using French stopwords

df['tokens'] = df['tokens'].apply(lambda x: [word for word in x if word not in stop_words])
df.head()


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\tech\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,subtitles,tokens
0,madame monsieur bonsoir les marocains résiden...,"[madame, monsieur, bonsoir, marocains, résiden..."
1,prépondérant dans léconomie le système bancai...,"[prépondérant, léconomie, système, bancaire, m..."
2,bon mais messieurs bonsoir et bienvenue d...,"[bon, messieurs, bonsoir, bienvenue, minutes, ..."
3,en tout bonsoir à toutes et à tous et rendez ...,"[tout, bonsoir, toutes, tous, rendez, retrouve..."
4,merci tout dabord davoir répondu à notre ap...,"[merci, tout, dabord, davoir, répondu, appel, ..."


In [30]:
def split_into_sentences(text):
    # Divise le texte en phrases en utilisant des points, des points d'interrogation et des points d'exclamation comme délimiteurs
    sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
    return sentences



In [17]:
# Appliquer la fonction de division aux sous-titres et créer un nouveau dataframe
new_rows = []
for index, row in df.iterrows():
    sentences = split_into_sentences(row['subtitles'])
    for sentence in sentences:
        new_rows.append({ 'subtitles': sentence, 'token': row['tokens']})

df_expanded = pd.DataFrame(new_rows)



In [19]:
df.to_csv('cleaned_dataset.csv', index=False, encoding=utf)

In [20]:
print(df_expanded)



                                            subtitles   
0   madame monsieur bonsoir les marocains  résiden...  \
1   prépondérant dans léconomie le système  bancai...   
2     bon    mais messieurs bonsoir et bienvenue d...   
3   en tout  bonsoir à toutes et à tous et rendez ...   
4     merci tout dabord davoir répondu à  notre ap...   
5   bienvenue dans le journal de  lintelligence éc...   
6     bienvenue sur projet du maroc la chaîne  qui...   
7     bonjour tout le monde et bienvenue à  urgent...   
8   comment le maroc estil devenu la e  puissance ...   
9     bonjour tout le monde et bienvenue à  urgenc...   
10    bonjour à tous et bienvenue sur projet  du m...   
11    bonsoir à tous bienvenue dans linvité  de la...   
12  applaudissements  alors nous avons eu le plais...   
13  cette émission vous est présentée par  thème w...   
14  bien bonjour à toutes et à tous jespère  que v...   
15  bonjour à toutes et à tous et bienvenue  dans ...   
16  madame monsieur bonsoir au 

In [37]:
df_expanded.to_csv('encoded_dataset.csv', index=False,encoding='utf-8')