In [1]:
import pandas as pd
import re
from bs4 import BeautifulSoup

data = pd.read_csv('dataset.csv')

In [6]:
def clean_html(text):
    return BeautifulSoup(text, "html.parser").get_text()

def clean_text(text):
    text = re.sub(r'\s+', ' ', text)  # Remove extra spaces and newlines
    #text = re.sub(r'[^\x00-\x7F]+', '', text)  # Remove non-ASCII characters
    return text

#data['text_content'] = data['page_title'] + ' - ' + data['text_content']

In [7]:
#data = data.drop(columns=['Unnamed: 0'])
data

Unnamed: 0,page_title,text_content
0,Présentation – FST,Présentation – FST - LA FACULTÉ\nI- PRESENTATI...
1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...
2,Conseil de l’établissement – FST,Conseil de l’établissement – FST - La Faculté ...
3,Commission Scientifique – FST,Commission Scientifique – FST - Membres de la ...
4,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...
...,...,...
65,Club Echec & Mat – FST,Club Echec & Mat – FST - https://www.facebook....
66,Club Enactus – FST,Club Enactus – FST - L’équipe ENACTUS de la ...
67,Club Biotechnologie – FST,Club Biotechnologie – FST - Le Club Biotechnol...
68,Future Leaders – FST,Future Leaders – FST - Are you the future lead...


In [8]:
data['clean_text'] = data['text_content'].apply(clean_text)

In [9]:
data.head(10)

Unnamed: 0,page_title,text_content,clean_text
0,Présentation – FST,Présentation – FST - LA FACULTÉ\nI- PRESENTATI...,Présentation – FST - LA FACULTÉ I- PRESENTATIO...
1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Mot du Doyen – FST - Le monde d’aujourd’hui co...
2,Conseil de l’établissement – FST,Conseil de l’établissement – FST - La Faculté ...,Conseil de l’établissement – FST - La Faculté ...
3,Commission Scientifique – FST,Commission Scientifique – FST - Membres de la ...,Commission Scientifique – FST - Membres de la ...
4,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...
5,Commission Pédagogique – FST,Commission Pédagogique – FST - Membres de la c...,Commission Pédagogique – FST - Membres de la c...
6,Commission d’Activités Culturelles et Sportive...,Commission d’Activités Culturelles et Sportive...,Commission d’Activités Culturelles et Sportive...
7,Commission de suivi du budget – FST,Commission de suivi du budget – FST - Membres ...,Commission de suivi du budget – FST - Membres ...
8,DÉPARTEMENTS – FST,DÉPARTEMENTS – FST - GÉNIE INFORMATIQUE\nChef ...,DÉPARTEMENTS – FST - GÉNIE INFORMATIQUE Chef :...
9,FORMATION INITIALE – FST,FORMATION INITIALE – FST - DEUST\nDiplôme d’Et...,FORMATION INITIALE – FST - DEUST Diplôme d’Etu...


In [10]:
data.to_csv('cleaned_data.csv', index=False)

In [11]:
# Define keyword-category mapping
keyword_category_map = {
    'mst': 'Course',
    'di ': 'Course',
    'lst': 'Course',
    'formation': 'Course',
    'présentation': 'Faculty',
    'faculté': 'Faculty',
    'club': 'Activity'
}

# Optimized categorize function
def categorize(title):
    title_lower = title.lower()
    for keyword, category in keyword_category_map.items():
        if keyword in title_lower:
            return category
    return 'Other'

# Apply the categorize function
data['category'] = data['page_title'].apply(categorize)

In [12]:
data

Unnamed: 0,page_title,text_content,clean_text,category
0,Présentation – FST,Présentation – FST - LA FACULTÉ\nI- PRESENTATI...,Présentation – FST - LA FACULTÉ I- PRESENTATIO...,Faculty
1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Other
2,Conseil de l’établissement – FST,Conseil de l’établissement – FST - La Faculté ...,Conseil de l’établissement – FST - La Faculté ...,Other
3,Commission Scientifique – FST,Commission Scientifique – FST - Membres de la ...,Commission Scientifique – FST - Membres de la ...,Other
4,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Other
...,...,...,...,...
65,Club Echec & Mat – FST,Club Echec & Mat – FST - https://www.facebook....,Club Echec & Mat – FST - https://www.facebook....,Activity
66,Club Enactus – FST,Club Enactus – FST - L’équipe ENACTUS de la ...,Club Enactus – FST - L’équipe ENACTUS de la Fa...,Activity
67,Club Biotechnologie – FST,Club Biotechnologie – FST - Le Club Biotechnol...,Club Biotechnologie – FST - Le Club Biotechnol...,Activity
68,Future Leaders – FST,Future Leaders – FST - Are you the future lead...,Future Leaders – FST - Are you the future lead...,Other


In [13]:
data['page_id'] = data.index

data

Unnamed: 0,page_title,text_content,clean_text,category,page_id
0,Présentation – FST,Présentation – FST - LA FACULTÉ\nI- PRESENTATI...,Présentation – FST - LA FACULTÉ I- PRESENTATIO...,Faculty,0
1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Other,1
2,Conseil de l’établissement – FST,Conseil de l’établissement – FST - La Faculté ...,Conseil de l’établissement – FST - La Faculté ...,Other,2
3,Commission Scientifique – FST,Commission Scientifique – FST - Membres de la ...,Commission Scientifique – FST - Membres de la ...,Other,3
4,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Other,4
...,...,...,...,...,...
65,Club Echec & Mat – FST,Club Echec & Mat – FST - https://www.facebook....,Club Echec & Mat – FST - https://www.facebook....,Activity,65
66,Club Enactus – FST,Club Enactus – FST - L’équipe ENACTUS de la ...,Club Enactus – FST - L’équipe ENACTUS de la Fa...,Activity,66
67,Club Biotechnologie – FST,Club Biotechnologie – FST - Le Club Biotechnol...,Club Biotechnologie – FST - Le Club Biotechnol...,Activity,67
68,Future Leaders – FST,Future Leaders – FST - Are you the future lead...,Future Leaders – FST - Are you the future lead...,Other,68


In [14]:
data = data.reindex(columns=['page_id', 'page_title', 'text_content', 'clean_text', 'category'])

data

Unnamed: 0,page_id,page_title,text_content,clean_text,category
0,0,Présentation – FST,Présentation – FST - LA FACULTÉ\nI- PRESENTATI...,Présentation – FST - LA FACULTÉ I- PRESENTATIO...,Faculty
1,1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Other
2,2,Conseil de l’établissement – FST,Conseil de l’établissement – FST - La Faculté ...,Conseil de l’établissement – FST - La Faculté ...,Other
3,3,Commission Scientifique – FST,Commission Scientifique – FST - Membres de la ...,Commission Scientifique – FST - Membres de la ...,Other
4,4,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Commission de la Recherche Scientifique et de ...,Other
...,...,...,...,...,...
65,65,Club Echec & Mat – FST,Club Echec & Mat – FST - https://www.facebook....,Club Echec & Mat – FST - https://www.facebook....,Activity
66,66,Club Enactus – FST,Club Enactus – FST - L’équipe ENACTUS de la ...,Club Enactus – FST - L’équipe ENACTUS de la Fa...,Activity
67,67,Club Biotechnologie – FST,Club Biotechnologie – FST - Le Club Biotechnol...,Club Biotechnologie – FST - Le Club Biotechnol...,Activity
68,68,Future Leaders – FST,Future Leaders – FST - Are you the future lead...,Future Leaders – FST - Are you the future lead...,Other


In [15]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1200,
    chunk_overlap = 200,
    length_function = len,
)

chunked_data = []

for _, row in data.iterrows():
    chunks = text_splitter.split_text(row['clean_text'])
    for i, chunk in enumerate(chunks):
        chunked_data.append({'page_id': row['page_id'], 'page_title': row['page_title'], 'chunk_text': chunk, 'category': row['category']})

chunked_data_df = pd.DataFrame(chunked_data)

chunked_data_df

Unnamed: 0,page_id,page_title,chunk_text,category
0,0,Présentation – FST,Présentation – FST - LA FACULTÉ I- PRESENTATIO...,Faculty
1,0,Présentation – FST,"filières LST, 13 filières MST, 4 filières Ingé...",Faculty
2,0,Présentation – FST,Les Mathématiques et Informatique Autres Fabla...,Faculty
3,0,Présentation – FST,urbaine. Le Green Lab est ouvert aux étudiants...,Faculty
4,1,Mot du Doyen – FST,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Other
...,...,...,...,...
140,66,Club Enactus – FST,Club Enactus – FST - L’équipe ENACTUS de la Fa...,Activity
141,66,Club Enactus – FST,"– Former des leaders de demain, – Participer a...",Activity
142,67,Club Biotechnologie – FST,Club Biotechnologie – FST - Le Club Biotechnol...,Activity
143,68,Future Leaders – FST,Future Leaders – FST - Are you the future lead...,Other


In [16]:
chunked_data_df['chunk_id'] = chunked_data_df.index

chunked_data_df = chunked_data_df.reindex(columns=['page_id', 'page_title', 'chunk_id', 'chunk_text', 'category'])

In [17]:
chunked_data_df

Unnamed: 0,page_id,page_title,chunk_id,chunk_text,category
0,0,Présentation – FST,0,Présentation – FST - LA FACULTÉ I- PRESENTATIO...,Faculty
1,0,Présentation – FST,1,"filières LST, 13 filières MST, 4 filières Ingé...",Faculty
2,0,Présentation – FST,2,Les Mathématiques et Informatique Autres Fabla...,Faculty
3,0,Présentation – FST,3,urbaine. Le Green Lab est ouvert aux étudiants...,Faculty
4,1,Mot du Doyen – FST,4,Mot du Doyen – FST - Le monde d’aujourd’hui co...,Other
...,...,...,...,...,...
140,66,Club Enactus – FST,140,Club Enactus – FST - L’équipe ENACTUS de la Fa...,Activity
141,66,Club Enactus – FST,141,"– Former des leaders de demain, – Participer a...",Activity
142,67,Club Biotechnologie – FST,142,Club Biotechnologie – FST - Le Club Biotechnol...,Activity
143,68,Future Leaders – FST,143,Future Leaders – FST - Are you the future lead...,Other


In [18]:
chunked_data_df.to_csv('chunked_datav2.csv', index=False)