# Data Preprocessing

In [1]:
# Importing modules
import pandas as pd
import os
import sys
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from scripts.data_preprocess import DataPreprocess
from scripts.label import Label

In [2]:
# Load csv file
df = pd.read_csv('../data/telegram_data.csv')
df

Unnamed: 0,Channel Title,Channel Username,ID,Sender,Message,Date,Views
0,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11892,AwasMart,,2025-06-27 16:32:23+00:00,856.0
1,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11891,AwasMart,,2025-06-27 16:32:23+00:00,862.0
2,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11890,AwasMart,,2025-06-27 16:32:23+00:00,862.0
3,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11889,AwasMart,,2025-06-27 16:32:23+00:00,862.0
4,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11888,AwasMart,,2025-06-27 16:32:23+00:00,860.0
...,...,...,...,...,...,...,...
4995,Fashion tera,@Fashiontera,2651,Fashiontera,"Chekich \nMade in Turkey \n Size 40,41,42,43\...",2021-11-26 19:31:57+00:00,15858.0
4996,Fashion tera,@Fashiontera,2650,Fashiontera,,2021-11-26 19:30:14+00:00,15289.0
4997,Fashion tera,@Fashiontera,2649,Fashiontera,,2021-11-26 19:30:14+00:00,15156.0
4998,Fashion tera,@Fashiontera,2648,Fashiontera,DISELE \nPrice 1300 \n(Free Delivery)\nInbox @...,2021-11-25 16:52:23+00:00,23476.0


In [3]:
# Preprocess the data
meta, content, df_processed = DataPreprocess.preprocess_dataframe(df)
df_processed.head()

Unnamed: 0,Channel Title,Channel Username,ID,Sender,Message,Date,Views,Cleaned_Message,Tokens
0,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11892,AwasMart,,2025-06-27 16:32:23+00:00,856.0,,[]
1,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11891,AwasMart,,2025-06-27 16:32:23+00:00,862.0,,[]
2,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11890,AwasMart,,2025-06-27 16:32:23+00:00,862.0,,[]
3,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11889,AwasMart,,2025-06-27 16:32:23+00:00,862.0,,[]
4,AwasMart-ріарІІрѕхрѕЏрѕГрЅх­ЪјЂ,@AwasMart,11888,AwasMart,,2025-06-27 16:32:23+00:00,860.0,,[]


In [4]:
# Save the processed DataFrame to a new CSV file
output_path = '../data/telegram_data_processed.csv'
df_processed.to_csv(output_path, index=False)
print(f"Processed data saved to {output_path}")

Processed data saved to ../data/telegram_data_processed.csv


In [5]:
# Find unique tokens in the 'Tokens' column
from collections import Counter

# Flatten all tokens into a single list
all_tokens = [token for tokens in df_processed['Tokens'] for token in tokens]

# Count frequency of each token
token_counts = Counter(all_tokens)

# Sort tokens by frequency (highest first)
unique_token_list = [token for token, count in token_counts.most_common()]

print(unique_token_list)


['рЅЂрїЦрѕГ', 'ріарІхрѕФрѕ╗', '1', 'рѕЁріЋрЇЃ', '329', '2', 'рѕўрѕєріЉ', 'рІФрѕерїІрїЇрїА', 'G07', 'рїЇрѕФрІЇріЋрІх', 'Price', 'рѕхрѕЇріГ', 'рѕюріГрѕ▓рі«', 'рЇјрЅЁ', 'ріЦріЊ', 'рЇЋрѕІрІЏ', 't', 'me', 'рЅ░ріЏ', '3', 'рѕ▒рЅЁ', '101', 'рЅЦрѕГ', 'or', 'рІ░рѕерїЃ', 'рѕўрїѕріЊріЏ', 'рі«рѕюрѕГрѕх', 'рїђрѕГрЅБ', 'рѕўрІџрІх', 'ріЦріЋрІ░рІѕрїА', 'рІФрїѕріЎріЊрѕЇ', 'call', '0920238243', 'birr', 'Telegram', 'qnashcom', 'рѕ▒рЅЃрЅйріЋ', 'рІерѕўрїђрѕўрѕфрІФ', 'рІерЅбрѕ«', 'рЅЁріЊрѕй', 'рїЦрѕФрЅх', 'рІўрЇЇрѕўрѕй', 'рїЇрѕФріЋрІх', 'рѕърѕЇ', 'рїђрѕъ', 'рѕѕрІГ', 'ріерѕѕрѕІ', 'рЅхріГріГрѕѕріЏ', '0992606060', 'рѕЏрѕ│рѕ░рЅЦрІФ', 'рѕ▓рѕўрїА', 'рІеріЏ', 'рІерѕФрѕ│рЅйріЋ', 'рѕјрїј', 'рѕўріќрѕЕріЋ', '0946966440', '0905464599', 'рЇЇрѕг', 'рІІрѕхрЅхріЊ', 'ріљрІЇ', 'рІІрїІ', 'рІЇрѕхріЋ', 'рЅЂ', 'ріарІ▓рѕх', 'рІерЅђрѕерІЇ', 'Delivery', 'рѕѕрѕЏрІўрІЮ', 'Free', 'ріарЅарЅБ', 'рЅдрѕї', 'EthioBrand', 'Made', 'рЇірЅхрѕѕрЇірЅх', '414243', 'and', 'рЅБріЋріГ', 'Fashion', 'рЇІрѕйріЋ', 'рЅ░рѕФ', 'Tera', 'рїдрѕГ', 'рѕђрІГрѕјрЅ

In [6]:
# Label a Subset of Dataset in CoNLL Format
Label.label_dataframe(df_processed)

CoNLL-formatted data saved to ../data/telegram_data_conll.txt
