# EthioMart: Preprocessing & Data Inspection Notebook

This notebook loads raw scraped Telegram messages and applies our Amharic text cleaner.
WeРђЎll then compare the original vs cleaned text to visually inspect preprocessing quality.

­Ъћ╣ Functions are loaded from `scripts/cleaner.py`

In [10]:
import sys
sys.path.append("../scripts")  # Go up one folder, then into scripts

from cleaner import clean_amharic_text
import pandas as pd


## Load Raw Telegram Messages
WeРђЎll load the original `telegram_messages.csv` which includes:
- `text` (raw message)
- `timestamp`, `channel`, etc.


In [11]:
df = pd.read_csv("../data/raw_media/telegram_messages.csv")
df.head()


Unnamed: 0,channel,message_id,sender_id,timestamp,text
0,ethio_brand_collection,6117,-1001149977975,2025-06-22T06:27:39+00:00,Рђ╝№ИЈ ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ Рђ╝№ИЈ Reebok Club Vintage s...
1,ethio_brand_collection,6116,-1001149977975,2025-06-16T09:01:34+00:00,"Skechers archfit size 40,41,42,43 Price 3400 ..."
2,ethio_brand_collection,6115,-1001149977975,2025-06-15T09:20:06+00:00,"Рђ╝№ИЈ ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ Рђ╝№ИЈ NB 04 leather Size 39,..."
3,ethio_brand_collection,6113,-1001149977975,2025-06-14T09:04:17+00:00,"Nike Air Force Paisley Size 40,41,42,43,44 Pr..."
4,ethio_brand_collection,6112,-1001149977975,2025-06-14T06:40:06+00:00,"Skechers GY ULTRA Size 40,41,42,43,44 Price 34..."


## Apply Amharic Cleaner
We apply the `clean_amharic_text()` function to each rowРђЎs message text.
This removes:
- Emojis
- Latin letters
- Special characters
- Punctuation


In [12]:
df["cleaned_text"] = df["text"].apply(clean_amharic_text)
df[["text", "cleaned_text"]].head(10)


Unnamed: 0,text,cleaned_text
0,Рђ╝№ИЈ ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ Рђ╝№ИЈ Reebok Club Vintage s...,ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕў...
1,"Skechers archfit size 40,41,42,43 Price 3400 ...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
2,"Рђ╝№ИЈ ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ Рђ╝№ИЈ NB 04 leather Size 39,...",ріЦрѕЂрІх рѕЂрѕїрѕЮ ріГрЇЇрЅх ріљріЋ ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕў...
3,"Nike Air Force Paisley Size 40,41,42,43,44 Pr...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
4,"Skechers GY ULTRA Size 40,41,42,43,44 Price 34...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
5,"Adidas Samba OG size 40,41,42,43 Price 3600 b...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
6,"Colombia vibram Size 40,41,42,43 Price 3700 b...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
7,"Skechers Delux Walker Size 40,41,42,43 Price...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
8,"Alta buckle leather Size 39,40,41,42,43,44 P...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
9,"Skechers Ultra Lace Size 40,41,42,43,44 Pric...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...


## Example: Messages That Changed After Cleaning
LetРђЎs show only rows where cleaning removed content (text != cleaned_text).


In [13]:
df_diff = df[df["text"] != df["cleaned_text"]]
df_diff[["text", "cleaned_text"]].sample(10)


Unnamed: 0,text,cleaned_text
1706,рѕЮрЅ╣┬аріЦріЊ рѕѕріарІФрІФрІЮ ріарѕўрЅ║ рІерЅЦрѕГ ріЦріЊ ріцрЅ┤ріцрѕЮ рѕўрІФрІБ рІІрѕїрЅх рѕѕрѕЏрІўрІЮ 09743...,рѕЮрЅ╣ ріЦріЊ рѕѕріарІФрІФрІЮ ріарѕўрЅ║ рІерЅЦрѕГ ріЦріЊ ріцрЅ┤ріцрѕЮ рѕўрІФрІБ рІІрѕїрЅх рѕѕрѕЏрІўрІЮ рІГрІ░рІЇрѕЅ ...
660,­ЪД│­ЪД│­ЪД│ріФрІЅрІФ **Stronglite iron 2.5 Kg 1200W Heavy We...,ріФрІЅрІФ рІІрїІ ріљрЇЃ рІ▓рѕірЅерѕф ріарІхрѕФрѕ╗ рЅЂрїЦрѕГ рѕЇрІ░рЅ│ рІѕрІ░ рЅБрѕЇрЅ╗ рѕєрѕхрЇњрЅ│рѕЇ рїѕрЅБ рЅЦрѕј...
1440,рѕўрѕЇріФрѕЮ рїѕріЊ!! рІерѕ┤рЅХрЅй рІўрѕўріЊрІі ріЦріЊ рѕЮрЅ╣ рЅђрѕџрѕх┬арѕѕрѕЏрІўрІЮ 0974312223 ...,рѕўрѕЇріФрѕЮ рїѕріЊ рІерѕ┤рЅХрЅй рІўрѕўріЊрІі ріЦріЊ рѕЮрЅ╣ рЅђрѕџрѕх рѕѕрѕЏрІўрІЮ рІГрІ░рІЇрѕЅ рІѕрІГрѕЮ рІГрїарЅђрѕЎ
1308,Reebok running Size 40--45 MADE IN VIETNAM SHE...,рІерЅ┤рѕїрїЇрѕФрѕЮ рЅ╗ріЊрѕІрЅйріЋріЋ рІГрЅђрѕІрЅђрѕЅ рІерЅцрЅх рЅЂрїЦрѕГ ріЦріЊ рЅа ріарІІрѕЕріЋ рІГрІ░рІЇрѕЅрѕЇріЋ
665,­ЪњЦ­ЪњЦ­ЪњЦOver Toilet Storage Rack ­Ъћ░рІерЅдрЅ│ рїЦрЅарЅх ріФрѕѕрЅЦрІј рІГрѕё ...,рІерЅдрЅ│ рїЦрЅарЅх ріФрѕѕрЅЦрІј рІГрѕё рІФрѕхрЇѕрѕЇрїЇрІјрЅ│рѕЇ рѕІрІГ рѕірїарЅђрѕЎрЅарЅх рІГрЅйрѕІрѕЅ рІеріЋрЇЁрѕЁріЊ ...
599,­ЪФЦ­Ъћ┤­ЪћёрЅарЅбрѕЮрЅб ріарѕЇрЅ░рЅИрїѕрѕЕрѕЮ????? рѕѕріарѕФрѕх рЅцрЅх рІерѕџрѕєріЋ рЇБрЅарЅ░рїерѕЏрѕф рѕѕ рЅбрѕЮрЅб...,рЅарЅбрѕЮрЅб ріарѕЇрЅ░рЅИрїѕрѕЕрѕЮ рѕѕріарѕФрѕх рЅцрЅх рІерѕџрѕєріЋ рЇБрЅарЅ░рїерѕЏрѕф рѕѕ рЅбрѕЮрЅб рѕѕрІѕрЅБ рЅхріЋріЮ...
2340,РъА№ИЈMandoline Slicer Рюћ№ИЈadjustable thickness (0....,рІІрїІ рЇд рЅЦрѕГ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІерЅђрѕерІЇ рѕѕрѕЏрІўрІЮ рїЦрѕФрЅх рІІрѕхрЅхріЊ рЅЁріЊрѕй ріарІхрѕФрѕ╗ ...
229,"Adidas stansmith Size 40,41,42,43 Price 3300 b...",ріарІхрѕФрѕ╗ рѕюріГрѕ▓рі« рі«рѕюрѕГрѕх рїђрѕГрЅБ рѕўрІџрІх рЇЋрѕІрІЏ рІерѕўрїђрѕўрѕфрІФ рІ░рѕерїЃ ріЦріЋрІ░рІѕрїА рІерЅб...
2014,"­Ъњ» 100 Pieces Disposable Food Cover, Plastic Wr...",рІІрїІ рЇд рЅЦрѕГ рѕѕрѕЏрІўрІЮ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІерЅђрѕерІЇ рїЦрѕФрЅх рІІрѕхрЅхріЊ рЅЁріЊрѕй ріарІхрѕФрѕ╗ ...
2216,1№ИЈРЃБ0№ИЈРЃБ% ­Ъћц1№ИЈРЃБ5№ИЈРЃБ% рЅЁріЊрѕй рІЏрѕг рїђрѕЮрѕ«рІІрѕЇ ­ЪЊБ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ­ЪїЪ рѕўрѕЇріФрѕЮ...,рЅЁріЊрѕй рІЏрѕг рїђрѕЮрѕ«рІІрѕЇ рѕўрѕЇріФрѕЮ рЅарІЊрѕЇ рЅарІЊрѕЇріЋ рѕЮріГріЋрІФрЅх рЅарѕЏрІхрѕерїЇ ріе ріЦрѕхріе рІх...


## Summary
- successfully cleaned the raw text using our Amharic-aware cleaner.
- Emoji, symbols, and non-Amharic junk are removed.
- The data is now ready for tokenization, entity extraction or model fine-tuning.
