# EthioMart: Preprocessing & Data Inspection Notebook

This notebook loads raw scraped Telegram messages and applies our Amharic text cleaner.
We’ll then compare the original vs cleaned text to visually inspect preprocessing quality.

🔹 Functions are loaded from `scripts/cleaner.py`

In [10]:
import sys
sys.path.append("../scripts")  # Go up one folder, then into scripts

from cleaner import clean_amharic_text
import pandas as pd


## Load Raw Telegram Messages
We’ll load the original `telegram_messages.csv` which includes:
- `text` (raw message)
- `timestamp`, `channel`, etc.


In [11]:
df = pd.read_csv("../data/raw_media/telegram_messages.csv")
df.head()


Unnamed: 0,channel,message_id,sender_id,timestamp,text
0,ethio_brand_collection,6117,-1001149977975,2025-06-22T06:27:39+00:00,‼️ እሁድ ሁሌም ክፍት ነን ‼️ Reebok Club Vintage s...
1,ethio_brand_collection,6116,-1001149977975,2025-06-16T09:01:34+00:00,"Skechers archfit size 40,41,42,43 Price 3400 ..."
2,ethio_brand_collection,6115,-1001149977975,2025-06-15T09:20:06+00:00,"‼️ እሁድ ሁሌም ክፍት ነን ‼️ NB 04 leather Size 39,..."
3,ethio_brand_collection,6113,-1001149977975,2025-06-14T09:04:17+00:00,"Nike Air Force Paisley Size 40,41,42,43,44 Pr..."
4,ethio_brand_collection,6112,-1001149977975,2025-06-14T06:40:06+00:00,"Skechers GY ULTRA Size 40,41,42,43,44 Price 34..."


## Apply Amharic Cleaner
We apply the `clean_amharic_text()` function to each row’s message text.
This removes:
- Emojis
- Latin letters
- Special characters
- Punctuation


In [12]:
df["cleaned_text"] = df["text"].apply(clean_amharic_text)
df[["text", "cleaned_text"]].head(10)


Unnamed: 0,text,cleaned_text
0,‼️ እሁድ ሁሌም ክፍት ነን ‼️ Reebok Club Vintage s...,እሁድ ሁሌም ክፍት ነን አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመ...
1,"Skechers archfit size 40,41,42,43 Price 3400 ...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
2,"‼️ እሁድ ሁሌም ክፍት ነን ‼️ NB 04 leather Size 39,...",እሁድ ሁሌም ክፍት ነን አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመ...
3,"Nike Air Force Paisley Size 40,41,42,43,44 Pr...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
4,"Skechers GY ULTRA Size 40,41,42,43,44 Price 34...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
5,"Adidas Samba OG size 40,41,42,43 Price 3600 b...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
6,"Colombia vibram Size 40,41,42,43 Price 3700 b...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
7,"Skechers Delux Walker Size 40,41,42,43 Price...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
8,"Alta buckle leather Size 39,40,41,42,43,44 P...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
9,"Skechers Ultra Lace Size 40,41,42,43,44 Pric...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...


## Example: Messages That Changed After Cleaning
Let’s show only rows where cleaning removed content (text != cleaned_text).


In [13]:
df_diff = df[df["text"] != df["cleaned_text"]]
df_diff[["text", "cleaned_text"]].sample(10)


Unnamed: 0,text,cleaned_text
1706,ምቹ እና ለአያያዝ አመቺ የብር እና ኤቴኤም መያዣ ዋሌት ለማዘዝ 09743...,ምቹ እና ለአያያዝ አመቺ የብር እና ኤቴኤም መያዣ ዋሌት ለማዘዝ ይደውሉ ...
660,🧳🧳🧳ካዉያ **Stronglite iron 2.5 Kg 1200W Heavy We...,ካዉያ ዋጋ ነፃ ዲሊቨሪ አድራሻ ቁጥር ልደታ ወደ ባልቻ ሆስፒታል ገባ ብሎ...
1440,መልካም ገና!! የሴቶች ዘመናዊ እና ምቹ ቀሚስ ለማዘዝ 0974312223 ...,መልካም ገና የሴቶች ዘመናዊ እና ምቹ ቀሚስ ለማዘዝ ይደውሉ ወይም ይጠቀሙ
1308,Reebok running Size 40--45 MADE IN VIETNAM SHE...,የቴሌግራም ቻናላችንን ይቀላቀሉ የቤት ቁጥር እና በ አዋሩን ይደውሉልን
665,💥💥💥Over Toilet Storage Rack 🔰የቦታ ጥበት ካለብዎ ይሄ ...,የቦታ ጥበት ካለብዎ ይሄ ያስፈልግዎታል ላይ ሊጠቀሙበት ይችላሉ የንፅህና ...
599,🫥🔴🔄በቢምቢ አልተቸገሩም????? ለአራስ ቤት የሚሆን ፣በተጨማሪ ለ ቢምቢ...,በቢምቢ አልተቸገሩም ለአራስ ቤት የሚሆን ፣በተጨማሪ ለ ቢምቢ ለወባ ትንኝ...
2340,➡️Mandoline Slicer ✔️adjustable thickness (0....,ዋጋ ፦ ብር ውስን ፍሬ ነው የቀረው ለማዘዝ ጥራት ዋስትና ቅናሽ አድራሻ ...
229,"Adidas stansmith Size 40,41,42,43 Price 3300 b...",አድራሻ ሜክሲኮ ኮሜርስ ጀርባ መዚድ ፕላዛ የመጀመሪያ ደረጃ እንደወጡ የቢ...
2014,"💯 100 Pieces Disposable Food Cover, Plastic Wr...",ዋጋ ፦ ብር ለማዘዝ ውስን ፍሬ ነው የቀረው ጥራት ዋስትና ቅናሽ አድራሻ ...
2216,1️⃣0️⃣% 🔤1️⃣5️⃣% ቅናሽ ዛሬ ጀምሮዋል 📣🌟🌟🌟🌟🌟🌟🌟🌟🌟 መልካም...,ቅናሽ ዛሬ ጀምሮዋል መልካም በዓል በዓልን ምክንያት በማድረግ ከ እስከ ድ...


## Summary
- successfully cleaned the raw text using our Amharic-aware cleaner.
- Emoji, symbols, and non-Amharic junk are removed.
- The data is now ready for tokenization, entity extraction or model fine-tuning.
