### Loaded raw Telegram data (CSV) from e-commerce channels

In [1]:
import pandas as pd
import re

csv_file_path = '../data/telegram_data.csv'
df = pd.read_csv(csv_file_path)
df['text'] = df['text'].fillna('')
df = df[df['text'].str.strip().astype(bool)]
df_backup = df.copy()

### Cleaned & normalized Amharic text

In [2]:
# Data Cleaning 

def clean_text(text):
    """
    Performs basic text cleaning:
    - Converts text to string (handles non-string types)
    - Removes URLs, emojis 
    - Removes special characters and numbers (keeping only letters and basic punctuation)
    - Removes extra whitespace
    """
    if not isinstance(text, str):
        return ""
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF]+', '', text)
    text = re.sub(r'@[A-Za-z0-9_]+|#[A-Za-z0-9_]+', '', text)
    text = re.sub(r'[^\u1200-\u137F\s\w.,!?-]+', '', text) 
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df['cleaned_text'] = df['text'].apply(clean_text)

In [3]:
# Normalize
def normalize_text(text):
    if not isinstance(text, str):
        return ""
    text = text.strip().casefold()
    text = text.replace('\u1369', '').replace('\u136A', '').replace('\u136B', '').replace('\u136C', '')
    text = text.replace('\u136D', '').replace('\u136E', '').replace('\u136F', '').replace('\u1370', '')
    text = text.replace('\u1371', '').replace('\u1372', '').replace('\u1373', '').replace('\u1374', '')
    text = text.replace('\u1375', '').replace('\u1376', '').replace('\u1377', '').replace('\u1378', '')
    text = re.sub(r'\s+', ' ', text).strip()
    return text
df['normalized_text'] = df['cleaned_text'].apply(normalize_text)

### Tokenized text using regex

In [4]:
# Tokenization
def tokenize(text):
    if not isinstance(text, str):
        return []
    tokens = re.findall(r'[\u1200-\u137F\w]+|[.,!?-]', text)
    return [token for token in tokens if token]

df['tokens'] = df['normalized_text'].apply(tokenize)

### Sampled 50 messages

In [5]:
sample_df = df[['tokens']].dropna().sample(50, random_state=42).reset_index(drop=True)

# Remove dot and punctuation tokens
sample_df['tokens'] = sample_df['tokens'].apply(lambda toks: [t for t in toks if t not in ['.', '..', '...', ',', '!', '?']])

In [66]:
labeled_data = []
try:
    with open("../data/labeled_data.conll", "r", encoding="utf-8") as f:
        sentence = []
        for line in f:
            line = line.strip()
            if line == "":
                if sentence:
                    labeled_data.append(sentence)
                    sentence = []
            else:
                parts = line.rsplit(" ", 1)
                if len(parts) == 2:
                    sentence.append((parts[0], parts[1]))
    print(f"Loaded {len(labeled_data)} labeled samples from file.")
except FileNotFoundError:
    print("No saved labels found. Starting from scratch.")
    labeled_data = []

Loaded 50 labeled samples from file.


In [67]:
def label_sentence(index):
    tokens = sample_df.loc[index, 'tokens']
    labeled_sentence = []

    print(f"\nSample {index + 1}/{len(sample_df)}:")

    for i, token in enumerate(tokens):
        print(f"{i}: {token}", end=" -> ")
        label = input("Label (O, B-Product, I-PRICE, etc.): ").strip()

        if " " in label:
            print(" Labels should not contain spaces. Try again.")
            label = input("Label (no space!): ").strip()

        if label == "":
            label = "O"

        labeled_sentence.append((token, label))

    labeled_data.append(labeled_sentence)
    print(f" Labeled {len(tokens)} tokens in Sample {index + 1}")

In [63]:
# sample_index = len(labeled_data)
label_sentence(49)


Sample 50/50:
0: рЅ┤рѕїрїЇрѕФрѕЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


1: t -> 

Label (O, B-Product, I-PRICE, etc.):  O


2: memodernshoppingcenter -> 

Label (O, B-Product, I-PRICE, etc.):  B-LOC


3: рЅаріарІ▓рѕх -> 

Label (O, B-Product, I-PRICE, etc.):  O


4: ріљрїѕрѕе -> 

Label (O, B-Product, I-PRICE, etc.):  O


5: рѕЂрѕїрѕЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


6: рЅђрІ│рѕџрІЈрЅй -> 

Label (O, B-Product, I-PRICE, etc.):  O


7: ріљріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


8: рІерїФрѕЏ -> 

Label (O, B-Product, I-PRICE, etc.):  B-Product


9: рѕЏрѕхрЅђрѕўрїФ -> 

Label (O, B-Product, I-PRICE, etc.):  I-Product


10: рЇЇрѕгрѕърЅ╣ -> 

Label (O, B-Product, I-PRICE, etc.):  I-Product


11: рІерЅЦрѕерЅх -> 

Label (O, B-Product, I-PRICE, etc.):  O


12: рЅ▒рЅдрІјрЅй -> 

Label (O, B-Product, I-PRICE, etc.):  O


13: рІерѕєріЉ -> 

Label (O, B-Product, I-PRICE, etc.):  O


14: рѕўрІ░рѕГрІ░рѕфрІФрІЇ -> 

Label (O, B-Product, I-PRICE, etc.):  B-Product


15: рЅЦрѕерЅх -> 

Label (O, B-Product, I-PRICE, etc.):  O


16: рІерѕєріљ -> 

Label (O, B-Product, I-PRICE, etc.):  O


17: рѕўрїѕрїБрїарѕџрІФрІЇ -> 

Label (O, B-Product, I-PRICE, etc.):  O


18: ріФрѕГрЅдріћрЅхрІх -> 

Label (O, B-Product, I-PRICE, etc.):  O


19: рІерѕєріљ -> 

Label (O, B-Product, I-PRICE, etc.):  O


20: рїаріЋріФрѕФ -> 

Label (O, B-Product, I-PRICE, etc.):  O


21: рЇЋрѕІрѕ░рѕ░рЅ▓ріГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


22: рЅБрѕѕ -> 

Label (O, B-Product, I-PRICE, etc.):  O


23: 9 -> 

Label (O, B-Product, I-PRICE, etc.):  O


24: рІ░рѕерїЃ -> 

Label (O, B-Product, I-PRICE, etc.):  O


25: рЅарѕЕ -> 

Label (O, B-Product, I-PRICE, etc.):  O


26: рЅарІџрЇЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


27: рІерѕџрІўрїІ -> 

Label (O, B-Product, I-PRICE, etc.):  O


28: рІеріФрѕЇрѕх -> 

Label (O, B-Product, I-PRICE, etc.):  O


29: рѕЏрѕхрЅђрѕўрїФ -> 

Label (O, B-Product, I-PRICE, etc.):  O


30: ріфрѕх -> 

Label (O, B-Product, I-PRICE, etc.):  O


31: рІФрѕѕрІЇ -> 

Label (O, B-Product, I-PRICE, etc.):  O


32: 60cm30cm160m -> 

Label (O, B-Product, I-PRICE, etc.):  O


33: рѕЇрЅЦрѕ▒ -> 

Label (O, B-Product, I-PRICE, etc.):  O


34: рѕИрѕФ -> 

Label (O, B-Product, I-PRICE, etc.):  O


35: рІерѕєріљ -> 

Label (O, B-Product, I-PRICE, etc.):  O


36: рЅарЅ░рѕѕрІФрІе -> 

Label (O, B-Product, I-PRICE, etc.):  O


37: рІеріерѕѕрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


38: ріарѕЏрѕФрїГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


39: рІерЅђрѕерЅа -> 

Label (O, B-Product, I-PRICE, etc.):  O


40: рѕѕріарїарЅЃрЅђрѕЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


41: рЅђрѕІрѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  O


42: рЅа -> 

Label (O, B-Product, I-PRICE, etc.):  O


43: 4200 -> 

Label (O, B-Product, I-PRICE, etc.):  O


44: 0924743736 -> 

Label (O, B-Product, I-PRICE, etc.):  O


45: 0974978584 -> 

Label (O, B-Product, I-PRICE, etc.):  O


46: рЅарѕхрѕФрЅйріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


47: рѕІрІГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


48: рЅЁрѕгрЅ│ -> 

Label (O, B-Product, I-PRICE, etc.):  O


49: ріФрѕѕрІјрЅх -> 

Label (O, B-Product, I-PRICE, etc.):  O


50: рЅЦрЅ╗ -> 

Label (O, B-Product, I-PRICE, etc.):  O


51: рЅарІџрѕЁ -> 

Label (O, B-Product, I-PRICE, etc.):  O


52: рѕхрѕЇріГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


53: рІ░рІЅрѕѕрІЅ -> 

Label (O, B-Product, I-PRICE, etc.):  O


54: рІФрѕ│рІЅрЅЂріЋрЇб -> 

Label (O, B-Product, I-PRICE, etc.):  O


55: 0961373839 -> 

Label (O, B-Product, I-PRICE, etc.):  O


56: рІерѕўрѕерїАрЅхріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


57: ріЦрЅЃ -> 

Label (O, B-Product, I-PRICE, etc.):  O


58: рѕѕрѕЏрІўрІЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


59: ріерЅ│рЅй -> 

Label (O, B-Product, I-PRICE, etc.):  O


60: рЅБрѕѕрІЅ -> 

Label (O, B-Product, I-PRICE, etc.):  O


61: рІерЅ┤рѕїрїЇрѕФрѕЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


62: ріарІхрѕФрѕ╗ -> 

Label (O, B-Product, I-PRICE, etc.):  O


63: рІГрѕІріЕрѕЇріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


64: t -> 

Label (O, B-Product, I-PRICE, etc.):  O


65: memodernshopping1 -> 

Label (O, B-Product, I-PRICE, etc.):  O


66: t -> 

Label (O, B-Product, I-PRICE, etc.):  O


67: memodernshopping2 -> 

Label (O, B-Product, I-PRICE, etc.):  O


68: ріарІ▓рѕх -> 

Label (O, B-Product, I-PRICE, etc.):  B-LOC


69: ріарЅарЅБ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


70: рІЅрѕхрїЦ -> 

Label (O, B-Product, I-PRICE, etc.):  O


71: ріе150рЅЦрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  B-PRICE


72: ріЦрѕхріе -> 

Label (O, B-Product, I-PRICE, etc.):  I-PRICE


73: 200рЅЦрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-PRICE


74: рЅЦрЅ╗ -> 

Label (O, B-Product, I-PRICE, etc.):  I-PRICE


75: рЅарѕЏрѕхріерЇѕрѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  O


76: рІФрѕЅрЅарЅх -> 

Label (O, B-Product, I-PRICE, etc.):  O


77: рІхрѕерѕх -> 

Label (O, B-Product, I-PRICE, etc.):  O


78: рЅарЇѕрїБріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


79: рѕърЅ░рѕеріърЅ╗рЅйріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


80: ріЦріЋрѕЇріГрѕЇрІЈрЅ│рѕѕріЋрЇб -> 

Label (O, B-Product, I-PRICE, etc.):  O


81: рѕѕріГрЇЇрѕѕ -> 

Label (O, B-Product, I-PRICE, etc.):  O


82: рѕђрїѕрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


83: рІ░ріЋрЅаріърЅ╗рЅйріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


84: рЅарѕўріљрѕљрѕфрІФ -> 

Label (O, B-Product, I-PRICE, etc.):  O


85: рЅаріЕрѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  O


86: ріарІхрѕГрїѕріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


87: рЅарѕ╣рЇїрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  O


88: ріЦріЋрѕЇріФрѕѕріЋрЇб -> 

Label (O, B-Product, I-PRICE, etc.):  O


89: ріарІхрѕФрѕ╗ -> 

Label (O, B-Product, I-PRICE, etc.):  B-LOC


90: рЅЂрїЦрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


91: 1 -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


92: рїЅрѕГрІхрѕЙрѕІ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


93: ріерѕ┤ріЋрЅИрѕф -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


94: рѕърѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


95: рЅхріЋрѕй -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


96: рІЮрЅЁ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


97: ріЦріЋрІ│рѕЅ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


98: рѕєрѕірѕ▓рЅ▓ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


99: рѕ┤ріЋрЅ░рѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


100: рѕІрІГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


101: ріЦріЋрІ░рїѕрЅА -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


102: рЇірЅхрѕѕрЇірЅх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


103: ріерѕірЇЇрЅ▒ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


104: рЅарїЇрѕФ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


105: рЅаріЕрѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


106: рѕџрІЏріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


107: рѕІрІГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


108: m06 -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


109: рЅЂрїЦрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


110: 2 -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


111: рїђрѕъ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


112: рѕўрѕхрЅ│рІѕрЅх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


113: рЇІрЅЦрѕфріФ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


114: рїГрѕх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


115: рѕўрІЅрїФрІЅ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


116: рЇірЅхрѕѕрЇірЅх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


117: рѕФрѕљ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


118: рѕърѕЇ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


119: рїЇрѕФрІЅріЋрІх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


120: рЇЇрѕјрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


121: ріерІ░рѕерїЃрІЅ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


122: рїјріЋрЅхрѕЇрЅЂ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


123: рѕџріЊ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


124: рЇѕрѕГріњрЅИрѕГ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


125: рІФрѕѕрЅарЅх -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


126: рѕЁріЋрЇЃ -> 

Label (O, B-Product, I-PRICE, etc.):  I-LOC


127: рЅарѕърІ░рѕГріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


128: ріЦрЅЃрІѕрІЈрЅй -> 

Label (O, B-Product, I-PRICE, etc.):  O


129: рѕѓрІѕрЅхрІјріЋ -> 

Label (O, B-Product, I-PRICE, etc.):  O


130: рѕърІ░рѕГріЊрІГрІЮ -> 

Label (O, B-Product, I-PRICE, etc.):  O


131: рІФрІхрѕГрїЅ -> 

Label (O, B-Product, I-PRICE, etc.):  O


РюЁ Labeled 132 tokens in Sample 50


### Save the labled data

In [68]:
with open("../data/labeled_data.conll", "w", encoding="utf-8") as f:
    for sentence in labeled_data:
        for token, label in sentence:
            f.write(f"{token} {label}\n")
        f.write("\n")
print(" Saved")


 Saved


In [69]:
# Read and print the content of labeled_data.conll
with open("../data/labeled_data.conll", "r", encoding="utf-8") as file:
    content = file.read()
    print(content)


skechers B-Product
archfit B-Product
size O
40 O
41 O
42 O
43 O
price B-PRICE
3400 I-PRICE
birr I-PRICE
ріарІхрѕФрѕ╗ B-LOC
- I-LOC
рѕюріГрѕ▓рі« I-LOC
рі«рѕюрѕГрѕх I-LOC
рїђрѕГрЅБ I-LOC
рѕўрІџрІх I-LOC
рЇЋрѕІрІЏ I-LOC
рІерѕўрїђрѕўрѕфрІФ I-LOC
рІ░рѕерїЃ I-LOC
ріЦріЋрІ░рІѕрїА I-LOC
101 I-LOC
рІерЅбрѕ« I-LOC
рЅЂрїЦрѕГ I-LOC
рІФрїѕріЎріЊрѕЇ I-LOC
or O
call O
0920238243 O
ethiobrand O

magic O
silicone B-Product
dish B-Product
washing O
gloves B-Product
high O
quality O
рІѕрЇЇрѕФрѕЎ O
рІЋрЅЃ B-Product
рѕѕрѕЏрїарЅЦ O
рЅцрЅх O
рѕѕрѕЏрЇЁрІ│рЅх O
рѕўріфріЊ O
рѕѕрѕЏрїарЅЦ O
рѕѕрЅ░рѕѕрІФрІе O
ріарїѕрѕЇрїЇрѕјрЅх O
рІерѕџрІЇрѕЇ O
рІІрїІрЇд B-PRICE
350рЅЦрѕГ I-PRICE
рІЇрѕхріЋ O
рЇЇрѕг O
ріљрІЇ O
рІФрѕѕрІЇ O
ріарІхрѕФрѕ╗ B-LOC
рѕўрїѕріЊріЏ_рѕўрѕ░рѕерЅх_рІ░рЇІрѕГ_рѕърѕЇ_рѕЂрѕѕрЅ░ріЏ_рЇјрЅЁ I-LOC
рЅбрѕ« I-LOC
рЅЂ I-LOC
s05s06 I-LOC
0902660722 O
0928460606 O
рЅаtelegram O
рѕѕрѕЏрІўрІЮ O
рІГрїарЅђрѕЎ O
рѕѕрЅ░рїерѕЏрѕф O
рѕЏрЅЦрѕФрѕфрІФ O
рІерЅ┤рѕїрїЇрѕФрѕЮ O
рїѕрЇЃрЅйріЋ O

nike B-Product
just O
do O
it O