# Exploratory Data Analysis (EDA) of Processed Amharic Telegram Messages

This notebook performs a quick EDA on the processed Amharic text data. For each channel, it:
- Prints the total number of messages and the average number of tokens per message.
- Randomly samples and displays 5 messages, showing:
    - The original text
    - The cleaned text
    - The token list

This helps you check the quality of your preprocessing and tokenization before moving on to labeling or modeling.

In [4]:
import os
import json
import random
from glob import glob

SAMPLES_PER_CHANNEL = 5

def eda_channel(channel, processed_dir):
    in_dir = os.path.join(processed_dir, channel)
    files = glob(os.path.join(in_dir, 'msg_*.json'))
    if not files:
        print(f"No processed messages found for channel: {channel}")
        return
    print(f"\n=== Channel: {channel} ===")
    # Print basic stats
    num_msgs = len(files)
    token_counts = []
    for file_path in files:
        with open(file_path, 'r', encoding='utf-8') as f:
            msg = json.load(f)
        token_counts.append(len(msg.get('tokens', [])))
    print(f"Total messages: {num_msgs}")
    print(f"Average tokens per message: {sum(token_counts)/num_msgs:.2f}")
    # Show random samples
    sample_files = random.sample(files, min(SAMPLES_PER_CHANNEL, num_msgs))
    for file_path in sample_files:
        with open(file_path, 'r', encoding='utf-8') as f:
            msg = json.load(f)
        print("\n--- Sample Message ---")
        print(f"Original: {msg.get('text', '')}")
        print(f"Cleaned:  {msg.get('cleaned_text', '')}")
        print(f"Tokens:   {msg.get('tokens', [])}")

project_root = os.path.dirname(os.path.dirname(os.path.abspath('')))
processed_dir = os.path.join('..', 'data', 'processed', 'text')
channels = [d for d in os.listdir(processed_dir) if os.path.isdir(os.path.join(processed_dir, d))]
for channel in channels:
    eda_channel(channel, processed_dir)


=== Channel: forfreemarket ===
Total messages: 242
Average tokens per message: 37.50

--- Sample Message ---
Original: ­ЪњЦ.. Hair Steamer (рІерЇђрїЅрѕГ ріЦрѕхрЅ▓рѕЮ)

РќХ№ИЈ рІерѕџрЅ│рїарЅЦ 

РќХ№ИЈ рѕІрїарЅЃрЅђрѕЮ рЅђрѕІрѕЇ

РќХ№ИЈ рѕЮрЅЙрЅхріЋ рІерѕџрІФрѕІрЅЦрѕх


┬а┬а┬а┬а┬а┬а┬а ­Ъњд рІІрїІрЇд РюЁ 800 рЅЦрѕГ


­ЪћћрІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІФрѕѕрІЇ ­ЪћЦ­ЪћЦ­ЪћЦ



1№ИЈРЃБ.­ЪЊїрЇњрІФрѕ│ рїБрІГрЅ▒ рѕєрЅ┤рѕЇ рїірЅб рІЇрѕхрїЦ рЅбрѕ« рЅЂ04 

2№ИЈРЃБ.­ЪЊїрѕўрїѕріЊріЏ рѕўрЅ░рЅБрЅарѕГ рѕЋріЋрЇЃ 3ріЏ рЇјрЅЁ рЅбрѕ« рЅЂ316 
 

рѕѕрѕЏрІўрІЮ ріЦріљрІџріЋ рЅЂрїЦрѕ«рЅй рІГрїарЅђрѕЎ­Ъћй
┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а ­ЪЊ▓ 0911100302
┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а┬а 0911887579
­Ъћќ
­ЪњгрЅарЅ┤рѕїрїЇрѕФрѕЮ рѕѕрѕЏрІўрІЮ РъА№ИЈ @Akdat

рЅцрЅ░рѕ░рЅЦ рІГрѕЂріЉ­Ъћй
https://t.me/forfreemarket
┬а┬а 
­ЪЄф­ЪЄ╣ 4FREE MARKET ­ЪЄф­ЪЄ╣
Cleaned:  .. рІерЇђрїЅрѕГ ріЦрѕхрЅ▓рѕЮ рІерѕџрЅ│рїарЅЦ рѕІрїарЅЃрЅђрѕЮ рЅђрѕІрѕЇ рѕЮрЅЙрЅхр