# Task 1: Data Ingestion and Preprocessing
Ethiopian E-commerce Telegram Channel Data Collection and Processing

In [1]:
# Setup and imports
import sys
sys.path.append('../src')
import pandas as pd
import asyncio

%reload_ext autoreload
%autoreload 2
from data_ingestion.telegram_scraper import TelegramScraper
from preprocessing.text_preprocessor import AmharicTextPreprocessor

In [None]:
# Initialize Telegram Scraper
try:
    scraper = TelegramScraper('../config/config.yaml')
    await scraper.initialize_client()
    print("Telegram client initialized")
except Exception as e:
    print(f"Error initializing scraper: {e}")
    print("Using demo data instead...")
    scraper = None

In [12]:
# Scrape data from all channels (2000 messages per channel)
if scraper:
    df = await scraper.scrape_all_channels(limit_per_channel=2000)
    print(f"Total messages scraped: {len(df)}")
    print(f"Channels: {df['channel'].unique()}")
else:
    # Create demo data
    import pandas as pd
    df = pd.DataFrame({
        'message_id': [1, 2, 3],
        'text': ['рѕИрѕџрІЮ 500 рЅЦрѕГ ріарІ▓рѕх ріарЅарЅБ', 'рїФрѕЏ 800 рЅЦрѕГ рЅБрѕЁрѕГ рІ│рѕГ', 'рЅдрѕГрѕ│ 300 рЅЦрѕГ рѕљрІІрѕ│'],
        'channel': ['demo_channel'] * 3,
        'date': pd.to_datetime(['2024-01-01', '2024-01-02', '2024-01-03'])
    })
    print(f"Using demo data: {len(df)} messages")

[32m2025-08-21 18:11:02.058[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m51[0m - [1mScraping channel: @ZemenExpress[0m
[32m2025-08-21 18:11:13.869[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m70[0m - [1mScraped 985 messages from @ZemenExpress[0m
[32m2025-08-21 18:11:14.002[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m51[0m - [1mScraping channel: @sinayelj[0m
[32m2025-08-21 18:11:21.689[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m70[0m - [1mScraped 522 messages from @sinayelj[0m
[32m2025-08-21 18:11:21.809[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m51[0m - [1mScraping channel: @Shewabrand[0m
[32m2025-08-21 18:11:35.871[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36mscrape_channel[0m:[36m70[0

Total messages scraped: 5800
Channels: ['@ZemenExpress' '@sinayelj' '@Shewabrand' '@lobelia4cosmetics'
 '@yetenaweg' '@EthiopianAirlines']


In [13]:
# Save raw data
if scraper:
    raw_data_path = await scraper.save_raw_data(df)
    await scraper.close()
    print(f"Raw data saved to: {raw_data_path}")
else:
    # Save demo data
    import os
    os.makedirs('../data/raw', exist_ok=True)
    raw_data_path = '../data/raw/demo_telegram_data.csv'
    df.to_csv(raw_data_path, index=False, encoding='utf-8')
    print(f"Demo data saved to: {raw_data_path}")

[32m2025-08-21 18:11:53.285[0m | [1mINFO    [0m | [36mdata_ingestion.telegram_scraper[0m:[36msave_raw_data[0m:[36m107[0m - [1mData saved to ../data/raw\telegram_data_20250821_181153.csv[0m


Raw data saved to: ../data/raw\telegram_data_20250821_181153.csv


In [5]:
# Initialize text preprocessor
preprocessor = AmharicTextPreprocessor()
print("Text preprocessor initialized")

Text preprocessor initialized


In [9]:
# load raw data 
df = pd.read_csv('../data/raw/telegram_data_20250821_181153.csv', encoding='utf-8')

In [3]:
df

Unnamed: 0,id,channel,text,date,views,forwards,replies,sender_id,has_media,media_type,message_link
0,7164,@ZemenExpress,­ЪњЦ­ЪњЦ...................................­ЪњЦ­ЪњЦ\n\n­ЪЊї S...,2025-08-18T11:26:35+00:00,2557.0,4.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7164
1,7162,@ZemenExpress,­ЪњЦ­ЪњЦ...................................­ЪњЦ­ЪњЦ\n\n­ЪЊїCr...,2025-08-14T09:23:20+00:00,5049.0,9.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7162
2,7161,@ZemenExpress,­ЪњЦ­ЪњЦ...................................­ЪњЦ­ЪњЦ\n\n­ЪЊїCr...,2025-08-14T09:23:11+00:00,3738.0,2.0,0,-1001307493052,True,document,https://t.me/ZemenExpress/7161
3,7158,@ZemenExpress,­ЪњЦ­ЪњЦ...................................­ЪњЦ­ЪњЦ\n\n­ЪЊїBa...,2025-08-11T08:07:28+00:00,4733.0,9.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7158
4,7157,@ZemenExpress,­ЪњЦ­ЪњЦ...................................­ЪњЦ­ЪњЦ\n\n­ЪЊЇ N...,2025-08-07T08:15:17+00:00,7026.0,4.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7157
...,...,...,...,...,...,...,...,...,...,...,...
5795,8,@yetenaweg,ріарІўрїІрїєрЅй \n\n рІХ/рѕГ ріцрѕГрѕЮрІФрѕх ріФрЅ╗ \n рЅарІЇрѕхрїЦ рІ░рІї рѕЁріГрѕЮріЊ рѕхрЇћрѕ║рІФрѕѕрѕх...,2020-02-17T21:45:20+00:00,439.0,1.0,0,-1001447066276,False,,https://t.me/yetenaweg/8
5796,6,@yetenaweg,рЅарІерѕЂрѕѕрЅх рѕ│рѕЮріЋрЅ▒ ріЦрІерЅ░рІўрїІрїђ рІерѕџрЅЁрѕГрЅЦрѕІрЅйрѕЂ рЅарїцріЊ рѕІрІГ рІерѕџрІФрЅ░ріЕрѕГ рЇќрІхріФрѕхрЅх...,2020-02-17T21:42:39+00:00,418.0,0.0,0,-1001447066276,False,,https://t.me/yetenaweg/6
5797,5,@yetenaweg,рІГрѕЁ ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх рЅарѕЏрІГріГрѕ«рѕхрі«рЇЋ рѕхрѕГ рѕ▓рЅ│рІГ рІФрѕѕрІЇ рѕЮрѕхрѕЇ ріљрІЇрЇб рі«...,2020-02-17T20:58:59+00:00,448.0,2.0,0,-1001447066276,True,photo,https://t.me/yetenaweg/5
5798,4,@yetenaweg,ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх (рЅаріарІ▓рѕх рІерѕ│рІГріЋрѕх рѕхрѕЎ COVID-19) рЇБ\nріерІерЅх ...,2020-02-17T20:55:46+00:00,1335.0,2.0,0,-1001447066276,True,,https://t.me/yetenaweg/4


In [10]:
df[['text', 'tokens']] = df['text'].apply(
    lambda x: pd.Series(preprocessor.custom_preprocess_amharic_text(x))
)

In [13]:
df

Unnamed: 0,id,channel,text,date,views,forwards,replies,sender_id,has_media,media_type,message_link,tokens
0,7164,@ZemenExpress,4 1 304 500 рІІрїІрЇд рЅЦрѕГ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІФрѕѕрІЇ рѕўрїѕріЊріЏ рѕўрѕ░рѕерЅх рІ░рЇІрѕГ...,2025-08-18T11:26:35+00:00,2557.0,4.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7164,4 1 304 500 рІІрїІрЇд рЅЦрѕГ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІФрѕѕрІЇ рѕўрїѕріЊріЏ рѕўрѕ░рѕерЅх рІ░рЇІрѕГ...
1,7162,@ZemenExpress,6 рІерїФрѕЏ рѕЏрѕхрЅђрѕўрїФ рЅБрѕѕ рѕхрІхрѕхрЅх рІ░рѕерїЃ рЅдрЅ│ рЅєрїБрЅб рѕ▓рІўрѕерїІ 27 27 86 рѕх...,2025-08-14T09:23:20+00:00,5049.0,9.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7162,6 рІерїФрѕЏ рѕЏрѕхрЅђрѕўрїФ рЅБрѕѕ рѕхрІхрѕхрЅх рІ░рѕерїЃ рЅдрЅ│ рЅєрїБрЅб рѕ▓рІўрѕерїІ 27 27 86 рѕх...
2,7161,@ZemenExpress,6 рІерїФрѕЏ рѕЏрѕхрЅђрѕўрїФ рЅБрѕѕ рѕхрІхрѕхрЅх рІ░рѕерїЃ рЅдрЅ│ рЅєрїБрЅб рѕ▓рІўрѕерїІ 27 27 86 рѕх...,2025-08-14T09:23:11+00:00,3738.0,2.0,0,-1001307493052,True,document,https://t.me/ZemenExpress/7161,6 рІерїФрѕЏ рѕЏрѕхрЅђрѕўрїФ рЅБрѕѕ рѕхрІхрѕхрЅх рІ░рѕерїЃ рЅдрЅ│ рЅєрїБрЅб рѕ▓рІўрѕерїІ 27 27 86 рѕх...
3,7158,@ZemenExpress,рѕ▓рѕіріеріЋ рІерѕЇрїєрЅй рїФрѕЏ рѕЏрѕѕрѕЏрѕўрїЃ рѕЇрїєрЅй рЅарЅђрѕІрѕЅ рІерѕЏрІФрІѕрѕЇрЅЂрЅх рІІрїІрЇд 600 рЅЦрѕГ...,2025-08-11T08:07:28+00:00,4733.0,9.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7158,рѕ▓рѕіріеріЋ рІерѕЇрїєрЅй рїФрѕЏ рѕЏрѕѕрѕЏрѕўрїЃ рѕЇрїєрЅй рЅарЅђрѕІрѕЅ рІерѕЏрІФрІѕрѕЇрЅЂрЅх рІІрїІрЇд 600 рЅЦрѕГ...
4,7157,@ZemenExpress,рІІрїІрЇд ріЦріЋрІх рїЦрЅЁрѕЇ 200 рЅЦрѕГ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІФрѕѕрІЇ ріарІхрѕФрѕ╗ рѕўрїѕріЊріЏ рѕўрѕ░рѕе...,2025-08-07T08:15:17+00:00,7026.0,4.0,0,-1001307493052,True,photo,https://t.me/ZemenExpress/7157,рІІрїІрЇд ріЦріЋрІх рїЦрЅЁрѕЇ 200 рЅЦрѕГ рІЇрѕхріЋ рЇЇрѕг ріљрІЇ рІФрѕѕрІЇ ріарІхрѕФрѕ╗ рѕўрїѕріЊріЏ рѕўрѕ░рѕе...
...,...,...,...,...,...,...,...,...,...,...,...,...
5795,8,@yetenaweg,ріарІўрїІрїєрЅй рІХ рѕГ ріцрѕГрѕЮрІФрѕх ріФрЅ╗ рЅарІЇрѕхрїЦ рІ░рІї рѕЁріГрѕЮріЊ рѕхрЇћрѕ║рІФрѕѕрѕхрЅх рЇБ рЅаріарѕЂріЋ...,2020-02-17T21:45:20+00:00,439.0,1.0,0,-1001447066276,False,,https://t.me/yetenaweg/8,ріарІўрїІрїєрЅй рІХ рѕГ ріцрѕГрѕЮрІФрѕх ріФрЅ╗ рЅарІЇрѕхрїЦ рІ░рІї рѕЁріГрѕЮріЊ рѕхрЇћрѕ║рІФрѕѕрѕхрЅх рЇБ рЅаріарѕЂріЋ...
5796,6,@yetenaweg,рЅарІерѕЂрѕѕрЅх рѕ│рѕЮріЋрЅ▒ ріЦрІерЅ░рІўрїІрїђ рІерѕџрЅЁрѕГрЅЦрѕІрЅйрѕЂ рЅарїцріЊ рѕІрІГ рІерѕџрІФрЅ░ріЕрѕГ рЇќрІхріФрѕхрЅх...,2020-02-17T21:42:39+00:00,418.0,0.0,0,-1001447066276,False,,https://t.me/yetenaweg/6,рЅарІерѕЂрѕѕрЅх рѕ│рѕЮріЋрЅ▒ ріЦрІерЅ░рІўрїІрїђ рІерѕџрЅЁрѕГрЅЦрѕІрЅйрѕЂ рЅарїцріЊ рѕІрІГ рІерѕџрІФрЅ░ріЕрѕГ рЇќрІхріФрѕхрЅх...
5797,5,@yetenaweg,рІГрѕЁ ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх рЅарѕЏрІГріГрѕ«рѕхрі«рЇЋ рѕхрѕГ рѕ▓рЅ│рІГ рІФрѕѕрІЇ рѕЮрѕхрѕЇ ріљрІЇрЇб рі«...,2020-02-17T20:58:59+00:00,448.0,2.0,0,-1001447066276,True,photo,https://t.me/yetenaweg/5,рІГрѕЁ ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх рЅарѕЏрІГріГрѕ«рѕхрі«рЇЋ рѕхрѕГ рѕ▓рЅ│рІГ рІФрѕѕрІЇ рѕЮрѕхрѕЇ ріљрІЇрЇб рі«...
5798,4,@yetenaweg,ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх рЅаріарІ▓рѕх рІерѕ│рІГріЋрѕх рѕхрѕЎ 19 рЇБ ріерІерЅх рѕўрїБ рѕЮріЋ рѕЮрѕЇріГ...,2020-02-17T20:55:46+00:00,1335.0,2.0,0,-1001447066276,True,,https://t.me/yetenaweg/4,ріарІ▓рѕ▒ рІері«рѕ«ріЊ рЅФрІГрѕерѕх рЅаріарІ▓рѕх рІерѕ│рІГріЋрѕх рѕхрѕЎ 19 рЇБ ріерІерЅх рѕўрїБ рѕЮріЋ рѕЮрѕЇріГ...


In [16]:
# Preprocess the scraped data
# # processed_df = preprocessor.preprocess_dataframe(df)
# print(f"Processed messages: {len(processed_df)}")
# print(f"Messages with Amharic: {processed_df['has_amharic'].sum()}")
# print(f"Messages with price hints: {(processed_df['price_hints'].apply(len) > 0).sum()}")

In [18]:
# Display sample processed data
# print("Sample processed data:")
# sample = df[['text', 'token_count', 'price_hints', 'location_hints']].head(3)
# for idx, row in sample.iterrows():
#     print(f"Text: {row['cleaned_text'][:80]}...")
#     print(f"Tokens: {row['token_count']}")
#     print(f"Price hints: {row['price_hints']}")
#     print(f"Location hints: {row['location_hints']}")
#     print("-" * 50)

In [19]:
# Save processed data
processed_path = "../data/processed/processed_telegram_data.csv"
df.to_csv(processed_path, index=False, encoding='utf-8')
print(f"Processed data saved to: {processed_path}")

Processed data saved to: ../data/processed/processed_telegram_data.csv


In [21]:
# Data quality summary
print("Data Quality Summary:")
print(f"Total raw messages: {len(df)}")
print(f"Total processed messages: {len(df)}")
print(f"Retention rate: {len(df)/len(df)*100:.1f}%")
# print(f"Average tokens per message: {df['token_count'].mean():.1f}")
print(f"Channels covered: {df['channel'].nunique()}")

Data Quality Summary:
Total raw messages: 5800
Total processed messages: 5800
Retention rate: 100.0%
Channels covered: 6
