In [1]:
import pandas as pd
import logging
import os
import sys
sys.path.append('../')

from dotenv import load_dotenv
load_dotenv()

import sys
sys.path.append('../')

> # Creating a data warehouse for Ethiopian medical business data scraped from Telegram channels

> # Telegram Access keys

In [2]:
api_id = os.getenv('TELEGRAM_API_ID')
api_hash = os.getenv('TELEGRAM_API_HASH')
phone = os.getenv('TELEGRAM_PHONE')

In [3]:

logging.basicConfig(filename='../logs/scraping.log', level=logging.INFO, 
                    format='%(asctime)s:%(levelname)s:%(message)s')

RAW_DATA_PATH = '../docs/raw/'
IMAGE_DATA_PATH = '../docs/images/'

> # Scrapping

In [4]:
import asyncio
from scripts.scrapping import scrapping
async def main():
    await scrapping(logging, api_id, api_hash, RAW_DATA_PATH, IMAGE_DATA_PATH)

await main()


>> ## Scrapped Data

In [5]:
data = pd.read_csv('../docs/raw/all_scraped_messages.csv')
data[data['channel_name']=='CheMed123'].head()

Unnamed: 0,channel_name,message_id,date,text,image_path
10,CheMed123,97,2023-02-10 12:23:06,"Рџа№ИЈ**Notice!\r\n**Dear esteemed customers,\r\nD...",../docs/images\photo_2025-01-31_09-39-51.jpg
11,CheMed123,96,2023-02-02 08:58:52,Mela-One рЅарІЇрѕхрїА рѕєрѕГрѕъріЋ рІФрѕѕрІЇ рІхріЋрїѕрЅ░ріЏ рІѕрѕірІх рѕўрЅєрїБрїарѕГрІФ рѕ▓рѕєріЋ рІФрѕѕ...,../docs/images\photo_2025-01-31_09-39-52.jpg
12,CheMed123,95,2023-02-01 08:59:37,**ріарІџрЅхрѕ«рѕЏрІГрѕ▓ріЋ** рЅарѕЃріфрѕЮ рѕўрІхрѕЃріњрЅх рѕЏрІўрІБ ріерѕџрЅ│рІўрІЎ ріаріЋрЅ▓рЅБрІ«рЅ▓рі«рЅй ріаріЋрІ▒...,../docs/images\photo_2025-01-31_09-39-52 (1).jpg
13,CheMed123,94,2023-01-31 09:19:53,**Che-Med Trivia #3\r\n\r\n**рѕЮрїЇрЅЦріЊ рѕўрїарїдрЅй ріаріЋрІ│ріЋрІх рѕў...,../docs/images\photo_2025-01-31_09-39-53.jpg
14,CheMed123,93,2023-01-30 09:45:25,**Che-Med Trivia #2\r\n\r\n**ріЦріЋрІ░ Ciprofloxacin...,../docs/images\photo_2025-01-31_09-39-53 (1).jpg


> # Clean and Standardize Data

In [6]:
# Now import the modules
from scripts.data_cleaning import load_csv,clean_text,clean_dataframe,save_cleaned_data



In [7]:
df = load_csv("../docs/raw/all_scraped_messages.csv")

# Show first few rows
df.head(10)


Unnamed: 0,channel_name,message_id,date,text,image_path
0,DoctorsET,864,2023-12-18 17:04:02,https://youtu.be/5DBoEm-8kmA?si=LDLuEecNfULJVD...,
1,DoctorsET,863,2023-11-03 16:14:39,рІХріГрЅ░рѕГрѕх рібрЅхрІ«рїхрІФ рЅа ріарІ▓рѕх ріарЅђрѕФрѕерЅЦ рЅа рЅ┤рѕїрЅфрІЦріЋ рЇЋрѕ«рїЇрѕФрѕЎріЋ рѕѕрѕўрїђрѕўрѕГ ріе...,
2,DoctorsET,862,2023-10-02 16:37:39,рѕърЅх рЅарѕхрі│рѕГ \r\n\r\nрѕѕрѕЇрїєрЅ╗рЅйріЋ рІерѕЮріЊрѕ▓рІўрІЇ рѕЮрѕ│рЅЃ рѕ│ріЊрЅђрІЇ ріЦрІхрѕџрІФрЅИрІЇріЋ...,
3,DoctorsET,861,2023-09-16 07:54:32,ріе HIV рІерЅ░рЇѕрІѕрѕ░ рѕ░рІЇ ріарїІрїЦрѕЪрЅйрѕЂ рІФрЅЃрѕЇ ? рЇѕрІЇрѕх ріЦріЊ рѕЁріГрѕЮріЊ ?\r\n\...,
4,DoctorsET,860,2023-09-01 16:16:15,рЅарЅЁрѕГрЅЦ рїірІю рЅарѕЃрїѕрѕФрЅйріЋ рѕІрІГ ріЦрІерЅ░рѕхрЅ░рІІрѕѕ рІФрѕѕ рІерЅ░рѕўрѕ│рѕ│рІГ рЇєрЅ│ ( Homos...,
5,DoctorsET,859,2023-08-29 17:20:05,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ https://youtu.be/-AR1KO2DbFw?si=47cXLZt...,
6,DoctorsET,848,2022-08-02 17:42:08,ріГрѕерѕЮрЅ▒ріЋ рѕхрЇќрѕГрЅх рѕўрѕхрѕФрЅх ріарѕхрЅарІЇ рїѓрѕЮ рѕѕрѕўрїЇрЅБрЅх ріФрѕЇрЅ╗рѕЅ рЅБрѕЅрЅарЅх рЅдрЅ│ рѕєріљрІЇ...,
7,DoctorsET,847,2022-06-12 17:15:47,рѕхрЇќрѕГрЅх рІерѕўрѕхрѕФрЅх рѕ▒рѕх рІГріќрѕГ рІГрѕєріЋ?\r\n\r\nрЅаріарѕЂріЉ рІѕрЅЁрЅх рЅЦрІЎ рІерѕхрЇќрѕГ...,
8,DoctorsET,846,2022-05-31 17:51:13,рІхріЋрїѕрЅ░ріЏ ріарІ░рїІ / рІеріарїЦріЋрЅх рѕхрЅЦрѕФрЅх\r\n\r\nріарІФрѕГрїѕрІЇріЊ рІхріЋрїѕрЅ░ріЏ рІерѕєріљ...,
9,DoctorsET,845,2022-05-20 18:04:53,ріерЅхріЋрѕй рїЇрІџрІФрЅх рЅарЇірЅх рѕхрЇќрѕГрЅх рѕўрѕхрѕФрЅх ріЦріЋрІ░ рЅЁріЋрїдрЅх рІГрЅ│рІГ ріљрЅарѕГ ріарѕЂріЋ рѕІ...,


In [8]:
df_cleaned = clean_dataframe(df)

# Display cleaned dataset
df_cleaned.head(10)

Unnamed: 0,channel_title,message_id,message_date,message,media_path,emoji_used,youtube_links
0,DoctorsET,864,2023-12-18 17:04:02,"рЅарЅђріЋ ріаріЋрІ┤ рЅЦрЅ╗ рІерѕџрЅБрѕѕрІЇ рІерЅбрІЮріљрѕх ріарѕЏріФрѕф \r \r рЅа 10,000 рЅЦрѕГ ...",No image,­ЪЉѕ­ЪЉѕ­ЪЉЄ­ЪЉЄ,https://youtu.be/5DBoEm-8kmA?si=LDLuEecNfULJVD...
1,DoctorsET,863,2023-11-03 16:14:39,рІХріГрЅ░рѕГрѕх рібрЅхрІ«рїхрІФ рЅа ріарІ▓рѕх ріарЅђрѕФрѕерЅЦ рЅа рЅ┤рѕїрЅфрІЦріЋ рЇЋрѕ«рїЇрѕФрѕЎріЋ рѕѕрѕўрїђрѕўрѕГ ріе...,No image,­ЪЉЄ,https://youtu.be/gwVN5eJQpko?si=xARsSxIEdZtE91GY
2,DoctorsET,862,2023-10-02 16:37:39,рѕърЅх рЅарѕхрі│рѕГ \r \r рѕѕрѕЇрїєрЅ╗рЅйріЋ рІерѕЮріЊрѕ▓рІўрІЇ рѕЮрѕ│рЅЃ рѕ│ріЊрЅђрІЇ ріЦрІхрѕџрІФрЅИрІЇріЋ рІГ...,No image,No emoji,https://youtu.be/oHiSRrNF7I0?si=Absgm414YSt_kjNq
3,DoctorsET,861,2023-09-16 07:54:32,ріе HIV рІерЅ░рЇѕрІѕрѕ░ рѕ░рІЇ ріарїІрїЦрѕЪрЅйрѕЂ рІФрЅЃрѕЇ ? рЇѕрІЇрѕх ріЦріЊ рѕЁріГрѕЮріЊ ?\r \r...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/tTeErZxIh_Q?si=jKHyfWcC3sfXbC8L
4,DoctorsET,860,2023-09-01 16:16:15,рЅарЅЁрѕГрЅЦ рїірІю рЅарѕЃрїѕрѕФрЅйріЋ рѕІрІГ ріЦрІерЅ░рѕхрЅ░рІІрѕѕ рІФрѕѕ рІерЅ░рѕўрѕ│рѕ│рІГ рЇєрЅ│ ( Homos...,No image,No emoji,https://youtu.be/0k65P5ouw7s?si=qaUgo75bUa3AMQxD
5,DoctorsET,859,2023-08-29 17:20:05,**\r рІХріГрЅ░рѕГрѕх рібрЅхрІ«рїйрІФ рЅаріарІ▓рѕх рЇЋрѕ«рїѕрѕФрѕЮ рїђрѕўрѕе**\r \r рѕЏрѕерїЦ (*...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/-AR1KO2DbFw?si=47cXLZtlmhx1Nl...
6,DoctorsET,848,2022-08-02 17:42:08,ріГрѕерѕЮрЅ▒ріЋ рѕхрЇќрѕГрЅх рѕўрѕхрѕФрЅх ріарѕхрЅарІЇ рїѓрѕЮ рѕѕрѕўрїЇрЅБрЅх ріФрѕЇрЅ╗рѕЅ рЅБрѕЅрЅарЅх рЅдрЅ│ рѕєріљрІЇ...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/0uiTzjEbh90
7,DoctorsET,847,2022-06-12 17:15:47,рѕхрЇќрѕГрЅх рІерѕўрѕхрѕФрЅх рѕ▒рѕх рІГріќрѕГ рІГрѕєріЋ?\r \r рЅаріарѕЂріЉ рІѕрЅЁрЅх рЅЦрІЎ рІерѕхрЇќрѕГрЅх ...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/WPlRuRtQXN8
8,DoctorsET,846,2022-05-31 17:51:13,рІхріЋрїѕрЅ░ріЏ ріарІ░рїІ / рІеріарїЦріЋрЅх рѕхрЅЦрѕФрЅх\r \r ріарІФрѕГрїѕрІЇріЊ рІхріЋрїѕрЅ░ріЏ рІерѕєріљ ріа...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/QI-8oqW80uI
9,DoctorsET,845,2022-05-20 18:04:53,ріерЅхріЋрѕй рїЇрІџрІФрЅх рЅарЇірЅх рѕхрЇќрѕГрЅх рѕўрѕхрѕФрЅх ріЦріЋрІ░ рЅЁріЋрїдрЅх рІГрЅ│рІГ ріљрЅарѕГ ріарѕЂріЋ рѕІ...,No image,­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ­ЪЉЄ,https://youtu.be/_IEWt07bECg


> # Check for missing values in the cleaned DataFrame

In [9]:

missing_values = df_cleaned.isnull().sum()
missing_values[missing_values > 0]  # Display only columns with missing values


Series([], dtype: int64)

> ### The Datasets have no missing values

> # Save cleaned data to CSV


In [10]:
df_cleaned.to_csv("../docs/cleaned.csv", index=False)
print("РюЁ Cleaned data saved successfully to '../docs/cleaned_data.csv'.")


РюЁ Cleaned data saved successfully to '../docs/cleaned_data.csv'.


## Connect to Database

In [11]:
from scripts.database_setup import get_db_connection, create_table, insert_data


In [12]:
engine = get_db_connection()

###  Create Table in PostgreSQL

In [13]:
create_table(engine)