#

# Disease Prediction and Dataset Creation

## Introduction:
We aim to build a dataset of diseases and their descriptions in Persian through web crawling. Using various techniques, we normalize and tokenize the data to create a program that accepts symptoms from a patient and predicts a list of diseases the patient is 70% likely to have. This task simulates a smart doctor application.

To achieve this, we follow three steps, which will be demonstrated practically.

## Step 1: Collecting the Dataset

In this step, we construct the initial dataset by crawling data from the following URL and storing the disease names and their descriptions in a CSV file:

Wikipedia Disease List (Persian)

https://fa.m.wikipedia.org/wiki/%D9%81%D9%87%D8%B1%D8%B3%D8%AA_%D8%A8%DB%8C%D9%85%D8%A7%D8%B1%DB%8C%E2%80%8C%D9%87%D8%A7


In [None]:
import requests
from bs4 import BeautifulSoup
import csv

def extract_links_from_section(section):
    li_tags = section.find_all('li')

    link_data = []
    for li_tag in li_tags:
        links = li_tag.find_all('a')
        for link in links:
            title = link.text.strip()
            href = link.get('href')
            link_data.append({'Title': title, 'Href': href})

    return link_data


def main():
    url = "https://fa.m.wikipedia.org/wiki/%D9%81%D9%87%D8%B1%D8%B3%D8%AA_%D8%A8%DB%8C%D9%85%D8%A7%D8%B1%DB%8C%E2%80%8C%D9%87%D8%A7"

    response = requests.get(url)

    soup = BeautifulSoup(response.content, 'html.parser')

    sections = []

    for i in range(1,30):
        section_id = f'mf-section-{i}'
        section = soup.find('section', class_=section_id)
        if section:
            sections.append(section)

    all_links = []

    for section in sections:
        section_links = extract_links_from_section(section)
        all_links.extend(section_links)

    with open('links.csv', 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=['Title', 'Href'])
        writer.writeheader()
        writer.writerows(all_links)

if __name__ == "__main__":
    main()


In [None]:
def get_content(href):
    full_url = f"https://fa.wikipedia.org{href}"

    response = requests.get(full_url)

    soup = BeautifulSoup(response.content, 'html.parser')

    content_tag = soup.find('div', class_='mw-parser-output')

    unwanted_sections = soup.find_all('span', {'id': ['جستارهای وابسته', 'منابع و پی‌نوشت‌ها','منابع', 'پیوند به بیرون']})
    for section in unwanted_sections:
        section = section.find_parent('h2', class_='mw-headline')
        if section:
            section = section.find_next_sibling()
            while section and section.name != 'h2':
                section.extract()
                section = section.find_next_sibling()

    if content_tag:
        content = content_tag.text.strip()
    else:
        content = "No content found."

    return content


def add_content_to_csv(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as infile:
        reader = csv.DictReader(infile)
        fieldnames = reader.fieldnames + ['Content']
        rows = list(reader)

    for row in rows:
        href = row['Href']
        content = get_content(href)
        row['Content'] = content

    with open(output_file, 'w', newline='', encoding='utf-8') as outfile:
        writer = csv.DictWriter(outfile, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(rows)


input_file = 'links.csv'
output_file = 'links_with_content.csv'
add_content_to_csv(input_file, output_file)
print("Content added to CSV file.")

Content added to CSV file.


Now, the file 'links_with_content.csv' contains information about 603 different diseases along with their descriptions. Now, as an example, we will display the description of the first disease.

In [None]:
import sys
csv.field_size_limit(sys.maxsize)

def read_csv_to_list(csv_file):
    rows = []
    with open(csv_file, 'r', encoding='utf-8') as infile:
        reader = csv.DictReader(infile)
        for row in reader:
            rows.append(row)
    return rows


csv_file = 'links_with_content.csv'
rows = read_csv_to_list(csv_file)

print(rows[0]['Content'])

Medical conditionآب سیاهگلوکوم حاد زاویه بسته در چشم راست. به متوسط تفاوت اندازهٔ مردمک دو چشم و قرمزی غیریکنواخت ملتحمه در چشم راست شخص نگاه کنید.تخصصچشم‌پزشکی طبقه‌بندی و منابع بیرونیآی‌سی‌دی-۱۰H40-H42آی‌سی‌دی-۹-سی‌ام365دادگان بیماری‌ها5226ئی‌مدیسینoph/۵۷۸سمپD005901[ویرایش در ویکی‌داده]
آب‌سیاه یا گلوکوم (به انگلیسی: Glaucoma) اصطلاحی برای توصیف گروهی از اختلالات چشمی با علت‌های متفاوت ولی اثری بالینی و مشترک بر روی چشم و عصب بینایی و وابسته به فشار داخل چشمی است.[۱]
این مشکل می‌تواند به بینایی چشم آسیب برساند که غیرقابل برگشت است و در صورت عدم معالجه سبب نابینایی می‌شود. به زبانی ساده علت آن افزایش شدید فشار زلالیه یا همان مادهٔ درون چشم است.[۲] به‌طور کلی اشکال در خروج این مایع از منافذ بسیار کوچکی در پیرامون عنبیه (دایرهٔ رنگی چشم) است. در برخی موارد به‌طور مادرزادی منافذ تنگ هستند. در موارد دیگر جلو آمدن عنبیه یا مسدود شدن این منافذ با رنگدانه‌های عنبیه یا یاخته‌های خون پس از خونریزی داخل چشم، مسیر تخلیهٔ مایع داخل چشم تقریباً مسدود می‌شود.
گلوکوم را به عنوان دزد بینایی می‌شناسند

## Step 2: Text Normalization and Removing Extraneous Data

The crawled text contains sections like Sources and External Links, which do not provide disease-specific information. These sections are removed.

Next, we normalize the text by removing unnecessary annotations, converting Persian digits to Arabic, and retaining only meaningful characters.

The transformations are validated on a sample and then applied to the entire dataset, with results saved in a CSV file.

In [None]:
def truncate_text(text):
    indices = [i for i in range(len(text)) if text.startswith("[ویرایش]", i)]

    if len(indices) >= 2:
        index_to_truncate = indices[-2]
        truncated_text = text[:index_to_truncate]

        return truncated_text
    elif len(indices) == 1:
        index_to_truncate = indices[-1]
        truncated_text = text[:index_to_truncate]

        return truncated_text

    else:
        return text


In [None]:
truncated_text = truncate_text(rows[0]['Content'])

print(truncated_text)

Medical conditionآب سیاهگلوکوم حاد زاویه بسته در چشم راست. به متوسط تفاوت اندازهٔ مردمک دو چشم و قرمزی غیریکنواخت ملتحمه در چشم راست شخص نگاه کنید.تخصصچشم‌پزشکی طبقه‌بندی و منابع بیرونیآی‌سی‌دی-۱۰H40-H42آی‌سی‌دی-۹-سی‌ام365دادگان بیماری‌ها5226ئی‌مدیسینoph/۵۷۸سمپD005901[ویرایش در ویکی‌داده]
آب‌سیاه یا گلوکوم (به انگلیسی: Glaucoma) اصطلاحی برای توصیف گروهی از اختلالات چشمی با علت‌های متفاوت ولی اثری بالینی و مشترک بر روی چشم و عصب بینایی و وابسته به فشار داخل چشمی است.[۱]
این مشکل می‌تواند به بینایی چشم آسیب برساند که غیرقابل برگشت است و در صورت عدم معالجه سبب نابینایی می‌شود. به زبانی ساده علت آن افزایش شدید فشار زلالیه یا همان مادهٔ درون چشم است.[۲] به‌طور کلی اشکال در خروج این مایع از منافذ بسیار کوچکی در پیرامون عنبیه (دایرهٔ رنگی چشم) است. در برخی موارد به‌طور مادرزادی منافذ تنگ هستند. در موارد دیگر جلو آمدن عنبیه یا مسدود شدن این منافذ با رنگدانه‌های عنبیه یا یاخته‌های خون پس از خونریزی داخل چشم، مسیر تخلیهٔ مایع داخل چشم تقریباً مسدود می‌شود.
گلوکوم را به عنوان دزد بینایی می‌شناسند

Now normalize this contextes

In [None]:
import re

def normalize_text(text):
    text = re.sub(r'\[.*?\]', '', text)

    persian_digits = {'۰': '0', '۱': '1', '۲': '2', '۳': '3', '۴': '4', '۵': '5', '۶': '6', '۷': '7', '۸': '8', '۹': '9'}
    for persian, arabic in persian_digits.items():
        text = text.replace(persian, arabic)

    normalized_text = re.sub(r'[^\w\s\u0600-\u06FF]', '', text)

    return normalized_text

In [None]:
normalized_text = normalize_text(truncated_text)

print(normalized_text)

Medical conditionآب سیاهگلوکوم حاد زاویه بسته در چشم راست به متوسط تفاوت اندازهٔ مردمک دو چشم و قرمزی غیریکنواخت ملتحمه در چشم راست شخص نگاه کنیدتخصصچشمپزشکی طبقهبندی و منابع بیرونیآیسیدی10H40H42آیسیدی9سیام365دادگان بیماریها5226ئیمدیسینoph578سمپD005901
آبسیاه یا گلوکوم به انگلیسی Glaucoma اصطلاحی برای توصیف گروهی از اختلالات چشمی با علتهای متفاوت ولی اثری بالینی و مشترک بر روی چشم و عصب بینایی و وابسته به فشار داخل چشمی است
این مشکل میتواند به بینایی چشم آسیب برساند که غیرقابل برگشت است و در صورت عدم معالجه سبب نابینایی میشود به زبانی ساده علت آن افزایش شدید فشار زلالیه یا همان مادهٔ درون چشم است بهطور کلی اشکال در خروج این مایع از منافذ بسیار کوچکی در پیرامون عنبیه دایرهٔ رنگی چشم است در برخی موارد بهطور مادرزادی منافذ تنگ هستند در موارد دیگر جلو آمدن عنبیه یا مسدود شدن این منافذ با رنگدانههای عنبیه یا یاختههای خون پس از خونریزی داخل چشم، مسیر تخلیهٔ مایع داخل چشم تقریباً مسدود میشود
گلوکوم را به عنوان دزد بینایی میشناسند زیرا بدون علائم است و شخص در طول عمر خود از آن آگاه نمیشود


نا

Well, this change works on a sample response. Now, we're trying to apply these changes to all the data and save it to a file.

In [None]:
for i in range(len(rows)):
  truncated_text = truncate_text(rows[i]['Content'])
  normalized_text = normalize_text(truncated_text)
  rows[i]['Content'] = normalized_text



In [None]:
def write_list_to_csv(rows, csv_file):
    fieldnames = rows[0].keys() if rows else []
    with open(csv_file, 'w', newline='', encoding='utf-8') as outfile:
        writer = csv.DictWriter(outfile, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(rows)

write_list_to_csv(rows, csv_file)

## Step 3: Model Building and Analysis

We train a model using the processed data and extract keywords from the disease descriptions. Given a set of symptoms, the program calculates the relevance score for each disease and predicts the five most likely diseases based on these scores.

For example, entering symptoms like abdominal pain, fatigue, headache results in the model predicting the top five diseases with their respective scores.

This notebook includes the complete pipeline, from dataset construction to disease prediction using input symptoms.

In [None]:
!pip install hazm



In [None]:
import pandas as pd
from transformers import BertTokenizer, BertForSequenceClassification
import torch.nn.functional as F
from hazm import Normalizer, word_tokenize, stopwords_list
from sklearn.feature_extraction.text import TfidfVectorizer

import numpy as np

dataset = pd.read_csv('links_with_content.csv')

titles = dataset['Title']
contents = dataset['Content']

normalizer = Normalizer()
stopwords = stopwords_list()

normalizer = Normalizer()

preprocessed_contents = []
for content in contents:
    if isinstance(content, str):
        content = normalizer.normalize(content)
        tokens = word_tokenize(content)
        preprocessed_text = ' '.join(tokens)
        preprocessed_contents.append(preprocessed_text)
    else:
        preprocessed_contents.append("")

tfidf_vectorizer = TfidfVectorizer()

tfidf_matrix = tfidf_vectorizer.fit_transform(preprocessed_contents)

feature_names = tfidf_vectorizer.get_feature_names_out()

keywords_per_row = []
for i in range(len(preprocessed_contents)):
    row = tfidf_matrix[i]
    non_zero_indices = row.nonzero()[1]
    keywords = [feature_names[idx] for idx in non_zero_indices]
    keywords_per_row.append(keywords)

dataset['Keywords'] = keywords_per_row

In [None]:
print(dataset['Keywords'] )

0      [مشورت, جایگزین, ابتدا, اینکه, نکنید, قطع, هرگ...
1      [سرچشمه, درمیآید, مطلوب, کنند, اکنون, قبلی, کپ...
2      [جستارهای, شدند, بستری, بیمارستان, ۲۰۰۸, خاطر,...
3                                   [found, content, no]
4                                   [found, content, no]
                             ...                        
598    [ایدیوپات, میانبطنی, آکوآداکت, دراطراف, انفجار...
599    [procedure, pullthrough, مایسنر, اورباخ, بدلیل...
600    [نینداختن, گریپفروت, نوش, پرطرفدار, بکاهید, خو...
601    [قهوهایی, پرکربوهیدارت, بهخودی, مهتابی, عریان,...
602    [بدنبال, طفولیت, طرفهاست, متحرک, سایهای, پران,...
Name: Keywords, Length: 603, dtype: object


In [None]:
from collections import Counter
from hazm import Normalizer, word_tokenize

titles = dataset['Title']
contents = dataset['Content']

normalizer = Normalizer()
stopwords = stopwords_list()

def preprocess_text(text):
    text = normalizer.normalize(text)
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in stopwords]
    preprocessed_text = ' '.join(tokens)
    return preprocessed_text

preprocessed_contents = []
for content in contents:
    if isinstance(content, str):
        preprocessed_contents.append(preprocess_text(content))
    else:
        preprocessed_contents.append("")

def preprocess_input(symptoms):
    symptom_tokens = word_tokenize(symptoms)
    return symptom_tokens


def count_symptoms_occurrences(titles, contents, symptoms):
    disease_counts = Counter()

    symptom_tokens = preprocess_input(symptoms)

    for title, content in zip(titles, preprocessed_contents):
        count = 0

        for token in symptom_tokens:
            if token in content:
                count += content.count(token)

        disease_counts[title] = count

    top_diseases = disease_counts.most_common(5)

    return top_diseases



In [None]:
symptoms = "دل درد، خستگی ، سر درد"

top_diseases = count_symptoms_occurrences(titles, preprocessed_contents, symptoms)

print("Top 5 diseases with the highest score:")
for title, count in top_diseases:
    print(f"{title}: {count}")

Top 5 diseases with the highest score:
اوتیسم: 1616
آبله: 1294
آسم: 946
اختلال افسردگی اساسی: 921
میگرن: 851
