In [1]:
import pandas as pd
from pathlib import Path
import os

PROJECT_ROOT: Path = Path(os.getcwd()).resolve().parents[0]

parts = [1, 2, 3]


def read_file(part: int | str, root: Path = PROJECT_ROOT):
    path: Path = root / "data" / "raw" / f"private-fda-part-{str(part)}.xlsx"
    if path.exists():
        return pd.read_excel(path)
    else:
        raise ValueError("File not found")


column_name_translation = {
    "جی ال ان توزیع کننده": "distributor_gln",
    "نام توزیع کننده": "distributor_name",
    "جی ال ان داروخانه": "pharmacy_gln",
    "نام داروخانه": "pharmacy_name",
    "تلفن ثابت داروخانه ": "pharmacy_phone",
    "شماره موبایل موسس داروخانه": "pharmacy_founder_mobile",
    "آدرس  داروخانه": "pharmacy_address",
    "نوع فرآورده": "product_type",
    "کد فرآورده": "product_code",
    "نام برند": "brand_name",
    "کد ژنریک": "generic_code",
    "نام ژنریک": "generic_name",
    "سری ساخت": "batch_number",
    "تاریخ رویداد": "event_date",
    "نام مالک فرآورده": "product_owner_name",
    "نام تامین کننده": "supplier_name",
    "تعداد در بسته": "units_per_package",
    "تعداد بسته ارسال شده": "packages_sent",
    "مجموع ارسال شده": "total_units_sent",
    "ارزش ریالی": "monetary_value",
    "استان": "province",
    "شهرستان": "county",
    "شهر": "city",
    "دانشگاه": "university",
}

columns_to_truncate = [
    "city",
    "county",
    "province",
    "university",
    "pharmacy_address",
    "distributor_gln",
    "event_date",
    "product_type",
    "pharmacy_founder_mobile",
    "pharmacy_phone",
    "pharmacy_name",
    "batch_number",
    "pharmacy_gln",
    "distributor_name",
]
dfs_farsi = [read_file(part) for part in parts]
dfs_english = [df.rename(columns=column_name_translation) for df in dfs_farsi]
dfs_truncated = [df.drop(columns=columns_to_truncate) for df in dfs_english]
for df in dfs_truncated:
    print(f"Dataframe size: {df['generic_code'].count()}")  # 15, 1066, 1272
    print("Brands covered:")
    print(df["brand_name"].unique())
    print(df["generic_name"].unique())
    print("-" * 124)

print(
    """
    NOTE:
      Conclusion: Data does not contain all distributed medicines.
      Solution: IRC scarping approach seems more valuable."""
)

Dataframe size: 15
Brands covered:
['اکتانیت   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 250 [iU]  [iU]']
['COAGULATION FACTOR VIII (HUMAN PLASMA DERIVED) INJECTION, POWDER, LYOPHILIZED, FOR SOLUTION PARENTERAL 250 [iU]']
----------------------------------------------------------------------------------------------------------------------------
Dataframe size: 1066
Brands covered:
['آیمافیکس   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 500 [iU]  [iU]'
 'هموناین   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 500 [iU]  [iU]'
 'آیمافیکس500   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 500 [iU]  [iU]']
['FACTOR IX INJECTION, POWDER, LYOPHILIZED, FOR SOLUTION PARENTERAL 500 [iU]']
----------------------------------------------------------------------------------------------------------------------------
Dataframe size: 1272
Brands covered:
['اموکلات   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 500 [iU]  [iU]'
 'هماکتین   پودر لئوفیلیزه برای تهیه محلول تزریقی پرنترال 500 [iU]  [