In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import re

### READ DATA ###

df_raw = pd.read_csv('data/TCDCIntlEpidAll.csv')


### DATA CLEANING ###

df_raw["date"] = pd.to_datetime(df_raw['effective']).dt.date
df_raw['date'] = pd.to_datetime(df_raw['date'], errors='coerce')

df_raw[['headline_country', 'headline_disease']] = df_raw['headline'].str.split('-', n=1, expand=True)
df_raw['headline_country'] = df_raw['headline_country'].str.strip()
df_raw['headline_disease'] = df_raw['headline_disease'].str.strip()

df_raw = df_raw.drop(
    ["sent", "effective", "source", "expires", "senderName", "instruction", "web", "alert_title", "severity_level", "circle", "headline"], axis=1)




print(df_raw.head(2))

#disease name frequency
table_disease_freq = df_raw['headline_disease'].value_counts()

print(table_disease_freq.head(50))


table_alert_disease_freq = df_raw['alert_disease'].value_counts()
print(table_alert_disease_freq.head(50))


                                         description   alert_disease  \
0  全球小兒麻痺根除倡議組織(GPEI)公布於5/8-14期間，cVDPV2型新增4國共9例，分...  小兒麻痺症/急性無力肢體麻痺   
1  美國於5/19累計15州報告26例病例，其中9例住院，經調查疑感染源為生產自佛羅里達州某廠商...         沙門氏菌感染症   

                                areaDesc  \
0  阿爾及利亞,布吉納法索,查德,象牙海岸,衣索比亞,巴基斯坦,索馬利亞,蘇丹   
1                                     美國   

                                         areaDesc_EN                  ISO3166  \
0  Algeria,Burkina Faso,Chad,Cote d'Ivoire,Ethiop...  DZ,BF,TD,CI,ET,PK,SO,SD   
1                                                USA                       US   

  areaDetail ISO3166_2       date headline_country headline_disease  
0        NaN       NaN 2025-05-23               全球            小兒麻痺症  
1        NaN       NaN 2025-05-23               美國     細菌性腸胃炎(沙門氏菌)  
headline_disease
新型冠狀病毒肺炎        833
登革熱             609
麻疹              551
小兒麻痺症           336
霍亂              235
猴痘              201
流感              171
伊波拉病毒感染         156
屈公病             154

In [None]:
## Disease Name Mapping: for main name, sub name
# def clean_heading_disease_name(name):
#     name = re.sub(r'\(.*?\)', '', name)     # 移除括號內的內容
#     name = re.sub(r'^\d+', '', name)    # 去除數字開頭
#     return name.strip()

# df_raw['headline_disease'] = df_raw['headline_disease'].apply(clean_heading_disease_name)


dict_disease_name_mapping = { #multiple diseases are splitted by /
    '新型冠狀病毒肺炎': 'COVID-19',  #old name: new name
    '嚴重特殊傳染性肺炎': 'COVID-19',
    "新型冠狀肺炎": "COVID-19",
    "新型冠狀病毒": "COVID-19",
    "新冠併發重症(每週更新)": 'COVID-19',
    "新冠併發重症(本週更新)": "COVID-19", 
    '新冠併發重症': 'COVID-19',
    "猴痘": "M痘",
    "M痘(每月更新)": "M痘",
    "M痘(每週更新)": "M痘",
    "M痘(本週更新)": "M痘",
    "新型A型流感(每週更新)": "新型A型流感",
    '新型A型流感(本週更新)': "新型A型流感",
    '新型A型流感(H3N2v)': "新型A型流感",
    '新型A型流感(H9N2)' : "新型A型流感",
    "新型A型流感(H9N2/H10N3)": "新型A型流感",
    "新型A型流感(H5N1)": "新型A型流感",
    #"新型A型流感(哺乳動物感染禽流感)": "新型A型流感",
    "新型A型流感(H5)": "新型A型流感",
    'H7N9流感': '新型A型流感',
    "H5N1流感": "新型A型流感",
    "H3N8流感": "新型A型流感",
    "H3N1v流感": "新型A型流感",
    "H3N2v流感": "新型A型流感",
    "H5流感":  "新型A型流感",
    "H1N2v流感": "新型A型流感",
    "H5N6流感": "新型A型流感",
    "H9N2流感": "新型A型流感",
    "H3N1v流感": "新型A型流感",
    "H1N2v流感病例": "新型A型流感",
    "H1v流感":  "新型A型流感",
    'H3N2v流感': "新型A型流感",
    'H3N2v、H1N2v流感': "新型A型流感",
    "H1N1v流感": "新型A型流感",
    "H1N2流感": "新型A型流感",
    "H5N8流感": "新型A型流感",
    "H10N3流感" : "新型A型流感",
    "H1N1流感": "新型A型流感",
    "─H7N9流感": "新型A型流感",
    "Echovirus 30 (E30)": "腸病毒",
    '1腸道菌感染症': '腸道菌感染症',
    # "病毒性腸胃炎(諾羅病毒)": "",
    "病毒性腸胃炎(沙門氏菌)": "沙門氏菌感染症",
    "沙門氏菌感染": "沙門氏菌感染症",
    "抗藥性沙門氏菌": "沙門氏菌感染症",
    "沙門氏菌": "沙門氏菌感染症",
    "沙門氏菌(Salmonella Agbeni)": "沙門氏菌感染症",
    "細菌性腸胃炎(沙門氏菌)": "沙門氏菌感染症",
    "細菌性腸胃炎(曲狀桿菌/沙門氏菌)": "細菌性腸胃炎(曲狀桿菌)/沙門氏菌感染症",
    "曲狀桿菌": "細菌性腸胃炎(曲狀桿菌)",
    "多重抗藥性曲狀桿菌": "細菌性腸胃炎(曲狀桿菌)",
    "不明原因腹瀉": "腹瀉", # pending
    "不明原因疾病死亡": "不明原因致死疾病",
    "不明原因死亡": "不明原因致死疾病",
    "不明原因致死疾病(疑似炭疽病)": "不明原因致死疾病",
    "不明原因疾病(急性腹瀉與嘔吐)": "不明原因疾病",
    "不明原因肺炎": "不明原因疾病",
    "不明原因神經系統疾病":"不明原因疾病",
    '不明原因腦脊髓膜炎': "不明原因疾病",
    "不明原因出血": "不明原因疾病",
    "不明原因疾病(番茄流感)":  "不明原因疾病",
    "不明原因出血疾病": "不明原因疾病", 
    "不明原因急性肝炎": "不明原因疾病",
    "不明蟲媒發熱疾病": "不明原因疾病",
    "不明原因腦炎與細菌性腦膜炎": "不明原因疾病",
    "不明原因腦膜炎": "不明原因疾病",
    "不明原因急性腎衰竭": "不明原因疾病",
    "不明原因肝炎": "不明原因疾病",
    "不明原因急性腎衰竭": "不明原因疾病",
    "不明原因呼吸道疾病": "不明原因疾病",
    "不明原因腦膜炎": "不明原因疾病",
    "兒童急性嚴重不明原因肝炎": "不明原因疾病",
    "不明原因呼吸道疾病": "不明原因疾病",
    "不明原因肺炎": "不明原因疾病",
    "不明蟲媒發熱疾病": "不明原因疾病",
    "不明原因腦炎": "不明原因疾病",
    "兒童急性嚴重不明原因肝炎": "不明原因疾病",
    "人類免疫缺乏病毒感染": "人類免疫缺乏病毒(愛滋病毒)感染",
    "HIV感染": "人類免疫缺乏病毒(愛滋病毒)感染",
    "HIV": "人類免疫缺乏病毒(愛滋病毒)感染",
    "HIV/AIDS": "人類免疫缺乏病毒(愛滋病毒)感染",
    "愛滋病": "人類免疫缺乏病毒(愛滋病毒)感染",
    "梅毒與先天性梅毒": "梅毒/先天性梅毒",
    "猩紅熱與侵襲性A群鏈球菌感染": "猩紅熱與A群鏈球菌感染",
    "猩紅熱與侵襲性A群鏈球菌感染症": "猩紅熱與A群鏈球菌感染",
    "猩紅熱及侵襲性A型鏈球菌感染": "猩紅熱與A群鏈球菌感染",
    "溶血性A群鏈球菌感染": "A群鏈球菌感染",
    "侵襲性A群鏈球菌": "A群鏈球菌感染",
    "克里米亞剛果出血熱": "克里米亞-剛果出血熱",
    "克里米-亞剛果出血熱": "克里米亞-剛果出血熱",
    "立百病毒": "立百病毒感染症",
    "立百病毒感染": "立百病毒感染症",
    "漢他病毒": "漢他病毒症後群",
    "漢他病毒感染症": "漢他病毒症後群",
    "漢他病毒出血熱": "漢他病毒症後群",
    "漢他病毒肺症候群": "漢他病毒症後群",
    "皮膚利什曼原蟲症" : "利什曼原蟲症", 
    "萊姆病、蜱媒腦炎": "萊姆病/蜱媒腦炎",
    "E型肝炎": "急性病毒性E型肝炎",
    "A型肝炎": "急性病毒性A型肝炎",
    "中東呼吸症候群冠狀病毒": "中東呼吸症候群冠狀病毒感染症",
    "發熱伴血小板減少綜合症(SFTS)":"發熱伴血小板減少綜合症",
    "傳染性紅斑": "傳染性紅斑症",
    "人類間質肺炎病毒(HMPV)": "人類間質肺炎病毒感染",
    "人類間質肺炎": "人類間質肺炎病毒感染",
    "人類間質肺炎病毒": "人類間質肺炎病毒感染",
    "伊波拉病毒": "伊波拉病毒感染", # Sudan病毒疾病是伊波拉病毒感染的一種
    "剛果出血熱死": "剛果出血熱",
    "急性無力脊髓炎(Acute Flaccid Myelitis, AFM)": "急性無力脊髓炎",
    "巴利症候群": "格林巴利症候群",
    "巴利症候群(GBS)": "格林巴利症候群",
    "茲卡病毒": "茲卡病毒感染",
    "Zika病毒": "茲卡病毒感染",
    "5腸道菌感染症": "腸道菌感染症",
    "4腸道菌感染症": "腸道菌感染症",
    "西尼羅病毒": "西尼羅熱",
    "李斯特菌": "李斯特菌症",
    "1綠膿桿菌感染症": "綠膿桿菌感染症",




    #中國大陸-法定傳染病  包含多種傳染病 香港 巴西
    #人畜共通傳染病'
    #"人類免疫缺乏病毒(愛滋病毒)感染"
    # 食媒性傳染病
    # 流感疫苗
    # 性傳染病
    #呼吸道傳染病
}

df_raw['disease_name'] = df_raw['headline_disease'].map(dict_disease_name_mapping).fillna(df_raw['headline_disease'])


#print(df_raw['disease_name'].value_counts().reset_index().head(70))
print((df_raw['disease_name'].dropna().unique()))

SyntaxError: invalid syntax (1914218514.py, line 84)

In [3]:
print(df_raw[df_raw['headline_disease'].isnull()])

                                             description alert_disease  \
251      美國分別於1及2月新增報告第2、3例I型病例，案2位於喬治亞州，案3為新罕布夏州，皆自疫...            M痘   
660    國際研究期刊9/4發表報告，於中國檢出新型orthonairovirus，並命名為Wetla...           NaN   
773    美國科羅拉多州7/25新增3例H5人類感染病例(含前已掌握之疑病例1例)，均發生於不同於前6...        新型A型流感   
893    疫情更新：\r 1.乳牛場：今年3月迄今累計10州報告84起疫情。(6/6報載新增愛荷華州)...        新型A型流感   
955    疫情更新：\r 1.乳牛場：今年3月迄今累計9州報告51起疫情。\r 2.人類經牛感染：累計...        新型A型流感   
...                                                  ...           ...   
22903  \r\r世界動物衛生組織（OIE）公布，印度1/2通報Assam省2008/12/17-12...        H5N1流感   
22904  \r\r阿根廷Misiones省1人疑似罹患黃熱病，患者係居住於Alta Garcia區的1...           黃熱病   
22905  \r\r香港衞生防護中心1/2證實1例屈公病境外移入病例，患者是1名44歲男性，2008/1...           屈公病   
22906  \r\r香港衛生防護中心1/2證實今年首例退伍軍人症病例，患者為38歲遊客，潛伏期暫居於大嶼...         退伍軍人病   
22907  \r\r塞普勒斯1所私立醫院發生退伍軍人症院內感染事件，2008/12/30共10名出生2週...         退伍軍人病   

                 areaDesc                                        areaDesc_EN  \
251    剛果民主共和國,香港特別行政區,美國  Cong

In [None]:



df_counts = df_raw.groupby([df_raw['date'].dt.to_period('M'), 'alert_disease']).size().reset_index(name='count')

# 🟢 Step 3: Convert Period to Timestamp for plotting
df_counts['date'] = df_counts['date'].dt.to_timestamp()

# 🟢 Step 4: Pivot to get diseases as columns and fill missing with 0
df_pivot = df_counts.pivot(index='date', columns='alert_disease', values='count').fillna(0)

# 🟢 Step 5: Normalize rows to get percentage
df_percent = df_pivot.div(df_pivot.sum(axis=1), axis=0) * 100

# 🟢 Step 6: Plot
plt.figure(figsize=(12, 6))
df_percent.plot(kind='area', stacked=True, figsize=(14, 7), colormap='tab20')
plt.ylabel('Percentage of Disease Notifications (%)')
plt.title('Monthly Proportion of Diseases Notified Over Time')
plt.xlabel('Date')
plt.legend(loc='upper left', bbox_to_anchor=(1, 1))
plt.tight_layout()
plt.show()