# IMPORT DATA

In [45]:
import pandas as pd

# READ DATA

In [20]:
def read_data(file_name):
    with open(file_name, mode='r', encoding ='utf-8-sig') as f:
        data = f.readlines()
    return data


# MAIN


In [21]:
data = read_data('mini-confirmed-cases-since-120864.csv')
data


['No.,announce_date,Notified date,sex,age,Unit,nationality,province_of_isolation,risk,province_of_onset,district_of_onset\n',
 '816990,12/8/2021,11/8/2021,ชาย,1,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816991,12/8/2021,11/8/2021,ชาย,1,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816992,12/8/2021,11/8/2021,ชาย,35,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816993,12/8/2021,11/8/2021,หญิง,33,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816994,12/8/2021,11/8/2021,หญิง,14,ปี,Thailand,เชียงราย,สัมผัสใกล้ชิดกับผู้ป่วยยืนยันรายก่อนหน้านี้,,\n',
 '816995,12/8/2021,11/8/2021,ชาย,39,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816996,12/8/2021,11/8/2021,ชาย,45,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816997,12/8/2021,11/8/2021,หญิง,32,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816998,12/8/2021,11/8/2021,หญิง,7,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '816999,12/8/2021,11/8/2021,ชาย,8,ปี,Thailand,เชียงราย,สัมผัสใกล้ชิดกับผู้ป่วยยืนยันรายก่อนหน้านี้,,\n',
 '817000,12/8/2021,11/8/2021,ชาย,27,ปี,Thailand,เชียงราย,อื่นๆ,,\n',
 '817001,12/8/2021,11/8/2021,หญิง,56,ปี

In [22]:
# A function to transform list to list+dic
def transform_data(data, keys):
    cases = list()
    case = dict()
    
    for item in data:
        record = item.strip().split(',')

        for i in range(len(keys)):
            case[keys[i]] = record[i]
            
        cases.append(case)
        case = dict()
        
    return cases


In [23]:
# สกัดหัวตารางเพื่อใช้เป็น keys ของ dictionary
keys = data.pop(0).strip().split(',')
keys
# แปลงข้อมูลให้อยู่ในรูปแบบโครงสร้างข้อมูลที่ต้องการ
cases = transform_data(data, keys)


# Insight1

In [24]:
def number_of_cases(cases, date):
    count = 0
    for case in cases:
        if case['announce_date'] == date:
            count += 1
    return count


In [25]:
print(number_of_cases(cases, '14/8/2021'))

22086


# Insight2

In [26]:
def number_of_cases_by_sex(cases, start_date, end_date):
    males = 0
    females = 0
    unknown = 0
    for case in cases:
        if start_date <= case['announce_date'] <= end_date:
            if case['sex'] == 'ชาย' :
                males += 1
            elif case['sex'] == 'หญิง' :
                females += 1
            else:
                unknown += 1
    return males, females, unknown


In [27]:
m,f,un = number_of_cases_by_sex(cases, '15/8/2021', '16/8/2021')
print("male ", m , "female" , f, 'unknown', un)


male  19798 female 21400 unknown 1841


# Insight3

In [28]:
def number_of_cases_by_ages(cases,age_range):
    bin = [0]*(len(age_range)+1)   #bin= 0,0,0,0,0,0,0
    
    for case in cases:
        if case['Unit'] == 'เดือน' or case['Unit'] == 'วัน' :
            bin[0] += 1
        elif case['Unit'] == 'ปี' :
            for i in range(len(bin)-1):
                if age_range[i][0] <= float(case['age']) <= age_range[i][1]:
                    bin[i] += 1
                    break
        else:
            bin[-1]+= 1
            
    return bin


In [29]:
print (number_of_cases_by_ages (cases, [(0,19),(20,39), (40,59), (60,79), (80,99), (100, 119)])  )

[60624, 150335, 107456, 32902, 4775, 35, 31613]


# Insight4

In [30]:
def summarize_by_region(data):
    region_map = {
            "เชียงราย": "ภาคเหนือ",
            "น่าน": "ภาคเหนือ",
            "พะเยา": "ภาคเหนือ",
            "เชียงใหม่": "ภาคเหนือ",
            "แม่ฮ่องสอน": "ภาคเหนือ",
            "แพร่": "ภาคเหนือ",
            "ลำพูน": "ภาคเหนือ",
            "อุตรดิตถ์": "ภาคเหนือ",
            "ลำปาง": "ภาคเหนือ",
        
            "หนองคาย": "ภาคตะวันออกเฉียงเหนือ",
            "นครพนม": "ภาคตะวันออกเฉียงเหนือ",
            "สกลนคร": "ภาคตะวันออกเฉียงเหนือ",
            "อุดรธานี": "ภาคตะวันออกเฉียงเหนือ",
            "หนองบัวลำภู": "ภาคตะวันออกเฉียงเหนือ",
            "เลย": "ภาคตะวันออกเฉียงเหนือ",
            "กาฬสินธุ์": "ภาคตะวันออกเฉียงเหนือ",
            "ขอนแก่น": "ภาคตะวันออกเฉียงเหนือ",
            "อำนาจเจริญ": "ภาคตะวันออกเฉียงเหนือ",
            "ยโสธร": "ภาคตะวันออกเฉียงเหนือ",
            "ร้อยเอ็ด": "ภาคตะวันออกเฉียงเหนือ",
            "มหาสารคาม": "ภาคตะวันออกเฉียงเหนือ",
            "ชัยภูมิ": "ภาคตะวันออกเฉียงเหนือ",
            "นครราชสีมา": "ภาคตะวันออกเฉียงเหนือ",
            "บุรีรัมย์": "ภาคตะวันออกเฉียงเหนือ",
            "สุรินทร์": "ภาคตะวันออกเฉียงเหนือ",
            "ศรีสะเกษ": "ภาคตะวันออกเฉียงเหนือ",
            "อุบลราชธานี": "ภาคตะวันออกเฉียงเหนือ",
            "บึงกาฬ": "ภาคตะวันออกเฉียงเหนือ",
            "มุกดาหาร": "ภาคตะวันออกเฉียงเหนือ",
        
            "ตาก": "ภาคตะวันตก",
            "กาญจนบุรี": "ภาคตะวันตก",
            "ราชบุรี": "ภาคตะวันตก",
            "เพชรบุรี": "ภาคตะวันตก",
            "ประจวบคีรีขันธ์": "ภาคตะวันตก",
        
            "กรุงเทพมหานคร": "ภาคกลาง",
            "พิษณุโลก": "ภาคกลาง",
            "สุโขทัย": "ภาคกลาง",
            "เพชรบูรณ์": "ภาคกลาง",
            "พิจิตร": "ภาคกลาง",
            "กำแพงเพชร": "ภาคกลาง",
            "นครสวรรค์": "ภาคกลาง",
            "ลพบุรี": "ภาคกลาง",
            "ชัยนาท": "ภาคกลาง",
            "อุทัยธานี": "ภาคกลาง",
            "สิงห์บุรี": "ภาคกลาง",
            "อ่างทอง": "ภาคกลาง",
            "สระบุรี": "ภาคกลาง",
            "พระนครศรีอยุธยา": "ภาคกลาง",
            "สุพรรณบุรี": "ภาคกลาง",
            "นครนายก": "ภาคกลาง",
            "ปทุมธานี": "ภาคกลาง",
            "นนทบุรี": "ภาคกลาง",
            "นครปฐม": "ภาคกลาง",
            "สมุทรปราการ": "ภาคกลาง",
            "สมุทรสาคร": "ภาคกลาง",
            "สมุทรสงคราม": "ภาคกลาง",
        
            "สระแก้ว": "ภาคตะวันออก",
            "ปราจีนบุรี": "ภาคตะวันออก",
            "ฉะเชิงเทรา": "ภาคตะวันออก",
            "ชลบุรี": "ภาคตะวันออก",
            "ระยอง": "ภาคตะวันออก",
            "จันทบุรี": "ภาคตะวันออก",
            "ตราด": "ภาคตะวันออก",
        
            "ชุมพร": "ภาคใต้",
            "ระนอง": "ภาคใต้",
            "สุราษฎร์ธานี": "ภาคใต้",
            "นครศรีธรรมราช": "ภาคใต้",
            "กระบี่": "ภาคใต้",
            "ภูเก็ต": "ภาคใต้",
            "ตรัง": "ภาคใต้",
            "ปัตตานี": "ภาคใต้",
            "สงขลา": "ภาคใต้",
            "สตูล": "ภาคใต้",
            "นราธิวาส": "ภาคใต้",
            "ยะลา": "ภาคใต้",
            "พังงา": "ภาคใต้",
            "พัทลุง": "ภาคใต้",
        }
    region_summary = {}
    for row in data[1:]:
        fields = row.split(",")
        province = fields[9].strip()
    
        if province == "":
            continue
    
        region = region_map.get(province,"ไม่มีภูมิภาค")
        
        region_summary[region] = region_summary.get(region,0) + 1
    
    return region_summary
result = summarize_by_region(data)
print("สรุปผู้ติดเชื้อในแต่ละภาค :")
for region, total in result.items():
    print(f"{region}: {total}")

สรุปผู้ติดเชื้อในแต่ละภาค :
ภาคกลาง: 211917
ภาคเหนือ: 3471
ภาคตะวันตก: 10499
ภาคตะวันออก: 48375
ภาคตะวันออกเฉียงเหนือ: 18724
ภาคใต้: 30228
ไม่มีภูมิภาค: 57


# Insight5

In [48]:
df = pd.read_csv("mini-confirmed-cases-since-120864.csv")
df.columns = df.columns.str.strip()

In [49]:
def analyze_risk(df):
    if 'risk' not in df.columns:
        raise ValueError(f"ไม่พบคอลัมน์ risk\nคอลัมน์ที่มีจริงคือ: {df.columns.tolist()}")
    
    # นับจำนวน record ของแต่ละ risk
    risk_summary = df.groupby('risk', as_index=False).size()
    risk_summary.columns = ['risk', 'total_cases']
    risk_summary = risk_summary.sort_values('total_cases', ascending=False)
    return risk_summary

result = analyze_risk(df)

styled = result.style.background_gradient(cmap="YlOrRd").set_table_styles(
    [{'selector': 'th', 'props': [('background-color', '#404040'),
                                  ('color', 'white'),
                                  ('font-weight', 'bold')]}]
)

styled


Unnamed: 0,risk,total_cases
18,สัมผัสใกล้ชิดกับผู้ป่วยยืนยันรายก่อนหน้านี้,155559
22,อื่นๆ,117236
5,การค้นหาผู้ป่วยเชิงรุกและค้นหาผู้ติดเชื้อในชุมชน,49261
19,อยู่ระหว่างการสอบสวน,36606
14,ระบุไม่ได้,7953
16,สถานที่ทำงาน,7771
9,ทัณฑสถาน/เรือนจำ,5813
23,ไปสถานที่ชุมชน เช่น ตลาดนัด สถานที่ท่องเที่ยว,4182
10,บุคลากรด้านการแพทย์และสาธารณสุข,1805
21,อาชีพเสี่ยง เช่น ทำงานในสถานที่แออัด หรือทำงานใกล้ชิดสัมผัสชาวต่างชาติ เป็นต้น,576
