# 전세계 코로나 바이러스 분석

* 날짜별 csv 파일을 읽어 지정한 날짜까지의 나라별 확진자수와, 회복자수, 사망자 수 분석하기

# 라이브러리 로드

In [3]:
import pandas as pd

# 데이터 로드

In [17]:
PATH = "../data/covid/covid_19_daily_reports/"
df1 = pd.read_csv(PATH  + "04-01-2020.csv",  encoding="utf-8-sig")
df1.head(1)

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key
0,45001.0,Abbeville,South Carolina,US,2020-04-01 21:58:49,34.223334,-82.461707,4,0,0,0,"Abbeville, South Carolina, US"


In [6]:
df2 = pd.read_csv(PATH+ "03-01-2020.csv",encoding="utf-8-sig")
df2.head(1)

Unnamed: 0,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered,Latitude,Longitude
0,Hubei,Mainland China,2020-03-01T10:13:19,66907,2761,31536,30.9756,112.2707


* 다른 날짜의 정보를 출력해 보니 컬럼명이 다르다는 것을 알 수 있음
* 3월 중순 데이터까지는 컬럼명이 Province/State, Country/Region 이고, 이후에는 Province_State, Country_Region 이므로, try~except 구문을 사용해서 조작

* for문을 돌려 날짜별 csv를 읽어들이려 한다면?

In [58]:
df = pd.read_csv(PATH + "01-22-2020.csv", encoding="utf-8-sig")
try:
    df = df[["Province_State", "Country_Region", "Confirmed"]]
except:
    df = df[["Province/State", "Country/Region", "Confirmed"]]
    df.columns = ["Province_State", "Country_Region", "Confirmed"]
df.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1.0
1,Beijing,Mainland China,14.0
2,Chongqing,Mainland China,6.0
3,Fujian,Mainland China,1.0
4,Gansu,Mainland China,


# 데이터 전처리
## 확진자 수 없는 경우 제거하기

In [24]:
# nan 데이터 보기

df.isnull().sum()

Province_State    3
Country_Region    0
Confirmed         9
dtype: int64

In [29]:
df = df.dropna(subset=["Confirmed"])
df = df.astype({"Confirmed": "int64"})
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29 entries, 0 to 37
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Province_State  26 non-null     object
 1   Country_Region  29 non-null     object
 2   Confirmed       29 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 928.0+ bytes


# 나라별 국기 정보 가져오기

* 우리가 만들려고 하는 차트는 나라별 국기 이미지가 필요한 상태이기 때문에 국기 이미지가 필요함
* 국기 이미지는 https://www.countryflags.io/ 사이트에서 가져오면 되는데 이미지 URL 작업이 필요함
<img src="../image/flag.png">
* 저 사이트의 나라명과 현재 우리가 가지고 있는 파일들의 나라명을 통일해야 함
* 이 때 사용하는 파일이 UID_ISO_FIPS_LookUp_Table.csv 인데, 현재 이 파일의 ISO2 컬럼을 사용할 예정
* 국가명 통일하는 작업 필요
<img src="../image/iso2.png">

## ISO2 값을 가지고 있는 csv 로드

In [13]:
# iso2 값을 가지고 있는 csv 로드

df_flag = pd.read_csv("../data/covid/UID_ISO_FIPS_LookUp_Table.csv",
                      encoding="utf-8-sig")
df_flag.head(3)

Unnamed: 0,UID,iso2,iso3,code3,FIPS,Admin2,Province_State,Country_Region,Lat,Long_,Combined_Key,Population
0,4,AF,AFG,4.0,,,,Afghanistan,33.93911,67.709953,Afghanistan,38928341.0
1,8,AL,ALB,8.0,,,,Albania,41.1533,20.1683,Albania,2877800.0
2,12,DZ,DZA,12.0,,,,Algeria,28.0339,1.6596,Algeria,43851043.0


In [61]:
# 코로나 확진자 파일과 iso2 값을 가지고 있는 df 합치기

iso_df = pd.merge(df, df_flag, how="left", on="Country_Region")
iso_df.head()

Unnamed: 0,Province_State_x,Country_Region,Confirmed,UID,iso2,iso3,code3,FIPS,Admin2,Province_State_y,Lat,Long_,Combined_Key,Population
0,Anhui,Mainland China,1.0,,,,,,,,,,,
1,Beijing,Mainland China,14.0,,,,,,,,,,,
2,Chongqing,Mainland China,6.0,,,,,,,,,,,
3,Fujian,Mainland China,1.0,,,,,,,,,,,
4,Gansu,Mainland China,,,,,,,,,,,,


In [49]:
iso_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3481 entries, 0 to 3480
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Province_State_x  3429 non-null   object 
 1   Country_Region    3481 non-null   object 
 2   Confirmed         3481 non-null   int64  
 3   UID               3456 non-null   float64
 4   iso2              3456 non-null   object 
 5   iso3              3456 non-null   object 
 6   code3             3456 non-null   float64
 7   FIPS              3382 non-null   float64
 8   Admin2            3341 non-null   object 
 9   Province_State_y  3452 non-null   object 
 10  Lat               3335 non-null   float64
 11  Long_             3335 non-null   float64
 12  Combined_Key      3456 non-null   object 
 13  Population        3335 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 407.9+ KB


In [33]:
# 합치고 나서 보니 null 정보가 있음을 알 수 있음
# 잘못 매칭된 국가 정보 확인하기 - iso2 컬럼이 매칭되지 않은 확진자 수 국가 확인하기

iso_df.isnull().sum()

Province_State_x     52
Country_Region        0
Confirmed             0
UID                  25
iso2                 25
iso3                 25
code3                25
FIPS                 99
Admin2              140
Province_State_y     29
Lat                 146
Long_               146
Combined_Key         25
Population          146
dtype: int64

In [67]:
#  'China' 로 들어가 있음

df_flag["Country_Region"].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antigua and Barbuda', 'Argentina', 'Armenia', 'Austria',
       'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados',
       'Belarus', 'Belgium', 'Belize', 'Benin', 'Bhutan', 'Bolivia',
       'Bosnia and Herzegovina', 'Botswana', 'Brazil', 'Brunei',
       'Bulgaria', 'Burkina Faso', 'Burma', 'Burundi', 'Cabo Verde',
       'Cambodia', 'Cameroon', 'Central African Republic', 'Chad',
       'Chile', 'Colombia', 'Congo (Brazzaville)', 'Congo (Kinshasa)',
       'Comoros', 'Costa Rica', "Cote d'Ivoire", 'Croatia', 'Cuba',
       'Cyprus', 'Czechia', 'Denmark', 'Diamond Princess', 'Djibouti',
       'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt',
       'El Salvador', 'Equatorial Guinea', 'Eritrea', 'Estonia',
       'Eswatini', 'Ethiopia', 'Fiji', 'Finland', 'France', 'Gabon',
       'Gambia', 'Georgia', 'Germany', 'Ghana', 'Greece', 'Grenada',
       'Guatemala', 'Guinea', 'Guinea-Bissau', 'Guyana', 

In [36]:
# iso 가 null 인 것만 데이터프레임으로 만들어서 확인하기
iso2_null = iso_df[iso_df["iso2"].isnull()]
iso2_null

Unnamed: 0,Province_State_x,Country_Region,Confirmed,UID,iso2,iso3,code3,FIPS,Admin2,Province_State_y,Lat,Long_,Combined_Key,Population
0,Anhui,Mainland China,1,,,,,,,,,,,
1,Beijing,Mainland China,14,,,,,,,,,,,
2,Chongqing,Mainland China,6,,,,,,,,,,,
3,Fujian,Mainland China,1,,,,,,,,,,,
4,Guangdong,Mainland China,26,,,,,,,,,,,
5,Guangxi,Mainland China,2,,,,,,,,,,,
6,Guizhou,Mainland China,1,,,,,,,,,,,
7,Hainan,Mainland China,4,,,,,,,,,,,
8,Hebei,Mainland China,1,,,,,,,,,,,
9,Henan,Mainland China,5,,,,,,,,,,,


* 출력 후 알게 되는 건 날짜별 코로나 파일에는 Mainland China 로 되어 있고, df_flag 파일의 국가명에는 China로 들어 있어 제대로 매칭이 안됨
* 그런데 일괄적으로 국가명을 바꾸기가 쉽지 않고, 일관된 파일을 가진 json 으로 작성함

## 국가명 json 작업

In [51]:
import json

with open("../data/covid/country_convert.json","r",encoding="utf-8-sig") as json_file:
    json_data = json.load(json_file)

# 키 값 확인
print(json_data.keys())
# value 값 확인
json_data.values()

dict_keys(['Mainland China', 'South Korea', 'Aruba', ' Azerbaijan', 'Bahamas, The', 'Cape Verde', 'Cayman Islands', 'Channel Islands', 'Curacao', 'Czech Republic', 'East Timor', 'Faroe Islands', 'French Guiana', 'Gambia, The', 'Gibraltar', 'Greenland', 'Guadeloupe', 'Guam', 'Guernsey', 'Hong Kong', 'Hong Kong SAR', 'Iran (Islamic Republic of)', 'Ivory Coast', 'Jersey', 'Macao SAR', 'Macau', 'Martinique', 'Mayotte', 'North Ireland', 'Palestine', 'Puerto Rico', 'Republic of Ireland', 'Republic of Korea', 'Republic of Moldova', 'Republic of the Congo', 'Reunion', 'Russian Federation', 'Saint Barthelemy', 'Saint Martin', 'St. Martin', 'Taipei and environs', 'The Bahamas', 'The Gambia', 'UK', 'Vatican City', 'Viet Nam', 'occupied Palestinian territory', 'Taiwan*', 'Malawi', 'South Sudan', 'Western Sahara', 'Namibia'])


dict_values(['China', 'Korea, South', 'Netherlands', 'Azerbaijan', 'Bahamas', 'Cabo Verde', 'United Kingdom', 'United Kingdom', 'Netherlands', 'Czechia', 'Timor-Leste', 'Denmark', 'France', 'Gambia', 'United Kingdom', 'Denmark', 'France', 'US', 'US', 'China', 'China', 'Iran', "Cote d'Ivoire", 'US', 'China', 'China', 'France', 'France', 'United Kingdom', 'West Bank and Gaza', 'US', 'Ireland', 'Korea, South', 'Moldova', 'Congo (Brazzaville)', 'France', 'Russia', 'France', 'France', 'US', 'Taiwan', 'Bahamas', 'Gambia', 'United Kingdom', 'Holy See', 'Vietnam', 'West Bank and Gaza', 'Taiwan', 'France', 'Sudan', 'Morocco', 'Namibia'])

* 데이터프레임에 들어있는 데이터들의 행을 가져와서 Contry_Region 의 값을 원하는 형태로 변경하기
* 키 값이 일치하면 value 명으로 나라명 변경

In [55]:
# 한 행을 인자로 받아 그 안의 Country_Region 의 이름이 json 데이터 파일과 매치되면
# json파일의 국가명으로 변경하기

def func(country):
    if (country["Country_Region"] in json_data):
        country["Country_Region"] = json_data[country["Country_Region"]]
    return country  # 바뀐 행 리턴

In [57]:
df = df.apply(func,axis=1)
df.head()  # Country_Region 이 Mainland China => China 로 변경됨

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,China,1
1,Beijing,China,14
2,Chongqing,China,6
3,Fujian,China,1
5,Guangdong,China,26


# 일자별 확진자 정보 파일

* 일자별 확진자 정보파일에서 파일명을 추출하여 확진자 컬럼명으로 사용하기

* 파일명으로 데이터 변환하기
* lstrip() : 왼쪽에서 특정 데이터 삭제하기
* rstrip() : 오른쪽에서 특정 데이터 삭제하기
* replace() : 특정 문자 변경하기

In [1]:
# 기본개념 연습

data = "01-22-2020.csv"
date_column = (data.split(".")[0].lstrip("0").replace("-", "/"))
date_column

'1/22/2020'

In [14]:
# 앞에서 했던 개념 다시 한번

# 특정 파일을 읽어서 원하는 컬럼 추출

PATH = "../data/covid/covid_19_daily_reports/"
doc = pd.read_csv(PATH + "01-22-2020.csv", encoding="utf-8-sig")
try:
    doc = doc[["Province_State", "Country_Region", "Confirmed"]]
except:
    doc = doc[["Province/State", "Country/Region", "Confirmed"]]
    # 컬럼명을 원하는 컬럼명으로 변경
    doc.columns = ["Province_State", "Country_Region", "Confirmed"]

# 확진자 수 없는 것 제거
doc = doc.dropna(subset=["Confirmed"])
# 확진자 수 컬럼 타입 변경
doc = doc.astype({"Confirmed": "int64"})
doc.columns

Index(['Province_State', 'Country_Region', 'Confirmed'], dtype='object')

In [15]:
import json

with open("../data/covid/country_convert.json", "r",
          encoding="utf-8-sig") as json_file:
    json_data = json.load(json_file)

In [8]:
# 원본 데이터의 행을 넘겨받아 json_data 안에 값이 있는지 확인하고 변경한 후
# 해당 행을 리턴


def func(country):
    if (country["Country_Region"] in json_data):
        country["Country_Region"] = json_data[country["Country_Region"]]
    return country  # 바뀐 행 리턴

In [9]:
# 함수 적용

doc = doc.apply(func,axis=1)

# 확진자 컬럼을 파일명으로 변경
doc.columns = ["Province_State","Country_Region",date_column]
print(doc.columns)
doc.head()

Index(['Province_State', 'Country_Region', '1/22/2020'], dtype='object')


Unnamed: 0,Province_State,Country_Region,1/22/2020
0,Anhui,China,1
1,Beijing,China,14
2,Chongqing,China,6
3,Fujian,China,1
5,Guangdong,China,26


In [10]:
# 사전 개념 - 중복 데이터 합치기
# groupby() : 그룹별로 데이터를 집계하는 함수
#             동일한 컬럼으로 묶어서 통계 또는 평균등을 확인할 수 있음
df = pd.DataFrame({
    "성별": ["남", "남", "남"],
    "이름": ["David", "Dave", "Dave"],
    "수학": [100, 50, 80],
    "국어": [80, 70, 50],
})
print(df)
df.groupby("이름").mean()

  성별     이름   수학  국어
0  남  David  100  80
1  남   Dave   50  70
2  남   Dave   80  50


Unnamed: 0_level_0,수학,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
Dave,65,60
David,100,80


In [11]:
# 그룹 평균 내기
df.groupby("이름").sum()

# 문자열 컬럼은 그냥 사라져 버림
# 그룹으로 잡은 것은 index로 됨

Unnamed: 0_level_0,수학,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
Dave,130,120
David,100,80


In [12]:
# 현재 프로젝트에 Country_Region 으로 합하기
doc.groupby("Country_Region").sum()

Unnamed: 0_level_0,1/22/2020
Country_Region,Unnamed: 1_level_1
China,548
Japan,2
"Korea, South",1
Taiwan,1
Thailand,2
US,1
