## Raw Data를 파이썬으로 조작하여 만든 그래프

### [ 1. 데이터 시각화 ]
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정
- 결과를 쉽게 알아보기 위해 데이터 시각화는 필수적이다.
- https://app.flourish.studio

### [ 2. 데이터 시각화를 위한 데이터 포멧 이해]
- 데이터 시각화를 위해, raw data를 변환해야한다.
- 필요 데이터 : 국가명, 국기, 날짜별 확진자 수

<img src="https://www.fun-coding.org/00_Images/covid_ex_data_format.jpg" />

### [ 3. Raw Data 가져오기 ]

#### 아래와 같이 Raw Data를 살펴보면 3월 전 까지는 지역 관련 데이터 컬럼이 Country/Region 으로 표기되어 있으나 4월 후 부터는 Country_Region으로 표기되어있음을 확인 할 수 있다. 

In [9]:
import pandas as pd
path = 'COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'
doc = pd.read_csv(path + '04-01-2020.csv', encoding = 'utf-8-sig')
doc.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key
0,45001.0,Abbeville,South Carolina,US,2020-04-01 21:58:49,34.223334,-82.461707,4,0,0,0,"Abbeville, South Carolina, US"
1,22001.0,Acadia,Louisiana,US,2020-04-01 21:58:49,30.295065,-92.414197,47,1,0,0,"Acadia, Louisiana, US"
2,51001.0,Accomack,Virginia,US,2020-04-01 21:58:49,37.767072,-75.632346,7,0,0,0,"Accomack, Virginia, US"
3,16001.0,Ada,Idaho,US,2020-04-01 21:58:49,43.452658,-116.241552,195,3,0,0,"Ada, Idaho, US"
4,19001.0,Adair,Iowa,US,2020-04-01 21:58:49,41.330756,-94.471059,1,0,0,0,"Adair, Iowa, US"


In [10]:
import pandas as pd
path = 'COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'
doc = pd.read_csv(path + '03-01-2020.csv', encoding = 'utf-8-sig')
doc.head()

Unnamed: 0,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered,Latitude,Longitude
0,Hubei,Mainland China,2020-03-01T10:13:19,66907,2761,31536,30.9756,112.2707
1,,South Korea,2020-03-01T23:43:03,3736,17,30,36.0,128.0
2,,Italy,2020-03-01T23:23:02,1694,34,83,43.0,12.0
3,Guangdong,Mainland China,2020-03-01T14:13:18,1349,7,1016,23.3417,113.4244
4,Henan,Mainland China,2020-03-01T14:13:18,1272,22,1198,33.882,113.614


#### 따라서, 위의 특정 컬럼명을 동일 표기하기 위해서 try,except 구문을 사용하여 데이터를 조작한다.

In [11]:
doc = pd.read_csv(path + '01-22-2020.csv', encoding = 'utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']

# 이를 이용해서 csv파일을 반복해서 읽어오게하면,
# Province/State의 컬럼명들은 Province_State로 수정된다.
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1.0
1,Beijing,Mainland China,14.0
2,Chongqing,Mainland China,6.0
3,Fujian,Mainland China,1.0
4,Gansu,Mainland China,


### [ 4. 데이터프레임의 데이터 변환하기 ]
- STEP 1. 특정 컬럼만 선택해서 데이터 프레임 만들기
- STEP 2. 특정 컬럼에 없는 데이터(NaN) 삭제하기
- STEP 3. 특정 컬럼의 데이터 타입 변경하기

In [12]:
doc = pd.read_csv(path + '01-22-2020.csv', encoding = 'utf-8-sig')
try:
    # STEP 1. 특정 컬럼만 선택해서 데이터 프레임 만들기
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]
except:
    # STEP 1. 특정 컬럼만 선택해서 데이터 프레임 만들기
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
# STEP 2. 특정 컬럼에 없는 데이터(NaN) 삭제하기
doc = doc.dropna(subset = ['Confirmed'])
# STEP 3. 특정 컬럼의 데이터 타입 변경하기
doc = doc.astype({'Confirmed' : 'int64'})
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1
1,Beijing,Mainland China,14
2,Chongqing,Mainland China,6
3,Fujian,Mainland China,1
5,Guangdong,Mainland China,26


- 국가 정보 가져오기
- 아래 차트에서는 iso2에 해당 국가의 단축어가 입력되어있다.
- 이 단축어를 이용하여 외부에서 국기 이미지를 가져 올 수 있다.

In [13]:
country_info = pd.read_csv("COVID-19-master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv", encoding='utf-8-sig')
country_info.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,UID,iso2,iso3,code3,FIPS,Admin2,Province_State,Country_Region,Lat,Long_,Combined_Key
0,0,0,,BW,,,,,,Botswana,,,Botswana
1,1,1,,BI,,,,,,Burundi,,,Burundi
2,2,2,,SL,,,,,,Sierra Leone,,,Sierra Leone
3,3,3,4.0,AF,AFG,4.0,,,,Afghanistan,33.93911,67.709953,Afghanistan
4,4,4,8.0,AL,ALB,8.0,,,,Albania,41.1533,20.1683,Albania


- 두 데이터 프레임 합쳐보기
- 실제 관심있는 데이터는 doc 이므로, doc를 기준으로 설정하기 위하여 left
- 또한, 데이터 프레임을 합쳤을 때, info() 함수를 이용하여, iso2가 NaN인 경우를 확인 할 수있다.

In [15]:
test_df = pd.merge(doc, country_info, how = 'left', on = 'Country_Region')
test_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3333 entries, 0 to 3332
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Province_State_x  3330 non-null   object 
 1   Country_Region    3333 non-null   object 
 2   Confirmed         3333 non-null   int64  
 3   Unnamed: 0        3308 non-null   float64
 4   Unnamed: 0.1      3308 non-null   float64
 5   UID               3308 non-null   float64
 6   iso2              3308 non-null   object 
 7   iso3              3308 non-null   object 
 8   code3             3308 non-null   float64
 9   FIPS              3302 non-null   float64
 10  Admin2            3246 non-null   object 
 11  Province_State_y  3305 non-null   object 
 12  Lat               3203 non-null   float64
 13  Long_             3203 non-null   float64
 14  Combined_Key      3308 non-null   object 
dtypes: float64(7), int64(1), object(7)
memory usage: 416.6+ KB


- NaN 데이터 확인
- 예를들어, Mainland China는 country_info 데이터에서 china로 입력되어있기 때문에, Mainland China는 Chaina로 데이터 수정이 필요하다. 
- 그 외에도,South korea의 경우, country_info 데이터에서는 Korea, South로 입력되어있기에 수정이 필요하다.

In [17]:
test_df.isnull().sum()

Province_State_x      3
Country_Region        0
Confirmed             0
Unnamed: 0           25
Unnamed: 0.1         25
UID                  25
iso2                 25
iso3                 25
code3                25
FIPS                 31
Admin2               87
Province_State_y     28
Lat                 130
Long_               130
Combined_Key         25
dtype: int64

In [22]:
nan_rows = test_df[test_df['iso2'].isnull()]
nan_rows

Unnamed: 0.2,Province_State_x,Country_Region,Confirmed,Unnamed: 0,Unnamed: 0.1,UID,iso2,iso3,code3,FIPS,Admin2,Province_State_y,Lat,Long_,Combined_Key
0,Anhui,Mainland China,1,,,,,,,,,,,,
1,Beijing,Mainland China,14,,,,,,,,,,,,
2,Chongqing,Mainland China,6,,,,,,,,,,,,
3,Fujian,Mainland China,1,,,,,,,,,,,,
4,Guangdong,Mainland China,26,,,,,,,,,,,,
5,Guangxi,Mainland China,2,,,,,,,,,,,,
6,Guizhou,Mainland China,1,,,,,,,,,,,,
7,Hainan,Mainland China,4,,,,,,,,,,,,
8,Hebei,Mainland China,1,,,,,,,,,,,,
9,Henan,Mainland China,5,,,,,,,,,,,,


### [ 5. 컬럼값 변경하기 ]
- Country_Region 국가명이 다양한 경우가 많았음
- 각 케이스를 일괄적으로 변경할 키값이 존재하지 않고, 키가 될 수 있는 컬럼도 다양하고, 각 파일마다 키가 될 수 있는 컬럼이 변경되어, 키값으로 매칭이 불가하였음
- 이에 각 케이스를 직접 확인해서, 국가명을 일관되게 변경할 수 있도록 별도 json 파일 작성
- json 파일 기반으로 국가명을 일관되게 변경하기로 함

In [24]:
import json

with open('COVID-19-master/csse_covid_19_data/country_convert.json','r',encoding ='utf-8-sig') as json_file:
          json_data = json.load(json_file)
          print(json_data)

{'Mainland China': 'China', 'Macau': 'China', 'South Korea': 'Korea, South', 'Aruba': 'Netherlands', ' Azerbaijan': 'Azerbaijan', 'Bahamas, The': 'Bahamas', 'Cape Verde': 'Cabo Verde', 'Cayman Islands': 'United Kingdom', 'Channel Islands': 'United Kingdom', 'Curacao': 'Netherlands', 'Czech Republic': 'Czechia', 'East Timor': 'Timor-Leste', 'Faroe Islands': 'Denmark', 'French Guiana': 'France', 'Gambia, The': 'Gambia', 'Gibraltar': 'United Kingdom', 'Greenland': 'Denmark', 'Guadeloupe': 'France', 'Guam': 'US', 'Guernsey': 'US', 'Hong Kong': 'China', 'Hong Kong SAR': 'China', 'Iran (Islamic Republic of)': 'Iran', 'Ivory Coast': "Cote d'Ivoire", 'Jersey': 'US', 'Macao SAR': 'China', 'Martinique': 'France', 'Mayotte': 'France', 'North Ireland': 'United Kingdom', 'Palestine': 'West Bank and Gaza', 'Puerto Rico': 'US', 'Republic of Ireland': 'Ireland', 'Republic of Korea': 'Korea, South', 'Republic of Moldova': 'Moldova', 'Republic of the Congo': 'Congo (Brazzaville)', 'Reunion': 'France', '

### [ 6. apply() 함수 사용법 ]
#### apply() 함수를 사용해서, 특정 컬럼값 변경 가능

In [26]:
df = pd.DataFrame({
    '영어' : [70, 90],
    '수학' : [100, 50],
}, index = ['Dave', 'David'])

df

Unnamed: 0,영어,수학
Dave,70,100
David,90,50


In [27]:
def func(df_data):
    print(type(df_data))
    print(df_data.index)
    print(df_data.values)
    return df_data

#### apply 함수의 axis 옵션이 0 일 경우, df의 행이 함수 옵션의 데이터로 삽입된다.

In [28]:
df_func = df.apply(func, axis = 0)

<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[70 90]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[70 90]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[100  50]


#### apply 함수의 axis 옵션이 1 일 경우, df의 열이 함수 옵션의 데이터로 삽입된다.

In [29]:
df_func=df.apply(func, axis = 1)

<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 70 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 70 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[90 50]


- 이때, apply() 함수를 이용하면, 첫 번쨰 행 또는 열에 대해서는 두번 호출하도록 구현되어 있기 때문에, 위처럼 총 세번 func가 호출된다.

#### 예시

In [31]:
df = pd.DataFrame({
    '영어' : [70, 90],
    '수학' : [100, 50],
}, index = ['Dave', 'David'])

df

Unnamed: 0,영어,수학
Dave,70,100
David,90,50


In [36]:
def df_func1(df_data):
    df_data['영어'] = 80
    return df_data

In [39]:
df = df.apply(df_func1, axis = 1)
df

Unnamed: 0,영어,수학
Dave,80,100
David,80,50


In [40]:
def df_func2(df_data):
    df_data['Dave'] = 100
    return df_data

In [42]:
df = df.apply(df_func2, axis = 0)
df

Unnamed: 0,영어,수학
Dave,100,100
David,80,50


### [ 7. apply() 함수를 사용해서, 국가 컬럼값 변경하기 ]

In [43]:
import pandas as pd
doc = pd.read_csv(path + '01-22-2020.csv', encoding = 'utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
doc = doc.dropna(subset = ['Confirmed'])
doc = doc.astype({'Confirmed' : 'int64'})
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1
1,Beijing,Mainland China,14
2,Chongqing,Mainland China,6
3,Fujian,Mainland China,1
5,Guangdong,Mainland China,26


- 변경할 국가명을 가지고 있는 json 파일 읽기

In [55]:
import json
with open('COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding = 'utf-8-sig') as json_file:
    json_data = json.load(json_file)
    print(json_data.items()

dict_items([('Mainland China', 'China'), ('Macau', 'China'), ('South Korea', 'Korea, South'), ('Aruba', 'Netherlands'), (' Azerbaijan', 'Azerbaijan'), ('Bahamas, The', 'Bahamas'), ('Cape Verde', 'Cabo Verde'), ('Cayman Islands', 'United Kingdom'), ('Channel Islands', 'United Kingdom'), ('Curacao', 'Netherlands'), ('Czech Republic', 'Czechia'), ('East Timor', 'Timor-Leste'), ('Faroe Islands', 'Denmark'), ('French Guiana', 'France'), ('Gambia, The', 'Gambia'), ('Gibraltar', 'United Kingdom'), ('Greenland', 'Denmark'), ('Guadeloupe', 'France'), ('Guam', 'US'), ('Guernsey', 'US'), ('Hong Kong', 'China'), ('Hong Kong SAR', 'China'), ('Iran (Islamic Republic of)', 'Iran'), ('Ivory Coast', "Cote d'Ivoire"), ('Jersey', 'US'), ('Macao SAR', 'China'), ('Martinique', 'France'), ('Mayotte', 'France'), ('North Ireland', 'United Kingdom'), ('Palestine', 'West Bank and Gaza'), ('Puerto Rico', 'US'), ('Republic of Ireland', 'Ireland'), ('Republic of Korea', 'Korea, South'), ('Republic of Moldova', 'Mo

- Country_Region 이라는 컬럼값을 확인해서, 국가명이 다르게 기재되어 있을 경우에만, 지정한 국가명으로 변경

In [49]:
def func(data):
    # ex) json_data의 Mainland China라는 키 값이 data['Country_Region']에 존재하기 때문에 True
    if data['Country_Region'] in json_data:   
        # 따라서, json_data['Mainland China'] 즉, Json 데이터에서 Mainland China 키값의 value인 china가
        # data['Country_Region']이 된다.
        # 그러므로, doc파일의 Mainland China는 China로 수정되어진다.
        data['Country_Region'] = json_data[data['Country_Region']]  
    return data

In [53]:
doc = doc.apply(func ,axis = 1)
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,China,1
1,Beijing,China,14
2,Chongqing,China,6
3,Fujian,China,1
5,Guangdong,China,26
