## raw data를 pandas와 파이썬으로 조작해서 그래프 만들어보기

### 1. 데이터 시각화란?
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정
- 탐색적 데이터 분석, 데이터 처리, 데이터 예측 모든 경우, 결과를 알아보기 쉽게 하기 위해 데이터 시각화는 필수적임
- 다양한 시각화 기법 중, 가장 최신의 흥미로운 데이터 시각화 과정을 진행해보기로 함
  - https://app.flourish.studio
  - https://public.flourish.studio/visualisation/2897018/

### 지금까지 익힌 데이터 처리 기술을 기반으로 데이터 시각화를 위해, raw data를 포멧에 맞추어 변환하여 그래프를 만들어보기로 함
<img src="https://www.fun-coding.org/00_Images/covid_graph_ex2.jpg" />

### 2. 데이터 시각화를 위한 데이터 포멧 이해
- 데이터 시각화를 위해, raw data를 변환해야 함
- 지금까지 익힌 데이터 처리 기술을 사용해서, 데이터를 변환하기로 함

- 필요 데이터
  - 국가명, 국기, 날짜별 확진자 수

<img src="https://www.fun-coding.org/00_Images/covid_ex_data_format.jpg" />

### 3. raw data 가져오기

In [1]:
import pandas as pd
PATH = "COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/"
doc = pd.read_csv(PATH + "04-01-2020.csv", encoding='utf-8-sig')
doc.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key
0,45001.0,Abbeville,South Carolina,US,2020-04-01 21:58:49,34.223334,-82.461707,4,0,0,0,"Abbeville, South Carolina, US"
1,22001.0,Acadia,Louisiana,US,2020-04-01 21:58:49,30.295065,-92.414197,47,1,0,0,"Acadia, Louisiana, US"
2,51001.0,Accomack,Virginia,US,2020-04-01 21:58:49,37.767072,-75.632346,7,0,0,0,"Accomack, Virginia, US"
3,16001.0,Ada,Idaho,US,2020-04-01 21:58:49,43.452658,-116.241552,195,3,0,0,"Ada, Idaho, US"
4,19001.0,Adair,Iowa,US,2020-04-01 21:58:49,41.330756,-94.471059,1,0,0,0,"Adair, Iowa, US"


In [2]:
import pandas as pd
PATH = "COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/"
doc = pd.read_csv(PATH + "03-01-2020.csv", encoding='utf-8-sig')
doc.head()

Unnamed: 0,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered,Latitude,Longitude
0,Hubei,Mainland China,2020-03-01T10:13:19,66907,2761,31536,30.9756,112.2707
1,,South Korea,2020-03-01T23:43:03,3736,17,30,36.0,128.0
2,,Italy,2020-03-01T23:23:02,1694,34,83,43.0,12.0
3,Guangdong,Mainland China,2020-03-01T14:13:18,1349,7,1016,23.3417,113.4244
4,Henan,Mainland China,2020-03-01T14:13:18,1272,22,1198,33.882,113.614


- 3월 중순 데이터까지는 컬럼명이 Province/State, Country/Region 이고, 이후에는 Province_State, Country_Region 이므로, try except 구문을 사용해서, 데이터 조작

In [3]:
doc = pd.read_csv(PATH + "01-22-2020.csv", encoding='utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
    
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1.0
1,Beijing,Mainland China,14.0
2,Chongqing,Mainland China,6.0
3,Fujian,Mainland China,1.0
4,Gansu,Mainland China,


### 4. 데이터프레임 데이터 변환하기
1. 특정 컬럼만 선택해서 데이터프레임 만들기
2. 특정 컬럼에 없는 데이터 삭제하기
3. 특정 컬럼의 데이터 타입 변경하기

In [4]:
doc = pd.read_csv(PATH + "01-22-2020.csv", encoding='utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
doc = doc.dropna(subset=['Confirmed'])     # 2. 특정 컬럼에 없는 데이터 삭제하기
doc = doc.astype({'Confirmed': 'int64'})   # 3. 특정 컬럼의 데이터 타입 변경하기
doc.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1
1,Beijing,Mainland China,14
2,Chongqing,Mainland China,6
3,Fujian,Mainland China,1
5,Guangdong,Mainland China,26


- 국가 정보 가져오기

In [6]:
country_info = pd.read_csv("COVID-19-master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv", encoding='utf-8-sig')
country_info.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,UID,iso2,iso3,code3,FIPS,Admin2,Province_State,Country_Region,Lat,Long_,Combined_Key
0,0,0,,BW,,,,,,Botswana,,,Botswana
1,1,1,,BI,,,,,,Burundi,,,Burundi
2,2,2,,SL,,,,,,Sierra Leone,,,Sierra Leone
3,3,3,4.0,AF,AFG,4.0,,,,Afghanistan,33.93911,67.709953,Afghanistan
4,4,4,8.0,AL,ALB,8.0,,,,Albania,41.1533,20.1683,Albania


- 두 데이터프레임 합쳐보기

In [7]:
test_df = pd.merge(doc, country_info, how='left', on='Country_Region')
test_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3333 entries, 0 to 3332
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Province_State_x  3330 non-null   object 
 1   Country_Region    3333 non-null   object 
 2   Confirmed         3333 non-null   int64  
 3   Unnamed: 0        3308 non-null   float64
 4   Unnamed: 0.1      3308 non-null   float64
 5   UID               3308 non-null   float64
 6   iso2              3308 non-null   object 
 7   iso3              3308 non-null   object 
 8   code3             3308 non-null   float64
 9   FIPS              3302 non-null   float64
 10  Admin2            3246 non-null   object 
 11  Province_State_y  3305 non-null   object 
 12  Lat               3203 non-null   float64
 13  Long_             3203 non-null   float64
 14  Combined_Key      3308 non-null   object 
dtypes: float64(7), int64(1), object(7)
memory usage: 416.6+ KB


- 잘못 매칭된 국가 정보 확인하기
  - iso2 컬럼이 매칭되지 않은 확진자수 국가 확인해보기

In [8]:
test_df.isnull().sum()

Province_State_x      3
Country_Region        0
Confirmed             0
Unnamed: 0           25
Unnamed: 0.1         25
UID                  25
iso2                 25
iso3                 25
code3                25
FIPS                 31
Admin2               87
Province_State_y     28
Lat                 130
Long_               130
Combined_Key         25
dtype: int64

In [9]:
nan_rows = test_df[test_df['iso2'].isnull()]
nan_rows.head()

Unnamed: 0.2,Province_State_x,Country_Region,Confirmed,Unnamed: 0,Unnamed: 0.1,UID,iso2,iso3,code3,FIPS,Admin2,Province_State_y,Lat,Long_,Combined_Key
0,Anhui,Mainland China,1,,,,,,,,,,,,
1,Beijing,Mainland China,14,,,,,,,,,,,,
2,Chongqing,Mainland China,6,,,,,,,,,,,,
3,Fujian,Mainland China,1,,,,,,,,,,,,
4,Guangdong,Mainland China,26,,,,,,,,,,,,


### 컬럼값 변경하기
- Country_Region 국가명이 다양한 경우가 많았음
- 각 케이스를 일괄적으로 변경할 키값이 존재하지 않고, 키가 될 수 있는 컬럼도 다양하고, 각 파일마다 키가 될 수 있는 컬럼이 변경되어, 키값으로 매칭이 불가하였음
- 이에 각 케이스를 직접 확인해서, 국가명을 일관되게 변경할 수 있도록 별도 json 파일 작성
- json 파일 기반으로 국가명을 일관되게 변경하기로 함

#### json.load() 함수로 파일로된 json 데이터를 사전처럼 다룰 수 있음

In [10]:
import json

with open('COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding='utf-8-sig') as json_file:
    json_data = json.load(json_file)
    print (json_data.keys())

dict_keys(['Mainland China', 'Macau', 'South Korea', 'Aruba', ' Azerbaijan', 'Bahamas, The', 'Cape Verde', 'Cayman Islands', 'Channel Islands', 'Curacao', 'Czech Republic', 'East Timor', 'Faroe Islands', 'French Guiana', 'Gambia, The', 'Gibraltar', 'Greenland', 'Guadeloupe', 'Guam', 'Guernsey', 'Hong Kong', 'Hong Kong SAR', 'Iran (Islamic Republic of)', 'Ivory Coast', 'Jersey', 'Macao SAR', 'Martinique', 'Mayotte', 'North Ireland', 'Palestine', 'Puerto Rico', 'Republic of Ireland', 'Republic of Korea', 'Republic of Moldova', 'Republic of the Congo', 'Reunion', 'Russian Federation', 'Saint Barthelemy', 'Saint Martin', 'St. Martin', 'Taipei and environs', 'The Bahamas', 'The Gambia', 'UK', 'Vatican City', 'Viet Nam', 'occupied Palestinian territory', 'Taiwan*', 'Malawi', 'South Sudan', 'Western Sahara', 'Namibia'])


### apply() 함수 사용법
- apply() 함수를 사용해서, 특정 컬럼값 변경 가능

In [11]:
df = pd.DataFrame({
    '영어': [60, 70],
    '수학': [100, 50]
}, index = ['Dave', 'David'])
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [12]:
def func(df_data):
    print (type(df_data))    
    print (df_data.index)
    print (df_data.values)    
    return df_data

> 참고로 행이 두개 인데, 3번 func가 호출되는 이유는 apply() 함수 자체가, 첫 번째 행에 대해서는 두번 호출하도록 구현되어 있기 때문임 (전체 행의 처리를 위한 최적화 기법 적용 가능 여부를 확인코자 이와 같이 구현됨)

In [13]:
df_func = df.apply(func, axis=0) # 열로 데이터 인자를 받음

<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[60 70]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[100  50]


In [14]:
df_func = df.apply(func, axis=1) # 행으로 받음

<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 60 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[70 50]


In [None]:
df = pd.DataFrame({
    '영어': [60, 70],
    '수학': [100, 50]
}, index = ['Dave', 'David'])
df

In [None]:
def func(df_data):
    df_data['영어'] = 80
    return df_data

In [None]:
df_func = df.apply(func, axis=1)

In [None]:
df_func

### apply() 함수를 사용해서, 국가 컬럼값 변경하기

- 사전 작업 (doc 변수로 데이터프레임 파일 만들기)

In [None]:
import pandas as pd

doc = pd.read_csv(PATH + "01-22-2020.csv", encoding='utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
doc = doc.dropna(subset=['Confirmed'])     # 2. 특정 컬럼에 없는 데이터 삭제하기
doc = doc.astype({'Confirmed': 'int64'})   # 3. 특정 컬럼의 데이터 타입 변경하기
doc.head()

- 변경할 국가명을 가지고 있는 json 파일 읽기

In [None]:
import json

with open('COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding='utf-8-sig') as json_file:
    json_data = json.load(json_file)
    print (json_data.keys())

- Country_Region 이라는 컬럼값을 확인해서, 국가명이 다르게 기재되어 있을 경우에만, 지정한 국가명으로 변경

In [None]:
def func(row):
    if row['Country_Region'] in json_data:
        row['Country_Region'] = json_data[row['Country_Region']]
    return row

In [None]:
doc = doc.apply(func, axis=1)
doc.head()

### 참고: 파일명으로 데이터 변환하기

- lstrip(): 앞에(왼쪽에)서 특정 데이터 삭제하기, rstrip(): 뒤에(오른쪽에)서 특정 데이터 삭제하기
- replace(변경전데이터, 변경후데이터): 문자열에서 변경전데이터 를 변경후데이터 로 변경

In [None]:
data = "01-22-2020.csv"
date_column = data.split(".")[0].lstrip('0').replace('-', '/')
date_column

In [None]:
data = "01-22-2020.csv"
data.split('.')[0].lstrip("0").replace('-', '/')

In [None]:
doc.columns

In [None]:
doc.columns = ['Province_State', 'Country_Region', date_column]
doc.columns

In [None]:
doc.head()

### 5. 중복 데이터 합치기
- groupby() : 그룹별로 데이터를 집계하는 함수
  - 동일한 컬럼값으로 묶어서 통계 또는 평균등을 확인할 수 있음 

In [None]:
df = pd.DataFrame({
    '성별': ['남', '남', '남'],
    '이름': ['David', 'Dave', 'Dave'],
    '수학': [100, 50, 80],
    '국어': [80, 70, 50]    
})
df

In [None]:
df.groupby('이름').mean()

In [None]:
df.groupby('이름').sum()

- 국가별 총 확진자수 구하기

In [None]:
import pandas as pd

doc = pd.read_csv(PATH + "01-22-2020.csv", encoding='utf-8-sig')
try:
    doc = doc[['Province_State', 'Country_Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
except:
    doc = doc[['Province/State', 'Country/Region', 'Confirmed']]  # 1. 특정 컬럼만 선택해서 데이터프레임 만들기
    doc.columns = ['Province_State', 'Country_Region', 'Confirmed']
doc = doc.dropna(subset=['Confirmed'])     # 2. 특정 컬럼에 없는 데이터 삭제하기
doc = doc.astype({'Confirmed': 'int64'})   # 3. 특정 컬럼의 데이터 타입 변경하기
doc.head()

In [None]:
doc.groupby('Country_Region').sum()  # 4. Country_Region 컬럼값이 동일한 케이스를 그룹화해서, 각 그룹별 합계 확인하기

### 6. 데이터 전처리하기
- 지금까지의 과정을 모두 한데 모아서, 함수로 만들기
  1. csv 파일 읽기
  2. 'Country_Region', 'Confirmed' 두 개의 컬럼만 가져오기
  3. 'Confirmed' 에 데이터가 없는 행 삭제하기
  4. 'Country_Region'의 국가명을 여러 파일에 일관되게 변경하기
  5. 'Confirmed' 데이터 타입을 int64(정수) 로 변경
  6. 'Country_Region' 를 기준으로 중복된 데이터를 합치기
  7. 파일명을 기반으로 날짜 문자열 변환하고, 'Confirmed' 컬럼명 변경하기

In [None]:
import json

with open('COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding='utf-8-sig') as json_file:
    json_data = json.load(json_file)

def country_name_convert(row):
    if row['Country_Region'] in json_data:
        return json_data[row['Country_Region']]
    return row['Country_Region']

def create_dateframe(filename):

    doc = pd.read_csv(PATH + filename, encoding='utf-8-sig')  # 1. csv 파일 읽기
    try:
        doc = doc[['Country_Region', 'Confirmed']]  # 2. 특정 컬럼만 선택해서 데이터프레임 만들기
    except:
        doc = doc[['Country/Region', 'Confirmed']]  # 2. 특정 컬럼만 선택해서 데이터프레임 만들기
        doc.columns = ['Country_Region', 'Confirmed']
    doc = doc.dropna(subset=['Confirmed'])     # 3. 특정 컬럼에 없는 데이터 삭제하기
    doc['Country_Region'] = doc.apply(country_name_convert, axis=1)   # 4. 'Country_Region'의 국가명을 여러 파일에 일관되게 변경하기
    doc = doc.astype({'Confirmed': 'int64'})   # 5. 특정 컬럼의 데이터 타입 변경하기
    doc = doc.groupby('Country_Region').sum()  # 6. 특정 컬럼으로 중복된 데이터를 합치기

    # 7. 파일명을 기반으로 날짜 문자열 변환하고, 'Confirmed' 컬럼명 변경하기
    date_column = filename.split(".")[0].lstrip('0').replace('-', '/') 
    doc.columns = [date_column]
    return doc

### 테스트해보기

In [None]:
doc1 = create_dateframe("01-22-2020.csv")
doc2 = create_dateframe("04-01-2020.csv")

In [None]:
doc2.head()

#### 데이터프레임 합치기

In [None]:
doc = pd.merge(doc1, doc2, how='outer', left_index=True, right_index=True)
doc.head()

#### 없는 데이터는 0으로 값 대체하기

In [None]:
doc = doc.fillna(0)
doc

#### 참고: 특정 폴더 파일 리스트 확인하기
- split() 함수를 사용해서 특정 확장자를 가진 파일 리스트만 추출 가능
- 문자열변수.split('.') 은 ['파일명', '확장자'] 와 같은 리스트가 반환되므로, 문자열변수.split('.')[-1] 을 통해, 이 중에서 마지막 아이템을 선택하면 됨
  

In [None]:
import os

PATH = 'COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'
file_list = os.listdir(PATH)
csv_list = list()

for file in file_list:
    if file.split(".")[-1] == 'csv':
        csv_list.append(file)

print (csv_list)

#### 참고: 리스트 정렬
- 리스트변수.sort() : 오름차순 정렬 (디폴트)
- 리스트변수.sort(reverse=True) : 내림차순 정렬

In [None]:
csv_list.sort()
csv_list

### 6. 여러 데이터 수집, 전처리해서, 하나의 데이터프레임 만들기
- 지금까지의 과정을 모두 한데 모아서, 함수로 만들기
  1. 필요한 파일 리스트만 추출하기
  2. 파일 리스트 정렬하기
  3. 데이터프레임 전처리하기 (별도 create_dateframe() 함수)
  4. 데이터프레임 합치기

#### 최종 코드

In [None]:
import json
import pandas as pd

with open('COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding='utf-8-sig') as json_file:
    json_data = json.load(json_file)

def country_name_convert(row):
    if row['Country_Region'] in json_data:
        return json_data[row['Country_Region']]
    return row['Country_Region']

def create_dateframe(filename):

    doc = pd.read_csv(PATH + filename, encoding='utf-8-sig')  # 1. csv 파일 읽기
    try:
        doc = doc[['Country_Region', 'Confirmed']]  # 2. 특정 컬럼만 선택해서 데이터프레임 만들기
    except:
        doc = doc[['Country/Region', 'Confirmed']]  # 2. 특정 컬럼만 선택해서 데이터프레임 만들기
        doc.columns = ['Country_Region', 'Confirmed']
    doc = doc.dropna(subset=['Confirmed'])     # 3. 특정 컬럼에 없는 데이터 삭제하기
    doc['Country_Region'] = doc.apply(country_name_convert, axis=1)   # 4. 'Country_Region'의 국가명을 여러 파일에 일관되게 변경하기
    doc = doc.astype({'Confirmed': 'int64'})   # 5. 특정 컬럼의 데이터 타입 변경하기
    doc = doc.groupby('Country_Region').sum()  # 6. 특정 컬럼으로 중복된 데이터를 합치기

    # 7. 파일명을 기반으로 날짜 문자열 변환하고, 'Confirmed' 컬럼명 변경하기
    date_column = filename.split(".")[0].lstrip('0').replace('-', '/') 
    doc.columns = [date_column]
    return doc

In [None]:
import os

def generate_dateframe_by_path(PATH):

    file_list, csv_list = os.listdir(PATH), list()
    first_doc = True
    for file in file_list:
        if file.split(".")[-1] == 'csv':
            csv_list.append(file)
    csv_list.sort()
    
    for file in csv_list:
        doc = create_dateframe(file)
        if first_doc:
            final_doc, first_doc = doc, False
        else:
            final_doc = pd.merge(final_doc, doc, how='outer', left_index=True, right_index=True)

    final_doc = final_doc.fillna(0)
    return final_doc

In [None]:
PATH = 'COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'
doc = generate_dateframe_by_path(PATH)
doc

#### 참고: 데이터 타입 변환이 가능한 모든 열의 데이터 타입 변경
- pd.astype(데이터타입)
  - object 는 파이썬의 str 또는 혼용 데이터 타입 (문자열)
  - int64 는 파이썬의 int (정수)
  - float64 는 파이썬의 float (부동소숫점)
  - bool 는 파이썬의 bool (True 또는 False 값을 가지는 boolean)

In [None]:
doc = doc.astype('int64')
doc

#### pandas 라이브러리로 csv 파일 쓰기
- pandas dataframe 데이터를 csv 파일로 저장하기 위해, to_csv() 함수 사용
    ```
    doc.to_csv("00_data/students_default.csv")
    ```

- encoding 옵션 사용 가능
    ```
    doc.to_csv("00_data/students_default.csv", encoding='utf-8-sig')
    ```

In [None]:
doc.to_csv("COVID-19-master/final_df.csv")