### 데이터 시각화
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현
- 탐색적 데이터 분석, 데이터 처리, 데이터 예측 모든 경우, 결과를 알아보기 쉽게하기 위해 필수.
- 참고 사이트 : https://app.flourish.studio

#### 1. 데이터확인

In [1]:
import pandas as pd
file_path = 'ex_datafile/COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'

csv = pd.read_csv(file_path+'04-01-2020.csv',encoding='utf-8')
csv.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key
0,45001.0,Abbeville,South Carolina,US,2020-04-01 21:58:49,34.223334,-82.461707,4,0,0,4,"Abbeville, South Carolina, US"
1,22001.0,Acadia,Louisiana,US,2020-04-01 21:58:49,30.295065,-92.414197,47,1,0,46,"Acadia, Louisiana, US"
2,51001.0,Accomack,Virginia,US,2020-04-01 21:58:49,37.767072,-75.632346,7,0,0,7,"Accomack, Virginia, US"
3,16001.0,Ada,Idaho,US,2020-04-01 21:58:49,43.452658,-116.241552,195,3,0,192,"Ada, Idaho, US"
4,19001.0,Adair,Iowa,US,2020-04-01 21:58:49,41.330756,-94.471059,1,0,0,1,"Adair, Iowa, US"


In [2]:
import pandas as pd
file_path = 'ex_datafile/COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/'

csv = pd.read_csv(file_path+'03-01-2020.csv',encoding='utf-8')
csv.head()

Unnamed: 0,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered,Latitude,Longitude
0,Hubei,Mainland China,2020-03-01T10:13:19,66907,2761,31536,30.9756,112.2707
1,,South Korea,2020-03-01T23:43:03,3736,17,30,36.0,128.0
2,,Italy,2020-03-01T23:23:02,1694,34,83,43.0,12.0
3,Guangdong,Mainland China,2020-03-01T14:13:18,1349,7,1016,23.3417,113.4244
4,Henan,Mainland China,2020-03-01T14:13:18,1272,22,1198,33.882,113.614


위에 데일리 데이터를 확인해보면 컬럼명이 변경이 되었다.<br>그래서 데이터 가공이 필요함.


#### 2. 데이터 가공

In [6]:
csv = pd.read_csv(file_path+'01-22-2020.csv',encoding='utf-8')
try : 
    csv = csv[['Province_State', 'Country_Region', 'Confirmed']] # col 지정해서 데이터프레임 추출

except:
    csv = csv[['Province/State', 'Country/Region', 'Confirmed']] # 해당 csv 파일의 col확인 후 데이터프레임 추출
    csv.columns = ['Province_State', 'Country_Region', 'Confirmed'] # 추출한 데이터프레임 col명 변경
    
csv.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1.0
1,Beijing,Mainland China,14.0
2,Chongqing,Mainland China,6.0
3,Fujian,Mainland China,1.0
4,Gansu,Mainland China,


In [8]:
csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Province_State  35 non-null     object 
 1   Country_Region  38 non-null     object 
 2   Confirmed       29 non-null     float64
dtypes: float64(1), object(2)
memory usage: 1.0+ KB


#### 3. 데이터 프레임 데이터 변환
    - 특정 컬럼만 선택해서 데이터프레임 만들기
    - 특정 컬럼에 없는 데이터 삭제(NaN)
    - 특정 컬럼의 데이터 타입 변경 ex) str -> int형변환

In [13]:
csv = pd.read_csv(file_path+'01-22-2020.csv',encoding='utf-8')
try : 
    csv = csv[['Province_State', 'Country_Region', 'Confirmed']] # col 지정해서 데이터프레임 추출

except:
    csv = csv[['Province/State', 'Country/Region', 'Confirmed']] # 해당 csv 파일의 col확인 후 데이터프레임 추출
    csv.columns = ['Province_State', 'Country_Region', 'Confirmed'] # 추출한 데이터프레임 col명 변경

csv = csv.dropna(subset=['Confirmed'])
csv = csv.astype({'Confirmed' : 'int64'})
csv.head()

Unnamed: 0,Province_State,Country_Region,Confirmed
0,Anhui,Mainland China,1
1,Beijing,Mainland China,14
2,Chongqing,Mainland China,6
3,Fujian,Mainland China,1
5,Guangdong,Mainland China,26


#### 4. 국가 코드 가져오기

In [15]:
country_info = pd.read_csv('ex_datafile/COVID-19-master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv', encoding='utf-8')
country_info.head()

Unnamed: 0,UID,iso2,iso3,code3,FIPS,Admin2,Province_State,Country_Region,Lat,Long_,Combined_Key,Population
0,4,AF,AFG,4.0,,,,Afghanistan,33.93911,67.709953,Afghanistan,38928341.0
1,8,AL,ALB,8.0,,,,Albania,41.1533,20.1683,Albania,2877800.0
2,10,AQ,ATA,10.0,,,,Antarctica,-71.9499,23.347,Antarctica,
3,12,DZ,DZA,12.0,,,,Algeria,28.0339,1.6596,Algeria,43851043.0
4,20,AD,AND,20.0,,,,Andorra,42.5063,1.5218,Andorra,77265.0


#### 5. 데이터 합치기

In [19]:
test_df = pd.merge(csv, country_info, how='left', on='Country_Region')
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3483 entries, 0 to 3482
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Province_State_x  3431 non-null   object 
 1   Country_Region    3483 non-null   object 
 2   Confirmed         3483 non-null   int64  
 3   UID               3457 non-null   float64
 4   iso2              3457 non-null   object 
 5   iso3              3457 non-null   object 
 6   code3             3457 non-null   float64
 7   FIPS              3384 non-null   float64
 8   Admin2            3343 non-null   object 
 9   Province_State_y  3454 non-null   object 
 10  Lat               3336 non-null   float64
 11  Long_             3336 non-null   float64
 12  Combined_Key      3457 non-null   object 
 13  Population        3336 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 381.1+ KB


In [21]:
test_df.isnull().sum()

Province_State_x     52
Country_Region        0
Confirmed             0
UID                  26
iso2                 26
iso3                 26
code3                26
FIPS                 99
Admin2              140
Province_State_y     29
Lat                 147
Long_               147
Combined_Key         26
Population          147
dtype: int64

In [22]:
show = test_df[test_df['iso2'].isnull()]
show.head()

Unnamed: 0,Province_State_x,Country_Region,Confirmed,UID,iso2,iso3,code3,FIPS,Admin2,Province_State_y,Lat,Long_,Combined_Key,Population
0,Anhui,Mainland China,1,,,,,,,,,,,
1,Beijing,Mainland China,14,,,,,,,,,,,
2,Chongqing,Mainland China,6,,,,,,,,,,,
3,Fujian,Mainland China,1,,,,,,,,,,,
4,Guangdong,Mainland China,26,,,,,,,,,,,


컬럼값 변경하기
- Country_Region 국가명이 다양한 경우가 많음
- 별도의 json 파일로 만든 후 일관되게 변경

In [24]:
import json

with open('ex_datafile/COVID-19-master/csse_covid_19_data/country_convert.json', 'r', encoding='utf-8') as json_file:
    json_data = json.load(json_file)
    print(json_data)

{'Mainland China': 'China', 'Macau': 'China', 'South Korea': 'Korea, South', 'Aruba': 'Netherlands', ' Azerbaijan': 'Azerbaijan', 'Bahamas, The': 'Bahamas', 'Cape Verde': 'Cabo Verde', 'Cayman Islands': 'United Kingdom', 'Channel Islands': 'United Kingdom', 'Curacao': 'Netherlands', 'Czech Republic': 'Czechia', 'East Timor': 'Timor-Leste', 'Faroe Islands': 'Denmark', 'French Guiana': 'France', 'Gambia, The': 'Gambia', 'Gibraltar': 'United Kingdom', 'Greenland': 'Denmark', 'Guadeloupe': 'France', 'Guam': 'US', 'Guernsey': 'US', 'Hong Kong': 'China', 'Hong Kong SAR': 'China', 'Iran (Islamic Republic of)': 'Iran', 'Ivory Coast': "Cote d'Ivoire", 'Jersey': 'US', 'Macao SAR': 'China', 'Martinique': 'France', 'Mayotte': 'France', 'North Ireland': 'United Kingdom', 'Palestine': 'West Bank and Gaza', 'Puerto Rico': 'US', 'Republic of Ireland': 'Ireland', 'Republic of Korea': 'Korea, South', 'Republic of Moldova': 'Moldova', 'Republic of the Congo': 'Congo (Brazzaville)', 'Reunion': 'France', '

### apply() 함수 사용법
- apply() 함수를 사용해서, 특정 컬럼값 변경 가능

In [28]:
df = pd.DataFrame({
    '영어' : [60, 70],
    '수학' : [100, 50]
    }, index = ['Dave', 'David']
)
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [29]:
def func(df_data):
    print(type(df_data)) # 타입 확인
    print(df_data.index) # 인덱스 확인
    print(df_data.values) # 값 확인
    return df_data  

In [30]:
df_func = df.apply(func, axis=0)

<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[60 70]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[100  50]


↑<br> 행이 2개인데 3번 출력되는 이유는 apply() 함수 자체가, 첫번째 행에 대해서는 두번 호출하도록 구성되어있기때문이다.

In [31]:
df = pd.DataFrame({
    '영어' : [60, 70],
    '수학' : [100, 50]
    }, index = ['Dave', 'David']
)
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [32]:
def func(df_data):
    df_data['영어'] = 80
    return df_data

In [33]:
a = df.apply(func, axis=1)

In [34]:
a

Unnamed: 0,영어,수학
Dave,80,100
David,80,50


### apply() 함수 사용해서, 국가 컬럼값 변경하기