# W1M3 - ETL 프로세스 구현하기

### 요구사항
IMF에서 제공하는 국가별 GDP 데이터 ETL 프로세스

In [67]:
# ETL 프로세스를 구현한 etl_project_gdp.py 불러오기
import etl_project_gdp as epg

In [84]:
# Extract
file = epg.extract_gdp()
file

'raw_data_gdp.json'

Extract 단계는 raw data를 추출하는 단계임으로, 웹 스크래핑을 진행하여 가공되지 않은 테이블을 가져오고 json으로 파일 형식을 바꾸어 저장하는 과정으로 정의.

In [54]:
# Transform
df_gdp = epg.transform_gdp(file)
df_gdp

Unnamed: 0,country,gdp
0,United States,30337.16
1,China,19534.89
2,Germany,4921.56
3,Japan,4389.33
4,India,4271.92
...,...,...
178,Greenland,
184,Eritrea,
185,Zanzibar,
192,Sint Maarten,


Transform 단계는 raw data를 요구사항에 맞게 변화시키는 단계임으로, 기능 요구사항에 맞게 변화시키고 출력하기 이전까지의 과정으로 정의

In [69]:
# Load
epg.load_gdp(df_gdp)

          country       gdp continent
0   United States  30337.16        NA
1           China  19534.89        AS
2         Germany   4921.56        EU
3           Japan   4389.33        AS
4           India   4271.92        AS
..            ...       ...       ...
68     Uzbekistan    112.65        AS
69      Guatemala    112.37        NA
70           Oman    109.99        AS
71       Bulgaria    108.42        EU
72      Venezuela    106.33        SA

[72 rows x 3 columns]
                gdp
continent          
NA         6946.500
AS         6327.178
EU         3318.112
SA          791.566
OC          436.658
AF          285.184


Load 단계는 transform한 data를 적재하는 단계이지만, 이번 과제에서는 특정 공간에 적재하지 않고 출력하기에 출력 과정으로 정의

In [70]:
# ETL process
epg.ETL_gdp()

          country       gdp
0   United States  30337.16
1           China  19534.89
2         Germany   4921.56
3           Japan   4389.33
4           India   4271.92
..            ...       ...
68     Uzbekistan    112.65
69      Guatemala    112.37
70           Oman    109.99
71       Bulgaria    108.42
72      Venezuela    106.33

[72 rows x 2 columns]
                gdp
continent          
NA         6946.500
AS         6327.178
EU         3318.112
SA          791.566
OC          436.658
AF          285.184


### 추가 요구 사항
데이터 베이스 저장 후 SQL을 이용한 화면 출력.

In [71]:
# 추가 요구 사항을 반영하여 ETL 프로세스를 구현한 etl_project_gdp_with_sql.py 불러오기
import etl_project_gdp_with_sql as epgs

In [72]:
# Extract
file_sql = epgs.extract_gdp()
file_sql

'raw_data_gdp.json'

In [73]:
# Transform
df_gdp_sql = epgs.transform_gdp(file_sql)
df_gdp_sql

Unnamed: 0,country,GDP_USD_billion,continent
0,United States,30337.16,
1,China,19534.89,AS
2,Germany,4921.56,EU
3,Japan,4389.33,AS
4,India,4271.92,AS
...,...,...,...
178,Greenland,,
184,Eritrea,,AF
185,Zanzibar,,AF
192,Sint Maarten,,EU


이전 Transform 단계와 달리 국가별 region을 정해주는 과정을 Transform 단계에 포함

In [74]:
# Load
epgs.load_gdp(df_gdp_sql)

          country  GDP_USD_billion continent
0   United States         30337.16        NA
1           China         19534.89        AS
2         Germany          4921.56        EU
3           Japan          4389.33        AS
4           India          4271.92        AS
..            ...              ...       ...
67     Uzbekistan           112.65        AS
68      Guatemala           112.37        NA
69           Oman           109.99        AS
70       Bulgaria           108.42        EU
71      Venezuela           106.33        SA

[72 rows x 3 columns]
   TOP5 AVERAGE continent
0      6946.500        NA
1      6327.178        AS
2      3318.112        EU
3       791.566        SA
4       436.658        OC
5       285.184        AF


데이터베이스에 데이터를 적재하고, SQL을 이용하여 데이터를 출력

In [75]:
# ETL process
epgs.ETL_gdp()

          country  GDP_USD_billion continent
0   United States         30337.16        NA
1           China         19534.89        AS
2         Germany          4921.56        EU
3           Japan          4389.33        AS
4           India          4271.92        AS
..            ...              ...       ...
67     Uzbekistan           112.65        AS
68      Guatemala           112.37        NA
69           Oman           109.99        AS
70       Bulgaria           108.42        EU
71      Venezuela           106.33        SA

[72 rows x 3 columns]
   TOP5 AVERAGE continent
0      6946.500        NA
1      6327.178        AS
2      3318.112        EU
3       791.566        SA
4       436.658        OC
5       285.184        AF


이전 ETL과 동일한 결과

### 팀 활동 요구사항

### Q1. wikipeida 페이지가 아닌, IMF 홈페이지에서 직접 데이터를 가져오는 방법은 없을까요? 어떻게 하면 될까요?

IMF 홈페이지를 살펴본 결과, IMF에서 제공하는 api인 'https://www.imf.org/external/datamapper/api/v1/NGDPD'에 접근하여 테이블을 가져와야 한다.</br>
또한, 이 api는 html이 아닌 json 구조의 데이터를 제공하기에 beautilfulsoup4 패키지보다는 json 패키지를 이용해서 웹 스크래핑을 시도해야 한다.</br>
실습한 결과, html 방식에 비해 계층적 구조에서의 평탄화 작업이 필요하며 from_dict를 통해 딕셔너리를 데이터프레임으로 변경해주어야 한다.

In [106]:
import requests
import json

file = requests.get('https://www.imf.org/external/datamapper/api/v1/NGDPD', stream=True)
data = file.json()

# 데이터 평탄화 과정
ngdpd_data = data["values"]["NGDPD"]
df_hompage_gdp = pd.DataFrame.from_dict(ngdpd_data, orient="index")

# JSON 파일로 저장
df_hompage_gdp.to_json("IMF_homepage_gdp.json", indent=4)

pd.read_json("IMF_homepage_gdp.json")

Unnamed: 0,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,...,2020,2021,2022,2023,2024,2025,2026,2027,2028,2029
SDN,9.095,6.530,4.748,6.485,7.992,5.547,7.400,11.964,9.551,16.853,...,35.241,35.148,33.520,38.109,29.793,29.994,35.916,39.173,42.264,45.095
SLV,3.912,3.449,3.406,3.261,2.385,2.319,2.335,2.374,2.771,3.167,...,24.921,29.043,31.989,34.016,35.848,37.843,39.598,41.434,43.383,45.446
SWZ,0.754,0.798,0.714,0.734,0.628,0.497,0.635,0.831,0.986,1.006,...,3.984,4.851,4.791,4.856,5.145,5.422,5.677,5.908,6.153,6.393
FJI,1.303,1.339,1.293,1.217,1.276,1.236,1.398,1.276,1.202,1.281,...,4.432,4.305,4.970,5.442,5.773,6.081,6.415,6.767,7.136,7.516
FIN,53.714,52.620,53.111,51.056,53.032,56.223,73.652,91.775,109.255,119.106,...,269.784,294.419,280.462,295.618,306.083,319.989,333.638,345.727,358.352,371.296
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
MAC,,,,,,,,,,,...,25.344,30.969,24.464,47.061,53.447,59.274,63.466,66.973,70.515,74.229
AFG,,,,,,,,,,,...,20.136,14.278,14.501,17.329,,,,,,
NRU,,,,,,,,,,,...,0.125,0.176,0.157,0.154,0.160,0.179,0.188,0.197,0.204,0.214
SOM,,,,,,,,,,,...,8.628,9.484,10.203,10.969,12.729,13.887,15.054,16.265,17.533,18.997


성공적으로 Raw data를 생성하였다. Transpose 과정도 Raw data에 맞게 수정해주어야 할 것이다.


앞선 ETL 과정에서 국가를 지역으로 변환하는 과정을 진행했었다. 성공적으로 변환하긴 하였지만, IMF에서 구분한 국가의 지역은 6개보다 더 많게 구분지었다. 이를 수행하기 위해서는 IMF 지역에 맞는 맵핑을 진행해야 될 것이다.
또한 웹 스크래핑을 통해 직접적으로 지역별 평균 GDP를 가져오는 것은 가능했지만, 상위 5개의 국가의 평균은 웹 스크래핑 만으로는 가지고 올 수 없었기에 이 출력을 수행하기 위해서는 국가와 지역의 맵핑이 필수적이라고 결론 지었다.

### Q2. 만약 데이터가 갱신되면 과거의 데이터는 어떻게 되어야 할까요? 과거의 데이터를 조회하는 게 필요하다면 ETL 프로세스를 어떻게 변경해야 할까요?

과거 데이터가 추후에 필요한 상황이라면 갱신되기 전 과거 데이터가 저장되어 있어야한다. 과거 데이터를 저장하는 방법으로 생각한 방법은 다음과 같다.
1. Extract 과정을 진행할 때마다, raw data를 다른 파일명으로 저장한다.
2. 갱신 주기를 알고 있는 상황이라면, 로그를 확인하여 Extract 과정에서 그 주기를 초과했을 때, 새로운 파일을 저장한다.
3. 갱신이 수시로 진행된다면, 바로 이전에 추출한 raw data와 현재 추출한 raw data를 비교하여 변경점이 있는 경우에만 다른 파일로 저장한다.
4. 데이터를 데이터 베이스에 Load하며 갱신하는 과정에서 변경점이 존재할 때, 이력 테이블을 생성할 수 있도록 하는 과정을 추가한다.

방법 1은 저장 공간 측면에서는 손해이지만, 데이터 갱신 주기가 짧고 데이터 추출을 많이 하지 않을 때 유리한 방법일 것이다.</br>
방법 2는 갱신 주기가 지켜지지 않았을 때 잘못된 데이터를 추출할 수 있는 가능성은 있지만, 저장 공간 측면에서 유리한 방법일 것이다.</br>
방법 3은 raw data의 크기가 클 때 두 데이터를 비교하는 시간이 오래걸릴 수 있지만, 저장 공간 측면에서도 유리하고 과거 데이터 갱신을 무조건적으로 찾을 수 있는 방법일 것이다.</br>
방법 4는 적재하는 과정에서 과거 데이터를 관리하는 방법인데, 방법 1~3에서의 추출 조건과 결합하여 이력 테이블을 생성하는 조건으로써 활용될 수 있을 것이다.</br>