# W1M3 - ETL 프로세스 구현하기

--- 

#### 학습 목표
웹사이트에서 데이터를 가져와서 요구사항에 맞게 가공하는 ETL 파이프라인을 만듭니다.
- Web Scraping에 대한 이해
- Pandas DataFrame에 대한 이해
- ETL Process에 대한 이해
- Database & SQL 기초



#### 사전지식
##### 시나리오
- 당신은 해외로 사업을 확장하고자 하는 기업에서 Data Engineer로 일하고 있습니다. 경영진에서 GDP가 높은 국가들을 대상으로 사업성을 평가하려고 합니다.
- 이 자료는 앞으로 경영진에서 지속적으로 요구할 것으로 생각되기 때문에 자동화된 스크립트를 만들어야 합니다.

##### 기능요구사항
- IMF에서 제공하는 국가별 GDP를 구하세요. (https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29)
- 국가별 GDP를 확인할 수 있는 테이블을 만드세요.
- 해당 테이블에는 GDP가 높은 국가들이 먼저 나와야 합니다.
- GDP의 단위는 1B USD이어야 하고 소수점 2자리까지만 표시해 주세요.
- IMF에서 매년 2회 이 자료를 제공하기 때문에 정보가 갱신되더라도 해당 코드를 재사용해서 정보를 얻을 수 있어야 합니다.



#### 화면 출력
- GDP가 100B USD이상이 되는 국가만을 구해서 화면에 출력해야 합니다.
- 각 Region별로 top5 국가의 GDP 평균을 구해서 화면에 출력해야 합니다.



#### 프로그래밍 요구사항
##### 라이브러리 사용
- web scaping은 BeautifulSoup4 라이브러리를 사용하세요.
- 데이터 처리를 위해서 pandas 라이브러리를 사용하세요.
- 로그 기록 시에 datetime 라이브러리를 사용하세요.

##### 코드 가독성
- 코드 가독성을 높이기 위해 1) 주석을 사용해서 설명을 추가하고 2) 함수를 만들어서 가독성과 재사용성을 높이세요.

##### 화일 포맷, 데이터베이스 이름 등
- 추출 (Extract)한 정보는 'Countries_by_GDP.json'라는 이름의 JSON 화일 포맷으로 저장해야 합니다.
- 필요한 모든 작업을 수행하는 'etl_project_gdp.py' 코드를 작성하세요.

##### ETL 프로세스
- ETL 프로세스에 따라 코드를 작성하고 각 단계의 시작과 끝을 로그에 기록하세요.
- 이 모든 처리 과정은 'etl_project_log.txt'라는 로그 화일에 기록되어야 합니다. (로그 화일은 매번 다시 생성하는 것이 아니라 기존 화일에 append되어야 합니다.)
- log는 "time, log" 형식으로 기록하세요. 시간은 'Year-Monthname-Day-Hour-Minute-Second' 포맷에 맞게 표시하세요.



#### 팀 활동 요구사항
- wikipeida 페이지가 아닌, IMF 홈페이지에서 직접 데이터를 가져오는 방법은 없을까요? 어떻게 하면 될까요?
- 만약 데이터가 갱신되면 과거의 데이터는 어떻게 되어야 할까요? 과거의 데이터를 조회하는 게 필요하다면 ETL 프로세스를 어떻게 변경해야 할까요?



#### 추가 요구 사항
##### 코드를 수정해서 아래 요구사항을 구현하세요.
- 추출한 데이터를 데이터베이스에 저장하세요. 'Countries_by_GDP'라는 테이블명으로 'World_Economies.db'라는 데이터 베이스에 저장되어야 합니다. 해당 테이블은 'Country', 'GDP_USD_billion'라는 어트리뷰트를 반드시 가져야 합니다.
    - 데이터베이스는 sqlite3 라이브러리를 사용해서 만드세요.
- 필요한 모든 작업을 수행하는 'etl_project_gdp_with_sql.py' 코드를 작성하세요.

##### 화면 출력
- SQL Query를 사용해야 합니다.
- GDP가 100B USD이상이 되는 국가만을 구해서 화면에 출력해야 합니다.
- 각 Region별로 top5 국가의 GDP 평균을 구해서 화면에 출력해야 합니다.


---

## 팀 활동 요구사항

#### wikipeida 페이지가 아닌, IMF 홈페이지에서 직접 데이터를 가져오는 방법은 없을까요? 어떻게 하면 될까요?


> - IMF 홈페이지에서 가져오기 방법 : https://www.imf.org/en/Publications/WEO/weo-database/2024/October/weo-report?c=512,914,612,171,614,311,213,911,314,193,122,912,313,419,513,316,913,124,339,638,514,218,963,616,223,516,918,748,618,624,522,622,156,626,628,228,924,233,632,636,634,238,662,960,423,935,128,611,321,243,248,469,253,642,643,939,734,644,819,172,132,646,648,915,134,652,174,328,258,656,654,336,263,268,532,944,176,534,536,429,433,178,436,136,343,158,439,916,664,826,542,967,443,917,544,941,446,666,668,672,946,137,546,674,676,548,556,678,181,867,682,684,273,868,921,948,943,686,688,518,728,836,558,138,196,278,692,694,962,142,449,564,565,283,853,288,293,566,964,182,359,453,968,922,714,862,135,716,456,722,942,718,724,576,936,961,813,726,199,733,184,524,361,362,364,732,366,144,146,463,528,923,738,578,537,742,866,369,744,186,925,869,746,926,466,112,111,298,927,846,299,582,487,474,754,698,&s=NGDPD,&sy=2022&ey=2029&ssm=0&scsm=1&scc=0&ssd=1&ssc=0&sic=0&sort=country&ds=.&br=1
> - 덤프파일이나 API 사용하기  
>       - IMF는 데이터 액세스를 위한 API를 제공한다. API를 사용하면 공식적인 방식으로 데이터를 가져올 수 있다.  
>       - 그러므로 최신 데이터와 대규모 데이터를 자동으로 관리할 수 있을 듯 하다


####  만약 데이터가 갱신되면 과거의 데이터는 어떻게 되어야 할까요? 과거의 데이터를 조회하는 게 필요하다면 ETL 프로세스를 어떻게 변경해야 할까요?
> 과거의 데이터는 칼럼에 연도별로 추가해보는 방법  
    - 데이터가 누적될수록 열(column)이 너무 많아지고, 테이블 관리가 어려워질 수 있음  
    - 그래도 직관적이라 좋은 것 같다  
> row가 많지 않으니까 칼럼을 쌓는 방법도 있는 듯  
    - 추가 데이터가 생겨도 테이블 구조를 변경하지 않으므로 좋은 듯하나  
    - 데이터 중복이 발생할 가능성도 있을 듯 하다  
> 데이터를 데이터베이스에 적재하면서, 과거 데이터를 별도로 보관하는 방법? 혹은 유효기간을 두는 방법 등을 생각해 볼 수 있을 듯 하다

---

# 최종 완성 코드 (etl_project_gdp_with_sql.py)

In [6]:

import configparser
import json
import os
import pandas as pd
import requests
import sqlite3
import datetime
from bs4 import BeautifulSoup
from tabulate import tabulate

# 로그 기록 시작 함수
def log_started():
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write("\n" + "="*50 + "\n")
        timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
        log_file.write(f"New execution at {timestamp}")
        log_file.write("\n" + "="*50 + "\n")

# 로그 기록 함수
def log_message(message, level="INFO"):
    timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp} - {level} - {message}\n")

# 설정 파일 읽기
def load_config(config_path='config.ini'):
    if not os.path.exists(config_path):
        log_message(f"Configuration file '{config_path}' not found.", level="ERROR")
        raise FileNotFoundError((f"Configuration file '{config_path}' not found."))
    
    config = configparser.ConfigParser()
    config.read(config_path)
    
    if 'DEFAULT' not in config or 'URL' not in config['DEFAULT'] or 'TABLE_CLASS' not in config['DEFAULT']:
        log_message("Invalid or missing configuration values in 'config.ini'.", level="ERROR")
        raise ValueError("Invalid or missing configuration values in 'config.ini'.")
    
    return config['DEFAULT']['URL'], config['DEFAULT']['TABLE_CLASS']
    

# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}", level="ERROR")
        raise
    
def extract_gdp_data(url, table_class):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status() # HTTP 응답 상태 코드를 확인. 200번대가 아닌 경우(예: 404, 500 등) HTTPError 예외를 발생시킴
        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', {'class': table_class})
        
        if table is None:
            log_message("No table found with the specified class.", level="ERROR")
            raise ValueError("Failed to locate the GDP table on the webpage.")
            
        df = pd.read_html(str(table))[0]  # 위키피디아에서 제공하는 표를 Pandas로 읽고 객체를 문자열로 변환
        
        df = df.iloc[:, [0, 1, 2]]  # 필요한 칼럼만 선택 (모든 행과 0, 1, 2번째 열을 선택)
        df.columns = ['Country', 'GDP (Nominal)', 'Year']
        
        df = df.dropna(subset=['Country', 'GDP (Nominal)']) # NaN 데이터 제거 
        df['GDP (B USD)'] = ( # GDP 값 정리 및 변환
            df['GDP (Nominal)']
            .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
            .replace('', '0')  # 빈 문자열을 '0'으로 대체
            .astype(float)  # float으로 변환
            / 1e3  # 단위를 B USD로 변환
        )
        df['Year'] = df['Year'].str.replace(r'\[.*?\]', '', regex=True) # 각주 제거 (sup 이런 게 자꾸 따라와서..)
        df = df[['Country', 'GDP (B USD)', 'Year']]
        
        return df
        
    except Exception as e:
        log_message(f"Error during data extraction: {str(e)}", level="ERROR")
        raise


# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transmission")
    try:
        df = df.sort_values(by='GDP (B USD)', ascending=False)  # 정렬
        df['GDP (B USD)'] = df['GDP (B USD)'].round(2)  # 소수점 2자리로 반올림
        
        with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
            region_data = json.load(region_file)
        df['Region'] = df['Country'].map(region_data)
        return df
        
    except Exception as e:
        log_message(f"Error during data transformation: {str(e)}", level="ERROR")
        raise



def load_gdp_data(df):
    log_message("Loading data into SQLite database")
    try:
        # SQLite 데이터베이스에 연결
        conn = sqlite3.connect('World_Economies.db')
        
        df[['Country', 'GDP (B USD)', 'Year', 'Region']].rename(
            columns={'GDP (B USD)': 'GDP_USD_billion'}
        ).to_sql( # 데이터프레임 데이터를 SQL 테이블로 변환하여 데이터베이스에 저장하는 pandas 메서드입
            'Countries_by_GDP', conn, if_exists='replace', index=False
        )
        
        conn.close()
        log_message("Data successfully loaded into SQLite database")
        
        
    except Exception as e:
        log_message(f"Error while loading data into SQLite database: {str(e)}", level="ERROR")
        raise



# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 추가 요구사항 구현
def display_countries_with_gdp_over_100():
    log_message("Displaying countries with GDP over 100B USD")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = "SELECT Country, GDP_USD_billion FROM Countries_by_GDP WHERE GDP_USD_billion >= 100"
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Countries with GDP >= 100B USD:")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for countries with GDP >= 100B: {str(e)}", level="ERROR")
        raise
    
# Region별 상위 5개 국가의 GDP 평균 계산 및 출력
def display_region_top5_average_gdp():
    log_message("Calculating average GDP of top 5 countries by region")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = """
        WITH RankedCountries AS (
            SELECT Country, GDP_USD_billion, Region,
                   RANK() OVER (PARTITION BY Region ORDER BY GDP_USD_billion DESC) AS Rank
            FROM Countries_by_GDP
            WHERE Region IS NOT NULL
        )
        SELECT Region, AVG(GDP_USD_billion) AS Avg_Top5_GDP
        FROM RankedCountries
        WHERE Rank <= 5
        GROUP BY Region
        """
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Average GDP of top 5 countries by region (excluding None):")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for top 5 average GDP: {str(e)}", level="ERROR")
        raise


def etl_process():
    try:
        # 시작 시간 기록
        start_time = datetime.datetime.now()
        
        log_started()
        log_message("ETL Process Started")
        
        # 설정 로드
        url, table_class = load_config()
        
        # Extract
        extracted_data = extract_gdp_data(url, table_class)
        
        # Save Extracted Data
        save_gdp_data(extracted_data)
        
        # Transform
        transformed_data = transform_gdp_data(extracted_data)
        
        # Save Transformed Data
        save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')
        
        # Load into SQLite Database
        load_gdp_data(transformed_data)

        # Additional Analyses
        display_region_top5_average_gdp()
        display_countries_with_gdp_over_100()


        log_message("ETL Process Completed Successfully")
        
        # 종료 시간 기록 및 소요 시간 계산
        end_time = datetime.datetime.now()
        elapsed_time = end_time - start_time
        
        # 소요 시간 로그에 기록 및 출력
        log_message(f"ETL Process Duration: {elapsed_time}")
    
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}", level="ERROR")
        
        
if __name__ == "__main__":
    etl_process()

Average GDP of top 5 countries by region (excluding None):
+---------------+-------------------+
|    Region     |   Avg_Top5_GDP    |
+---------------+-------------------+
|    Africa     |      256.134      |
|     Asia      | 6255.969999999999 |
|    Europe     |     3318.112      |
| North America |      6946.5       |
|    Oceania    | 734.8399999999999 |
| South America |      797.566      |
+---------------+-------------------+
Countries with GDP >= 100B USD:
+----------------------+-----------------+
|       Country        | GDP_USD_billion |
+----------------------+-----------------+
|        World         |    115494.31    |
|    United States     |    30337.16     |
|        China         |    19534.89     |
|       Germany        |     4921.56     |
|        Japan         |     4389.33     |
|        India         |     4271.92     |
|    United Kingdom    |     3730.26     |
|        France        |     3283.43     |
|        Italy         |     2459.6      |
|        Cana

  df = pd.read_html(str(table))[0]  # 위키피디아에서 제공하는 표를 Pandas로 읽고 객체를 문자열로 변환


---

# 작업 과정 중 완성된 코드들
---

### version1
출력해야하는 함수를 따로 만들지 않고 Transform 단계에 넣은 것 (추가 요구사항 적용 X 된 버전)

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json

# 로그 기록 함수
def log_message(message):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp}, {message}\n")

# Extract
def extract_gdp_data(url):
    log_message("Starting Data Extraction")
    # HTTP 요청 후 파싱해서 데이터 추출
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'wikitable'})
    rows = table.find_all('tr')

    data = []
    for row in rows[1:]:  # 첫 번째 행은 헤더
        cols = row.find_all('td')
        cleaned_cols = []
        for col in cols:
            # 'sup' 태그 제거
            for sup in col.find_all('sup'):
                sup.decompose()
            cleaned_cols.append(col.text.strip())  # 텍스트 정리
        if cleaned_cols:  # 빈 행 제외
            try:
                country = cleaned_cols[0]  # 국가명
                gdp_raw = cleaned_cols[1]  # GDP 값 (Nominal GDP)
                gdp_year = cleaned_cols[2]
                gdp_cleaned = ''.join(filter(str.isdigit, gdp_raw.split('.')[0]))
                if gdp_cleaned:  # GDP 값이 유효한 경우만 추가
                    gdp = int(gdp_cleaned) / 1e3  # 단위를 1B USD로 변환
                    data.append({'Country': country, 'GDP (B USD)': round(gdp, 2), 'Year': gdp_year})
            except IndexError:
                # 예상치 못한 데이터 구조를 무시
                continue
    log_message("Data Extraction Completed")
    
    return data

# Transform
def transform_gdp_data(data):
    log_message("Starting Data Transformation")
    # 데이터프레임 생성
    df = pd.DataFrame(data)

    # GDP 순으로 정렬
    df = df.sort_values(by='GDP (B USD)', ascending=False)
    
    # 국가별 Region 정보 매핑
    with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
        region_data = json.load(region_file)
    df['Region'] = df['Country'].map(region_data)
    
    # GDP가 100B USD 이상인 국가만 필터링
    filtered_df = df[df['GDP (B USD)'] >= 100]
    print(filtered_df)
    
    # Region별 상위 5개 국가의 GDP 평균 계산
    region_top5_avg = (
        filtered_df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    
    # 결과 출력
    print(region_top5_avg)
    
    log_message("Data Transformation Completed")
    return df

# Load
def load_gdp_data(df, output_csv_file='gdp_by_country.csv', output_json_file='Countries_by_GDP.json'):
    log_message("Starting Data Loading")
    try:
        # CSV 파일로 저장
        df.to_csv(output_csv_file, index=False)
        log_message(f"CSV file saved as {output_csv_file}")
        
        # JSON 파일로 저장
        data_as_dict = df.to_dict(orient='records')  # DataFrame을 딕셔너리 리스트로 변환
        with open(output_json_file, 'w', encoding='utf-8') as json_file:
            json.dump(data_as_dict, json_file, ensure_ascii=False, indent=4)
        log_message(f"JSON file saved as {output_json_file}")
        
        log_message("Data Loading Completed Successfully")
        
    except Exception as e:
        log_message(f"Data Loading Failed: {str(e)}")
        raise  # 예외를 다시 던져 ETL 프로세스에서 처리 가능

# 메인 ETL 함수
def etl_process():
    url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)"
    try:
        log_message("ETL Process Started")
        # Extract
        data = extract_gdp_data(url)
        # Transform
        transformed_data = transform_gdp_data(data)
        # Load
        load_gdp_data(transformed_data)  
        log_message("ETL Process End Successfully")
        
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}")

if __name__ == "__main__":
    etl_process()



          Country  GDP (B USD)  Year         Region
0           World    115494.31  2025            NaN
1   United States     30337.16  2025  North America
2           China     19534.89  2025           Asia
3         Germany      4921.56  2025         Europe
4           Japan      4389.33  2025           Asia
..            ...          ...   ...            ...
68     Uzbekistan       112.65  2024           Asia
69      Guatemala       112.37  2024  North America
70           Oman       109.99  2024           Asia
71       Bulgaria       108.42  2024         Europe
72      Venezuela       106.33  2024  South America

[73 rows x 4 columns]
          Region  Top 5 Avg GDP (B USD)
0         Africa             238.182000
1           Asia            6255.970000
2         Europe            3318.112000
3  North America            6946.500000
4        Oceania            1212.226667
5  South America             791.566000


  filtered_df.groupby('Region')


### version2
변경사항: 출력해야하는 것을 함수로 따로 빼놓은 것 (추가 요구사항 적용 X 된 버전)

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json

# 로그 기록 함수
def log_message(message):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp}, {message}\n")

# Extract
def extract_gdp_data(url):
    log_message("Starting Data Extraction")
    # HTTP 요청 후 파싱해서 데이터 추출
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'wikitable'})
    rows = table.find_all('tr')

    data = []
    for row in rows[1:]:  # 첫 번째 행은 헤더이므로 제외함
        cols = row.find_all('td')
        cleaned_cols = []
        for col in cols:
            # 'sup' 태그 제거함. [n 1] 이런식으로 자꾸 떠서
            for sup in col.find_all('sup'):
                sup.decompose()
            cleaned_cols.append(col.text.strip())  # 텍스트 정리
        if cleaned_cols:  # 빈 행 제외
            try:
                country = cleaned_cols[0]  # 국가명
                gdp_raw = cleaned_cols[1]  # GDP 값 (Nominal GDP)
                gdp_year = cleaned_cols[2]
                gdp_cleaned = ''.join(filter(str.isdigit, gdp_raw.split('.')[0]))
                if gdp_cleaned:  # GDP 값이 유효한 경우만 추가
                    gdp = int(gdp_cleaned) / 1e3  # 단위를 1B USD로 변환
                    data.append({'Country': country, 'GDP (B USD)': round(gdp, 2), 'Year': gdp_year})
            except IndexError:
                # 예상치 못한 데이터 구조를 무시
                continue
    log_message("Data Extraction Completed")
    
    return data

# Transform
def transform_gdp_data(data):
    log_message("Starting Data Transformation")
    # 데이터프레임 생성
    df = pd.DataFrame(data)

    # GDP 순으로 정렬
    df = df.sort_values(by='GDP (B USD)', ascending=False)
    
    # 국가별 Region 정보 매핑
    with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
        region_data = json.load(region_file)
    df['Region'] = df['Country'].map(region_data)
    
    log_message("Data Transformation Completed")
    return df

# Load
def load_gdp_data(df, output_csv_file='gdp_by_country.csv', output_json_file='Countries_by_GDP.json'):
    log_message("Starting Data Loading")
    try:
        # CSV 파일로 저장
        df.to_csv(output_csv_file, index=False)
        log_message(f"CSV file saved as {output_csv_file}")
        
        # JSON 파일로 저장
        data_as_dict = df.to_dict(orient='records')  # DataFrame을 딕셔너리 리스트로 변환
        with open(output_json_file, 'w', encoding='utf-8') as json_file:
            json.dump(data_as_dict, json_file, ensure_ascii=False, indent=4)
        log_message(f"JSON file saved as {output_json_file}")
        
        log_message("Data Loading Completed Successfully")
        
    except Exception as e:
        log_message(f"Data Loading Failed: {str(e)}")
        raise  # 예외를 다시 던져 ETL 프로세스에서 처리 가능


# GDP가 100B USD 이상인 국가만 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    
    
 # Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    

# 메인 ETL 함수
def etl_process():
    url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)"
    try:
        log_message("ETL Process Started")
        # Extract
        data = extract_gdp_data(url)
        # Transform
        transformed_data = transform_gdp_data(data)
        # Load
        load_gdp_data(transformed_data)  
        log_message("ETL Process End Successfully")
        
        # GDP가 100B USD 이상인 국가만 필터링
        filtered_100USD(transformed_data)
        # Region별 상위 5개 국가의 GDP 평균 계산
        region_top5_calculate(transformed_data)
        
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}")

if __name__ == "__main__":
    etl_process()

Countries with a GDP of over 100B USD
          Country  GDP (B USD)  Year         Region
0           World    115494.31  2025            NaN
1   United States     30337.16  2025  North America
2           China     19534.89  2025           Asia
3         Germany      4921.56  2025         Europe
4           Japan      4389.33  2025           Asia
..            ...          ...   ...            ...
68     Uzbekistan       112.65  2024           Asia
69      Guatemala       112.37  2024  North America
70           Oman       109.99  2024           Asia
71       Bulgaria       108.42  2024         Europe
72      Venezuela       106.33  2024  South America

[73 rows x 4 columns]
Average GDP of top 5 countries by region
          Region  Top 5 Avg GDP (B USD)
0         Africa                238.182
1           Asia               6255.970
2         Europe               3318.112
3  North America               6946.500
4        Oceania                734.840
5  South America                79

  df.groupby('Region')


### version 3 
변경한 것
1. load_gdp_data()에서 작동하는 CSV 파일로 저장하는 것과 JSON 파일로 저장하는 것을 load_gdp_data()에서 수행하는 것이 아니라, save_gdp_data() 함수로 뺌
2. 그리고 Extract된 데이터를 Transform하기 전에 save_gdp_data를 통해 JSON, CSV로 저장함
3. 그러므로 현재 load_gdp_data()는 수행하는 작업이 없으므로, pass 

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json

# 로그 기록 함수
def log_message(message):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp}, {message}\n")

# Extract
def extract_gdp_data(url):
    log_message("Starting Data Extraction")
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'wikitable'})
    rows = table.find_all('tr')

    data = []
    for row in rows[1:]:
        cols = row.find_all('td')
        cleaned_cols = []
        for col in cols:
            for sup in col.find_all('sup'):
                sup.decompose()
            cleaned_cols.append(col.text.strip())
        if cleaned_cols:
            try:
                country = cleaned_cols[0]
                gdp_raw = cleaned_cols[1]
                gdp_year = cleaned_cols[2]
                gdp_cleaned = ''.join(filter(str.isdigit, gdp_raw.split('.')[0]))
                if gdp_cleaned:
                    gdp = int(gdp_cleaned) / 1e3
                    data.append({'Country': country, 'GDP (B USD)': round(gdp, 2), 'Year': gdp_year})
            except IndexError:
                continue
    log_message("Data Extraction Completed")
    return data

# Transform
def transform_gdp_data(data):
    log_message("Starting Data Transformation")
    df = pd.DataFrame(data)
    df = df.sort_values(by='GDP (B USD)', ascending=False)
    
    with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
        region_data = json.load(region_file)
    df['Region'] = df['Country'].map(region_data)
    
    log_message("Data Transformation Completed")
    return df

# Save
def save_gdp_data(data, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        # CSV 파일 저장
        pd.DataFrame(data).to_csv(output_csv_file, index=False)
        log_message(f"Extracted data saved as CSV: {output_csv_file}")
        
        # JSON 파일 저장
        with open(output_json_file, 'w', encoding='utf-8') as json_file:
            json.dump(data, json_file, ensure_ascii=False, indent=4)
        log_message(f"Extracted data saved as JSON: {output_json_file}")
    except Exception as e:
        log_message(f"Failed to save extracted data: {str(e)}")
        raise

# Load
def load_gdp_data(*args, **kwargs):
    # 현재 이 함수는 비활성화되어 pass 처리됩니다.
    log_message("load_gdp_data() is currently not performing any operation.")
    pass

# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)

# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)

# 메인 ETL 함수
def etl_process():
    url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)"
    try:
        log_message("ETL Process Started")
        # Extract
        data = extract_gdp_data(url)
        
        # Save Extracted Data
        save_gdp_data(data)  # Transform 전에 저장
        
        # Transform
        transformed_data = transform_gdp_data(data)
        
        # Additional Analyses
        filtered_100USD(transformed_data)
        region_top5_calculate(transformed_data)
        
        # Load (현재 pass 처리됨)
        load_gdp_data()
        
        log_message("ETL Process End Successfully")
        

        
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}")

if __name__ == "__main__":
    etl_process()

Countries with a GDP of over 100B USD
          Country  GDP (B USD)  Year         Region
0           World    115494.31  2025            NaN
1   United States     30337.16  2025  North America
2           China     19534.89  2025           Asia
3         Germany      4921.56  2025         Europe
4           Japan      4389.33  2025           Asia
..            ...          ...   ...            ...
68     Uzbekistan       112.65  2024           Asia
69      Guatemala       112.37  2024  North America
70           Oman       109.99  2024           Asia
71       Bulgaria       108.42  2024         Europe
72      Venezuela       106.33  2024  South America

[73 rows x 4 columns]
Average GDP of top 5 countries by region
          Region  Top 5 Avg GDP (B USD)
0         Africa                238.182
1           Asia               6255.970
2         Europe               3318.112
3  North America               6946.500
4        Oceania                734.840
5  South America                79

  df.groupby('Region')


### version 4
변경 사항
1. Load에 있던 저장 프로세스를 Transfrom으로 이동

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json

# 로그 기록 함수
def log_message(message):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp}, {message}\n")

# Extract
def extract_gdp_data(url):
    log_message("Starting Data Extraction")
    # HTTP 요청 후 파싱해서 데이터 추출
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'wikitable'})
    rows = table.find_all('tr')

    data = []
    for row in rows[1:]:  # 첫 번째 행은 헤더이므로 제외함
        cols = row.find_all('td')
        cleaned_cols = []
        for col in cols:
            # 'sup' 태그 제거 [n 1] 이런식으로 자꾸 떠서
            for sup in col.find_all('sup'):
                sup.decompose()
            cleaned_cols.append(col.text.strip())  # 텍스트 정리
        if cleaned_cols:  # 빈 행 제외
            try:
                country = cleaned_cols[0]  # 국가명
                gdp_raw = cleaned_cols[1]  # GDP 값 (Nominal GDP)
                gdp_year = cleaned_cols[2]
                gdp_cleaned = ''.join(filter(str.isdigit, gdp_raw.split('.')[0]))
                if gdp_cleaned:  # GDP 값이 유효한 경우만 추가
                    gdp = int(gdp_cleaned) / 1e3  # 단위를 1B USD로 변환
                    data.append({'Country': country, 'GDP (B USD)': round(gdp, 2), 'Year': gdp_year})
            except IndexError:
                # 예상치 못한 데이터 구조를 무시
                continue
    log_message("Data Extraction Completed")
    
    return data


# Transform
def transform_gdp_data(data, output_csv_file='gdp_by_country.csv', output_json_file='Countries_by_GDP.json'):
    log_message("Starting Data Transformation")
    # 데이터프레임 생성
    df = pd.DataFrame(data)

    # GDP 순으로 정렬
    df = df.sort_values(by='GDP (B USD)', ascending=False)
    
    # 국가별 Region 정보 매핑
    with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
        region_data = json.load(region_file)
    df['Region'] = df['Country'].map(region_data)

    # 데이터 저장 (CSV 및 JSON 파일)
    try:
        df.to_csv(output_csv_file, index=False)
        log_message(f"CSV file saved as {output_csv_file}")
        
        data_as_dict = df.to_dict(orient='records')  # DataFrame을 딕셔너리 리스트로 변환
        with open(output_json_file, 'w', encoding='utf-8') as json_file:
            json.dump(data_as_dict, json_file, ensure_ascii=False, indent=4)
        log_message(f"JSON file saved as {output_json_file}")
    except Exception as e:
        log_message(f"Data Transformation Failed during saving: {str(e)}")
        raise

    log_message("Data Transformation Completed")
    return df

# Load
def load_gdp_data(df):
    log_message("Data Loading step is now minimal, performing any additional post-processing if required.")
    # 현재는 데이터 로드 관련 추가 작업이 없다면 빈 함수로 유지 가능
    pass

# GDP가 100B USD 이상인 국가만 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    
    
 # Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)

# 메인 ETL 함수
def etl_process():
    url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)"
    try:
        log_message("ETL Process Started")
        # Extract
        data = extract_gdp_data(url)
        # Transform (includes saving)
        transformed_data = transform_gdp_data(data)
        # Load
        load_gdp_data(transformed_data)  
        log_message("ETL Process End Successfully")
        
        # GDP가 100B USD 이상인 국가만 필터링
        filtered_100USD(transformed_data)
        # Region별 상위 5개 국가의 GDP 평균 계산
        region_top5_calculate(transformed_data)
        
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}")

if __name__ == "__main__":
    etl_process()

### version 5
변경사항
1. Pandas의 DataFrame을 더 활용하도록 변경

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json

# 로그 기록 함수
def log_message(message):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp}, {message}\n")


# Extract
def extract_gdp_data(url):
    # BeautifulSoup로 웹 페이지 스크래핑
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'wikitable'})

    # 위키피디아에서 제공하는 표를 Pandas로 읽기
    df = pd.read_html(str(table))[0]

    # 필요한 칼럼만 선택 및 이름 변경
    df = df.iloc[:, [0, 1, 2]]  # 첫 번째, 두 번째, 세 번째 칼럼만 선택
    df.columns = ['Country', 'GDP (Nominal)', 'Year']  # 칼럼 이름 설정

    # NaN 데이터 제거 (쿠바 등)
    df = df.dropna(subset=['Country', 'GDP (Nominal)'])

    # GDP 값 정리 및 변환
    df['GDP (B USD)'] = (
        df['GDP (Nominal)']
        .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
        .replace('', '0')  # 빈 문자열을 '0'으로 대체 (쿠바 등)
        .astype(float)  # float으로 변환
        / 1e3  # 단위를 B USD로 변환
    )

    # 각주 제거
    df['Year'] = (
        df['Year'].str.replace(r'\[.*?\]', '', regex=True)  
    )


    df = df[['Country', 'GDP (B USD)', 'Year']]  # 필요한 3개 칼럼만 유지

    # GDP 내림차순 정렬
    df = df.sort_values(by='GDP (B USD)', ascending=False)

    # 소수점 2자리로 반올림
    df['GDP (B USD)'] = df['GDP (B USD)'].round(2)
    return df


# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transformation")
    
    # 정렬 및 매핑
    df = df.sort_values(by='GDP (B USD)', ascending=False)
    with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
        region_data = json.load(region_file)
    df['Region'] = df['Country'].map(region_data)

    log_message("Data Transformation Completed")
    return df


# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        # CSV 및 JSON 저장
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}")
        raise


# Load
def load_gdp_data(*args, **kwargs):
    # 현재 이 함수는 비활성화되어 pass 처리됩니다.
    log_message("load_gdp_data() is currently not performing any operation.")
    pass


# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


###정렬먼저 하는 걸로 바꿔보기 egion_top5_calculate(df):

# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 메인 ETL 함수
def etl_process():
    url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)"
    try:
        log_message("ETL Process Started")
        
        # Extract
        extracted_data = extract_gdp_data(url)
        
        # Save Extracted Data
        save_gdp_data(extracted_data)  # Transform 전에 저장
        
        # Transform
        transformed_data = transform_gdp_data(extracted_data)
        
        # Save Transformed Data
        save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')
        
        # Additional Analyses
        filtered_data = filtered_100USD(transformed_data)
        region_top5_data = region_top5_calculate(transformed_data)
        
        log_message("ETL Process Completed Successfully")
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}")


if __name__ == "__main__":
    etl_process()

### version 6
변경사항: 구조 변경에 대해 생각해보기


#### 현재 문제점
1. 테이블 구조에 의존적  
    - find('table', {'class': 'wikitable'})는 HTML의 특정 클래스 이름에 의존하므로, 테이블 클래스가 변경되면 실패할 가능성이 큼  
    - df.iloc[:, [0, 1, 2]]는 칼럼 순서에 의존하므로, 칼럼 순서가 바뀌면 잘못된 데이터를 선택할 위험이 있음.

2. 데이터 유효성 검증 부족  
    - 스크래핑한 데이터가 예상 구조를 따르지 않을 경우 오류를 유발할 수 있음.
    - 데이터 변환 단계에서 예외 처리 부족.
    
3. 하드코딩된 URL  
    - URL이 변경되면 전체 ETL 프로세스가 중단됨.


#### 해결방안?!
1. HTML 구조 변경 대응
	- CSS 선택자 활용: BeautifulSoup의 CSS 선택자를 사용하여 더 유연한 테이블 선택이 가능하도록 변경합니다.
	- 테이블 구조 검증: 테이블이 올바르게 선택되었는지 확인하는 코드를 추가합니다.
	- 칼럼 이름 기반 처리: iloc 대신 칼럼 이름으로 데이터 선택을 진행하여 칼럼 순서 변경에 대응합니다.

2. 데이터 유효성 검증
	- 테이블의 존재 여부와 칼럼 이름 확인.
	- 예상 데이터 형식(숫자, 문자열 등)을 확인하고, 문제가 있는 데이터를 로그로 기록하거나 무시.

3. URL 변경 대응
	- URL을 외부 설정 파일이나 환경 변수로 관리하여 하드코딩을 제거.

4. 오류 처리 및 로깅 강화
	- 각 단계별 오류를 캡처하고, 원인을 로그로 기록.

#### 내가 고친 것
1. 설정 파일 관리:
    - load_config 함수로 config.ini 파일에서 URL과 HTML 테이블 클래스 값을 로드
	- 설정값 누락이나 파일 부재 시 예외를 발생시켜 문제를 방지
2. 로깅 강화:
	- 로그 메시지에 수준(INFO, ERROR) 추가
	- 주요 단계마다 로그 기록으로 문제 발생 시 추적이 쉬워짐 !
3. 예외 처리 강화:
	- HTTP 요청, 데이터 추출, 변환 등 주요 단계에서 예외 처리 추가함
4. 코드의 재사용성 향상:
	- URL과 테이블 클래스 정보를 외부 파일에서 관리하여 유지보수성 및 유연성 높임

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json
import configparser
import os

# 로그 시작 함수
def log_started():
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write("\n" + "="*50 + "\n")
        timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
        log_file.write(f"New Execution at {timestamp}\n")
        log_file.write("="*50 + "\n\n")

# 로그 기록 함수
def log_message(message, level="INFO"):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d %H:%M:%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp} - {level} - {message}\n")


# 설정 파일 읽기
def load_config(config_path='config.ini'):
    if not os.path.exists(config_path):
        log_message(f"Configuration file '{config_path}' not found.", level="ERROR")
        raise FileNotFoundError(f"Configuration file '{config_path}' not found.")
    
    config = configparser.ConfigParser()
    config.read(config_path)
    
    if 'DEFAULT' not in config or 'URL' not in config['DEFAULT'] or 'TABLE_CLASS' not in config['DEFAULT']:
        log_message("Invalid or missing configuration values in 'config.ini'.", level="ERROR")
        raise ValueError("Invalid or missing configuration values in 'config.ini'.")
    
    return config['DEFAULT']['URL'], config['DEFAULT']['TABLE_CLASS']


# Extract
def extract_gdp_data(url, table_class):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', {'class': table_class})

        if table is None:
            log_message("No table found with the specified class.", level="ERROR")
            raise ValueError("Failed to locate the GDP table on the webpage.")

        # 위키피디아에서 제공하는 표를 Pandas로 읽기
        df = pd.read_html(str(table))[0]

        # 필요한 칼럼만 선택 및 이름 변경
        df = df.iloc[:, [0, 1, 2]]  # 첫 번째, 두 번째, 세 번째 칼럼만 선택
        df.columns = ['Country', 'GDP (Nominal)', 'Year']  # 칼럼 이름 설정

        # NaN 데이터 제거
        df = df.dropna(subset=['Country', 'GDP (Nominal)'])

        # GDP 값 정리 및 변환
        df['GDP (B USD)'] = (
            df['GDP (Nominal)']
            .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
            .replace('', '0')  # 빈 문자열을 '0'으로 대체
            .astype(float)  # float으로 변환
            / 1e3  # 단위를 B USD로 변환
        )

        # 각주 제거
        df['Year'] = df['Year'].str.replace(r'\[.*?\]', '', regex=True)

        # 필요한 3개 칼럼만 유지
        df = df[['Country', 'GDP (B USD)', 'Year']]

        # GDP 내림차순 정렬
        df = df.sort_values(by='GDP (B USD)', ascending=False)

        # 소수점 2자리로 반올림
        df['GDP (B USD)'] = df['GDP (B USD)'].round(2)
        return df
    except Exception as e:
        log_message(f"Error during data extraction: {str(e)}", level="ERROR")
        raise


# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transformation")
    try:
        df = df.sort_values(by='GDP (B USD)', ascending=False)
        with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
            region_data = json.load(region_file)
        df['Region'] = df['Country'].map(region_data)
        log_message("Data Transformation Completed")
        return df
    except Exception as e:
        log_message(f"Error during data transformation: {str(e)}", level="ERROR")
        raise


# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}", level="ERROR")
        raise


# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 메인 ETL 함수
def etl_process():
    try:
        log_started()
        log_message("ETL Process Started")

        # 설정 로드
        url, table_class = load_config()

        # Extract
        extracted_data = extract_gdp_data(url, table_class)

        # Save Extracted Data
        save_gdp_data(extracted_data)

        # Transform
        transformed_data = transform_gdp_data(extracted_data)

        # Save Transformed Data
        save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')

        # Additional Analyses
        filtered_data = filtered_100USD(transformed_data)
        region_top5_data = region_top5_calculate(transformed_data)

        log_message("ETL Process Completed Successfully")
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}", level="ERROR")


if __name__ == "__main__":
    etl_process()

### version 7
추가 요구사항에 맞춰 코드 및 함수 추가

IMF에서 제공하는 국가별 GDP(https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29)에서 데이터를 가져와서 요구사항에 맞게 가공하는 ETL 파이프라인을 만든 코드입니다. 코드를 수정해서 아래 요구사항을 구현하세요.

1. 추출한 데이터를 데이터베이스에 저장하세요. 
    - 'Countries_by_GDP'라는 테이블명으로 'World_Economies.db'라는 데이터 베이스에 저장되어야 합니다. 
    - 해당 테이블은 'Country', 'GDP_USD_billion'라는 어트리뷰트를 반드시 가져야 합니다.
    - 이 과정은 현재 pass 처리된 load_gdp_data()에서 진행되어야 합니다.

2. 데이터베이스는 sqlite3 라이브러리를 사용해서 만드세요.
    - 필요한 모든 작업을 수행하는 'etl_project_gdp_with_sql.py' 코드를 작성하세요.

3. 화면 출력
    - SQL Query를 사용해야 합니다.
    - GDP가 100B USD이상이 되는 국가만을 구해서 화면에 출력해야 합니다.
    - 각 Region별로 top5 국가의 GDP 평균을 구해서 화면에 출력해야 합니다.
    - 이 과정은 load_gdp_data()가 아닌 따로 함수를 밖에다 새롭게 정의해서 사용해야합니다.

In [None]:
import requests
import sqlite3
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import json
import configparser
import os

# 로그 시작 함수
def log_started():
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write("\n" + "="*50 + "\n")
        timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
        log_file.write(f"New Execution at {timestamp}\n")
        log_file.write("="*50 + "\n\n")

# 로그 기록 함수
def log_message(message, level="INFO"):
    timestamp = datetime.datetime.now().strftime('%Y-%b-%d %H:%M:%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp} - {level} - {message}\n")


# 설정 파일 읽기
def load_config(config_path='config.ini'):
    if not os.path.exists(config_path):
        log_message(f"Configuration file '{config_path}' not found.", level="ERROR")
        raise FileNotFoundError(f"Configuration file '{config_path}' not found.")
    
    config = configparser.ConfigParser()
    config.read(config_path)
    
    if 'DEFAULT' not in config or 'URL' not in config['DEFAULT'] or 'TABLE_CLASS' not in config['DEFAULT']:
        log_message("Invalid or missing configuration values in 'config.ini'.", level="ERROR")
        raise ValueError("Invalid or missing configuration values in 'config.ini'.")
    
    return config['DEFAULT']['URL'], config['DEFAULT']['TABLE_CLASS']


# Extract
def extract_gdp_data(url, table_class):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', {'class': table_class})

        if table is None:
            log_message("No table found with the specified class.", level="ERROR")
            raise ValueError("Failed to locate the GDP table on the webpage.")

        # 위키피디아에서 제공하는 표를 Pandas로 읽기
        df = pd.read_html(str(table))[0]
        
        # 필요한 칼럼만 선택 및 이름 변경
        df = df.iloc[:, [0, 1, 2]]  # 첫 번째, 두 번째, 세 번째 칼럼만 선택
        df.columns = ['Country', 'GDP (Nominal)', 'Year']  # 칼럼 이름 설정
        # NaN 데이터 제거
        df = df.dropna(subset=['Country', 'GDP (Nominal)'])
        # GDP 값 정리 및 변환
        df['GDP (B USD)'] = (
            df['GDP (Nominal)']
            .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
            .replace('', '0')  # 빈 문자열을 '0'으로 대체
            .astype(float)  # float으로 변환
            / 1e3  # 단위를 B USD로 변환
        )
        # 각주 제거
        df['Year'] = df['Year'].str.replace(r'\[.*?\]', '', regex=True)
        # 필요한 3개 칼럼만 유지
        df = df[['Country', 'GDP (B USD)', 'Year']]
        # GDP 내림차순 정렬
        df = df.sort_values(by='GDP (B USD)', ascending=False)
        # 소수점 2자리로 반올림
        df['GDP (B USD)'] = df['GDP (B USD)'].round(2)
        return df
    except Exception as e:
        log_message(f"Error during data extraction: {str(e)}", level="ERROR")
        raise


# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transformation")
    try:
        df = df.sort_values(by='GDP (B USD)', ascending=False)
        with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
            region_data = json.load(region_file)
        df['Region'] = df['Country'].map(region_data)
        log_message("Data Transformation Completed")
        return df
    except Exception as e:
        log_message(f"Error during data transformation: {str(e)}", level="ERROR")
        raise


# Load
# Save to SQLite Database
def load_gdp_data(df):
    log_message("Loading data into SQLite database")
    try:
        # SQLite 데이터베이스에 연결
        conn = sqlite3.connect('World_Economies.db')

        # 데이터를 'Countries_by_GDP' 테이블로 저장
        # 'Country', 'GDP_USD_billion', 'Year', 'Region' 칼럼 포함
        df[['Country', 'GDP (B USD)', 'Year', 'Region']].rename(
            columns={'GDP (B USD)': 'GDP_USD_billion'}
        ).to_sql(
            'Countries_by_GDP', conn, if_exists='replace', index=False
        )

        conn.close()
        log_message("Data successfully loaded into SQLite database")
    except Exception as e:
        log_message(f"Error while loading data into SQLite database: {str(e)}", level="ERROR")
        raise


# GDP 100B USD 이상 국가 출력
def display_countries_with_gdp_over_100():
    log_message("Displaying countries with GDP over 100B USD")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = "SELECT Country, GDP_USD_billion FROM Countries_by_GDP WHERE GDP_USD_billion >= 100"
        result = pd.read_sql_query(query, conn)
        conn.close()
        print("Countries with GDP >= 100B USD:")
        print(result)
    except Exception as e:
        log_message(f"Error querying database for countries with GDP >= 100B: {str(e)}", level="ERROR")
        raise


# Region별 상위 5개 국가의 GDP 평균 계산 및 출력
def display_region_top5_average_gdp():
    log_message("Calculating average GDP of top 5 countries by region")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = """
        WITH RankedCountries AS (
            SELECT Country, GDP_USD_billion, Region,
                   RANK() OVER (PARTITION BY Region ORDER BY GDP_USD_billion DESC) AS Rank
            FROM Countries_by_GDP
            WHERE Region IS NOT NULL  -- Region이 None인 데이터를 제외
        )
        SELECT Region, AVG(GDP_USD_billion) AS Avg_Top5_GDP
        FROM RankedCountries
        WHERE Rank <= 5
        GROUP BY Region
        """
        result = pd.read_sql_query(query, conn)
        conn.close()
        print("Average GDP of top 5 countries by region (excluding None):")
        print(result)
    except Exception as e:
        log_message(f"Error querying database for top 5 average GDP: {str(e)}", level="ERROR")
        raise


# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}", level="ERROR")
        raise


# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 메인 ETL 함수
def etl_process():
    try:
        log_started()
        log_message("ETL Process Started")

        # 설정 로드
        url, table_class = load_config()

        # Extract
        extracted_data = extract_gdp_data(url, table_class)

        # Save Extracted Data
        save_gdp_data(extracted_data)

        # Transform
        transformed_data = transform_gdp_data(extracted_data)

        # Save Transformed Data
        save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')

        # Load into SQLite Database
        load_gdp_data(transformed_data)

        # Additional Analyses
        display_countries_with_gdp_over_100()
        display_region_top5_average_gdp()


        ## 추가요구사항 전 출력과정
        #filtered_data = filtered_100USD(transformed_data)
        #region_top5_data = region_top5_calculate(transformed_data)

        log_message("ETL Process Completed Successfully")
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}", level="ERROR")


if __name__ == "__main__":
    etl_process()

---

# Transform 단계를 Chunk로 나누었을 때 어떤 결과가 나올까?

dummytest.py를 통해 천만개의 row를 가진 테스트 파일을 생성한 후, chunk를 나눠서 실행시간을 실험해봄

| Version   | Time         |    
|----------|---------------|
| Original | 1:54.75       |
| chunk (100) |1:53.90     |
| chunk (1000) | 1:54.458      |
| chunk (10000) | 2:01.6798       |
| chunk (100000) | 2:45.8840       |

왜 더 늦어지는 결과가 나타날까?
- 합쳐지는 과정에서 시간이 걸린 것일까?

In [None]:
# Chunk Code
import configparser
import json
import os
import pandas as pd
import requests
import sqlite3
import datetime
from bs4 import BeautifulSoup
from tabulate import tabulate

from concurrent.futures import ThreadPoolExecutor, as_completed
import numpy as np

# 로그 기록 시작 함수
def log_started():
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write("\n" + "="*50 + "\n")
        timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
        log_file.write(f"New execution at {timestamp}")
        log_file.write("\n" + "="*50 + "\n")

# 로그 기록 함수
def log_message(message, level="INFO"):
    timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp} - {level} - {message}\n")

# 설정 파일 읽기
def load_config(config_path='config.ini'):
    if not os.path.exists(config_path):
        log_message(f"Configuration file '{config_path}' not found.", level="ERROR")
        raise FileNotFoundError((f"Configuration file '{config_path}' not found."))
    
    config = configparser.ConfigParser()
    config.read(config_path)
    
    if 'DEFAULT' not in config or 'URL' not in config['DEFAULT'] or 'TABLE_CLASS' not in config['DEFAULT']:
        log_message("Invalid or missing configuration values in 'config.ini'.", level="ERROR")
        raise ValueError("Invalid or missing configuration values in 'config.ini'.")
    
    return config['DEFAULT']['URL'], config['DEFAULT']['TABLE_CLASS']
    

# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}", level="ERROR")
        raise
    
def extract_gdp_data_from_csv(file_path):
    try:
        log_message(f"Reading data from CSV file: {file_path}")
        
        # CSV 파일에서 데이터 읽기
        df = pd.read_csv(file_path, names=["Country", "GDP (Nominal)", "Year"], skiprows=1)
        
        # 필요한 열 확인 및 정리
        required_columns = ['Country', 'GDP (Nominal)', 'Year']
        if not all(col in df.columns for col in required_columns):
            log_message(f"Missing required columns in CSV file: {file_path}", level="ERROR")
            raise ValueError("CSV file does not contain required columns: 'Country', 'GDP (Nominal)', 'Year'")
        
        # NaN 데이터 제거
        df = df.dropna(subset=['Country', 'GDP (Nominal)', 'Year'])
        
        # GDP 값 변환
        df['GDP (B USD)'] = (
            df['GDP (Nominal)']
            .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
            .replace('', '0')  # 빈 문자열을 '0'으로 대체
            .astype(float)  # float으로 변환
            / 1e3  # 단위를 B USD로 변환
        )
        
        # 정리된 데이터 반환
        return df[['Country', 'GDP (B USD)', 'Year']]
        
    except Exception as e:
        log_message(f"Error reading data from CSV file: {str(e)}", level="ERROR")
        raise


# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transmission")
    try:
        log_message("Starting Data Transformation in parallel")

        # Region 데이터를 미리 로드
        with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
            region_data = json.load(region_file)

        def transform_chunk(chunk):
            # GDP 정렬 및 반올림
            chunk = chunk.sort_values(by='GDP (B USD)', ascending=False)
            chunk['GDP (B USD)'] = chunk['GDP (B USD)'].round(2)
            
            # Region 데이터를 연결
            chunk['Region'] = chunk['Country'].map(region_data)
            return chunk

        # 데이터프레임 분할 및 병렬 처리
        num_partitions = 100000
        chunks = np.array_split(df, num_partitions)
        transformed_chunks = []
        with ThreadPoolExecutor() as executor:
            futures = [executor.submit(transform_chunk, chunk) for chunk in chunks]
            for future in as_completed(futures):
                transformed_chunks.append(future.result())
        
        # 결과 병합
        transformed_data = pd.concat(transformed_chunks)
        return transformed_data
        
    except Exception as e:
        log_message(f"Error during data transformation: {str(e)}", level="ERROR")
        raise



def load_gdp_data(df):
    log_message("Loading data into SQLite database")
    try:
        # SQLite 데이터베이스에 연결
        conn = sqlite3.connect('World_Economies.db')
        
        df[['Country', 'GDP (B USD)', 'Year', 'Region']].rename(
            columns={'GDP (B USD)': 'GDP_USD_billion'}
        ).to_sql( # 데이터프레임 데이터를 SQL 테이블로 변환하여 데이터베이스에 저장하는 pandas 메서드입
            'Countries_by_GDP', conn, if_exists='replace', index=False
        )
        
        conn.close()
        log_message("Data successfully loaded into SQLite database")
        
        
    except Exception as e:
        log_message(f"Error while loading data into SQLite database: {str(e)}", level="ERROR")
        raise



# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 추가 요구사항 구현
def display_countries_with_gdp_over_100():
    log_message("Displaying countries with GDP over 100B USD")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = "SELECT Country, GDP_USD_billion FROM Countries_by_GDP WHERE GDP_USD_billion >= 100"
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Countries with GDP >= 100B USD:")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for countries with GDP >= 100B: {str(e)}", level="ERROR")
        raise
    
# Region별 상위 5개 국가의 GDP 평균 계산 및 출력
def display_region_top5_average_gdp():
    log_message("Calculating average GDP of top 5 countries by region")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = """
        WITH RankedCountries AS (
            SELECT Country, GDP_USD_billion, Region,
                   RANK() OVER (PARTITION BY Region ORDER BY GDP_USD_billion DESC) AS Rank
            FROM Countries_by_GDP
            WHERE Region IS NOT NULL
        )
        SELECT Region, AVG(GDP_USD_billion) AS Avg_Top5_GDP
        FROM RankedCountries
        WHERE Rank <= 5
        GROUP BY Region
        """
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Average GDP of top 5 countries by region (excluding None):")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for top 5 average GDP: {str(e)}", level="ERROR")
        raise


def etl_process():
    try:
        # 시작 시간 기록
        start_time = datetime.datetime.now()
        
        log_started()
        log_message("ETL Process Started")
        
        # 설정 로드
        url, table_class = load_config()
        
        # Extract
        extracted_data = extract_gdp_data_from_csv(file_path='./large_data.csv')
        
        # Save Extracted Data
        #save_gdp_data(extracted_data)
        
        # Transform
        transformed_data = transform_gdp_data(extracted_data)
        
        # Save Transformed Data
        #save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')
        
        # Load into SQLite Database
        load_gdp_data(transformed_data)

        # Additional Analyses
        display_region_top5_average_gdp()
        display_countries_with_gdp_over_100()


        log_message("ETL Process Completed Successfully")
        
        # 종료 시간 기록 및 소요 시간 계산
        end_time = datetime.datetime.now()
        elapsed_time = end_time - start_time
        
        # 소요 시간 로그에 기록 및 출력
        log_message(f"ETL Process Duration: {elapsed_time}")
    
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}", level="ERROR")
        
        
if __name__ == "__main__":
    etl_process()

In [None]:
# Original
import configparser
import json
import os
import pandas as pd
import requests
import sqlite3
import datetime
from bs4 import BeautifulSoup
from tabulate import tabulate

# 로그 기록 시작 함수
def log_started():
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write("\n" + "="*50 + "\n")
        timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
        log_file.write(f"New execution at {timestamp}")
        log_file.write("\n" + "="*50 + "\n")

# 로그 기록 함수
def log_message(message, level="INFO"):
    timestamp = datetime.datetime.now().strftime('%Y-%B-%d-%H-%M-%S')
    with open('etl_project_log.txt', 'a') as log_file:
        log_file.write(f"{timestamp} - {level} - {message}\n")

# 설정 파일 읽기
def load_config(config_path='config.ini'):
    if not os.path.exists(config_path):
        log_message(f"Configuration file '{config_path}' not found.", level="ERROR")
        raise FileNotFoundError((f"Configuration file '{config_path}' not found."))
    
    config = configparser.ConfigParser()
    config.read(config_path)
    
    if 'DEFAULT' not in config or 'URL' not in config['DEFAULT'] or 'TABLE_CLASS' not in config['DEFAULT']:
        log_message("Invalid or missing configuration values in 'config.ini'.", level="ERROR")
        raise ValueError("Invalid or missing configuration values in 'config.ini'.")
    
    return config['DEFAULT']['URL'], config['DEFAULT']['TABLE_CLASS']
    

# Save
def save_gdp_data(df, output_csv_file='extracted_gdp_data.csv', output_json_file='extracted_gdp_data.json'):
    log_message("Saving Extracted Data")
    try:
        df.to_csv(output_csv_file, index=False)
        df.to_json(output_json_file, orient='records', force_ascii=False, indent=4)
        log_message(f"Data saved: CSV ({output_csv_file}), JSON ({output_json_file})")
    except Exception as e:
        log_message(f"Failed to save data: {str(e)}", level="ERROR")
        raise
    
def extract_gdp_data_from_csv(file_path):
    try:
        log_message(f"Reading data from CSV file: {file_path}")
        
        # CSV 파일에서 데이터 읽기
        df = pd.read_csv(file_path, names=["Country", "GDP (Nominal)", "Year"], skiprows=1)
        
        # 필요한 열 확인 및 정리
        required_columns = ['Country', 'GDP (Nominal)', 'Year']
        if not all(col in df.columns for col in required_columns):
            log_message(f"Missing required columns in CSV file: {file_path}", level="ERROR")
            raise ValueError("CSV file does not contain required columns: 'Country', 'GDP (Nominal)', 'Year'")
        
        # NaN 데이터 제거
        df = df.dropna(subset=['Country', 'GDP (Nominal)', 'Year'])
        
        # GDP 값 변환
        df['GDP (B USD)'] = (
            df['GDP (Nominal)']
            .str.replace(r'[^\d.]', '', regex=True)  # 숫자와 소수점 이외 제거
            .replace('', '0')  # 빈 문자열을 '0'으로 대체
            .astype(float)  # float으로 변환
            / 1e3  # 단위를 B USD로 변환
        )
        
        # 정리된 데이터 반환
        return df[['Country', 'GDP (B USD)', 'Year']]
        
    except Exception as e:
        log_message(f"Error reading data from CSV file: {str(e)}", level="ERROR")
        raise

# Transform
def transform_gdp_data(df):
    log_message("Starting Data Transmission")
    try:
        df = df.sort_values(by='GDP (B USD)', ascending=False)  # 정렬
        df['GDP (B USD)'] = df['GDP (B USD)'].round(2)  # 소수점 2자리로 반올림
        
        with open('country_region_table.json', 'r', encoding='utf-8') as region_file:
            region_data = json.load(region_file)
        df['Region'] = df['Country'].map(region_data)
        return df
        
    except Exception as e:
        log_message(f"Error during data transformation: {str(e)}", level="ERROR")
        raise



def load_gdp_data(df):
    log_message("Loading data into SQLite database")
    try:
        # SQLite 데이터베이스에 연결
        conn = sqlite3.connect('World_Economies.db')
        
        df[['Country', 'GDP (B USD)', 'Year', 'Region']].rename(
            columns={'GDP (B USD)': 'GDP_USD_billion'}
        ).to_sql( # 데이터프레임 데이터를 SQL 테이블로 변환하여 데이터베이스에 저장하는 pandas 메서드입
            'Countries_by_GDP', conn, if_exists='replace', index=False
        )
        
        conn.close()
        log_message("Data successfully loaded into SQLite database")
        
        
    except Exception as e:
        log_message(f"Error while loading data into SQLite database: {str(e)}", level="ERROR")
        raise



# GDP가 100B USD 이상인 국가 필터링
def filtered_100USD(df):
    filtered_100 = df[df['GDP (B USD)'] >= 100]
    print("Countries with a GDP of over 100B USD")
    print(filtered_100)
    return filtered_100


# Region별 상위 5개 국가의 GDP 평균 계산
def region_top5_calculate(df):
    region_top5_avg = (
        df.groupby('Region')
        .apply(lambda x: x.nlargest(5, 'GDP (B USD)')['GDP (B USD)'].mean())
        .reset_index(name='Top 5 Avg GDP (B USD)')
    )
    print("Average GDP of top 5 countries by region")
    print(region_top5_avg)
    return region_top5_avg


# 추가 요구사항 구현
def display_countries_with_gdp_over_100():
    log_message("Displaying countries with GDP over 100B USD")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = "SELECT Country, GDP_USD_billion FROM Countries_by_GDP WHERE GDP_USD_billion >= 100"
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Countries with GDP >= 100B USD:")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for countries with GDP >= 100B: {str(e)}", level="ERROR")
        raise
    
# Region별 상위 5개 국가의 GDP 평균 계산 및 출력
def display_region_top5_average_gdp():
    log_message("Calculating average GDP of top 5 countries by region")
    try:
        conn = sqlite3.connect('World_Economies.db')
        query = """
        WITH RankedCountries AS (
            SELECT Country, GDP_USD_billion, Region,
                   RANK() OVER (PARTITION BY Region ORDER BY GDP_USD_billion DESC) AS Rank
            FROM Countries_by_GDP
            WHERE Region IS NOT NULL
        )
        SELECT Region, AVG(GDP_USD_billion) AS Avg_Top5_GDP
        FROM RankedCountries
        WHERE Rank <= 5
        GROUP BY Region
        """
        result = pd.read_sql_query(query, conn)
        conn.close()
        
        print("Average GDP of top 5 countries by region (excluding None):")
        print(tabulate(result, headers='keys', tablefmt='pretty', showindex=False))
        
    except Exception as e:
        log_message(f"Error querying database for top 5 average GDP: {str(e)}", level="ERROR")
        raise


def etl_process():
    try:
        # 시작 시간 기록
        start_time = datetime.datetime.now()
        
        log_started()
        log_message("ETL Process Started")
        
        # 설정 로드
        url, table_class = load_config()
        
        # Extract
        extracted_data = extract_gdp_data_from_csv(file_path='./large_data.csv')
        
        # Save Extracted Data
        #save_gdp_data(extracted_data)
        
        # Transform
        transformed_data = transform_gdp_data(extracted_data)
        
        # Save Transformed Data
        #save_gdp_data(transformed_data, 'transformed_gdp_data.csv', 'transformed_gdp_data.json')
        
        # Load into SQLite Database
        load_gdp_data(transformed_data)

        # Additional Analyses
        display_region_top5_average_gdp()
        display_countries_with_gdp_over_100()


        log_message("ETL Process Completed Successfully")
        
        # 종료 시간 기록 및 소요 시간 계산
        end_time = datetime.datetime.now()
        elapsed_time = end_time - start_time
        
        # 소요 시간 로그에 기록 및 출력
        log_message(f"ETL Process Duration: {elapsed_time}")
    
    except Exception as e:
        log_message(f"ETL Process Failed: {str(e)}", level="ERROR")
        
        
if __name__ == "__main__":
    etl_process()