In [1]:
import pandas as pd
import os
import numpy as np

In [2]:
# 데이터 로드
# 뉴스 데이터 로드
datasPath = os.path.join(os.getcwd(), "..", "..", "NewData", "Weekly_Air_Pollutants.csv")
print(f"file path : {datasPath}")
news_data = pd.read_csv(datasPath, encoding='utf-8')
news_data.head()
news_vars_list = list(news_data.columns)
print(news_vars_list)

# 기후 데이터 로드
datasPath = os.path.join(os.getcwd(), "..", "..", "ClimateDataTeam", "climate_data", "merged_weekly_avg_temp.csv")
print(f"file path : {datasPath}")
climate_data = pd.read_csv(datasPath, encoding='utf-8')
climate_data.head()
climate_vars_list = list(climate_data.columns)
print(climate_vars_list)

file path : C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\..\..\newsData\data_processing\final_data_transformed.csv
['Week_Num', 'Date_Time', 'Article_Num', 'Polution', 'Enviroment_Polution', 'Biodiversity_Loss', 'Acid_Rain', 'Water_Pollution', 'Climate_Crisis', 'Accelerated_Global_Warming', 'Ozone_Layer_Depletion', 'Hazardous_Substance_Leakage', 'Carbon_Dioxide', 'Weekly_News_Count', 'News_Ratio']
file path : C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\..\..\ClimateDataTeam\climate_data\merged_weekly_avg_temp.csv
['datetime', 'tempmax', 'tempmin', 'temp', 'dew', 'humidity', 'precip', 'windspeed', 'sealevelpressure', 'moonphase']


In [3]:
# 같은 일자 매칭 데이터

# datetime 열 이름 통일 (두 파일의 열 이름이 다른 경우 처리)
news_data = news_data.rename(columns={'Date_Time': 'datetime'})

# datetime 열을 datetime 형식으로 변환 (필요 시)
news_data['datetime'] = pd.to_datetime(news_data['datetime'])
climate_data['datetime'] = pd.to_datetime(climate_data['datetime'])

# 데이터 병합 (datetime을 기준으로)
merged_data = pd.merge(news_data, climate_data, on='datetime', how='inner')  # 'inner'로 공통된 datetime만 병합

# 병합된 데이터 확인
print(merged_data.head())

# 병합된 데이터 저장
output_file = os.path.join(os.getcwd(), "merged_final_data.csv")
merged_data.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"병합된 데이터가 {output_file}에 저장되었습니다.")

   Week_Num   datetime  Article_Num  Polution  Enviroment_Polution  \
0         1 2000-01-02           10        12                    0   
1         2 2000-01-09           28        33                    0   
2         3 2000-01-16           16        14                    0   
3         4 2000-01-23           19        24                    0   
4         5 2000-01-30           10        16                    1   

   Biodiversity_Loss  Acid_Rain  Water_Pollution  Climate_Crisis  \
0                  0          5                0               0   
1                  0          4                0               0   
2                  0          1                0               0   
3                  0          2                0               0   
4                  0          3                0               0   

   Accelerated_Global_Warming  ...  News_Ratio    tempmax    tempmin  \
0                           0  ...    0.000336  47.600000  29.300000   
1                         

In [4]:
# n_day 만큼 기후 데이터를 뒤로 매칭
# n일 후로 병합할 일 수 설정
for x in range(1, 50):
    n_days = 7*x
    
    # 데이터 로드
    datasPath_news = os.path.join(os.getcwd(), "..", "..", "newsData", "data_processing", "final_data_transformed.csv")
    news_data = pd.read_csv(datasPath_news, encoding='utf-8')
    news_data = news_data.rename(columns={'Date_Time': 'datetime'})  # 열 이름 통일
    news_data['datetime'] = pd.to_datetime(news_data['datetime'])  # datetime 변환
    
    datasPath_climate = os.path.join(os.getcwd(), "..", "..", "ClimateDataTeam", "climate_data", "merged_weekly_avg_temp.csv")
    climate_data = pd.read_csv(datasPath_climate, encoding='utf-8')
    climate_data['datetime'] = pd.to_datetime(climate_data['datetime'])  # datetime 변환
    
    # 기후 데이터의 날짜를 n일 뒤로 이동
    climate_data['shifted_datetime'] = climate_data['datetime'] + pd.Timedelta(days=n_days)
    
    # 데이터 병합 (shifted_datetime과 news_data의 datetime을 기준으로)
    merged_data = pd.merge(news_data, climate_data, left_on='datetime', right_on='shifted_datetime', how='inner')
    
    # 불필요한 열 제거 (예: shifted_datetime)
    merged_data = merged_data.drop(columns=['shifted_datetime'])
    
    # 병합된 데이터 확인 및 저장
    file_name = "merged_final_data_"+str(n_days)+"_shifted.csv"
    output_file = os.path.join(os.getcwd(), file_name)
    merged_data.to_csv(output_file, index=False, encoding='utf-8-sig')
    
    print(f"병합된 데이터가 {output_file}에 저장되었습니다.")

병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final_data_7_shifted.csv에 저장되었습니다.
병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final_data_14_shifted.csv에 저장되었습니다.
병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final_data_21_shifted.csv에 저장되었습니다.
병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final_data_28_shifted.csv에 저장되었습니다.
병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final_data_35_shifted.csv에 저장되었습니다.
병합된 데이터가 C:\Users\limul\Desktop\College\2_grade\2_semester\computational_statistics\teamProject\2024-2-CSP\AI\data_preprocessing\merged_final