In [None]:
import pandas as pd

# 1. 파일 이름 정의
input_file = '../3차 전처리 - 단층 이동 데이터/TEST_train_data_final_with_fault_counts_past_year_full_month.csv'
output_file = 'final_model_data.csv' # (최종 훈련용 데이터)

# 2. (핵심) 남기고자 하는 11개의 최종 컬럼 목록
columns_to_keep = [
    'magnitude',
    'depth',
    'latitude',
    'longitude',
    'Year',
    'Month',
    'tsunami',
    'is_ocean',
    'is_steep_slope',
    'horizontal_count_1y_full',
    'vertical_count_1y_full'
]

try:
    # 3. 데이터 불러오기
    df = pd.read_csv(input_file)
    print(f"'{input_file}' 파일 (총 {len(df)}행)을 불러왔습니다.")

    # 4. (전처리) 'is_ocean', 'is_steep_slope'이 0/1이 아닐 경우를 대비
    if 'is_ocean' in df.columns:
        df['is_ocean'] = df['is_ocean'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
    if 'is_steep_slope' in df.columns:
        df['is_steep_slope'] = df['is_steep_slope'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)

    # 5. (핵심) 11개 컬럼만 선택 (필터링)
    # df에 있지만 columns_to_keep에 없는 'nst', 'dmin', 'gap' 등은 모두 제거됨

    # (안전장치) 요청한 컬럼 중 실제 파일에 있는 것만 필터링
    existing_columns_to_keep = [col for col in columns_to_keep if col in df.columns]

    df_filtered = df[existing_columns_to_keep]

    print(f"\n{len(existing_columns_to_keep)}개의 요청된 컬럼만 남겼습니다:")
    print(existing_columns_to_keep)

    # 6. 새 파일로 저장
    df_filtered.to_csv(output_file, index=False)

    print(f"\n--- 처리 완료! ---")
    print(f"모든 필터링이 완료된 최종 데이터가 '{output_file}'에 저장되었습니다.")

except FileNotFoundError:
    print(f"오류: '{input_file}' 파일을 찾을 수 없습니다.")
except KeyError as e:
    print(f"오류: 요청한 컬럼 중 일부가 원본 파일에 없습니다. {e}")
except Exception as e:
    print(f"알 수 없는 오류 발생: {e}")

In [1]:
import pandas as pd
import requests
import time
import numpy as np
import json
from datetime import datetime, timedelta, UTC
from calendar import monthrange
from geopy.distance import geodesic
from geopy.point import Point
from tqdm import tqdm

# --- 1. ★★★ 설정 (중요) ★★★ ---
# ⚠️ 여기에 Google API 키를 입력하세요
GOOGLE_API_KEY = "AIzaSyCQt1-_LLhTfX_0l6JAZU1WwlZ1ldkTVTw"

# --- 2. 모델링 파라미터 (V18과 동일) ---
SLOPE_RADIUS_KM = 60
SLOPE_THRESHOLD_METERS = 2000
USGS_RADIUS_KM = 200
USGS_MIN_MAGNITUDE = 6.0 # 과거 1년 검색용

# --- 3. 헬퍼 함수 (V21과 동일) ---
# (get_elevation_features, get_usgs_fault_counts 등 모든 헬퍼 함수들)

def get_surrounding_points(lat, lon, radius_km):
    center_point = Point(lat, lon)
    points = {'center': (lat, lon)}
    bearings = [0, 90, 180, 270]; names = ['north', 'east', 'south', 'west']
    for name, bearing in zip(names, bearings):
        destination = geodesic(kilometers=radius_km).destination(center_point, bearing)
        points[name] = (destination.latitude, destination.longitude)
    return points

def get_elevation_features(lat, lon):
    is_ocean, is_steep_slope = 0, 0
    if GOOGLE_API_KEY == "YOUR_GOOGLE_API_KEY_HERE":
        print("  [오류] Elevation API 키가 설정되지 않았습니다. (0, 0) 반환.")
        return pd.Series([0, 0])
    try:
        points_to_check = get_surrounding_points(lat, lon, SLOPE_RADIUS_KM)
        locations_list = [
            points_to_check['center'], points_to_check['north'],
            points_to_check['east'], points_to_check['south'], points_to_check['west']
        ]
        locations_str = "|".join([f"{lt},{ln}" for lt, ln in locations_list])
        url = "https://maps.googleapis.com/maps/api/elevation/json"
        params = {'locations': locations_str, 'key': GOOGLE_API_KEY}
        response = requests.get(url, params=params, timeout=10)
        response.raise_for_status()
        data = response.json()
        if data['status'] == 'OK':
            results = data['results']
            if not results: return pd.Series([0, 0])
            center_elevation = results[0]['elevation']
            if center_elevation < 0: is_ocean = 1
            surrounding_elevations = [res['elevation'] for res in results[1:]]
            for elev in surrounding_elevations:
                if abs(center_elevation - elev) > SLOPE_THRESHOLD_METERS:
                    is_steep_slope = 1
                    break
        return pd.Series([is_ocean, is_steep_slope])
    except Exception as e:
        print(f"  [오류] Elevation API (Row) 실패: {e}. (0, 0) 반환.")
        return pd.Series([0, 0])

def get_usgs_fault_counts(row):
    horizontal_count, vertical_count = 0, 0
    try:
        # (수정) 이 지진이 발생한 시점(Year, Month)을 기준으로 '과거 1년'을 검색
        year = int(row['Year'])
        month = int(row['Month'])

        endtime = f"{year}-{month:02d}-01"
        starttime = f"{year - 1}-{month:02d}-01"

        lat = row['latitude']
        lon = row['longitude']

        search_url = "https://earthquake.usgs.gov/fdsnws/event/1/query"
        params = {
            'format': 'geojson', 'starttime': starttime, 'endtime': endtime,
            'latitude': lat, 'longitude': lon, 'maxradiuskm': USGS_RADIUS_KM,
            'minmagnitude': USGS_MIN_MAGNITUDE
        }
        response = requests.get(search_url, params=params, timeout=10)
        response.raise_for_status()
        data = response.json()
        found_quakes = data.get('features', [])
        if not found_quakes: return pd.Series([0, 0])

        for quake in found_quakes:
            detail_url = quake['properties'].get('detail')
            if not detail_url: continue
            time.sleep(0.1)
            detail_response = requests.get(detail_url, timeout=10)
            detail_response.raise_for_status()
            detail_data = detail_response.json()
            products = detail_data['properties'].get('products', {})
            rake_value = None
            all_products = products.get('moment-tensor', []) + products.get('focal-mechanism', [])
            if not all_products: continue
            best_product = None
            for p in all_products:
                if 'gcmt' in p.get('id','').lower(): best_product = p; break
            if best_product is None:
                for p in all_products:
                     if 'us' in p.get('id','').lower() or p.get('code','').lower() == 'us': best_product = p; break
            if best_product is None: best_product = all_products[0]
            if best_product:
                props = best_product.get('properties', {})
                rake_str = props.get('nodal-plane-1-rake')
                if rake_str is None: rake_str = props.get('rake')
                if rake_str is not None: rake_value = float(rake_str)
            if rake_value is not None:
                if (45 <= rake_value <= 135) or (-135 <= rake_value <= -45):
                    vertical_count += 1
                else:
                    horizontal_count += 1
        return pd.Series([horizontal_count, vertical_count])
    except Exception as e:
        print(f"  [오류] USGS API (Row) 실패: {e}. (0, 0) 반환.")
        return pd.Series([0, 0])

# --- 4. 메인 코드: 20개 "왕"급 데이터 처리 ---
if __name__ == "__main__":

    if GOOGLE_API_KEY == "AIzaSyCQt1-_LLhTfX_0l6JAZU1WwlZ1ldkTVTw":
        print("="*50)
        print("⚠️ 경고: 12번째 줄의 'GOOGLE_API_KEY'를 입력해야 스크립트가 작동합니다.")
        print("="*50)
        exit()

    try:
        df = pd.read_csv('new_king.csv')
        print(f"'new_kings.csv' 파일 (총 {len(df)}행) 처리 시작...")
    except FileNotFoundError:
        print("오류: 1단계에서 'new_kings.csv' 파일을 먼저 생성해야 합니다.")
        exit()

    tqdm.pandas(desc="V22 API 처리 중")

    # (수정) 2개의 API 함수를 20개 행에 대해 순차적으로 실행

    print("-> 1/2: Elevation API (is_ocean, is_steep_slope) 수집 중...")
    df_elevation = df.progress_apply(
        lambda row: get_elevation_features(row['latitude'], row['longitude']),
        axis=1
    )
    df_elevation.columns = ['is_ocean', 'is_steep_slope']

    print("\n-> 2/2: USGS API (Fault Counts) 수집 중...")
    df_usgs = df.progress_apply(
        get_usgs_fault_counts,
        axis=1
    )
    df_usgs.columns = ['horizontal_count_1y_full', 'vertical_count_1y_full']

    # 원본(df)과 2개의 API 결과(df_elevation, df_usgs)를 하나로 합침
    df_processed = pd.concat([df, df_elevation, df_usgs], axis=1)

    # 4. 새 파일로 저장
    output_filename = 'new_kings_processed.csv'
    df_processed.to_csv(output_filename, index=False)

    print(f"\n--- 처리 완료! ---")
    print(f"모든 특성이 추가된 20개의 데이터가 '{output_filename}'에 저장되었습니다.")
    print(df_processed.head())

⚠️ 경고: 12번째 줄의 'GOOGLE_API_KEY'를 입력해야 스크립트가 작동합니다.
'new_kings.csv' 파일 (총 20행) 처리 시작...
-> 1/2: Elevation API (is_ocean, is_steep_slope) 수집 중...


V22 API 처리 중: 100%|██████████| 20/20 [00:10<00:00,  1.87it/s]



-> 2/2: USGS API (Fault Counts) 수집 중...


V22 API 처리 중: 100%|██████████| 20/20 [00:47<00:00,  2.36s/it]


--- 처리 완료! ---
모든 특성이 추가된 20개의 데이터가 'new_kings_processed.csv'에 저장되었습니다.
   magnitude  depth  latitude  longitude  Year  Month  tsunami  is_ocean  \
0        9.5   25.0    -38.14     -73.41  1960      5        1         0   
1        9.2   25.0     60.91    -147.34  1964      3        1         0   
2        9.1   30.0      3.30      95.98  2004     12        1         1   
3        9.1   24.0     38.30     142.37  2011      3        1         1   
4        9.0   20.0     52.62     159.78  1952     11        1         1   

   is_steep_slope  horizontal_count_1y_full  vertical_count_1y_full  
0               0                         0                       0  
1               1                         0                       0  
2               0                         0                       0  
3               0                         0                       2  
4               0                         0                       0  





In [2]:
import pandas as pd

# --- 1. 파일 이름 정의 ---
file_original_782 = '../3차 전처리 - 단층 이동 데이터/TEST_train_data_final_with_fault_counts_past_year_full_month.csv'
file_new_20 = 'new_kings_processed.csv'
file_output_802 = 'final_802_data_for_training.csv'

# --- 2. 모델 훈련에 필요한 7개의 핵심 열 정의 ---
# (이 순서가 모델이 학습한 순서입니다)
MODEL_COLUMNS = [
    'magnitude',
    'depth',
    'is_ocean',
    'is_steep_slope',
    'horizontal_count_1y_full',
    'vertical_count_1y_full',
    'tsunami' # 타겟 변수
]

# --- 3. 데이터 로드 및 필터링 ---
try:
    df_782 = pd.read_csv(file_original_782)
    df_20 = pd.read_csv(file_new_20)
except FileNotFoundError as e:
    print(f"오류: 파일이 없습니다. {e}")
    print("1단계('new_kings.csv')와 2단계('process_new_kings.py')를 먼저 실행하세요.")
    exit()

# (전처리) 'is_ocean', 'is_steep_slope'이 0/1이 아닐 경우를 대비
df_782['is_ocean'] = df_782['is_ocean'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
df_782['is_steep_slope'] = df_782['is_steep_slope'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
# (df_20은 V22에서 이미 0/1로 생성됨)

# 7개의 핵심 열만 남기고 나머지(nst, dmin, Year 등)는 모두 버립니다.
df_782_clean = df_782[MODEL_COLUMNS]
df_20_clean = df_20[MODEL_COLUMNS]

# --- 4. 데이터 병합 (Concat) ---
df_final_802 = pd.concat([df_782_clean, df_20_clean], ignore_index=True)

# --- 5. 최종 저장 ---
df_final_802.to_csv(file_output_802, index=False)

print("--- 병합 완료! ---")
print(f"원본 데이터 782개 + '왕'급 데이터 20개 = 총 {len(df_final_802)}개")
print(f"모델 훈련을 위한 최종 파일: '{file_output_802}'")

--- 병합 완료! ---
원본 데이터 782개 + '왕'급 데이터 20개 = 총 802개
모델 훈련을 위한 최종 파일: 'final_802_data_for_training.csv'


In [6]:
# new_king이랑 final_model_data 합치는 코드 대신 Year Month 포함
import pandas as pd

# --- 1. 파일 이름 정의 ---
file_original_782 = 'final_model_data_2013_onward.csv'
file_new_20 = 'new_kings_processed.csv'
file_output_802 = 'final_802_data_for_training_include_Year_Month.csv'

# --- 2. 모델 훈련에 필요한 7개의 핵심 열 정의 ---
# (이 순서가 모델이 학습한 순서입니다)
MODEL_COLUMNS = [
    'magnitude',
    'depth',
    'latitude',
    'longitude',
    'Year',
    'Month',
    'is_ocean',
    'is_steep_slope',
    'horizontal_count_1y_full',
    'vertical_count_1y_full',
    'tsunami' # 타겟 변수
]

# --- 3. 데이터 로드 및 필터링 ---
try:
    df_782 = pd.read_csv(file_original_782)
    df_20 = pd.read_csv(file_new_20)
except FileNotFoundError as e:
    print(f"오류: 파일이 없습니다. {e}")
    print("1단계('new_kings.csv')와 2단계('process_new_kings.py')를 먼저 실행하세요.")
    exit()

# (전처리) 'is_ocean', 'is_steep_slope'이 0/1이 아닐 경우를 대비
df_782['is_ocean'] = df_782['is_ocean'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
df_782['is_steep_slope'] = df_782['is_steep_slope'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
# (df_20은 V22에서 이미 0/1로 생성됨)

# 7개의 핵심 열만 남기고 나머지(nst, dmin, Year 등)는 모두 버립니다.
df_782_clean = df_782[MODEL_COLUMNS]
df_20_clean = df_20[MODEL_COLUMNS]

# --- 4. 데이터 병합 (Concat) ---
df_final_802 = pd.concat([df_782_clean, df_20_clean], ignore_index=True)

# --- 5. 최종 저장 ---
df_final_802.to_csv(file_output_802, index=False)

print("--- 병합 완료! ---")
print(f"원본 데이터 782개 + '왕'급 데이터 20개 = 총 {len(df_final_802)}개")
print(f"모델 훈련을 위한 최종 파일: '{file_output_802}'")

--- 병합 완료! ---
원본 데이터 782개 + '왕'급 데이터 20개 = 총 438개
모델 훈련을 위한 최종 파일: 'final_802_data_for_training_include_Year_Month.csv'


In [2]:
# final_model_data에서 2012년 포함 이전 데이터들 삭제 => tsunami가 모두 0임
import pandas as pd
import sys

# 1. 파일 이름 정의
input_file = 'final_model_data.csv'
output_file = 'final_model_data_2013_onward.csv' # 저장할 새 파일 이름

try:
    # 2. CSV 파일 로드
    df = pd.read_csv(input_file)
    original_count = len(df)

    print(f"'{input_file}' 파일 로드 완료. (총 {original_count} 행)")

    # 3. 데이터 필터링: 'Year' 컬럼이 2013 이상인 행만 선택
    #    (2013년 이전 데이터를 삭제합니다)
    df_filtered = df[df['Year'] >= 2013].copy()
    filtered_count = len(df_filtered)

    # 4. 필터링 결과 출력
    print("\n--- 필터링 결과 ---")
    print(f"원본 데이터 행 수: {original_count}")
    print(f"2013년 이후 데이터 행 수 (유지): {filtered_count}")
    print(f"삭제된 행 수 (2013년 미만): {original_count - filtered_count}")

    # 5. 필터링된 데이터를 새 CSV 파일로 저장
    df_filtered.to_csv(output_file, index=False, encoding='utf-8-sig')

    print(f"\n[성공] 필터링된 데이터가 '{output_file}' 파일로 저장되었습니다.")

except FileNotFoundError:
    print(f"오류: '{input_file}' 파일을 찾을 수 없습니다.", file=sys.stderr)
except KeyError:
    print("오류: 'Year' 컬럼을 찾을 수 없습니다. 컬럼 이름을 확인하세요.", file=sys.stderr)
except Exception as e:
    print(f"데이터 처리 중 알 수 없는 오류 발생: {e}", file=sys.stderr)

'final_model_data.csv' 파일 로드 완료. (총 782 행)

--- 필터링 결과 ---
원본 데이터 행 수: 782
2013년 이후 데이터 행 수 (유지): 418
삭제된 행 수 (2013년 미만): 364

[성공] 필터링된 데이터가 'final_model_data_2013_onward.csv' 파일로 저장되었습니다.


In [7]:
# TEST_earthquakes_final_convert_int 데이터와 final_802_data_for_training_include_Year_Month데이터 합치기
import pandas as pd
import sys

# 1. 파일 이름 정의
# 기준이 될 파일 (컬럼 순서 기준)
file_train = 'final_802_data_for_training_include_Year_Month.csv'
# 합칠 파일 (순서가 바뀔 파일)
file_test = 'TEST_earthquakes_final_convert_int.csv'

# 최종 저장될 파일
output_file = 'combined_sorted_earthquakes.csv'

try:
    # 2. 두 CSV 파일 로드
    df_train = pd.read_csv(file_train)
    df_test = pd.read_csv(file_test)

    print(f"'{file_train}' 로드 완료. (총 {len(df_train)} 행)")
    print(f"'{file_test}' 로드 완료. (총 {len(df_test)} 행)")

    # 3. 'df_train'의 컬럼 순서를 가져옴
    target_columns = df_train.columns.tolist()
    print(f"\n기준 컬럼 순서:\n{target_columns}")

    # 4. 'df_test'의 컬럼 순서를 'df_train'에 맞게 재정렬
    #    'df_train'에 없는 컬럼이 'df_test'에 있다면(예: latitude) 무시됩니다.

    # 'target_columns'에 있는 컬럼만 'df_test'에서 선택하여 순서를 맞춤
    try:
        df_test_reordered = df_test[target_columns]
        print(f"\n'{file_test}'의 컬럼 순서를 재정렬했습니다.")
    except KeyError as e:
        print(f"[오류] '{file_test}' 파일에 '{e}' 컬럼이 없습니다.", file=sys.stderr)
        print("두 파일의 컬럼 구성이 다른지 확인하세요.", file=sys.stderr)
        sys.exit(1) # 오류 발생 시 중단

    # 5. 두 데이터프레임 합치기 (Concatenate)
    # df_train (438행) + df_test_reordered (661행)
    combined_df = pd.concat([df_train, df_test_reordered], ignore_index=True)

    total_rows = len(df_train) + len(df_test)
    print(f"\n두 파일 병합 완료.")
    print(f"  - 총 합계 행 수: {len(combined_df)} (예상: {total_rows})")

    # 6. 'Year' 컬럼을 기준으로 내림차순 정렬 (최신순)
    if 'Year' in combined_df.columns:
        combined_df_sorted = combined_df.sort_values(by='Year', ascending=False)
        print("\n'Year' 컬럼 기준 내림차순 정렬 완료.")

        # 7. 최종 결과를 새 CSV 파일로 저장
        combined_df_sorted.to_csv(output_file, index=False, encoding='utf-8-sig')
        print(f"\n[성공] 최종 병합 및 정렬된 파일이 '{output_file}'로 저장되었습니다.")

        print("\n--- 최종 데이터 상위 5행 ---")
        print(combined_df_sorted.head())
    else:
        print("\n[오류] 'Year' 컬럼이 없어 정렬을 수행할 수 없습니다.", file=sys.stderr)

except FileNotFoundError as e:
    print(f"[오류] 파일을 찾을 수 없습니다: {e.filename}", file=sys.stderr)
except Exception as e:
    print(f"[오류] 데이터 처리 중 오류 발생: {e}", file=sys.stderr)

'final_802_data_for_training_include_Year_Month.csv' 로드 완료. (총 438 행)
'TEST_earthquakes_final_convert_int.csv' 로드 완료. (총 661 행)

기준 컬럼 순서:
['magnitude', 'depth', 'latitude', 'longitude', 'Year', 'Month', 'is_ocean', 'is_steep_slope', 'horizontal_count_1y_full', 'vertical_count_1y_full', 'tsunami']

'TEST_earthquakes_final_convert_int.csv'의 컬럼 순서를 재정렬했습니다.

두 파일 병합 완료.
  - 총 합계 행 수: 1099 (예상: 1099)

'Year' 컬럼 기준 내림차순 정렬 완료.

[성공] 최종 병합 및 정렬된 파일이 'combined_sorted_earthquakes.csv'로 저장되었습니다.

--- 최종 데이터 상위 5행 ---
      magnitude    depth  latitude  longitude  Year  Month  is_ocean  \
1078        5.1   7.1480   41.2186    78.7240  2024      1         0   
1079        5.5  10.0000   41.1979    78.6168  2024      1         0   
1080        5.4  10.0000   41.3326    78.7686  2024      1         0   
634         5.1   6.1279   32.4140  -102.0570  2024      9         0   
635         6.1  33.8820   12.9980   -89.5623  2024      8         1   

      is_steep_slope  horizontal_count_1y_full  vert