In [None]:
import pandas as pd

# 1. 파일 이름 정의
input_file = '../3차 전처리 - 단층 이동 데이터/TEST_train_data_final_with_fault_counts_past_year_full_month.csv'
output_file = 'final_model_data.csv' # (최종 훈련용 데이터)

# 2. (핵심) 남기고자 하는 11개의 최종 컬럼 목록
columns_to_keep = [
    'magnitude',
    'depth',
    'latitude',
    'longitude',
    'Year',
    'Month',
    'tsunami',
    'is_ocean',
    'is_steep_slope',
    'horizontal_count_1y_full',
    'vertical_count_1y_full'
]

try:
    # 3. 데이터 불러오기
    df = pd.read_csv(input_file)
    print(f"'{input_file}' 파일 (총 {len(df)}행)을 불러왔습니다.")

    # 4. (전처리) 'is_ocean', 'is_steep_slope'이 0/1이 아닐 경우를 대비
    if 'is_ocean' in df.columns:
        df['is_ocean'] = df['is_ocean'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
    if 'is_steep_slope' in df.columns:
        df['is_steep_slope'] = df['is_steep_slope'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)

    # 5. (핵심) 11개 컬럼만 선택 (필터링)
    # df에 있지만 columns_to_keep에 없는 'nst', 'dmin', 'gap' 등은 모두 제거됨

    # (안전장치) 요청한 컬럼 중 실제 파일에 있는 것만 필터링
    existing_columns_to_keep = [col for col in columns_to_keep if col in df.columns]

    df_filtered = df[existing_columns_to_keep]

    print(f"\n{len(existing_columns_to_keep)}개의 요청된 컬럼만 남겼습니다:")
    print(existing_columns_to_keep)

    # 6. 새 파일로 저장
    df_filtered.to_csv(output_file, index=False)

    print(f"\n--- 처리 완료! ---")
    print(f"모든 필터링이 완료된 최종 데이터가 '{output_file}'에 저장되었습니다.")

except FileNotFoundError:
    print(f"오류: '{input_file}' 파일을 찾을 수 없습니다.")
except KeyError as e:
    print(f"오류: 요청한 컬럼 중 일부가 원본 파일에 없습니다. {e}")
except Exception as e:
    print(f"알 수 없는 오류 발생: {e}")

In [1]:
import pandas as pd
import requests
import time
import numpy as np
import json
from datetime import datetime, timedelta, UTC
from calendar import monthrange
from geopy.distance import geodesic
from geopy.point import Point
from tqdm import tqdm

# --- 1. ★★★ 설정 (중요) ★★★ ---
# ⚠️ 여기에 Google API 키를 입력하세요
GOOGLE_API_KEY = "AIzaSyCQt1-_LLhTfX_0l6JAZU1WwlZ1ldkTVTw"

# --- 2. 모델링 파라미터 (V18과 동일) ---
SLOPE_RADIUS_KM = 60
SLOPE_THRESHOLD_METERS = 2000
USGS_RADIUS_KM = 200
USGS_MIN_MAGNITUDE = 6.0 # 과거 1년 검색용

# --- 3. 헬퍼 함수 (V21과 동일) ---
# (get_elevation_features, get_usgs_fault_counts 등 모든 헬퍼 함수들)

def get_surrounding_points(lat, lon, radius_km):
    center_point = Point(lat, lon)
    points = {'center': (lat, lon)}
    bearings = [0, 90, 180, 270]; names = ['north', 'east', 'south', 'west']
    for name, bearing in zip(names, bearings):
        destination = geodesic(kilometers=radius_km).destination(center_point, bearing)
        points[name] = (destination.latitude, destination.longitude)
    return points

def get_elevation_features(lat, lon):
    is_ocean, is_steep_slope = 0, 0
    if GOOGLE_API_KEY == "YOUR_GOOGLE_API_KEY_HERE":
        print("  [오류] Elevation API 키가 설정되지 않았습니다. (0, 0) 반환.")
        return pd.Series([0, 0])
    try:
        points_to_check = get_surrounding_points(lat, lon, SLOPE_RADIUS_KM)
        locations_list = [
            points_to_check['center'], points_to_check['north'],
            points_to_check['east'], points_to_check['south'], points_to_check['west']
        ]
        locations_str = "|".join([f"{lt},{ln}" for lt, ln in locations_list])
        url = "https://maps.googleapis.com/maps/api/elevation/json"
        params = {'locations': locations_str, 'key': GOOGLE_API_KEY}
        response = requests.get(url, params=params, timeout=10)
        response.raise_for_status()
        data = response.json()
        if data['status'] == 'OK':
            results = data['results']
            if not results: return pd.Series([0, 0])
            center_elevation = results[0]['elevation']
            if center_elevation < 0: is_ocean = 1
            surrounding_elevations = [res['elevation'] for res in results[1:]]
            for elev in surrounding_elevations:
                if abs(center_elevation - elev) > SLOPE_THRESHOLD_METERS:
                    is_steep_slope = 1
                    break
        return pd.Series([is_ocean, is_steep_slope])
    except Exception as e:
        print(f"  [오류] Elevation API (Row) 실패: {e}. (0, 0) 반환.")
        return pd.Series([0, 0])

def get_usgs_fault_counts(row):
    horizontal_count, vertical_count = 0, 0
    try:
        # (수정) 이 지진이 발생한 시점(Year, Month)을 기준으로 '과거 1년'을 검색
        year = int(row['Year'])
        month = int(row['Month'])

        endtime = f"{year}-{month:02d}-01"
        starttime = f"{year - 1}-{month:02d}-01"

        lat = row['latitude']
        lon = row['longitude']

        search_url = "https://earthquake.usgs.gov/fdsnws/event/1/query"
        params = {
            'format': 'geojson', 'starttime': starttime, 'endtime': endtime,
            'latitude': lat, 'longitude': lon, 'maxradiuskm': USGS_RADIUS_KM,
            'minmagnitude': USGS_MIN_MAGNITUDE
        }
        response = requests.get(search_url, params=params, timeout=10)
        response.raise_for_status()
        data = response.json()
        found_quakes = data.get('features', [])
        if not found_quakes: return pd.Series([0, 0])

        for quake in found_quakes:
            detail_url = quake['properties'].get('detail')
            if not detail_url: continue
            time.sleep(0.1)
            detail_response = requests.get(detail_url, timeout=10)
            detail_response.raise_for_status()
            detail_data = detail_response.json()
            products = detail_data['properties'].get('products', {})
            rake_value = None
            all_products = products.get('moment-tensor', []) + products.get('focal-mechanism', [])
            if not all_products: continue
            best_product = None
            for p in all_products:
                if 'gcmt' in p.get('id','').lower(): best_product = p; break
            if best_product is None:
                for p in all_products:
                     if 'us' in p.get('id','').lower() or p.get('code','').lower() == 'us': best_product = p; break
            if best_product is None: best_product = all_products[0]
            if best_product:
                props = best_product.get('properties', {})
                rake_str = props.get('nodal-plane-1-rake')
                if rake_str is None: rake_str = props.get('rake')
                if rake_str is not None: rake_value = float(rake_str)
            if rake_value is not None:
                if (45 <= rake_value <= 135) or (-135 <= rake_value <= -45):
                    vertical_count += 1
                else:
                    horizontal_count += 1
        return pd.Series([horizontal_count, vertical_count])
    except Exception as e:
        print(f"  [오류] USGS API (Row) 실패: {e}. (0, 0) 반환.")
        return pd.Series([0, 0])

# --- 4. 메인 코드: 20개 "왕"급 데이터 처리 ---
if __name__ == "__main__":

    if GOOGLE_API_KEY == "AIzaSyCQt1-_LLhTfX_0l6JAZU1WwlZ1ldkTVTw":
        print("="*50)
        print("⚠️ 경고: 12번째 줄의 'GOOGLE_API_KEY'를 입력해야 스크립트가 작동합니다.")
        print("="*50)
        exit()

    try:
        df = pd.read_csv('common_events_matched.csv')
        print(f"'common_events_matched.csv' 파일 (총 {len(df)}행) 처리 시작...")
    except FileNotFoundError:
        print("오류: 1단계에서 'common_events_matched.csv' 파일을 먼저 생성해야 합니다.")
        exit()

    tqdm.pandas(desc="V22 API 처리 중")

    # (수정) 2개의 API 함수를 20개 행에 대해 순차적으로 실행

    print("-> 1/2: Elevation API (is_ocean, is_steep_slope) 수집 중...")
    df_elevation = df.progress_apply(
        lambda row: get_elevation_features(row['latitude'], row['longitude']),
        axis=1
    )
    df_elevation.columns = ['is_ocean', 'is_steep_slope']

    print("\n-> 2/2: USGS API (Fault Counts) 수집 중...")
    df_usgs = df.progress_apply(
        get_usgs_fault_counts,
        axis=1
    )
    df_usgs.columns = ['horizontal_count_1y_full', 'vertical_count_1y_full']

    # 원본(df)과 2개의 API 결과(df_elevation, df_usgs)를 하나로 합침
    df_processed = pd.concat([df, df_elevation, df_usgs], axis=1)

    # 4. 새 파일로 저장
    output_filename = 'common_events_matched_proceed.csv'
    df_processed.to_csv(output_filename, index=False)

    print(f"\n--- 처리 완료! ---")
    print(f"모든 특성이 추가된 20개의 데이터가 '{output_filename}'에 저장되었습니다.")
    print(df_processed.head())

⚠️ 경고: 12번째 줄의 'GOOGLE_API_KEY'를 입력해야 스크립트가 작동합니다.
'common_events_matched.csv' 파일 (총 91행) 처리 시작...
-> 1/2: Elevation API (is_ocean, is_steep_slope) 수집 중...


V22 API 처리 중: 100%|██████████| 91/91 [00:55<00:00,  1.63it/s]



-> 2/2: USGS API (Fault Counts) 수집 중...


V22 API 처리 중: 100%|██████████| 91/91 [05:46<00:00,  3.81s/it]


--- 처리 완료! ---
모든 특성이 추가된 20개의 데이터가 'common_events_matched_proceed.csv'에 저장되었습니다.
                       time  latitude  longitude  depth    nst   gap  mag  \
0  2012-09-05T14:42:07.800Z    10.085    -85.315   35.0  703.0  34.3  7.6   
1  2012-08-31T12:47:33.380Z    10.811    126.638   28.0  682.0  10.2  7.6   
2  2012-08-27T04:37:19.430Z    12.139    -88.590   28.0  417.0  37.0  7.3   
3  2012-04-11T10:43:10.850Z     0.802     92.463   25.1  341.0  14.9  8.2   
4  2012-04-11T08:38:36.720Z     2.327     93.063   20.0  499.0  16.6  8.6   

   Year  Month  tsunami  is_ocean  is_steep_slope  horizontal_count_1y_full  \
0  2012      9        1         0               0                         0   
1  2012      8        1         1               1                         0   
2  2012      8        1         1               1                         0   
3  2012      4        1         1               0                         1   
4  2012      4        1         1               0          




In [2]:
import pandas as pd

# --- 1. 파일 이름 정의 ---
file_original_782 = '../3차 전처리 - 단층 이동 데이터/TEST_train_data_final_with_fault_counts_past_year_full_month.csv'
file_new_20 = 'new_kings_processed.csv'
file_output_802 = 'final_802_data_for_training.csv'

# --- 2. 모델 훈련에 필요한 7개의 핵심 열 정의 ---
# (이 순서가 모델이 학습한 순서입니다)
MODEL_COLUMNS = [
    'magnitude',
    'depth',
    'is_ocean',
    'is_steep_slope',
    'horizontal_count_1y_full',
    'vertical_count_1y_full',
    'tsunami' # 타겟 변수
]

# --- 3. 데이터 로드 및 필터링 ---
try:
    df_782 = pd.read_csv(file_original_782)
    df_20 = pd.read_csv(file_new_20)
except FileNotFoundError as e:
    print(f"오류: 파일이 없습니다. {e}")
    print("1단계('new_kings.csv')와 2단계('process_new_kings.py')를 먼저 실행하세요.")
    exit()

# (전처리) 'is_ocean', 'is_steep_slope'이 0/1이 아닐 경우를 대비
df_782['is_ocean'] = df_782['is_ocean'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
df_782['is_steep_slope'] = df_782['is_steep_slope'].apply(lambda x: 1 if (x == True or str(x).lower() == 'true') else 0)
# (df_20은 V22에서 이미 0/1로 생성됨)

# 7개의 핵심 열만 남기고 나머지(nst, dmin, Year 등)는 모두 버립니다.
df_782_clean = df_782[MODEL_COLUMNS]
df_20_clean = df_20[MODEL_COLUMNS]

# --- 4. 데이터 병합 (Concat) ---
df_final_802 = pd.concat([df_782_clean, df_20_clean], ignore_index=True)

# --- 5. 최종 저장 ---
df_final_802.to_csv(file_output_802, index=False)

print("--- 병합 완료! ---")
print(f"원본 데이터 782개 + '왕'급 데이터 20개 = 총 {len(df_final_802)}개")
print(f"모델 훈련을 위한 최종 파일: '{file_output_802}'")

--- 병합 완료! ---
원본 데이터 782개 + '왕'급 데이터 20개 = 총 802개
모델 훈련을 위한 최종 파일: 'final_802_data_for_training.csv'
