In [2]:
# 캐글 데이터의 전처리 코드
import pandas as pd

# 1. 원본 데이터 불러오기
try:
    df = pd.read_csv("원본 데이터/earthquake_data_tsunami.csv")

    # 2. 제외할 컬럼 목록 정의
    columns_to_drop = ['sig', 'cdi', 'mmi']

    # 3. 해당 컬럼들을 제외한 새 DataFrame 생성
    df_preprocessed = df.drop(columns=columns_to_drop)

    # 4. 전처리된 데이터를 새 파일로 저장
    output_filename = "1차 전처리-필요없는 데이터 제거/train_data.csv"
    df_preprocessed.to_csv(output_filename, index=False)

    print(f"전처리 완료. {output_filename} 으로 저장되었습니다.")
    print("남은 컬럼:", df_preprocessed.columns.to_list())

except FileNotFoundError:
    print("오류: 'earthquake_data_tsunami.csv' 파일을 찾을 수 없습니다.")
except KeyError as e:
    print(f"오류: {e.args[0]} 컬럼이 원본 파일에 없습니다.")

전처리 완료. train_data.csv 으로 저장되었습니다.
남은 컬럼: ['magnitude', 'nst', 'dmin', 'gap', 'depth', 'latitude', 'longitude', 'Year', 'Month', 'tsunami']


In [3]:
# USGS데이터 전처리 코드
import pandas as pd

try:
    # 0. 'query.csv' 파일 불러오기
    df = pd.read_csv("원본 데이터/query.csv")

    # 1. 'time' 컬럼에서 'Year'와 'Month' 추출
    df['time'] = pd.to_datetime(df['time'])
    df['Year'] = df['time'].dt.year
    df['Month'] = df['time'].dt.month

    # 2. 'mag' 컬럼명을 'magnitude'로 변경
    df.rename(columns={'mag': 'magnitude'}, inplace=True)

    # 3. 유지할 최종 컬럼 목록 정의
    columns_to_keep = [
        'latitude',
        'longitude',
        'depth',
        'nst',
        'dmin',
        'gap',
        'Year',      # 1번에서 새로 생성
        'Month',     # 1번에서 새로 생성
        'magnitude'  # 2번에서 이름 변경
    ]

    # 4. 위 목록에 있는 컬럼들만 선택하여 새 DataFrame 생성
    df_preprocessed = df[columns_to_keep]

    # 5. 전처리된 데이터를 새 파일로 저장
    output_filename = "1차 전처리-필요없는 데이터 제거/Test_data.csv"
    df_preprocessed.to_csv(output_filename, index=False)

    print(f"전처리 완료. '{output_filename}'으로 저장했습니다.")
    print("\n--- 최종 컬럼 목록 ---")
    print(df_preprocessed.columns.to_list())

except FileNotFoundError:
    print("오류: 'query.csv' 파일을 찾을 수 없습니다.")
except KeyError as e:
    print(f"오류: {e.args[0]} 컬럼을 찾을 수 없습니다.")

전처리 완료. 'Test_data.csv'으로 저장했습니다.

--- 최종 컬럼 목록 ---
['latitude', 'longitude', 'depth', 'nst', 'dmin', 'gap', 'Year', 'Month', 'magnitude']


In [8]:
import pandas as pd
import requests
from geopy.distance import geodesic
from geopy.point import Point
import time

# --- 1. 사용자 설정 ---

# ⚠️ 여기에 본인의 Google API 키를 입력하세요.
# 경고: 이 키를 절대 외부에 노출하거나 공유하지 마세요.
API_KEY = "YOUR_API_KEY_HERE"

# 입력 파일 이름
INPUT_CSV = 'train_data.csv'

# 저장할 파일 이름
OUTPUT_CSV = 'train_data_with_elevation.csv'

# 반경 몇 km를 확인할지 설정
RADIUS_KM = 60

# '급경사'로 판단할 고도 차이 (미터)
# 예: 60km 반경 내에 2000m(2km) 이상의 고도 차이가 나면 '급경사'로 판단
STEEP_SLOPE_THRESHOLD_METERS = 2000

# ⚠️ 테스트를 위해 처리할 행 수 (전체 데이터를 돌리기 전에 10개로 테스트)
# 전체 데이터를 처리하려면 None 으로 설정
PROCESS_LIMIT = None

# --- 2. API 및 경사 분석 함수 ---

def get_surrounding_points(lat, lon, radius_km):
    """중심점에서 동서남북 반경 지점의 좌표를 계산합니다."""
    center_point = Point(lat, lon)
    points = {'center': (lat, lon)}

    # 북(0), 동(90), 남(180), 서(270)
    bearings = [0, 90, 180, 270]
    names = ['north', 'east', 'south', 'west']

    for name, bearing in zip(names, bearings):
        destination = geodesic(kilometers=radius_km).destination(center_point, bearing)
        points[name] = (destination.latitude, destination.longitude)

    return points

def get_elevations_from_api(locations_list, api_key):
    """
    여러 위치의 고도 정보를 Google API로 한 번에 요청합니다.
    locations_list: [(lat1, lon1), (lat2, lon2), ...]
    """
    # API가 인식하는 locations 문자열 형식으로 변환 (예: "lat1,lon1|lat2,lon2")
    locations_str = "|".join([f"{lat},{lon}" for lat, lon in locations_list])

    url = "https://maps.googleapis.com/maps/api/elevation/json"
    params = {
        'locations': locations_str,
        'key': api_key
    }

    response = requests.get(url, params=params)
    response.raise_for_status()  # 오류가 있으면 예외 발생

    data = response.json()

    if data['status'] == 'OK':
        return data['results']
    else:
        raise Exception(f"Google API Error: {data['status']} - {data.get('error_message', '')}")

def analyze_row_elevation(row, api_key, radius_km, slope_threshold):
    """
    DataFrame의 한 행을 받아 is_ocean 과 is_steep_slope 를 분석합니다.
    """
    center_lat = row['latitude']
    center_lon = row['longitude']

    # 1. 분석할 5개 지점(중심, 동서남북)의 좌표 계산
    #    (참고: API는 5개 지점의 고도를 한 번의 요청으로 가져옵니다)
    points_to_check = get_surrounding_points(center_lat, center_lon, radius_km)

    # API에 보낼 순서 고정: [center, north, east, south, west]
    locations_list = [
        points_to_check['center'],
        points_to_check['north'],
        points_to_check['east'],
        points_to_check['south'],
        points_to_check['west']
    ]

    # 2. Google API로 5개 지점의 고도 정보 가져오기
    elevation_results = get_elevations_from_api(locations_list, api_key)

    if len(elevation_results) != 5:
        raise Exception("API 응답에서 5개의 위치 정보를 받지 못했습니다.")

    # 3. Task 1: "바다인가?" (고도가 음수인가?)
    # 중심점(첫 번째 결과)의 고도를 확인합니다.
    center_elevation = elevation_results[0]['elevation']
    is_ocean = center_elevation < 0

    # 4. Task 2: "급경사인가?"
    # 중심점 고도와 주변 4개 지점의 고도를 비교합니다.
    is_steep_slope = False
    surrounding_elevations = [res['elevation'] for res in elevation_results[1:]] # 4개 지점

    for elev in surrounding_elevations:
        # 중심 고도와 주변 고도의 차이(절대값)
        elevation_diff = abs(center_elevation - elev)

        if elevation_diff > slope_threshold:
            is_steep_slope = True
            break  # 하나라도 급경사면 확인 중단

    return pd.Series([is_ocean, is_steep_slope])

# --- 3. 메인 스크립트 실행 ---

def main():
    if API_KEY == "YOUR_API_KEY_HERE":
        print("=" * 60)
        print("⚠️ 오류: API_KEY를 스크립트 11번째 줄에 입력해주세요.")
        print("Google Cloud Platform에서 'Elevation API'를 활성화해야 합니다.")
        print("=" * 60)
        return

    print(f"'{INPUT_CSV}' 파일 읽는 중...")
    try:
        df = pd.read_csv(INPUT_CSV)
    except FileNotFoundError:
        print(f"오류: '{INPUT_CSV}' 파일을 찾을 수 없습니다. 스크립트와 같은 폴더에 있는지 확인하세요.")
        return

    # 처리할 데이터 슬라이싱
    if PROCESS_LIMIT is not None:
        print(f"--- 테스트 모드: 처음 {PROCESS_LIMIT}개 행만 처리합니다. ---")
        df_to_process = df.iloc[:PROCESS_LIMIT].copy()
    else:
        print("--- 전체 데이터 처리 모드 ---")
        df_to_process = df.copy()

    print(f"총 {len(df_to_process)}개의 행에 대한 고도 분석을 시작합니다...")

    start_time = time.time()

    # apply 함수를 사용하여 각 행에 분석 함수 적용
    try:
        new_columns = df_to_process.apply(
            analyze_row_elevation,
            axis=1,
            api_key=API_KEY,
            radius_km=RADIUS_KM,
            slope_threshold=STEEP_SLOPE_THRESHOLD_METERS
        )
        new_columns.columns = ['is_ocean', 'is_steep_slope']

        # 원본 데이터와 합치기
        df_to_process = pd.concat([df_to_process, new_columns], axis=1)

        end_time = time.time()
        print("\n--- 분석 완료 ---")
        print(f"총 처리 시간: {end_time - start_time:.2f}초")

        # 결과 미리보기
        print("\n분석 결과 미리보기 (is_ocean, is_steep_slope 추가):")
        print(df_to_process.head().to_markdown(index=False))

        # 결과 저장
        # 원본 파일이 아닌, 처리된 부분만 저장
        if PROCESS_LIMIT is not None:
            output_file = f"TEST_{OUTPUT_CSV}"
            print(f"\n테스트 결과가 '{output_file}' 파일로 저장되었습니다.")
            df_to_process.to_csv(output_file, index=False)
        else:
            # 전체 데이터를 처리한 경우, 원본 데이터를 덮어쓰지 않고 새 파일로 저장
            # (만약 원본 전체에 추가하고 싶다면 df[new_columns] = ... 로직 필요)
            print(f"\n전체 분석 결과가 '{OUTPUT_CSV}' 파일로 저장되었습니다.")
            # 원본 df에 새 열을 추가하여 저장
            df[['is_ocean', 'is_steep_slope']] = new_columns
            df.to_csv(OUTPUT_CSV, index=False)

    except Exception as e:
        print("\n--- !!! 처리 중 심각한 오류 발생 !!! ---")
        print(f"오류: {e}")
        print("API 키가 유효한지, Google Cloud 계정에 결제 정보가 등록되었는지,")
        print("'Maps Elevation API'가 활성화되었는지 확인하세요.")

if __name__ == "__main__":
    main()

⚠️ 오류: API_KEY를 스크립트 11번째 줄에 입력해주세요.
Google Cloud Platform에서 'Elevation API'를 활성화해야 합니다.


In [10]:
import pandas as pd
import requests
from geopy.distance import geodesic
from geopy.point import Point
import time

# --- 1. 사용자 설정 ---

# ⚠️ 여기에 본인의 Google API 키를 입력하세요.
# 경고: 이 키를 절대 외부에 노출하거나 공유하지 마세요.
API_KEY = "AIzaSyCQt1-_LLhTfX_0l6JAZU1WwlZ1ldkTVTw"

# 입력 파일 이름
INPUT_CSV = 'train_data.csv'

# 저장할 파일 이름
OUTPUT_CSV = 'train_data_with_elevation.csv'

# 반경 몇 km를 확인할지 설정
RADIUS_KM = 60

# '급경사'로 판단할 고도 차이 (미터)
# 예: 60km 반경 내에 2000m(2km) 이상의 고도 차이가 나면 '급경사'로 판단
STEEP_SLOPE_THRESHOLD_METERS = 2000

# ⚠️ 테스트를 위해 처리할 행 수 (전체 데이터를 돌리기 전에 10개로 테스트)
# 전체 데이터를 처리하려면 None 으로 설정
PROCESS_LIMIT = None

# --- 2. API 및 경사 분석 함수 ---

def get_surrounding_points(lat, lon, radius_km):
    """중심점에서 동서남북 반경 지점의 좌표를 계산합니다."""
    center_point = Point(lat, lon)
    points = {'center': (lat, lon)}

    # 북(0), 동(90), 남(180), 서(270)
    bearings = [0, 90, 180, 270]
    names = ['north', 'east', 'south', 'west']

    for name, bearing in zip(names, bearings):
        destination = geodesic(kilometers=radius_km).destination(center_point, bearing)
        points[name] = (destination.latitude, destination.longitude)

    return points

def get_elevations_from_api(locations_list, api_key):
    """
    여러 위치의 고도 정보를 Google API로 한 번에 요청합니다.
    locations_list: [(lat1, lon1), (lat2, lon2), ...]
    """
    # API가 인식하는 locations 문자열 형식으로 변환 (예: "lat1,lon1|lat2,lon2")
    locations_str = "|".join([f"{lat},{lon}" for lat, lon in locations_list])

    url = "https://maps.googleapis.com/maps/api/elevation/json"
    params = {
        'locations': locations_str,
        'key': api_key
    }

    response = requests.get(url, params=params)
    response.raise_for_status()  # 오류가 있으면 예외 발생

    data = response.json()

    if data['status'] == 'OK':
        return data['results']
    else:
        raise Exception(f"Google API Error: {data['status']} - {data.get('error_message', '')}")

def analyze_row_elevation(row, api_key, radius_km, slope_threshold):
    """
    DataFrame의 한 행을 받아 is_ocean 과 is_steep_slope 를 분석합니다.
    """
    center_lat = row['latitude']
    center_lon = row['longitude']

    # 1. 분석할 5개 지점(중심, 동서남북)의 좌표 계산
    #    (참고: API는 5개 지점의 고도를 한 번의 요청으로 가져옵니다)
    points_to_check = get_surrounding_points(center_lat, center_lon, radius_km)

    # API에 보낼 순서 고정: [center, north, east, south, west]
    locations_list = [
        points_to_check['center'],
        points_to_check['north'],
        points_to_check['east'],
        points_to_check['south'],
        points_to_check['west']
    ]

    # 2. Google API로 5개 지점의 고도 정보 가져오기
    elevation_results = get_elevations_from_api(locations_list, api_key)

    if len(elevation_results) != 5:
        raise Exception("API 응답에서 5개의 위치 정보를 받지 못했습니다.")

    # 3. Task 1: "바다인가?" (고도가 음수인가?)
    # 중심점(첫 번째 결과)의 고도를 확인합니다.
    center_elevation = elevation_results[0]['elevation']
    is_ocean = center_elevation < 0

    # 4. Task 2: "급경사인가?"
    # 중심점 고도와 주변 4개 지점의 고도를 비교합니다.
    is_steep_slope = False
    surrounding_elevations = [res['elevation'] for res in elevation_results[1:]] # 4개 지점

    for elev in surrounding_elevations:
        # 중심 고도와 주변 고도의 차이(절대값)
        elevation_diff = abs(center_elevation - elev)

        if elevation_diff > slope_threshold:
            is_steep_slope = True
            break  # 하나라도 급경사면 확인 중단

    return pd.Series([is_ocean, is_steep_slope])

# --- 3. 메인 스크립트 실행 ---

def main():
    if API_KEY == "YOUR_API_KEY_HERE":
        print("=" * 60)
        print("⚠️ 오류: API_KEY를 스크립트 11번째 줄에 입력해주세요.")
        print("Google Cloud Platform에서 'Elevation API'를 활성화해야 합니다.")
        print("=" * 60)
        return

    print(f"'{INPUT_CSV}' 파일 읽는 중...")
    try:
        df = pd.read_csv(INPUT_CSV)
    except FileNotFoundError:
        print(f"오류: '{INPUT_CSV}' 파일을 찾을 수 없습니다. 스크립트와 같은 폴더에 있는지 확인하세요.")
        return

    # 처리할 데이터 슬라이싱
    if PROCESS_LIMIT is not None:
        print(f"--- 테스트 모드: 처음 {PROCESS_LIMIT}개 행만 처리합니다. ---")
        df_to_process = df.iloc[:PROCESS_LIMIT].copy()
    else:
        print("--- 전체 데이터 처리 모드 ---")
        df_to_process = df.copy()

    print(f"총 {len(df_to_process)}개의 행에 대한 고도 분석을 시작합니다...")

    start_time = time.time()

    # apply 함수를 사용하여 각 행에 분석 함수 적용
    try:
        new_columns = df_to_process.apply(
            analyze_row_elevation,
            axis=1,
            api_key=API_KEY,
            radius_km=RADIUS_KM,
            slope_threshold=STEEP_SLOPE_THRESHOLD_METERS
        )
        new_columns.columns = ['is_ocean', 'is_steep_slope']

        # 원본 데이터와 합치기
        df_to_process = pd.concat([df_to_process, new_columns], axis=1)

        end_time = time.time()
        print("\n--- 분석 완료 ---")
        print(f"총 처리 시간: {end_time - start_time:.2f}초")

        # 결과 미리보기
        print("\n분석 결과 미리보기 (is_ocean, is_steep_slope 추가):")
        print(df_to_process.head().to_markdown(index=False))

        # 결과 저장
        # 원본 파일이 아닌, 처리된 부분만 저장
        if PROCESS_LIMIT is not None:
            output_file = f"TEST_{OUTPUT_CSV}"
            print(f"\n테스트 결과가 '{output_file}' 파일로 저장되었습니다.")
            df_to_process.to_csv(output_file, index=False)
        else:
            # 전체 데이터를 처리한 경우, 원본 데이터를 덮어쓰지 않고 새 파일로 저장
            # (만약 원본 전체에 추가하고 싶다면 df[new_columns] = ... 로직 필요)
            print(f"\n전체 분석 결과가 '{OUTPUT_CSV}' 파일로 저장되었습니다.")
            # 원본 df에 새 열을 추가하여 저장
            df[['is_ocean', 'is_steep_slope']] = new_columns
            df.to_csv(OUTPUT_CSV, index=False)

    except Exception as e:
        print("\n--- !!! 처리 중 심각한 오류 발생 !!! ---")
        print(f"오류: {e}")
        print("API 키가 유효한지, Google Cloud 계정에 결제 정보가 등록되었는지,")
        print("'Maps Elevation API'가 활성화되었는지 확인하세요.")

if __name__ == "__main__":
    main()

'train_data.csv' 파일 읽는 중...
--- 전체 데이터 처리 모드 ---
총 782개의 행에 대한 고도 분석을 시작합니다...

--- 분석 완료 ---
총 처리 시간: 462.36초

분석 결과 미리보기 (is_ocean, is_steep_slope 추가):
|   magnitude |   nst |   dmin |   gap |   depth |   latitude |   longitude |   Year |   Month |   tsunami | is_ocean   | is_steep_slope   |
|------------:|------:|-------:|------:|--------:|-----------:|------------:|-------:|--------:|----------:|:-----------|:-----------------|
|         7   |   117 |  0.509 |    17 |  14     |    -9.7963 |     159.596 |   2022 |      11 |         1 | True       | True             |
|         6.9 |    99 |  2.229 |    34 |  25     |    -4.9559 |     100.738 |   2022 |      11 |         0 | True       | True             |
|         7   |   147 |  3.125 |    18 | 579     |   -20.0508 |    -178.346 |   2022 |      11 |         1 | True       | True             |
|         7.3 |   149 |  1.865 |    21 |  37     |   -19.2918 |    -172.129 |   2022 |      11 |         1 | True       | True             |


In [None]:
import pandas as pd

# 1. 파일 읽기
try:
    df = pd.read_csv('train_data_with_elevation.csv')
    print("파일 읽기 성공:")
    print(df.head()[['is_ocean', 'is_steep_slope']].to_markdown(index=False))

except FileNotFoundError:
    print("오류: 'train_data_with_elevation.csv' 파일을 찾을 수 없습니다.")
    exit()


# 2. 'is_ocean'과 'is_steep_slope' 열을 정수(int)로 변환
#   (True -> 1, False -> 0)
if 'is_ocean' in df.columns:
    df['is_ocean'] = df['is_ocean'].astype(int)
    print("\n'is_ocean' 열을 정수로 변환했습니다.")
else:
    print("\n경고: 'is_ocean' 열이 없습니다.")

if 'is_steep_slope' in df.columns:
    df['is_steep_slope'] = df['is_steep_slope'].astype(int)
    print("'is_steep_slope' 열을 정수로 변환했습니다.")
else:
    print("\n경고: 'is_steep_slope' 열이 없습니다.")


# 3. 변경된 결과 확인
print("\n--- 변환 후 데이터 확인 (head) ---")
print(df.head()[['is_ocean', 'is_steep_slope']].to_markdown(index=False))


# 4. 새 파일로 저장
output_filename = 'train_data_processed.csv'
df.to_csv(output_filename, index=False)

print(f"\n변환된 데이터를 '{output_filename}' 파일로 저장했습니다.")