In [9]:
import pandas as pd

# 1. [설정] 크롤링으로 저장한 원본 파일 이름
# (예: 'data_2_2020_10_21_large.csv' 또는 'icecream_sales_data.csv')
original_file_name = "data4.csv"

# 2. [설정] 필터링 후 새로 저장할 파일 이름
filtered_file_name = "seoul_only/data_4_seoul_only.csv"

try:
    # --- 1. 원본 CSV 파일 읽어오기 ---
    print(f"원본 파일 '{original_file_name}'을(를) 읽어오는 중입니다...")
    # (데이터가 매우 클 경우 시간이 조금 걸릴 수 있습니다)
    df = pd.read_csv(original_file_name)

    print(f"파일 읽기 완료. (총 {len(df)}건)")
    # print(df.head()) # 상위 5개 데이터 확인 (옵션)

    # --- 2. "시도명" 열(Column)로 필터링 ---
    # (이미지에서 컬럼명이 '시도명'인 것을 확인했습니다)
    print("'시도명'이 '서울특별시'인 데이터만 필터링합니다...")

    # [핵심] '시도명' 컬럼의 값이 '서울특별시'와 일치하는 행만 선택
    seoul_df = df[df['brtc_nm'] == '서울특별시']

    # --- 3. 필터링된 결과를 새 CSV 파일로 저장 ---
    if len(seoul_df) > 0:
        print(f"필터링 완료. {len(seoul_df)}건의 서울시 데이터를 '{filtered_file_name}'(으)로 저장합니다.")

        # index=False: 엑셀에서 불필요한 첫 번째 인덱스 열 제외
        # encoding='utf-8-sig': 한글 깨짐 방지
        seoul_df.to_csv(filtered_file_name, index=False, encoding='utf-8-sig')

        print(f"'{filtered_file_name}' 저장 성공!")
    else:
        print("필터링 결과, '서울특별시' 데이터가 없습니다.")

except FileNotFoundError:
    print(f"[오류] '{original_file_name}' 파일을 찾을 수 없습니다. 파일 이름을 확인하세요.")
except KeyError:
    print("[오류] '시도명'이라는 컬럼(열)을 찾을 수 없습니다. CSV 파일의 헤더를 확인하세요.")
except Exception as e:
    print(f"작업 중 알 수 없는 오류가 발생했습니다: {e}")

원본 파일 'data4.csv'을(를) 읽어오는 중입니다...
파일 읽기 완료. (총 1947254건)
'시도명'이 '서울특별시'인 데이터만 필터링합니다...
필터링 완료. 594659건의 서울시 데이터를 'data_4_seoul_only.csv'(으)로 저장합니다.
'data_4_seoul_only.csv' 저장 성공!


In [11]:
import pandas as pd
import os

# 1. [설정] 데이터 폴더
data_folder = "seoul_only"

# 2. [설정] 입력 파일 (서울시 데이터만 필터링된 파일)
input_file_basename = "data_4_seoul_only.csv"

# 3. [설정] 정렬 후 새로 저장할 파일
output_file_basename = "data4_sorted_asc.csv"

# --- 파일 경로 설정 ---
input_path = os.path.join(data_folder, input_file_basename)
output_path = os.path.join(data_folder, output_file_basename)

# 4. [설정] 정렬할 기준이 되는 열(Column) 이름
# (이전 이미지에서 '20200915'가 있는 열의 헤더는 '기준일자'였습니다)
sort_column_name = 'de'

try:
    # --- 1. 서울시 데이터 파일 읽기 ---
    print(f"파일 읽는 중: '{input_path}'")
    df = pd.read_csv(input_path)
    print(f"파일 읽기 완료. (총 {len(df)}건)")

    # --- 2. [핵심] '기준일자' 열을 기준으로 내림차순 정렬 ---
    print(f"'{sort_column_name}' 열을 기준으로 내림차순 정렬 중...")

    # ascending=False는 '내림차순' (Descending)을 의미합니다.
    sorted_df = df.sort_values(by=sort_column_name, ascending=True)

    print("정렬 완료.")

    # --- 3. 정렬된 결과를 새 CSV 파일로 저장 ---
    print(f"정렬된 데이터를 '{output_path}' 파일로 저장 중...")
    sorted_df.to_csv(output_path, index=False, encoding='utf-8-sig')

    print(f"[성공] '{output_path}' 파일 저장 완료!")

    # --- 4. 정렬 결과 확인 (상위 10개 행 출력) ---
    print("\n--- 정렬된 데이터 (상위 10개) ---")
    print(sorted_df.head(10))


except FileNotFoundError:
    print(f"[오류] '{input_path}' 파일을 찾을 수 없습니다. 파일 이름을 확인하세요.")
except KeyError:
    print(f"[오류] '{sort_column_name}' 컬럼을 찾을 수 없습니다. CSV 파일의 헤더를 확인하세요.")
except Exception as e:
    print(f"작업 중 알 수 없는 오류가 발생했습니다: {e}")

파일 읽는 중: 'seoul_only\data_4_seoul_only.csv'
파일 읽기 완료. (총 594659건)
'de' 열을 기준으로 내림차순 정렬 중...
정렬 완료.
정렬된 데이터를 'seoul_only\data4_sorted_asc.csv' 파일로 저장 중...
[성공] 'seoul_only\data4_sorted_asc.csv' 파일 저장 완료!

--- 정렬된 데이터 (상위 10개) ---
         gov_dn_cd brtc_nm signgu_nm adstrd_nm        de sex_se year_se  \
228553  1138055200   서울특별시       은평구      갈현2동  20190801      F      40   
228554  1138055200   서울특별시       은평구      갈현2동  20190801      F      45   
228555  1138055200   서울특별시       은평구      갈현2동  20190801      F      50   
147438  1129065000   서울특별시       성북구      정릉4동  20190801      F      30   
147439  1129065000   서울특별시       성북구      정릉4동  20190801      F      35   
147440  1129065000   서울특별시       성북구      정릉4동  20190801      F      40   
147441  1129065000   서울특별시       성북구      정릉4동  20190801      F      45   
147442  1129065000   서울특별시       성북구      정릉4동  20190801      F      50   
147449  1129065000   서울특별시       성북구      정릉4동  20190801      M      55   
147450  1129065000   