In [3]:
import pandas as pd

In [4]:
def extract_seoul_data(input_file, output_file):
    """
    CSV 파일에서 서울특별시 데이터만 추출하여 새로운 파일로 저장
    
    Args:
        input_file (str): 입력 CSV 파일 경로
        output_file (str): 출력 CSV 파일 경로
    """
    try:
        # CSV 파일 읽기
        print("데이터를 읽는 중...")
        df = pd.read_csv(input_file, encoding='utf-8')
        
        # 전체 데이터 정보 출력
        print(f"전체 데이터 행 수: {len(df)}")
        print(f"컬럼 수: {len(df.columns)}")
        print("\n컬럼 목록:")
        print(df.columns.tolist())
        
        # 서울특별시 데이터만 필터링
        seoul_data = df[df['CTPRVN_NM'] == '서울특별시']
        
        print(f"\n서울특별시 데이터 행 수: {len(seoul_data)}")
        
        # 서울특별시에 포함된 구 목록 확인
        if len(seoul_data) > 0:
            districts = seoul_data['SIGNGU_NM'].unique()
            
            print(f"추출된 서울특별시 구 목록 ({len(districts)}개):")
            for district in sorted(districts):
                print(f"  - {district}")
        
        # 새로운 CSV 파일로 저장
        seoul_data.to_csv(output_file, index=False, encoding='utf-8')
        print(f"\n서울특별시 데이터가 '{output_file}'에 저장되었습니다.")
        
        # 저장된 데이터의 간단한 통계 정보
        print("\n=== 추출된 데이터 요약 ===")
        print(seoul_data.describe())
        
        return seoul_data
        
    except FileNotFoundError:
        print(f"오류: '{input_file}' 파일을 찾을 수 없습니다.")
        return None
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

# 사용 예시
if __name__ == "__main__":
    # 파일 경로 설정
    input_file = "/Users/jihye/Documents/하이태커코드정리/연령별문화역세권/연령별 문화역세권(2024).csv"
    output_file = "서울특별시_문화역세권2024.csv"
    
    # 서울특별시 데이터 추출 및 저장
    seoul_data = extract_seoul_data(input_file, output_file)
    
    # 추가 분석 (선택사항)
    if seoul_data is not None and len(seoul_data) > 0:
        print("\n=== 추가 정보 ===")
        print("각 연령대별 문화지수 평균값:")
        age_columns = [col for col in seoul_data.columns if 'CLTUR_IDEX_VALUE' in col]
        for col in age_columns:
            avg_value = seoul_data[col].mean()
            print(f"  {col}: {avg_value:.2f}")

데이터를 읽는 중...
전체 데이터 행 수: 1008
컬럼 수: 14

컬럼 목록:
['CTPRVN_NM', 'SIGNGU_NM', 'SIGNGU_CD', 'POPLTN_CO', 'CL_NM', 'N10S_CLTUR_IDEX_VALUE', 'N20S_CLTUR_IDEX_VALUE', 'N30S_CLTUR_IDEX_VALUE', 'N40S_CLTUR_IDEX_VALUE', 'N50S_CLTUR_IDEX_VALUE', 'N60S_CLTUR_IDEX_VALUE', 'N70S_CLTUR_IDEX_VALUE', 'FILE_NM', 'BASE_DE']

서울특별시 데이터 행 수: 100
추출된 서울특별시 구 목록 (25개):
  - 강남구
  - 강동구
  - 강북구
  - 강서구
  - 관악구
  - 광진구
  - 구로구
  - 금천구
  - 노원구
  - 도봉구
  - 동대문구
  - 동작구
  - 마포구
  - 서대문구
  - 서초구
  - 성동구
  - 성북구
  - 송파구
  - 양천구
  - 영등포구
  - 용산구
  - 은평구
  - 종로구
  - 중구
  - 중랑구

서울특별시 데이터가 '서울특별시_문화역세권2024.csv'에 저장되었습니다.

=== 추출된 데이터 요약 ===
          SIGNGU_CD      POPLTN_CO  N10S_CLTUR_IDEX_VALUE  \
count    100.000000     100.000000             100.000000   
mean   11416.600000  361678.200000             210.090000   
std      187.281024  105682.934867             326.680956   
min    11110.000000  151422.000000              11.500000   
25%    11260.000000  273609.000000              23.000000   
50%    11410.000000 