# 21st_2025

In [1]:
# =============================================================================
# 21대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xlsx"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xlsx"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_21st_presidential_election(file_path):
    """
    21대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0~2행: 메타 정보 (무시)
    - 3행: 헤더 첫 번째 줄 (시도명, 구시군명 등)
    - 4행: 헤더 두 번째 줄 (후보자명, 득표수 등)
    - 5행부터: 실제 데이터

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/21대_선거결과.xlsx"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xlsx" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xlsx"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/21대/선거결과.xlsx"
    df = process_21st_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_21st_presidential_election("./data/21대_선거결과.xlsx")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=None)

    print(f"원본 데이터 크기: {df_all.shape}")

    # ================================
    # 2. 헤더 구성 (3행 + 4행 병합)
    # ================================
    # 파이썬 인덱스는 0부터 시작하므로:
    # 3행 = iloc[3] (실제 4번째 행)
    # 4행 = iloc[4] (실제 5번째 행)
    header_row_1 = df_all.iloc[3].fillna("")  # 시도명, 구시군명 등
    header_row_2 = df_all.iloc[4].fillna("")  # 후보자명, 득표수 등
    combined_headers = header_row_1.astype(str) + "_" + header_row_2.astype(str)

    # ================================
    # 3. 실제 데이터 추출 (5행부터)
    # ================================
    # 5행 = iloc[5] (실제 6번째 행)부터 데이터 시작
    df_data = df_all.iloc[5:].copy()
    df_data.columns = combined_headers

    print(f"데이터 추출 후 크기: {df_data.shape}")
    print(f"컬럼 수: {len(df_data.columns)}")

    # ================================
    # 4. 시도명 열 전처리
    # ================================
    # 시도명이 비어있는 행은 위 행의 값으로 채움 (forward fill)
    sido_column = [col for col in df_data.columns if "시도명" in col][0]
    df_data[sido_column] = df_data[sido_column].ffill()

    # ================================
    # 5. 주요 컬럼 추출
    # ================================
    gugun_column = [col for col in df_data.columns if "구시군명" in col][0]
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]

    print(f"주요 컬럼:")
    print(f"  - 시도: {sido_column}")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 6. 합계 행 필터링
    # ================================
    # '합계'가 포함된 행만 추출 (지역별 집계 데이터)
    filter_mask = (
        df_data[gugun_column].astype(str).str.contains("합계", na=False) |
        df_data[dong_column].astype(str).str.contains("합계", na=False)
    )
    df_filtered = df_data[filter_mask].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")

    # ================================
    # 7. 수치형 컬럼 정리
    # ================================
    # 4번째 컬럼(인덱스 4)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[4:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .replace("nan", "0")   # NaN 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 8. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/21th_2025/제21대_대통령선거_개표결과.xlsx"
# df_21st = process_21st_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_21st = process_21st_presidential_election("./data/21대_대선결과.xlsx")

# 업로드된 파일 사용하는 경우
# df_21st = process_21st_presidential_election("제21대_대통령선거_개표결과.xlsx")

# 결과 확인
# print(df_21st.head())
# print(df_21st.columns.tolist())

In [2]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url21 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/21st_2025/%EC%A0%9C21%EB%8C%80_%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0_%EA%B0%9C%ED%91%9C%EA%B2%B0%EA%B3%BC.xlsx"
df_21st = process_21st_presidential_election(blob_url21)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/21st_2025/%EC%A0%9C21%EB%8C%80_%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0_%EA%B0%9C%ED%91%9C%EA%B2%B0%EA%B3%BC.xlsx
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (22692, 14)
데이터 추출 후 크기: (22687, 14)
컬럼 수: 14
주요 컬럼:
  - 시도: 시도명_
  - 구시군: 구시군명_
  - 읍면동: 읍면동명_
필터링 후 크기: (271, 14)
수치형 컬럼 개수: 10
최종 데이터 크기: (271, 14)
전처리 완료!


In [3]:
df_21st

Unnamed: 0,시도명_,구시군명_,읍면동명_,투표구명_,선거인수_,투표수_,후보자별 득표수_더불어민주당\n이재명,_국민의힘\n김문수,_개혁신당\n이준석,_민주노동당\n권영국,_무소속\n송진호,_계,무효\n투표수_,기권수_
6,전국,합계,,,44391871,35236497,17287513,14395639,2917523,344150,35791,34980616,255881,9155374
7,서울특별시,합계(특별시),,,8293885,6641606,3105459,2738405,655346,83900,5998,6589108,52498,1652279
8,서울특별시,종로구,합계,,125901,99261,47735,39574,9326,1754,89,98478,783,26640
90,서울특별시,중구,합계,,110181,87166,40482,36302,8450,1120,62,86416,750,23015
169,서울특별시,용산구,합계,,183614,143813,58705,67927,13794,2166,102,142694,1119,39801
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22256,경상남도,거창군,합계,,52316,41373,12623,25259,2640,332,65,40919,454,10943
22306,경상남도,합천군,합계,,37329,28935,7001,20132,1188,200,46,28567,368,8394
22365,제주특별자치도,합계(도),,,565255,421576,228729,145290,36909,6191,528,417647,3929,143679
22366,제주특별자치도,제주시,합계,,409912,306685,169119,102224,27522,4626,384,303875,2810,103227


In [4]:
df_21st.columns.tolist()

['시도명_',
 '구시군명_',
 '읍면동명_',
 '투표구명_',
 '선거인수_',
 '투표수_',
 '후보자별 득표수_더불어민주당\n이재명',
 '_국민의힘\n김문수',
 '_개혁신당\n이준석',
 '_민주노동당\n권영국',
 '_무소속\n송진호',
 '_계',
 '무효\n투표수_',
 '기권수_']

In [5]:
rename_dict21 = {
    '시도명_': '시도',
    '구시군명_': '구시군',
    '선거인수_': '선거인수',
    '투표수_': '투표수',
    '후보자별 득표수_더불어민주당\n이재명': '득표수_1_더불어민주당_이재명',
    '_국민의힘\n김문수': '득표수_2_국민의힘_김문수',
    '_개혁신당\n이준석': '득표수_4_개혁신당_이준석',
    '_민주노동당\n권영국': '득표수_5_민주노동당_권영국',
    '_무소속\n송진호': '득표수_8_무소속_송진호',
    '_계': '득표수_계',
    '무효\n투표수_': '무효투표수',
    '기권수_': '기권수'
}

In [6]:
df_21st.rename(columns=rename_dict21).drop(columns=['읍면동명_','투표구명_'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_김문수,득표수_4_개혁신당_이준석,득표수_5_민주노동당_권영국,득표수_8_무소속_송진호,득표수_계,무효투표수,기권수
6,전국,합계,44391871,35236497,17287513,14395639,2917523,344150,35791,34980616,255881,9155374
7,서울특별시,합계(특별시),8293885,6641606,3105459,2738405,655346,83900,5998,6589108,52498,1652279
8,서울특별시,종로구,125901,99261,47735,39574,9326,1754,89,98478,783,26640
90,서울특별시,중구,110181,87166,40482,36302,8450,1120,62,86416,750,23015
169,서울특별시,용산구,183614,143813,58705,67927,13794,2166,102,142694,1119,39801
...,...,...,...,...,...,...,...,...,...,...,...,...
22256,경상남도,거창군,52316,41373,12623,25259,2640,332,65,40919,454,10943
22306,경상남도,합천군,37329,28935,7001,20132,1188,200,46,28567,368,8394
22365,제주특별자치도,합계(도),565255,421576,228729,145290,36909,6191,528,417647,3929,143679
22366,제주특별자치도,제주시,409912,306685,169119,102224,27522,4626,384,303875,2810,103227


In [7]:
df_21st = df_21st.rename(columns=rename_dict21).drop(columns=['읍면동명_','투표구명_'])

In [8]:
# 구시군 원소 괄호 제거
df_21st['구시군'] = (
    df_21st['구시군']
    .str.replace(r"\(.*\)", "", regex=True)
    .str.strip()
)

In [9]:
df_21st

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_김문수,득표수_4_개혁신당_이준석,득표수_5_민주노동당_권영국,득표수_8_무소속_송진호,득표수_계,무효투표수,기권수
6,전국,합계,44391871,35236497,17287513,14395639,2917523,344150,35791,34980616,255881,9155374
7,서울특별시,합계,8293885,6641606,3105459,2738405,655346,83900,5998,6589108,52498,1652279
8,서울특별시,종로구,125901,99261,47735,39574,9326,1754,89,98478,783,26640
90,서울특별시,중구,110181,87166,40482,36302,8450,1120,62,86416,750,23015
169,서울특별시,용산구,183614,143813,58705,67927,13794,2166,102,142694,1119,39801
...,...,...,...,...,...,...,...,...,...,...,...,...
22256,경상남도,거창군,52316,41373,12623,25259,2640,332,65,40919,454,10943
22306,경상남도,합천군,37329,28935,7001,20132,1188,200,46,28567,368,8394
22365,제주특별자치도,합계,565255,421576,228729,145290,36909,6191,528,417647,3929,143679
22366,제주특별자치도,제주시,409912,306685,169119,102224,27522,4626,384,303875,2810,103227


In [10]:
df_21st[df_21st['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_김문수,득표수_4_개혁신당_이준석,득표수_5_민주노동당_권영국,득표수_8_무소속_송진호,득표수_계,무효투표수,기권수
6,전국,합계,44391871,35236497,17287513,14395639,2917523,344150,35791,34980616,255881,9155374
7,서울특별시,합계,8293885,6641606,3105459,2738405,655346,83900,5998,6589108,52498,1652279
3245,부산광역시,합계,2865552,2245755,895213,1146238,168473,18189,2099,2230212,15543,619797
4652,대구광역시,합계,2049078,1643051,379130,1103913,135376,12531,1362,1632312,10739,406027
5659,인천광역시,합계,2619348,2035355,1044295,776952,176739,20743,2098,2020827,14528,583993
6764,광주광역시,합계,1194471,1002149,844682,79937,62104,8767,934,996424,5725,192322
7339,대전광역시,합계,1241882,977609,470321,393549,94724,9905,1109,969608,8001,264273
7892,울산광역시,합계,934509,747950,315820,353180,63177,9299,899,742375,5575,186559
8297,세종특별자치시,합계,307067,254695,140620,83965,25004,2961,235,252785,1910,52372
8437,경기도,합계,11715343,9297448,4821148,3504620,816435,84074,8356,9234633,62815,2417895


In [11]:
df_21st.to_csv("temp1_president_21.csv", index=False, encoding="utf-8-sig")

# 20th_2022

In [12]:
# =============================================================================
# 20대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xlsx"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xlsx"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_20th_presidential_election(file_path):
    """
    20대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0행: 헤더 (시도명, 구시군, 읍면동명, 후보자명 등)
    - 1행부터: 실제 데이터

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/20대_선거결과.xlsx"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xlsx" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xlsx"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/20대/선거결과.xlsx"
    df = process_20th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_20th_presidential_election("./data/20대_선거결과.xlsx")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=0)  # 첫 번째 행이 헤더
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=0)  # 첫 번째 행이 헤더

    print(f"원본 데이터 크기: {df_all.shape}")
    print(f"컬럼명: {list(df_all.columns)}")

    # ================================
    # 2. 주요 컬럼 확인
    # ================================
    # 20대는 헤더가 단순함 (0행이 바로 컬럼명)
    gugun_column = '구시군'
    dong_column = '읍면동명'

    print(f"주요 컬럼:")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 3. 합계 행 필터링
    # ================================
    # '합계'가 포함된 행만 추출 (지역별 집계 데이터)
    filter_mask = (
        df_all[gugun_column].astype(str).str.contains("합계", na=False) |
        df_all[dong_column].astype(str).str.contains("합계", na=False)
    )
    df_filtered = df_all[filter_mask].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")

    # ================================
    # 4. 수치형 컬럼 정리
    # ================================
    # 4번째 컬럼(인덱스 4)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[4:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .replace("nan", "0")   # NaN 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 5. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/20th_2022/개표단위별_개표결과_대통령선거_전체.xlsx"
# df_20th = process_20th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_20th = process_20th_presidential_election("./data/20대_대선결과.xlsx")

# 업로드된 파일 사용하는 경우
# df_20th = process_20th_presidential_election("개표단위별_개표결과_대통령선거_전체.xlsx")

# 결과 확인
# print(df_20th.head())
# print(df_20th.columns.tolist())

In [13]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url20 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/20th_2022/%EA%B0%9C%ED%91%9C%EB%8B%A8%EC%9C%84%EB%B3%84_%EA%B0%9C%ED%91%9C%EA%B2%B0%EA%B3%BC_%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0_%EC%A0%84%EC%B2%B4.xlsx"
df_20th = process_20th_presidential_election(blob_url20)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/20th_2022/%EA%B0%9C%ED%91%9C%EB%8B%A8%EC%9C%84%EB%B3%84_%EA%B0%9C%ED%91%9C%EA%B2%B0%EA%B3%BC_%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0_%EC%A0%84%EC%B2%B4.xlsx
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (22753, 21)
컬럼명: ['시도', '구시군', '읍면동명', '투표구명', '선거인수', '투표수', '더불어민주당\n이재명', '국민의힘\n윤석열', '정의당\n심상정', '기본소득당\n오준호', '국가혁명당 \n허경영', '노동당\n이백윤', '새누리당\n옥은호', '신자유민주연합\n김경재', '우리공화당\n조원진', '진보당\n김재연', '통일한국당\n이경희', '한류연합당\n김민찬', '계', '무효투표수', '기권수']
주요 컬럼:
  - 구시군: 구시군
  - 읍면동: 읍면동명
필터링 후 크기: (268, 21)
수치형 컬럼 개수: 17
최종 데이터 크기: (268, 21)
전처리 완료!


In [14]:
df_20th

Unnamed: 0,시도,구시군,읍면동명,투표구명,선거인수,투표수,더불어민주당\n이재명,국민의힘\n윤석열,정의당\n심상정,기본소득당\n오준호,...,노동당\n이백윤,새누리당\n옥은호,신자유민주연합\n김경재,우리공화당\n조원진,진보당\n김재연,통일한국당\n이경희,한류연합당\n김민찬,계,무효투표수,기권수
0,전국,합계,,,44197692,34067853,16147738,16394815,803358,18105,...,9176,4970,8317,25972,37366,11708,17305,33760311,307542,10129839
1,서울특별시,합계(특별시),,,8346647,6501831,2944981,3255747,180324,3829,...,1571,844,1791,4657,5615,1333,1907,6439139,62692,1844816
2,서울특별시,종로구,합계,,129968,100629,46130,49172,3115,53,...,42,9,50,82,105,20,30,99366,1263,29339
85,서울특별시,중구,합계,,111448,84998,38244,42906,2310,46,...,19,10,17,67,57,17,28,84184,814,26450
164,서울특별시,용산구,합계,,199077,152068,60063,85047,4374,67,...,37,24,56,86,100,27,46,150682,1386,47009
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22315,경상남도,거창군,합계,,53049,41399,11963,27254,895,46,...,19,18,12,42,92,62,52,40945,454,11650
22365,경상남도,합천군,합계,,39768,31270,6911,22742,511,30,...,24,9,16,62,96,68,52,30832,438,8498
22426,제주특별자치도,합계(도),,,564354,409649,213130,173014,13598,267,...,146,63,101,271,571,228,310,405238,4411,154705
22427,제주특별자치도,제주시,합계,,408552,296826,157695,122084,10007,189,...,108,46,80,193,395,159,197,293649,3177,111726


In [15]:
df_20th.columns.tolist()

['시도',
 '구시군',
 '읍면동명',
 '투표구명',
 '선거인수',
 '투표수',
 '더불어민주당\n이재명',
 '국민의힘\n윤석열',
 '정의당\n심상정',
 '기본소득당\n오준호',
 '국가혁명당 \n허경영',
 '노동당\n이백윤',
 '새누리당\n옥은호',
 '신자유민주연합\n김경재',
 '우리공화당\n조원진',
 '진보당\n김재연',
 '통일한국당\n이경희',
 '한류연합당\n김민찬',
 '계',
 '무효투표수',
 '기권수']

In [16]:
rename_dict20 = {
    '더불어민주당\n이재명': '득표수_1_더불어민주당_이재명',
    '국민의힘\n윤석열': '득표수_2_국민의힘_윤석열',
    '정의당\n심상정': '득표수_3_정의당_심상정',
    '기본소득당\n오준호': '득표수_5_기본소득당_오준호',
    '국가혁명당 \n허경영': '득표수_6_국가혁명당_허경영',
    '노동당\n이백윤': '득표수_7_노동당_이백윤',
    '새누리당\n옥은호': '득표수_8_새누리당_옥은호',
    '신자유민주연합\n김경재': '득표수_10_신자유민주연합_김경재',
    '우리공화당\n조원진': '득표수_11_우리공화당_조원진',
    '진보당\n김재연': '득표수_12_진보당_김재연',
    '통일한국당\n이경희': '득표수_13_통일한국당_이경희',
    '한류연합당\n김민찬': '득표수_14_한류연합당_김민찬',
    '계': '득표수_계'
}

In [17]:
df_20th.rename(columns=rename_dict20).drop(columns=['읍면동명','투표구명'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_윤석열,득표수_3_정의당_심상정,득표수_5_기본소득당_오준호,득표수_6_국가혁명당_허경영,득표수_7_노동당_이백윤,득표수_8_새누리당_옥은호,득표수_10_신자유민주연합_김경재,득표수_11_우리공화당_조원진,득표수_12_진보당_김재연,득표수_13_통일한국당_이경희,득표수_14_한류연합당_김민찬,득표수_계,무효투표수,기권수
0,전국,합계,44197692,34067853,16147738,16394815,803358,18105,281481,9176,4970,8317,25972,37366,11708,17305,33760311,307542,10129839
1,서울특별시,합계(특별시),8346647,6501831,2944981,3255747,180324,3829,36540,1571,844,1791,4657,5615,1333,1907,6439139,62692,1844816
2,서울특별시,종로구,129968,100629,46130,49172,3115,53,558,42,9,50,82,105,20,30,99366,1263,29339
85,서울특별시,중구,111448,84998,38244,42906,2310,46,463,19,10,17,67,57,17,28,84184,814,26450
164,서울특별시,용산구,199077,152068,60063,85047,4374,67,755,37,24,56,86,100,27,46,150682,1386,47009
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22315,경상남도,거창군,53049,41399,11963,27254,895,46,490,19,18,12,42,92,62,52,40945,454,11650
22365,경상남도,합천군,39768,31270,6911,22742,511,30,311,24,9,16,62,96,68,52,30832,438,8498
22426,제주특별자치도,합계(도),564354,409649,213130,173014,13598,267,3539,146,63,101,271,571,228,310,405238,4411,154705
22427,제주특별자치도,제주시,408552,296826,157695,122084,10007,189,2496,108,46,80,193,395,159,197,293649,3177,111726


In [18]:
df_20th = df_20th.rename(columns=rename_dict20).drop(columns=['읍면동명','투표구명'])

In [19]:
# 구시군 원소 괄호 제거
df_20th['구시군'] = (
    df_20th['구시군']
    .str.replace(r"\(.*\)", "", regex=True)
    .str.strip()
)

In [20]:
df_20th

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_윤석열,득표수_3_정의당_심상정,득표수_5_기본소득당_오준호,득표수_6_국가혁명당_허경영,득표수_7_노동당_이백윤,득표수_8_새누리당_옥은호,득표수_10_신자유민주연합_김경재,득표수_11_우리공화당_조원진,득표수_12_진보당_김재연,득표수_13_통일한국당_이경희,득표수_14_한류연합당_김민찬,득표수_계,무효투표수,기권수
0,전국,합계,44197692,34067853,16147738,16394815,803358,18105,281481,9176,4970,8317,25972,37366,11708,17305,33760311,307542,10129839
1,서울특별시,합계,8346647,6501831,2944981,3255747,180324,3829,36540,1571,844,1791,4657,5615,1333,1907,6439139,62692,1844816
2,서울특별시,종로구,129968,100629,46130,49172,3115,53,558,42,9,50,82,105,20,30,99366,1263,29339
85,서울특별시,중구,111448,84998,38244,42906,2310,46,463,19,10,17,67,57,17,28,84184,814,26450
164,서울특별시,용산구,199077,152068,60063,85047,4374,67,755,37,24,56,86,100,27,46,150682,1386,47009
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22315,경상남도,거창군,53049,41399,11963,27254,895,46,490,19,18,12,42,92,62,52,40945,454,11650
22365,경상남도,합천군,39768,31270,6911,22742,511,30,311,24,9,16,62,96,68,52,30832,438,8498
22426,제주특별자치도,합계,564354,409649,213130,173014,13598,267,3539,146,63,101,271,571,228,310,405238,4411,154705
22427,제주특별자치도,제주시,408552,296826,157695,122084,10007,189,2496,108,46,80,193,395,159,197,293649,3177,111726


In [21]:
df_20th[df_20th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_이재명,득표수_2_국민의힘_윤석열,득표수_3_정의당_심상정,득표수_5_기본소득당_오준호,득표수_6_국가혁명당_허경영,득표수_7_노동당_이백윤,득표수_8_새누리당_옥은호,득표수_10_신자유민주연합_김경재,득표수_11_우리공화당_조원진,득표수_12_진보당_김재연,득표수_13_통일한국당_이경희,득표수_14_한류연합당_김민찬,득표수_계,무효투표수,기권수
0,전국,합계,44197692,34067853,16147738,16394815,803358,18105,281481,9176,4970,8317,25972,37366,11708,17305,33760311,307542,10129839
1,서울특별시,합계,8346647,6501831,2944981,3255747,180324,3829,36540,1571,844,1791,4657,5615,1333,1907,6439139,62692,1844816
3242,부산광역시,합계,2921510,2200224,831896,1270072,47541,1071,21990,546,352,527,1867,2799,575,942,2180178,20046,721286
4651,대구광역시,합계,2046714,1611512,345045,1199888,31131,892,13941,344,261,451,2824,938,472,619,1596806,14706,435202
5612,인천광역시,합계,2519225,1883504,913320,878560,51852,1116,16733,508,276,449,1378,1593,511,758,1867054,16450,635721
6703,광주광역시,합계,1209206,985492,830058,124511,14865,434,6138,242,92,140,112,1366,188,455,978601,6891,223714
7290,대전광역시,합계,1233177,945308,434950,464060,25445,566,8593,223,138,227,588,958,258,395,936401,8907,287869
7844,울산광역시,합계,942210,735461,297134,396321,21292,375,9234,308,109,185,685,2180,234,333,728390,7071,206749
8263,세종특별자치시,합계,288895,231832,119349,101491,6780,100,1594,50,23,48,121,181,66,88,229891,1941,57063
8396,경기도,합계,11433288,8763727,4428151,3965341,205709,4151,63207,1919,1124,1990,5897,8768,1927,3192,8691376,72351,2669561


In [22]:
df_20th.to_csv("temp1_president_20.csv", index=False, encoding="utf-8-sig")

# 19th_2017

In [23]:
# =============================================================================
# 19대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xlsx"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xlsx"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_19th_presidential_election(file_path):
    """
    19대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0행: 헤더 첫 번째 줄 (시도명, 구시군명 등)
    - 1행: 헤더 두 번째 줄 (후보자명, 득표수 등)
    - 2행부터: 실제 데이터

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/19대_선거결과.xlsx"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xlsx" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xlsx"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/19대/선거결과.xlsx"
    df = process_19th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_19th_presidential_election("./data/19대_선거결과.xlsx")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=None)

    print(f"원본 데이터 크기: {df_all.shape}")

    # ================================
    # 2. 헤더 구성 (0행 + 1행 병합)
    # ================================
    # 파이썬 인덱스는 0부터 시작하므로:
    # 0행 = iloc[0] (실제 1번째 행)
    # 1행 = iloc[1] (실제 2번째 행)
    header_row_1 = df_all.iloc[0].fillna("")  # 시도명, 구시군명 등
    header_row_2 = df_all.iloc[1].fillna("")  # 후보자명, 득표수 등
    combined_headers = header_row_1.astype(str) + "_" + header_row_2.astype(str)

    # ================================
    # 3. 실제 데이터 추출 (2행부터)
    # ================================
    # 2행 = iloc[2] (실제 3번째 행)부터 데이터 시작
    df_data = df_all.iloc[2:].copy()
    df_data.columns = combined_headers

    print(f"데이터 추출 후 크기: {df_data.shape}")
    print(f"컬럼 수: {len(df_data.columns)}")

    # ================================
    # 4. 주요 컬럼 추출
    # ================================
    sido_column = [col for col in df_data.columns if "시도명" in col][0]
    gugun_column = [col for col in df_data.columns if "구시군명" in col][0]
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]

    print(f"주요 컬럼:")
    print(f"  - 시도: {sido_column}")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 5. 합계 행 필터링
    # ================================
    # '전국', '합계'가 포함된 행만 추출 (지역별 집계 데이터)
    # 19대는 시도명에 '전국'도 포함하여 필터링
    filter_mask = (
        df_data[sido_column].astype(str).str.contains("전국", na=False) |
        df_data[gugun_column].astype(str).str.contains("합계", na=False) |
        df_data[dong_column].astype(str).str.contains("합계", na=False)
    )
    df_filtered = df_data[filter_mask].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")

    # ================================
    # 6. 수치형 컬럼 정리
    # ================================
    # 4번째 컬럼(인덱스 4)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[4:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .replace("nan", "0")   # NaN 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 7. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/19th_2017/제19대 대통령선거 개표자료.xlsx"
# df_19th = process_19th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_19th = process_19th_presidential_election("./data/19대_대선결과.xlsx")

# 업로드된 파일 사용하는 경우
# df_19th = process_19th_presidential_election("제19대 대통령선거 개표자료.xlsx")

# 결과 확인
# print(df_19th.head())
# print(df_19th.columns.tolist())

In [24]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url19 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/19th_2017/%EC%A0%9C19%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xlsx"
df_19th = process_19th_presidential_election(blob_url19)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/19th_2017/%EC%A0%9C19%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xlsx
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (22216, 22)
데이터 추출 후 크기: (22214, 22)
컬럼 수: 22
주요 컬럼:
  - 시도: 시도명_
  - 구시군: 구시군명_
  - 읍면동: 읍면동명_
필터링 후 크기: (268, 22)
수치형 컬럼 개수: 18
최종 데이터 크기: (268, 22)
전처리 완료!


In [25]:
df_19th

Unnamed: 0,시도명_,구시군명_,읍면동명_,투표구명_,선거인수_,투표수_,후보자별 득표수_더불어민주당\n문재인,_자유한국당\n홍준표,_국민의당\n안철수,_바른정당\n유승민,...,_경제애국당\n오영국,_국민대통합당\n장성민,_늘푸른한국당\n이재오,_민중연합당\n김선동,_한국국민당\n이경희,_홍익당\n윤홍식,_무소속\n김민찬,_계,무효투표수_,기권수_
2,전국,,,,42479710,32807908,13423800,7852849,6998342,2208771,...,6040,21709,9140,27229,11355,18543,33990,32672175,135733,9671802
3,서울특별시,합계,,,8382999,6590646,2781345,1365285,1492767,476973,...,789,3554,1938,3416,1277,2177,3950,6568917,21729,1792353
4,서울특별시,종로구,합계,,133769,102566,42512,22325,22313,7412,...,5,78,31,63,26,47,49,102202,364,31203
86,서울특별시,중구,합계,,109836,82852,34062,17901,19372,5874,...,12,53,21,55,18,25,51,82595,257,26984
165,서울특별시,용산구,합계,,197962,148157,58081,35230,32109,11825,...,17,68,23,72,32,51,80,147660,497,49805
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21775,경상남도,거창군,합계,,53345,41325,11256,19976,4923,2447,...,12,37,22,48,54,105,100,40949,376,12020
21825,경상남도,합천군,합계,,42887,33021,7143,19699,3077,1317,...,23,26,16,28,51,153,76,32711,310,9866
21889,제주특별자치도,합계,,,518000,374459,169493,68063,77861,22784,...,269,312,113,335,236,289,556,372412,2047,143541
21890,제주특별자치도,제주시,합계,,375292,273163,125717,48027,55971,16885,...,96,193,73,257,153,178,368,271780,1383,102129


In [26]:
df_19th.columns.tolist()

['시도명_',
 '구시군명_',
 '읍면동명_',
 '투표구명_',
 '선거인수_',
 '투표수_',
 '후보자별 득표수_더불어민주당\n문재인',
 '_자유한국당\n홍준표',
 '_국민의당\n안철수',
 '_바른정당\n유승민',
 '_정의당\n심상정',
 '_새누리당\n조원진',
 '_경제애국당\n오영국',
 '_국민대통합당\n장성민',
 '_늘푸른한국당\n이재오',
 '_민중연합당\n김선동',
 '_한국국민당\n이경희',
 '_홍익당\n윤홍식',
 '_무소속\n김민찬',
 '_계',
 '무효투표수_',
 '기권수_']

In [27]:
rename_dict19 = {
    '시도명_': '시도',
    '구시군명_': '구시군',
    '선거인수_': '선거인수',
    '투표수_': '투표수',
    '후보자별 득표수_더불어민주당\n문재인': '득표수_1_더불어민주당_문재인',
    '_자유한국당\n홍준표': '득표수_2_자유한국당_홍준표',
    '_국민의당\n안철수': '득표수_3_국민의당_안철수',
    '_바른정당\n유승민': '득표수_4_바른정당_유승민',
    '_정의당\n심상정': '득표수_5_정의당_심상정',
    '_새누리당\n조원진': '득표수_6_새누리당_조원진',
    '_경제애국당\n오영국': '득표수_7_경제애국당_오영국',
    '_국민대통합당\n장성민': '득표수_8_국민대통합당_장성민',
    '_늘푸른한국당\n이재오': '득표수_9_늘푸른한국당_이재오',
    '_민중연합당\n김선동': '득표수_10_민중연합당_김선동',
    '_한국국민당\n이경희': '득표수_12_한국국민당_이경희',
    '_홍익당\n윤홍식': '득표수_14_홍익당_윤홍식',
    '_무소속\n김민찬': '득표수_15_무소속_김민찬',
    '_계': '득표수_계',
    '무효투표수_': '무효투표수',
    '기권수_': '기권수'
}

In [28]:
df_19th.rename(columns=rename_dict19).drop(columns=['읍면동명_','투표구명_'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_문재인,득표수_2_자유한국당_홍준표,득표수_3_국민의당_안철수,득표수_4_바른정당_유승민,득표수_5_정의당_심상정,득표수_6_새누리당_조원진,득표수_7_경제애국당_오영국,득표수_8_국민대통합당_장성민,득표수_9_늘푸른한국당_이재오,득표수_10_민중연합당_김선동,득표수_12_한국국민당_이경희,득표수_14_홍익당_윤홍식,득표수_15_무소속_김민찬,득표수_계,무효투표수,기권수
2,전국,,42479710,32807908,13423800,7852849,6998342,2208771,2017458,42949,6040,21709,9140,27229,11355,18543,33990,32672175,135733,9671802
3,서울특별시,합계,8382999,6590646,2781345,1365285,1492767,476973,425459,9987,789,3554,1938,3416,1277,2177,3950,6568917,21729,1792353
4,서울특별시,종로구,133769,102566,42512,22325,22313,7412,7113,228,5,78,31,63,26,47,49,102202,364,31203
86,서울특별시,중구,109836,82852,34062,17901,19372,5874,4993,158,12,53,21,55,18,25,51,82595,257,26984
165,서울특별시,용산구,197962,148157,58081,35230,32109,11825,9773,299,17,68,23,72,32,51,80,147660,497,49805
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21775,경상남도,거창군,53345,41325,11256,19976,4923,2447,1923,46,12,37,22,48,54,105,100,40949,376,12020
21825,경상남도,합천군,42887,33021,7143,19699,3077,1317,1065,37,23,26,16,28,51,153,76,32711,310,9866
21889,제주특별자치도,합계,518000,374459,169493,68063,77861,22784,31716,385,269,312,113,335,236,289,556,372412,2047,143541
21890,제주특별자치도,제주시,375292,273163,125717,48027,55971,16885,23592,270,96,193,73,257,153,178,368,271780,1383,102129


In [29]:
df_19th = df_19th.rename(columns=rename_dict19).drop(columns=['읍면동명_','투표구명_'])

In [30]:
df_19th[df_19th['구시군'].isna()]

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_문재인,득표수_2_자유한국당_홍준표,득표수_3_국민의당_안철수,득표수_4_바른정당_유승민,득표수_5_정의당_심상정,득표수_6_새누리당_조원진,득표수_7_경제애국당_오영국,득표수_8_국민대통합당_장성민,득표수_9_늘푸른한국당_이재오,득표수_10_민중연합당_김선동,득표수_12_한국국민당_이경희,득표수_14_홍익당_윤홍식,득표수_15_무소속_김민찬,득표수_계,무효투표수,기권수
2,전국,,42479710,32807908,13423800,7852849,6998342,2208771,2017458,42949,6040,21709,9140,27229,11355,18543,33990,32672175,135733,9671802


In [31]:
df_19th['구시군'] = df_19th['구시군'].fillna('합계')

In [32]:
df_19th

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_문재인,득표수_2_자유한국당_홍준표,득표수_3_국민의당_안철수,득표수_4_바른정당_유승민,득표수_5_정의당_심상정,득표수_6_새누리당_조원진,득표수_7_경제애국당_오영국,득표수_8_국민대통합당_장성민,득표수_9_늘푸른한국당_이재오,득표수_10_민중연합당_김선동,득표수_12_한국국민당_이경희,득표수_14_홍익당_윤홍식,득표수_15_무소속_김민찬,득표수_계,무효투표수,기권수
2,전국,합계,42479710,32807908,13423800,7852849,6998342,2208771,2017458,42949,6040,21709,9140,27229,11355,18543,33990,32672175,135733,9671802
3,서울특별시,합계,8382999,6590646,2781345,1365285,1492767,476973,425459,9987,789,3554,1938,3416,1277,2177,3950,6568917,21729,1792353
4,서울특별시,종로구,133769,102566,42512,22325,22313,7412,7113,228,5,78,31,63,26,47,49,102202,364,31203
86,서울특별시,중구,109836,82852,34062,17901,19372,5874,4993,158,12,53,21,55,18,25,51,82595,257,26984
165,서울특별시,용산구,197962,148157,58081,35230,32109,11825,9773,299,17,68,23,72,32,51,80,147660,497,49805
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21775,경상남도,거창군,53345,41325,11256,19976,4923,2447,1923,46,12,37,22,48,54,105,100,40949,376,12020
21825,경상남도,합천군,42887,33021,7143,19699,3077,1317,1065,37,23,26,16,28,51,153,76,32711,310,9866
21889,제주특별자치도,합계,518000,374459,169493,68063,77861,22784,31716,385,269,312,113,335,236,289,556,372412,2047,143541
21890,제주특별자치도,제주시,375292,273163,125717,48027,55971,16885,23592,270,96,193,73,257,153,178,368,271780,1383,102129


In [33]:
df_19th[df_19th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_더불어민주당_문재인,득표수_2_자유한국당_홍준표,득표수_3_국민의당_안철수,득표수_4_바른정당_유승민,득표수_5_정의당_심상정,득표수_6_새누리당_조원진,득표수_7_경제애국당_오영국,득표수_8_국민대통합당_장성민,득표수_9_늘푸른한국당_이재오,득표수_10_민중연합당_김선동,득표수_12_한국국민당_이경희,득표수_14_홍익당_윤홍식,득표수_15_무소속_김민찬,득표수_계,무효투표수,기권수
2,전국,합계,42479710,32807908,13423800,7852849,6998342,2208771,2017458,42949,6040,21709,9140,27229,11355,18543,33990,32672175,135733,9671802
3,서울특별시,합계,8382999,6590646,2781345,1365285,1492767,476973,425459,9987,789,3554,1938,3416,1277,2177,3950,6568917,21729,1792353
3226,부산광역시,합계,2950224,2261633,872127,720484,378907,162480,109329,2651,276,1316,465,981,496,1041,2156,2252709,8924,688591
4623,대구광역시,합계,2043276,1581347,342620,714205,235757,198459,74440,4057,259,563,324,804,401,986,1501,1574376,6971,461929
5559,인천광역시,합계,2409031,1820091,747090,379191,428888,118691,129925,2646,374,1618,410,1230,594,625,1681,1812963,7128,588940
6600,광주광역시,합계,1166901,957321,583847,14882,287222,20862,43719,152,111,655,103,2265,136,264,614,954832,2489,209580
7179,대전광역시,합계,1220602,945897,404545,191376,218769,59820,63669,1069,168,620,234,611,256,406,758,942301,3596,274705
7719,울산광역시,합계,941093,744960,282794,203602,128520,60289,62187,829,128,575,240,641,220,411,926,741362,3598,196133
8133,세종특별자치시,합계,189421,152801,77767,23211,32010,9192,9353,153,34,88,42,126,50,76,135,152237,564,36620
8234,경기도,합계,10262309,7916009,3319812,1637345,1807308,540023,546373,10778,1302,5058,1858,6139,2213,2883,6553,7887645,28364,2346300


In [34]:
df_19th.to_csv("temp1_president_19.csv", index=False, encoding="utf-8-sig")

# 18_th

In [35]:
# =============================================================================
# 18대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xls"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xls"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_18th_presidential_election(file_path):
    """
    18대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0~2행: 메타 정보 (무시)
    - 3행: 헤더 첫 번째 줄 (시도명, 구시군명 등)
    - 4행: 헤더 두 번째 줄 (후보자명, 득표수 등)
    - 5행부터: 실제 데이터

    특별한 필터링 로직:
    - '합계' 행: 모두 포함
    - '소계' 행: 구시군별로 첫 번째만 포함 (중복 제거)

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/18대_선거결과.xls"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xls" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xls"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 및 소계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/18대/선거결과.xls"
    df = process_18th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_18th_presidential_election("./data/18대_선거결과.xls")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=None)

    print(f"원본 데이터 크기: {df_all.shape}")

    # ================================
    # 2. 헤더 구성 (3행 + 4행 병합)
    # ================================
    # 파이썬 인덱스는 0부터 시작하므로:
    # 3행 = iloc[3] (실제 4번째 행)
    # 4행 = iloc[4] (실제 5번째 행)
    header_row_1 = df_all.iloc[3].fillna("")  # 시도명, 구시군명 등
    header_row_2 = df_all.iloc[4].fillna("")  # 후보자명, 득표수 등
    combined_headers = header_row_1.astype(str) + "_" + header_row_2.astype(str)

    # ================================
    # 3. 실제 데이터 추출 (5행부터)
    # ================================
    # 5행 = iloc[5] (실제 6번째 행)부터 데이터 시작
    df_data = df_all.iloc[5:].copy()
    df_data.columns = combined_headers

    print(f"데이터 추출 후 크기: {df_data.shape}")
    print(f"컬럼 수: {len(df_data.columns)}")

    # ================================
    # 4. 주요 컬럼 추출
    # ================================
    gugun_column = [col for col in df_data.columns if "구시군명" in col][0]
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]

    print(f"주요 컬럼:")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 5. 고급 필터링 (합계 + 소계 첫 번째)
    # ================================
    # 18대는 특별한 필터링 로직이 필요함

    # 5-1. 합계 행 찾기
    is_total = df_data[gugun_column].astype(str).str.contains("합계", na=False)

    # 5-2. 소계 행 찾기
    is_subtotal = df_data[dong_column].astype(str).str.contains("소계", na=False)

    # 5-3. 소계 중에서 구시군별로 첫 번째만 선택
    # (동일한 구시군에 여러 소계가 있을 경우 중복 제거)
    subtotal_first_idx = (
        df_data[is_subtotal]
        .groupby(df_data[gugun_column])  # 구시군별로 그룹화
        .head(1)                        # 각 그룹의 첫 번째만 선택
        .index                          # 인덱스 추출
    )

    # 5-4. 합계 인덱스와 소계 첫 번째 인덱스 결합
    total_idx = is_total[is_total].index      # 합계 행들의 인덱스
    final_idx = total_idx.union(subtotal_first_idx)  # 두 인덱스 합집합

    # 5-5. 원래 순서 유지하며 필터링된 행들만 추출
    df_filtered = df_data.loc[final_idx].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")
    print(f"  - 합계 행: {len(total_idx)}개")
    print(f"  - 소계 행 (첫 번째만): {len(subtotal_first_idx)}개")

    # ================================
    # 6. 수치형 컬럼 정리
    # ================================
    # 4번째 컬럼(인덱스 4)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[4:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .fillna("0")           # NaN 값을 "0" 문자열로 변경
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("nan", "0")   # 'nan' 문자열을 "0"으로 변경
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 7. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/18th_2012/제18대 대통령선거 개표자료.xls"
# df_18th = process_18th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_18th = process_18th_presidential_election("./data/18대_대선결과.xls")

# 업로드된 파일 사용하는 경우
# df_18th = process_18th_presidential_election("제18대 대통령선거 개표자료.xls")

# 결과 확인
# print(df_18th.head())
# print(df_18th.columns.tolist())

In [36]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url18 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/18th_2012/%EC%A0%9C18%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls"
df_18th = process_18th_presidential_election(blob_url18)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/18th_2012/%EC%A0%9C18%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (18127, 16)
데이터 추출 후 크기: (18122, 16)
컬럼 수: 16
주요 컬럼:
  - 구시군: 구시군명_
  - 읍면동: 읍면동명_
필터링 후 크기: (246, 16)
  - 합계 행: 18개
  - 소계 행 (첫 번째만): 228개
수치형 컬럼 개수: 12
최종 데이터 크기: (246, 16)
전처리 완료!


In [37]:
df_18th

Unnamed: 0,_,시도명_,구시군명_,읍면동명_,투표구명_,선거인수_,투표수_,후보자별 득표수_새누리당\n박근혜,_민주통합당\n문재인,_무소속\n박종선,_무소속\n김소연,_무소속\n강지원,_무소속\n김순자,_계,무효\n투표수_,기권수_
5,,전국,합계,,0,40507842,30721459,15773128,14692632,12854,16687,53303,46017,30594621,126838,9786383
6,,서울특별시,합계,,0,8393847,6307869,3024572,3227639,3559,3793,11829,5307,6276699,31170,2085978
7,,서울특별시,종로구,소계,0,141447,103189,49422,52747,73,86,211,97,102636,553,38258
71,,서울특별시,중구,소계,0,115277,83095,40289,41919,67,56,151,71,82553,542,32182
136,,서울특별시,용산구,소계,0,206665,147849,76997,69572,87,96,261,121,147134,715,58816
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17763,,경상남도,거창군,소계,0,51773,40103,28726,10466,61,22,75,244,39594,509,11670
17801,,경상남도,합천군,소계,0,43981,33586,25313,7114,70,20,64,382,32963,623,10395
17848,,제주특별자치도,합계,,0,451731,330967,166184,161235,148,240,667,861,329335,1632,120764
17849,,제주특별자치도,제주시,소계,0,328450,241552,119563,119622,94,164,473,570,240486,1066,86898


In [38]:
df_18th.columns.tolist()

['_',
 '시도명_',
 '구시군명_',
 '읍면동명_',
 '투표구명_',
 '선거인수_',
 '투표수_',
 '후보자별 득표수_새누리당\n박근혜',
 '_민주통합당\n문재인',
 '_무소속\n박종선',
 '_무소속\n김소연',
 '_무소속\n강지원',
 '_무소속\n김순자',
 '_계',
 '무효\n투표수_',
 '기권수_']

In [39]:
rename_dict18 = {
    '시도명_': '시도',
    '구시군명_': '구시군',
    '선거인수_': '선거인수',
    '투표수_': '투표수',
    '후보자별 득표수_새누리당\n박근혜': '득표수_1_새누리당_박근혜',
    '_민주통합당\n문재인': '득표수_2_민주통합당_문재인',
    '_무소속\n박종선': '득표수_4_무소속_박종선',
    '_무소속\n김소연': '득표수_5_무소속_김소연',
    '_무소속\n강지원': '득표수_6_무소속_강지원',
    '_무소속\n김순자': '득표수_7_무소속_김순자',
    '_계': '득표수_계',
    '무효\n투표수_': '무효투표수',
    '기권수_': '기권수'
}

In [40]:
df_18th.rename(columns=rename_dict18).drop(columns=['_','읍면동명_','투표구명_'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_새누리당_박근혜,득표수_2_민주통합당_문재인,득표수_4_무소속_박종선,득표수_5_무소속_김소연,득표수_6_무소속_강지원,득표수_7_무소속_김순자,득표수_계,무효투표수,기권수
5,전국,합계,40507842,30721459,15773128,14692632,12854,16687,53303,46017,30594621,126838,9786383
6,서울특별시,합계,8393847,6307869,3024572,3227639,3559,3793,11829,5307,6276699,31170,2085978
7,서울특별시,종로구,141447,103189,49422,52747,73,86,211,97,102636,553,38258
71,서울특별시,중구,115277,83095,40289,41919,67,56,151,71,82553,542,32182
136,서울특별시,용산구,206665,147849,76997,69572,87,96,261,121,147134,715,58816
...,...,...,...,...,...,...,...,...,...,...,...,...,...
17763,경상남도,거창군,51773,40103,28726,10466,61,22,75,244,39594,509,11670
17801,경상남도,합천군,43981,33586,25313,7114,70,20,64,382,32963,623,10395
17848,제주특별자치도,합계,451731,330967,166184,161235,148,240,667,861,329335,1632,120764
17849,제주특별자치도,제주시,328450,241552,119563,119622,94,164,473,570,240486,1066,86898


In [41]:
df_18th = df_18th.rename(columns=rename_dict18).drop(columns=['_','읍면동명_','투표구명_'])

In [42]:
df_18th[df_18th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_새누리당_박근혜,득표수_2_민주통합당_문재인,득표수_4_무소속_박종선,득표수_5_무소속_김소연,득표수_6_무소속_강지원,득표수_7_무소속_김순자,득표수_계,무효투표수,기권수
5,전국,합계,40507842,30721459,15773128,14692632,12854,16687,53303,46017,30594621,126838,9786383
6,서울특별시,합계,8393847,6307869,3024572,3227639,3559,3793,11829,5307,6276699,31170,2085978
2780,부산광역시,합계,2911700,2219699,1324159,882511,555,913,2878,2389,2213405,6294,692001
3938,대구광역시,합계,1990746,1585806,1267789,309034,366,624,2043,1984,1581840,3966,404940
4706,인천광역시,합계,2241366,1657821,852600,794213,508,1005,2730,1910,1652966,4855,583545
5551,광주광역시,합계,1117781,898416,69574,823737,268,333,1113,561,895586,2830,219365
6020,대전광역시,합계,1182321,904367,450576,448310,271,461,1291,969,901878,2489,277954
6466,울산광역시,합계,886061,694938,413977,275451,210,434,898,1463,692433,2505,191123
6812,세종특별자치시,합계,87707,64990,33587,30787,31,38,99,155,64697,293,22717
6866,경기도,합계,9364077,7018577,3528915,3442084,1997,3674,12577,7476,6996723,21854,2345500


In [43]:
df_18th.to_csv("temp1_president_18.csv", index=False, encoding="utf-8-sig")

# 16

In [44]:
# =============================================================================
# 16대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xls"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xls"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_16th_presidential_election(file_path):
    """
    16대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - Sheet 0: 전국투표구별득표상황 (메인 데이터)
    - Sheet 1: 위원회별부재자득표상황 (시도명 매핑용)

    특별한 처리 로직:
    1. 두 시트를 위원회명으로 병합하여 시도명 추가
    2. 시도별 합계 행 자동 생성
    3. 전국 합계 행 자동 생성 및 맨 위 배치
    4. 위원회명에서 대괄호와 괄호 정리

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/16대_선거결과.xls"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xls" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xls"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 전국/시도별 합계 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/16대/선거결과.xls"
    df = process_16th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_16th_presidential_election("./data/16대_선거결과.xls")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        xls = pd.ExcelFile(raw_url)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        xls = pd.ExcelFile(file_path)

    # ================================
    # 2. 두 시트 읽기
    # ================================
    df_main = xls.parse(0)      # Sheet 0: 전국투표구별득표상황
    df_mapping = xls.parse(1)   # Sheet 1: 위원회별부재자득표상황 (시도명 매핑용)

    print(f"메인 데이터 크기: {df_main.shape}")
    print(f"매핑 데이터 크기: {df_mapping.shape}")
    print(f"메인 컬럼: {list(df_main.columns)}")

    # ================================
    # 3. 합계 행 필터링
    # ================================
    # 메인 데이터에서 읍면동명이 '합계'인 행만 추출
    df_main_filtered = df_main[df_main['읍면동명'] == '합계'].copy()

    print(f"합계 행 필터링 후 크기: {df_main_filtered.shape}")

    # ================================
    # 4. 위원회명 정리 (대괄호 제거)
    # ================================
    # 위원회명에서 대괄호 [, ] 제거하여 새로운 컬럼 생성
    df_main_filtered['위원회명_clean'] = (
        df_main_filtered['위원회명']
        .str.replace(r'[\[\]]', '', regex=True)  # 대괄호 제거
    )

    df_mapping['위원회명_clean'] = (
        df_mapping['위원회명']
        .astype(str)
        .str.replace(r'[\[\]]', '', regex=True)  # 대괄호 제거
    )

    print(f"위원회명 정리 완료")

    # ================================
    # 5. 시도명 병합
    # ================================
    # 매핑 시트의 시도명 정보를 메인 데이터에 병합
    df_merged = pd.merge(
        df_main_filtered,
        df_mapping[['시도명', '위원회명_clean']],  # 시도명과 정리된 위원회명만 가져옴
        on='위원회명_clean',
        how='left'  # 메인 데이터 기준으로 left join
    )

    print(f"시도명 병합 후 크기: {df_merged.shape}")

    # ================================
    # 6. 컬럼 정리 및 순서 재배열
    # ================================
    # 필요한 컬럼만 남기고 순서 재배열
    exclude_cols = ['위원회명', '읍면동명', '투표구명']  # 제외할 컬럼들
    ordered_cols = ['시도명', '위원회명_clean'] + [
        col for col in df_merged.columns
        if col not in ['시도명', '위원회명_clean'] + exclude_cols
    ]
    df_final = df_merged[ordered_cols]

    print(f"컬럼 정리 후: {len(df_final.columns)}개 컬럼")

    # ================================
    # 7. 시도별 합계 행 생성
    # ================================
    # 시도명 원래 순서 보존
    sido_order = df_final['시도명'].drop_duplicates().tolist()
    print(f"시도 개수: {len(sido_order)}")

    # 시도별로 수치형 컬럼들의 합계 계산
    agg_df = (
        df_final.groupby('시도명', sort=False)
        .agg(lambda x: x.iloc[0] if x.name in ['시도명', '위원회명_clean']
             else x.sum(numeric_only=True))
        .reset_index()
    )
    agg_df['위원회명_clean'] = '합계'  # 합계 행 표시
    agg_df = agg_df[df_final.columns.tolist()]  # 컬럼 순서 맞춤

    # ================================
    # 8. 시도별 합계 행을 각 시도 위에 삽입
    # ================================
    df_list = []
    for sido in sido_order:
        # 해당 시도의 데이터
        sido_data = df_final[df_final['시도명'] == sido]
        # 해당 시도의 합계 행
        sido_total = agg_df[agg_df['시도명'] == sido]
        # 합계 행을 위에 두고 이어 붙임
        df_list.append(pd.concat([sido_total, sido_data], ignore_index=True))

    df_with_sido_totals = pd.concat(df_list, ignore_index=True)

    print(f"시도별 합계 추가 후 크기: {df_with_sido_totals.shape}")

    # ================================
    # 9. 전국 합계 행 생성
    # ================================
    # 시도별 합계 행들만 추출하여 전국 합계 계산
    national_source_rows = df_with_sido_totals[
        df_with_sido_totals['위원회명_clean'] == '합계'
    ]

    # 수치형 컬럼들의 합계 계산 (2번째 컬럼부터)
    national_totals = national_source_rows.iloc[:, 2:].sum(numeric_only=True)
    national_totals['시도명'] = '전국'
    national_totals['위원회명_clean'] = '합계'
    national_totals = national_totals[df_with_sido_totals.columns]  # 컬럼 순서 맞춤

    # ================================
    # 10. 전국 합계 행을 맨 위에 삽입
    # ================================
    df_final_with_national = pd.concat(
        [pd.DataFrame([national_totals]), df_with_sido_totals],
        ignore_index=True
    )

    print(f"전국 합계 추가 후 크기: {df_final_with_national.shape}")

    # ================================
    # 11. 위원회명 최종 정리 (괄호 제거)
    # ================================
    # 위원회명에서 괄호와 그 안의 내용 제거
    df_final_with_national['위원회명_clean'] = (
        df_final_with_national['위원회명_clean']
        .str.replace(r"\(.*\)", "", regex=True)  # (내용) 형태 제거
        .str.strip()  # 앞뒤 공백 제거
    )

    # ================================
    # 12. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_final_with_national.shape}")
    print("전처리 완료!")
    print(f"  - 전국 합계: 1행")
    print(f"  - 시도별 합계: {len(sido_order)}행")
    print(f"  - 위원회별 상세: {df_final_with_national.shape[0] - 1 - len(sido_order)}행")

    return df_final_with_national


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/16th_2002/제16대 대통령선거 개표자료.xls"
# df_16th = process_16th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_16th = process_16th_presidential_election("./data/16대_대선결과.xls")

# 업로드된 파일 사용하는 경우
# df_16th = process_16th_presidential_election("제16대 대통령선거 개표자료.xls")

# 결과 확인
# print(df_16th.head(10))  # 상위 10행 확인
# print(df_16th.columns.tolist())
# print(df_16th['시도명'].value_counts())  # 시도별 행 개수 확인

In [45]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url16 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/16th_2002/%EC%A0%9C16%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls"
df_16th = process_16th_presidential_election(blob_url16)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/16th_2002/%EC%A0%9C16%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls
  (blob URL을 raw URL로 자동 변환)
메인 데이터 크기: (17479, 14)
매핑 데이터 크기: (261, 13)
메인 컬럼: ['위원회명', '읍면동명', '투표구명', '선거인수', '투표수', '이회창', '노무현', '이한동', '권영길', '김영규', '김길수', '유효투표수', '무표투표수', '기권수']
합계 행 필터링 후 크기: (244, 14)
위원회명 정리 완료
시도명 병합 후 크기: (244, 16)
컬럼 정리 후: 13개 컬럼
시도 개수: 16
시도별 합계 추가 후 크기: (260, 13)
전국 합계 추가 후 크기: (261, 13)
최종 데이터 크기: (261, 13)
전처리 완료!
  - 전국 합계: 1행
  - 시도별 합계: 16행
  - 위원회별 상세: 244행


In [46]:
df_16th

Unnamed: 0,시도명,위원회명_clean,선거인수,투표수,이회창,노무현,이한동,권영길,김영규,김길수,유효투표수,무표투표수,기권수
0,전국,합계,34991529,24784963,11443297,12014277,74027,957148,22063,51104,24561916,223047,10206566
1,서울,합계,7670682,5475715,2447376,2792957,12724,179790,4706,6437,5443990,31725,2194967
2,서울,종로구,140105,99988,45901,49989,304,2995,71,121,99381,607,40117
3,서울,중구,108936,76499,33712,39876,164,2073,66,101,75992,507,32437
4,서울,용산구,184276,127810,61349,61437,309,3711,108,148,127062,748,56466
...,...,...,...,...,...,...,...,...,...,...,...,...,...
256,제주,합계,391151,268227,105744,148423,744,8619,288,981,264799,3428,122924
257,제주,제주시,198820,136002,55892,73679,315,4609,128,250,134873,1129,62818
258,제주,북제주군,74769,51969,20345,28501,168,1474,70,316,50874,1095,22800
259,제주,서귀포시,61099,41151,15077,24026,118,1288,30,159,40698,453,19948


In [47]:
df_16th.columns.tolist()

['시도명',
 '위원회명_clean',
 '선거인수',
 '투표수',
 '이회창',
 '노무현',
 '이한동',
 '권영길',
 '김영규',
 '김길수',
 '유효투표수',
 '무표투표수',
 '기권수']

In [48]:
rename_dict16 = {
    '시도명_': '시도',
    '위원회명_clean': '구시군',
    '이회창': '득표수_1_한나라당_이회창',
    '노무현': '득표수_2_새천년민주당_노무현',
    '이한동': '득표수_3_하나로국민연합_이한동',
    '권영길': '득표수_4_민주노동당_권영길',
    '김영규': '득표수_5_사회당_김영규',
    '김길수': '득표수_6_호국당_김길수',
    '유효투표수': '득표수_계',
    '무표투표수': '무효투표수'
}

In [49]:
df_16th.rename(columns=rename_dict16)

Unnamed: 0,시도명,구시군,선거인수,투표수,득표수_1_한나라당_이회창,득표수_2_새천년민주당_노무현,득표수_3_하나로국민연합_이한동,득표수_4_민주노동당_권영길,득표수_5_사회당_김영규,득표수_6_호국당_김길수,득표수_계,무효투표수,기권수
0,전국,합계,34991529,24784963,11443297,12014277,74027,957148,22063,51104,24561916,223047,10206566
1,서울,합계,7670682,5475715,2447376,2792957,12724,179790,4706,6437,5443990,31725,2194967
2,서울,종로구,140105,99988,45901,49989,304,2995,71,121,99381,607,40117
3,서울,중구,108936,76499,33712,39876,164,2073,66,101,75992,507,32437
4,서울,용산구,184276,127810,61349,61437,309,3711,108,148,127062,748,56466
...,...,...,...,...,...,...,...,...,...,...,...,...,...
256,제주,합계,391151,268227,105744,148423,744,8619,288,981,264799,3428,122924
257,제주,제주시,198820,136002,55892,73679,315,4609,128,250,134873,1129,62818
258,제주,북제주군,74769,51969,20345,28501,168,1474,70,316,50874,1095,22800
259,제주,서귀포시,61099,41151,15077,24026,118,1288,30,159,40698,453,19948


In [50]:
df_16th = df_16th.rename(columns=rename_dict16)

In [51]:
df_16th[df_16th['구시군'] == '합계']

Unnamed: 0,시도명,구시군,선거인수,투표수,득표수_1_한나라당_이회창,득표수_2_새천년민주당_노무현,득표수_3_하나로국민연합_이한동,득표수_4_민주노동당_권영길,득표수_5_사회당_김영규,득표수_6_호국당_김길수,득표수_계,무효투표수,기권수
0,전국,합계,34991529,24784963,11443297,12014277,74027,957148,22063,51104,24561916,223047,10206566
1,서울,합계,7670682,5475715,2447376,2792957,12724,179790,4706,6437,5443990,31725,2194967
27,부산,합계,2786142,1983492,1314274,587946,2148,61281,1380,2064,1969093,14399,802650
44,대구,합계,1827162,1299968,1002164,240745,1699,42174,810,1317,1288909,11059,527194
53,인천,합계,1824905,1236447,547205,611766,3600,61655,1612,1978,1227816,8631,588458
64,광주,합계,967222,755398,26869,715182,803,7243,305,1014,751416,3982,211824
70,대전,합계,998541,675029,266760,369046,2157,29728,747,1408,669846,5183,323512
76,울산,합계,729645,510496,267737,178584,997,57786,502,716,506322,4174,219149
82,경기,합계,6944934,4831412,2120191,2430193,26072,209346,4119,8085,4798006,33406,2113522
123,강원,합계,1131168,773560,400405,316722,3406,38722,969,2713,762937,10623,357608


In [52]:
df_16th.to_csv("temp1_president_16.csv", index=False, encoding="utf-8-sig")

# 15

In [53]:
# =============================================================================
# 15대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xls"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xls"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_15th_presidential_election(file_path):
    """
    15대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0행: 헤더 첫 번째 줄
    - 1행: 헤더 두 번째 줄
    - 2행: 헤더 세 번째 줄
    - 3행: 헤더 네 번째 줄
    - 4행부터: 실제 데이터

    특별한 필터링 조건:
    - 구시군명에 "합계" 포함
    - 읍면동명에 "소계" 포함

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/15대_선거결과.xls"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xls" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xls"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 및 소계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/15대/선거결과.xls"
    df = process_15th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_15th_presidential_election("./data/15대_선거결과.xls")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=None)

    print(f"원본 데이터 크기: {df_all.shape}")

    # ================================
    # 2. 복합 헤더 구성 (0~3행 병합)
    # ================================
    # 파이썬 인덱스는 0부터 시작하므로:
    # 0행 = iloc[0] (실제 1번째 행)
    # 1행 = iloc[1] (실제 2번째 행)
    # 2행 = iloc[2] (실제 3번째 행)
    # 3행 = iloc[3] (실제 4번째 행)
    header_row_1 = df_all.iloc[0].fillna("")  # 첫 번째 헤더 행
    header_row_2 = df_all.iloc[1].fillna("")  # 두 번째 헤더 행
    header_row_3 = df_all.iloc[2].fillna("")  # 세 번째 헤더 행
    header_row_4 = df_all.iloc[3].fillna("")  # 네 번째 헤더 행

    # 4개 헤더 행을 "_"로 연결하여 통합 헤더 생성
    combined_headers = (
        header_row_1.astype(str) + "_" +
        header_row_2.astype(str) + "_" +
        header_row_3.astype(str) + "_" +
        header_row_4.astype(str)
    )

    print(f"4개 헤더 행 병합 완료")

    # ================================
    # 3. 실제 데이터 추출 (4행부터)
    # ================================
    # 4행 = iloc[4] (실제 5번째 행)부터 데이터 시작
    df_data = df_all.iloc[4:].copy()
    df_data.columns = combined_headers

    print(f"데이터 추출 후 크기: {df_data.shape}")
    print(f"컬럼 수: {len(df_data.columns)}")

    # ================================
    # 4. 주요 컬럼 추출
    # ================================
    gugun_column = [col for col in df_data.columns if "구시군명" in col][0]
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]

    print(f"주요 컬럼:")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 5. 합계 및 소계 행 필터링
    # ================================
    # 15대 특별 조건:
    # - 구시군명에 "합계" 포함
    # - 읍면동명에 "소계" 포함
    filter_mask = (
        df_data[gugun_column].astype(str).str.contains("합계", na=False) |
        df_data[dong_column].astype(str).str.contains("소계", na=False)
    )
    df_filtered = df_data[filter_mask].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")

    # 필터링 결과 상세 정보
    total_rows = df_filtered[
        df_filtered[gugun_column].astype(str).str.contains("합계", na=False)
    ].shape[0]
    subtotal_rows = df_filtered[
        df_filtered[dong_column].astype(str).str.contains("소계", na=False)
    ].shape[0]

    print(f"  - 합계 행: {total_rows}개")
    print(f"  - 소계 행: {subtotal_rows}개")

    # ================================
    # 6. 수치형 컬럼 정리
    # ================================
    # 3번째 컬럼(인덱스 3)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[3:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .fillna("0")           # NaN 값을 "0" 문자열로 변경
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("nan", "0")   # 'nan' 문자열을 "0"으로 변경
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 7. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/15th_1997/제15대 대통령선거 개표자료.xls"
# df_15th = process_15th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_15th = process_15th_presidential_election("./data/15대_대선결과.xls")

# 업로드된 파일 사용하는 경우
# df_15th = process_15th_presidential_election("제15대 대통령선거 개표자료.xls")

# 결과 확인
# print(df_15th.head())
# print(df_15th.columns.tolist())
# print("합계 행 개수:", df_15th[df_15th.iloc[:, 1].astype(str).str.contains("합계", na=False)].shape[0])
# print("소계 행 개수:", df_15th[df_15th.iloc[:, 2].astype(str).str.contains("소계", na=False)].shape[0])

In [54]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url15 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/15th_1997/%EC%A0%9C15%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls"
df_15th = process_15th_presidential_election(blob_url15)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/15th_1997/%EC%A0%9C15%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (4063, 17)
4개 헤더 행 병합 완료
데이터 추출 후 크기: (4059, 17)
컬럼 수: 17
주요 컬럼:
  - 구시군: 구시군명___
  - 읍면동: 읍면동명___
필터링 후 크기: (320, 17)
  - 합계 행: 17개
  - 소계 행: 320개
수치형 컬럼 개수: 14
최종 데이터 크기: (320, 17)
전처리 완료!


In [55]:
df_15th

Unnamed: 0,시도명___,구시군명___,읍면동명___,선거인수___,부재자수___,투표자수___,부재자투표자수___,유효투표수_후보자별 득표수_한나라당_이회창,__국민회의_김대중,__국민신당_이인제,__국민승리21_권영길,__공화당_허경영,__바른정치聯_김한식,__한국당_신정일,_계__,무표투표수___,기권수___
4,전국,합계,소계,32290416,801130,26042633,775458,9935718,10326275,4925591,306026,39055,48717,61056,25642438,400195,6247783
5,서울,합계,소계,7358547,176163,5926743,172450,2394309,2627308,747856,65656,5432,8978,5234,5854773,71970,1431804
6,서울,종로구,소계,145809,2980,116117,2914,48664,52381,11837,1304,110,177,122,114595,1522,29692
28,서울,중구(서울),소계,96000,1991,76174,1948,29633,36072,8452,640,95,109,92,75093,1081,19826
47,서울,용산구,소계,180295,3705,141083,3628,61050,60486,15764,1397,125,202,162,139186,1897,39212
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4015,제주,합계,소계,361680,10150,278999,9781,100103,111009,56014,3856,551,799,1245,273577,5422,82681
4016,제주,제주시,소계,175309,5125,135454,4924,53153,53254,24317,2085,156,258,290,133513,1941,39855
4036,제주,북제주군,소계,71558,1911,54622,1849,18519,20105,12921,701,166,227,439,53078,1544,16936
4044,제주,서귀포시,소계,58547,1671,45135,1617,14768,20392,8288,542,78,120,192,44380,755,13412


In [56]:
df_15th.columns.tolist()

['시도명___',
 '구시군명___',
 '읍면동명___',
 '선거인수___',
 '부재자수___',
 '투표자수___',
 '부재자투표자수___',
 '유효투표수_후보자별 득표수_한나라당_이회창',
 '__국민회의_김대중',
 '__국민신당_이인제',
 '__국민승리21_권영길',
 '__공화당_허경영',
 '__바른정치聯_김한식',
 '__한국당_신정일',
 '_계__',
 '무표투표수___',
 '기권수___']

In [57]:
rename_dict15 = {
    '시도명___': '시도',
    '구시군명___': '구시군',
    '선거인수___': '선거인수',
    '투표자수___': '투표수',
    '유효투표수_후보자별 득표수_한나라당_이회창': '득표수_1_한나라당_이회창',
    '__국민회의_김대중': '득표수_2_새정치국민회의_김대중',
    '__국민신당_이인제': '득표수_3_국민신당_이인제',
    '__국민승리21_권영길': '득표수_4_건설국민승리21_권영길',
    '__공화당_허경영': '득표수_5_공화당_허경영',
    '__바른정치聯_김한식': '득표수_6_바른나라정치연합_김한식',
    '__한국당_신정일': '득표수_7_통일한국당_신정일',
    '_계__': '득표수_계',
    '무표투표수___': '무효투표수',
    '기권수___': '기권수'
}

In [58]:
df_15th.rename(columns=rename_dict15).drop(columns=['읍면동명___', '부재자수___','부재자투표자수___'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_한나라당_이회창,득표수_2_새정치국민회의_김대중,득표수_3_국민신당_이인제,득표수_4_건설국민승리21_권영길,득표수_5_공화당_허경영,득표수_6_바른나라정치연합_김한식,득표수_7_통일한국당_신정일,득표수_계,무효투표수,기권수
4,전국,합계,32290416,26042633,9935718,10326275,4925591,306026,39055,48717,61056,25642438,400195,6247783
5,서울,합계,7358547,5926743,2394309,2627308,747856,65656,5432,8978,5234,5854773,71970,1431804
6,서울,종로구,145809,116117,48664,52381,11837,1304,110,177,122,114595,1522,29692
28,서울,중구(서울),96000,76174,29633,36072,8452,640,95,109,92,75093,1081,19826
47,서울,용산구,180295,141083,61050,60486,15764,1397,125,202,162,139186,1897,39212
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4015,제주,합계,361680,278999,100103,111009,56014,3856,551,799,1245,273577,5422,82681
4016,제주,제주시,175309,135454,53153,53254,24317,2085,156,258,290,133513,1941,39855
4036,제주,북제주군,71558,54622,18519,20105,12921,701,166,227,439,53078,1544,16936
4044,제주,서귀포시,58547,45135,14768,20392,8288,542,78,120,192,44380,755,13412


In [59]:
df_15th = df_15th.rename(columns=rename_dict15).drop(columns=['읍면동명___', '부재자수___','부재자투표자수___'])

In [60]:
# 구시군 원소 괄호 제거
df_15th['구시군'] = (
    df_15th['구시군']
    .str.replace(r"\(.*\)", "", regex=True)
    .str.strip()
)

In [61]:
df_15th[df_15th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_한나라당_이회창,득표수_2_새정치국민회의_김대중,득표수_3_국민신당_이인제,득표수_4_건설국민승리21_권영길,득표수_5_공화당_허경영,득표수_6_바른나라정치연합_김한식,득표수_7_통일한국당_신정일,득표수_계,무효투표수,기권수
4,전국,합계,32290416,26042633,9935718,10326275,4925591,306026,39055,48717,61056,25642438,400195,6247783
5,서울,합계,7358547,5926743,2394309,2627308,747856,65656,5432,8978,5234,5854773,71970,1431804
583,부산,합계,2692311,2124010,1117069,320178,623756,25581,2252,2211,3359,2094406,29604,568301
845,대구,합계,1707338,1347018,965607,166576,173649,16258,1661,1229,4108,1329088,17930,360320
1019,인천,합계,1639655,1311512,470560,497839,297739,20340,1915,2356,1862,1292611,18901,328143
1181,광주,합계,870554,783025,13294,754159,5181,1478,154,660,273,775199,7826,87529
1291,대전,합계,881474,692821,199266,307493,164374,8444,1028,1352,936,682893,9928,188653
1386,울산,합계,654125,530459,268998,80751,139824,32145,627,427,991,523763,6696,123666
1455,경기,합계,5707087,4600005,1612108,1781577,1071704,47608,7077,8035,7415,4535524,64481,1107082
1982,강원,합계,1077853,846596,358921,197438,257140,8231,3201,1851,4161,830943,15653,231257


In [62]:
df_15th.to_csv("temp1_president_15.csv", index=False, encoding="utf-8-sig")

# 14

In [63]:
# =============================================================================
# 14대 대통령선거 데이터 전처리 함수
# =============================================================================

import pandas as pd

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)

    Example:
    --------
    blob_url = "https://github.com/user/repo/blob/main/file.xls"
    raw_url = convert_github_url_to_raw(blob_url)
    # "https://github.com/user/repo/raw/main/file.xls"
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_14th_presidential_election(file_path):
    """
    14대 대통령선거 데이터 전처리 함수

    엑셀 파일 구조:
    - 0행: 헤더 첫 번째 줄
    - 1행: 헤더 두 번째 줄
    - 2행: 헤더 세 번째 줄
    - 3행: 헤더 네 번째 줄
    - 4행부터: 실제 데이터

    특별한 필터링 조건:
    - 구시군명에 "합계" 포함
    - 읍면동명에 "소계" 포함

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일, 깃허브 blob URL, 또는 raw URL)
        - 로컬: "./data/14대_선거결과.xls"
        - 깃허브 blob: "https://github.com/user/repo/blob/main/파일.xls" (자동 변환됨)
        - 깃허브 raw: "https://github.com/user/repo/raw/main/파일.xls"

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame, 합계 및 소계 행만 포함)

    Example:
    --------
    # 깃허브에서 불러오기 (blob URL 그대로 사용 - 자동 변환됨)
    blob_url = "https://github.com/user/repo/blob/main/14대/선거결과.xls"
    df = process_14th_presidential_election(blob_url)

    # 로컬 파일 불러오기
    df = process_14th_presidential_election("./data/14대_선거결과.xls")
    """

    # ================================
    # 1. 파일 로드 (자동 감지)
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우 - blob URL이면 raw URL로 변환
        raw_url = convert_github_url_to_raw(file_path)
        print(f"웹에서 파일 로드: {raw_url}")
        if raw_url != file_path:
            print(f"  (blob URL을 raw URL로 자동 변환)")
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        print(f"로컬에서 파일 로드: {file_path}")
        df_all = pd.read_excel(file_path, header=None)

    print(f"원본 데이터 크기: {df_all.shape}")

    # ================================
    # 2. 복합 헤더 구성 (0~3행 병합)
    # ================================
    # 파이썬 인덱스는 0부터 시작하므로:
    # 0행 = iloc[0] (실제 1번째 행)
    # 1행 = iloc[1] (실제 2번째 행)
    # 2행 = iloc[2] (실제 3번째 행)
    # 3행 = iloc[3] (실제 4번째 행)
    header_row_1 = df_all.iloc[0].fillna("")  # 첫 번째 헤더 행
    header_row_2 = df_all.iloc[1].fillna("")  # 두 번째 헤더 행
    header_row_3 = df_all.iloc[2].fillna("")  # 세 번째 헤더 행
    header_row_4 = df_all.iloc[3].fillna("")  # 네 번째 헤더 행

    # 4개 헤더 행을 "_"로 연결하여 통합 헤더 생성
    combined_headers = (
        header_row_1.astype(str) + "_" +
        header_row_2.astype(str) + "_" +
        header_row_3.astype(str) + "_" +
        header_row_4.astype(str)
    )

    print(f"4개 헤더 행 병합 완료")

    # ================================
    # 3. 실제 데이터 추출 (4행부터)
    # ================================
    # 4행 = iloc[4] (실제 5번째 행)부터 데이터 시작
    df_data = df_all.iloc[4:].copy()
    df_data.columns = combined_headers

    print(f"데이터 추출 후 크기: {df_data.shape}")
    print(f"컬럼 수: {len(df_data.columns)}")

    # ================================
    # 4. 주요 컬럼 추출
    # ================================
    gugun_column = [col for col in df_data.columns if "구시군명" in col][0]
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]

    print(f"주요 컬럼:")
    print(f"  - 구시군: {gugun_column}")
    print(f"  - 읍면동: {dong_column}")

    # ================================
    # 5. 합계 및 소계 행 필터링
    # ================================
    # 14대 특별 조건:
    # - 구시군명에 "합계" 포함
    # - 읍면동명에 "소계" 포함
    filter_mask = (
        df_data[gugun_column].astype(str).str.contains("합계", na=False) |
        df_data[dong_column].astype(str).str.contains("소계", na=False)
    )
    df_filtered = df_data[filter_mask].copy()

    print(f"필터링 후 크기: {df_filtered.shape}")

    # 필터링 결과 상세 정보
    total_rows = df_filtered[
        df_filtered[gugun_column].astype(str).str.contains("합계", na=False)
    ].shape[0]
    subtotal_rows = df_filtered[
        df_filtered[dong_column].astype(str).str.contains("소계", na=False)
    ].shape[0]

    print(f"  - 합계 행: {total_rows}개")
    print(f"  - 소계 행: {subtotal_rows}개")

    # ================================
    # 6. 수치형 컬럼 정리
    # ================================
    # 3번째 컬럼(인덱스 3)부터는 보통 득표수 등 수치 데이터
    numeric_columns = df_filtered.columns[3:]

    print(f"수치형 컬럼 개수: {len(numeric_columns)}")

    for col in numeric_columns:
        # 쉼표 제거 → 공백 제거 → 빈값을 0으로 → 정수형 변환
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)           # 문자열로 변환
            .fillna("0")           # NaN 값을 "0" 문자열로 변경
            .str.replace(",", "")  # 천 단위 구분자 제거 (예: "1,234" → "1234")
            .str.strip()           # 앞뒤 공백 제거
            .replace("nan", "0")   # 'nan' 문자열을 "0"으로 변경
            .replace("", "0")      # 빈 문자열을 "0"으로 변경
            .astype(int)           # 최종적으로 정수형으로 변환
        )

    # ================================
    # 7. 결과 반환
    # ================================
    print(f"최종 데이터 크기: {df_filtered.shape}")
    print("전처리 완료!")

    return df_filtered


# =============================================================================
# 사용 예시
# =============================================================================

# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
# blob_url = "https://github.com/~~/korean-elections/blob/main/original/Presidential_Elections/14th_1992/제14대 대통령선거 개표자료.xls"
# df_14th = process_14th_presidential_election(blob_url)

# 로컬에서 불러오는 경우
# df_14th = process_14th_presidential_election("./data/14대_대선결과.xls")

# 업로드된 파일 사용하는 경우
# df_14th = process_14th_presidential_election("제14대 대통령선거 개표자료.xls")

# 결과 확인
# print(df_14th.head())
# print(df_14th.columns.tolist())
# print("합계 행 개수:", df_14th[df_14th.iloc[:, 1].astype(str).str.contains("합계", na=False)].shape[0])
# print("소계 행 개수:", df_14th[df_14th.iloc[:, 2].astype(str).str.contains("소계", na=False)].shape[0])

In [64]:
# 깃허브 blob URL로 불러오는 경우 (자동으로 raw URL로 변환됨)
blob_url14 = "https://github.com/sw1kwon/korean-elections/blob/main/original/Presidential_Elections/14th_1992/%EC%A0%9C14%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls"
df_14th = process_14th_presidential_election(blob_url14)

웹에서 파일 로드: https://github.com/sw1kwon/korean-elections/raw/main/original/Presidential_Elections/14th_1992/%EC%A0%9C14%EB%8C%80%20%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0%20%EA%B0%9C%ED%91%9C%EC%9E%90%EB%A3%8C.xls
  (blob URL을 raw URL로 자동 변환)
원본 데이터 크기: (3987, 18)
4개 헤더 행 병합 완료
데이터 추출 후 크기: (3983, 18)
컬럼 수: 18
주요 컬럼:
  - 구시군: 구시군명___
  - 읍면동: 읍면동명___
필터링 후 크기: (325, 18)
  - 합계 행: 16개
  - 소계 행: 325개
수치형 컬럼 개수: 15
최종 데이터 크기: (325, 18)
전처리 완료!


In [65]:
df_14th

Unnamed: 0,시도명___,구시군명___,읍면동명___,선거인수___,부재자수___,투표자수___,부재자투표자수___,유효투표수_후보자별 득표수_민자당_김영삼,__민주당_김대중,__국민당_정주영,__새한국당_이종찬,__신정당_박찬종,__정의당_이병호,__무소속_김옥선,__무소속_백기완,_계__,무효투표수___,기권수___
4,전국,합계,소계,28676547,746111,24095170,713736,9977332,8041284,3880067,0,1516047,35739,86292,238648,23775409,319761,4581377
5,서울,합계,소계,7235830,158724,6021311,154293,2167298,2246636,1070629,0,381535,4797,13098,67784,5951777,69534,1214519
6,서울,종로구,소계,158824,3632,130419,3550,41396,50226,27397,0,7234,133,284,1600,128270,2149,28405
28,서울,중구(서울),소계,123335,2792,101005,2708,34093,41814,17005,0,5273,90,224,1096,99595,1410,22330
47,서울,용산구,소계,198704,4365,161166,4233,59755,57144,29967,0,9953,121,339,1810,159089,2077,37538
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3939,제주,합계,소계,319824,10646,265252,10119,104292,85889,42130,0,23077,563,1286,3647,260884,4368,54572
3940,제주,제주시,소계,146005,4831,120565,4537,45617,39122,19696,0,12392,162,396,1621,119006,1559,25440
3960,제주,북제주군,소계,66346,2279,54713,2201,23957,15726,7803,0,4650,173,382,847,53538,1175,11633
3968,제주,서귀포시,소계,53574,1752,44840,1679,16042,16955,7228,0,3051,105,233,535,44149,691,8734


In [66]:
df_14th.columns.tolist()

['시도명___',
 '구시군명___',
 '읍면동명___',
 '선거인수___',
 '부재자수___',
 '투표자수___',
 '부재자투표자수___',
 '유효투표수_후보자별 득표수_민자당_김영삼',
 '__민주당_김대중',
 '__국민당_정주영',
 '__새한국당_이종찬',
 '__신정당_박찬종',
 '__정의당_이병호',
 '__무소속_김옥선',
 '__무소속_백기완',
 '_계__',
 '무효투표수___',
 '기권수___']

In [67]:
rename_dict14 = {
    '시도명___': '시도',
    '구시군명___': '구시군',
    '선거인수___': '선거인수',
    '투표자수___': '투표수',
    '유효투표수_후보자별 득표수_민자당_김영삼': '득표수_1_민주자유당_김영삼',
    '__민주당_김대중': '득표수_2_민주당_김대중',
    '__국민당_정주영': '득표수_3_통일국민당_정주영',
    '__새한국당_이종찬': '득표수_4_새한국당_이종찬',
    '__신정당_박찬종': '득표수_5_신정치개혁당_박찬종',
    '__정의당_이병호': '득표수_6_대한정의당_이병호',
    '__무소속_김옥선': '득표수_7_무소속_김옥선',
    '__무소속_백기완': '득표수_8_무소속_백기완',
    '_계__': '득표수_계',
    '무효투표수___': '무효투표수',
    '기권수___': '기권수'
}

In [68]:
df_14th.rename(columns=rename_dict14).drop(columns=['읍면동명___', '부재자수___','부재자투표자수___'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_민주자유당_김영삼,득표수_2_민주당_김대중,득표수_3_통일국민당_정주영,득표수_4_새한국당_이종찬,득표수_5_신정치개혁당_박찬종,득표수_6_대한정의당_이병호,득표수_7_무소속_김옥선,득표수_8_무소속_백기완,득표수_계,무효투표수,기권수
4,전국,합계,28676547,24095170,9977332,8041284,3880067,0,1516047,35739,86292,238648,23775409,319761,4581377
5,서울,합계,7235830,6021311,2167298,2246636,1070629,0,381535,4797,13098,67784,5951777,69534,1214519
6,서울,종로구,158824,130419,41396,50226,27397,0,7234,133,284,1600,128270,2149,28405
28,서울,중구(서울),123335,101005,34093,41814,17005,0,5273,90,224,1096,99595,1410,22330
47,서울,용산구,198704,161166,59755,57144,29967,0,9953,121,339,1810,159089,2077,37538
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3939,제주,합계,319824,265252,104292,85889,42130,0,23077,563,1286,3647,260884,4368,54572
3940,제주,제주시,146005,120565,45617,39122,19696,0,12392,162,396,1621,119006,1559,25440
3960,제주,북제주군,66346,54713,23957,15726,7803,0,4650,173,382,847,53538,1175,11633
3968,제주,서귀포시,53574,44840,16042,16955,7228,0,3051,105,233,535,44149,691,8734


In [69]:
df_14th = df_14th.rename(columns=rename_dict14).drop(columns=['읍면동명___', '부재자수___','부재자투표자수___'])

In [70]:
# 구시군 원소 괄호 제거
df_14th['구시군'] = (
    df_14th['구시군']
    .str.replace(r"\(.*\)", "", regex=True)
    .str.strip()
)

In [71]:
df_14th[df_14th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_민주자유당_김영삼,득표수_2_민주당_김대중,득표수_3_통일국민당_정주영,득표수_4_새한국당_이종찬,득표수_5_신정치개혁당_박찬종,득표수_6_대한정의당_이병호,득표수_7_무소속_김옥선,득표수_8_무소속_백기완,득표수_계,무효투표수,기권수
4,전국,합계,28676547,24095170,9977332,8041284,3880067,0,1516047,35739,86292,238648,23775409,319761,4581377
5,서울,합계,7235830,6021311,2167298,2246636,1070629,0,381535,4797,13098,67784,5951777,69534,1214519
569,부산,합계,2506539,2135546,1551473,265055,133907,0,139004,978,3236,21736,2115389,20157,370993
817,대구,합계,1458247,1172636,690245,90641,224642,0,136037,1103,2753,12772,1158193,14443,285611
976,인천,합계,1321616,1081011,397361,338538,228505,0,84211,1351,3867,12455,1066288,14723,240605
1100,광주,합계,745270,685797,14504,652337,8085,0,2827,133,1149,1565,680600,5197,59473
1199,대전,합계,705227,582613,202137,165067,133646,0,64526,961,2294,5772,574403,8210,122614
1286,경기,합계,4270726,3502774,1254025,1103498,798356,0,239140,6299,13685,36392,3451395,51379,767952
1772,강원,합계,990821,834891,340528,127265,279610,0,56199,3047,4007,9599,820255,14636,155930
2018,충북,합계,894837,750483,281678,191743,175767,0,68900,4844,4568,8671,736171,14312,144354


In [72]:
df_14th.to_csv("temp1_president_14.csv", index=False, encoding="utf-8-sig")

In [73]:
# '구시군'이 '합계'인 행만 추출
filtered = df_14th[df_14th['구시군'] == '합계']

# 2번째 행 이후의 '선거인수' 합계 계산
total_voters = filtered.iloc[1:]['선거인수'].sum()

print("두 번째 이후의 선거인수 합계:", total_voters)


두 번째 이후의 선거인수 합계: 28676547


# 17

In [74]:
# =============================================================================
# 17대 대통령선거 데이터 전처리 함수들
# =============================================================================

import pandas as pd
import re
import requests
import tempfile
import os

def convert_github_url_to_raw(github_url):
    """
    깃허브 blob URL을 raw URL로 변환

    Parameters:
    -----------
    github_url : 깃허브 파일 URL

    Returns:
    --------
    raw URL (pandas가 직접 읽을 수 있는 형태)
    """
    if '/blob/' in github_url:
        return github_url.replace('/blob/', '/raw/')
    return github_url


def process_17th_single_file(file_path, region_name):
    """
    17대 대선 개별 파일 전처리 함수

    엑셀 파일 구조:
    - 0행: 헤더 첫 번째 줄
    - 1행: 헤더 두 번째 줄
    - 2행: 헤더 세 번째 줄
    - 3행부터: 실제 데이터

    Parameters:
    -----------
    file_path : 파일 경로 (로컬 파일 또는 URL)
    region_name : 해당 파일의 지역명 (시도명)

    Returns:
    --------
    전처리된 선거 데이터 (pandas DataFrame)
    """

    # ================================
    # 1. 파일 로드
    # ================================
    if file_path.startswith(('http://', 'https://')):
        # URL인 경우
        raw_url = convert_github_url_to_raw(file_path)
        df_all = pd.read_excel(raw_url, header=None)
    else:
        # 로컬 파일인 경우
        df_all = pd.read_excel(file_path, header=None)

    # ================================
    # 2. 헤더 구성 (0~2행 병합)
    # ================================
    header_row_1 = df_all.iloc[0].fillna("")  # 첫 번째 헤더 행
    header_row_2 = df_all.iloc[1].fillna("")  # 두 번째 헤더 행
    header_row_3 = df_all.iloc[2].fillna("")  # 세 번째 헤더 행

    # 3개 헤더 행을 "_"로 연결하여 통합 헤더 생성
    combined_headers = (
        header_row_1.astype(str) + "_" +
        header_row_2.astype(str) + "_" +
        header_row_3.astype(str)
    )

    # ================================
    # 3. 실제 데이터 추출 (3행부터)
    # ================================
    df_data = df_all.iloc[3:].copy()
    df_data.columns = combined_headers

    # ================================
    # 4. 합계 행 필터링
    # ================================
    dong_column = [col for col in df_data.columns if "읍면동명" in col][0]
    filter_mask = df_data[dong_column].astype(str).str.contains("합계", na=False)
    df_filtered = df_data[filter_mask].copy()

    # ================================
    # 5. 수치형 컬럼 정리
    # ================================
    numeric_columns = df_filtered.columns[3:]

    for col in numeric_columns:
        df_filtered[col] = (
            df_filtered[col]
            .astype(str)
            .fillna("0")
            .str.replace(",", "")
            .str.strip()
            .replace("nan", "0")
            .replace("", "0")
            .astype(int)
        )

    # ================================
    # 6. 시도명 추가
    # ================================
    df_filtered.insert(0, "시도", region_name)

    return df_filtered


def process_17th_presidential_election_batch(user, repo, folder="original/Presidential_Elections/17th_2007"):
    """
    17대 대선 전체 파일 자동 처리 및 병합 함수

    GitHub API를 통해 17대 대선 폴더의 모든 .xls 파일을 자동으로
    다운로드하고 전처리한 후 하나의 DataFrame으로 병합

    Parameters:
    -----------
    user : GitHub 사용자명
    repo : GitHub 저장소명
    folder : 17대 대선 파일들이 있는 폴더 경로

    Returns:
    --------
    병합된 전체 선거 데이터 (pandas DataFrame)

    Example:
    --------
    df = process_17th_presidential_election_batch("username", "korean-elections")
    """

    print(f"17대 대선 데이터 일괄 처리 시작")
    print(f"저장소: {user}/{repo}")
    print(f"폴더: {folder}")

    # ================================
    # 1. GitHub API로 파일 목록 가져오기
    # ================================
    api_url = f"https://api.github.com/repos/{user}/{repo}/contents/{folder}"

    try:
        response = requests.get(api_url)
        response.raise_for_status()
        files = response.json()
        print(f"폴더에서 {len(files)}개 파일 발견")
    except Exception as e:
        print(f"API 요청 실패: {e}")
        return None

    # ================================
    # 2. 각 .xls 파일 처리
    # ================================
    processed_dfs = []
    success_count = 0

    for file_info in files:
        file_name = file_info["name"]

        # .xls 파일만 처리
        if not file_name.endswith(".xls"):
            continue

        # 파일명에서 지역명 추출 (예: "01_17대선_투표구별개표자료_서울.xls" → "서울")
        match = re.match(r"^(\d+)_.*_([^_]+)\.xls$", file_name)
        if not match:
            print(f"파일명 패턴 불일치, 무시: {file_name}")
            continue

        number, region = match.group(1), match.group(2)

        print(f"처리 중: {file_name} (지역: {region})")

        # raw URL 생성
        raw_url = f"https://raw.githubusercontent.com/{user}/{repo}/main/{folder}/{file_name}"

        try:
            # 임시 파일로 다운로드 후 처리
            with tempfile.NamedTemporaryFile(delete=False, suffix=".xls") as tmp:
                tmp.write(requests.get(raw_url).content)
                tmp_path = tmp.name

            # 개별 파일 전처리
            df_region = process_17th_single_file(tmp_path, region)
            processed_dfs.append(df_region)

            # 임시 파일 삭제
            os.remove(tmp_path)

            success_count += 1
            print(f"  완료: {df_region.shape[0]}행 추가")

        except Exception as e:
            print(f"  오류 발생: {e}")
            continue

    # ================================
    # 3. 모든 DataFrame 병합
    # ================================
    if processed_dfs:
        df_combined = pd.concat(processed_dfs, ignore_index=True)
        print(f"")
        print(f"일괄 처리 완료:")
        print(f"  - 성공: {success_count}개 파일")
        print(f"  - 실패: {len([f for f in files if f['name'].endswith('.xls')]) - success_count}개 파일")
        print(f"  - 최종 크기: {df_combined.shape[0]}행 x {df_combined.shape[1]}열")
        return df_combined
    else:
        print("처리된 파일이 없습니다.")
        return None


def add_17th_totals_by_region(df):
    """
    17대 대선 데이터에 시도별 및 전국 합계 추가 함수

    시도별 합계 행을 각 시도 데이터 위에 추가하고,
    전국 합계 행을 맨 위에 추가

    Parameters:
    -----------
    df : 17대 대선 원본 데이터 (DataFrame)

    Returns:
    --------
    합계 행이 추가된 DataFrame

    Example:
    --------
    df_with_totals = add_17th_totals_by_region(df_17th)
    """

    print("시도별 및 전국 합계 행 추가 시작")

    df = df.copy()

    # ================================
    # 1. 시도별 합계 행 생성
    # ================================
    sido_order = df['시도'].drop_duplicates().tolist()
    print(f"처리할 시도 수: {len(sido_order)}")

    df_list = []

    for sido in sido_order:
        # 해당 시도 데이터
        sido_data = df[df['시도'] == sido]

        # 수치형 컬럼들의 합계 계산
        numeric_cols = sido_data.select_dtypes(include='number').columns
        agg_row = sido_data[numeric_cols].sum(numeric_only=True)
        agg_row['시도'] = sido
        agg_row['구시군명__'] = '합계'

        # 누락된 열을 빈 문자열로 채움
        for col in df.columns:
            if col not in agg_row:
                agg_row[col] = ''

        # 열 순서 맞춤
        agg_row = agg_row[df.columns.tolist()]

        # 합계 행을 해당 시도 데이터 위에 추가
        df_list.append(pd.concat([pd.DataFrame([agg_row]), sido_data], ignore_index=True))

    df_with_sido_totals = pd.concat(df_list, ignore_index=True)

    # ================================
    # 2. 전국 합계 행 생성
    # ================================
    # 시도별 합계 행들만 추출하여 전국 합계 계산
    sido_total_rows = df_with_sido_totals[df_with_sido_totals['구시군명__'] == '합계']
    national_sum = sido_total_rows.select_dtypes(include='number').sum(numeric_only=True)
    national_sum['시도'] = '전국'
    national_sum['구시군명__'] = '합계'

    # 누락된 열 처리
    for col in df.columns:
        if col not in national_sum:
            national_sum[col] = ''
    national_sum = national_sum[df.columns.tolist()]

    # ================================
    # 3. 전국 합계를 맨 위에 삽입
    # ================================
    final_df = pd.concat([pd.DataFrame([national_sum]), df_with_sido_totals], ignore_index=True)

    print(f"합계 행 추가 완료:")
    print(f"  - 시도별 합계: {len(sido_order)}행")
    print(f"  - 전국 합계: 1행")
    print(f"  - 최종 크기: {final_df.shape[0]}행 x {final_df.shape[1]}열")

    return final_df


# =============================================================================
# 사용 예시
# =============================================================================

# 17대 대선 전체 파일 자동 처리
# df_17th_raw = process_17th_presidential_election_batch("your_username", "korean-elections")

# 시도별 및 전국 합계 추가
# df_17th_final = add_17th_totals_by_region(df_17th_raw)

# 결과 확인
# print(df_17th_final.head(10))
# print("전국 합계:", df_17th_final[df_17th_final['시도'] == '전국'].shape[0], "행")
# print("시도별 데이터:", df_17th_final['시도'].value_counts())

In [75]:
# 17대 대선 전체 파일 자동 처리
df_17th_raw = process_17th_presidential_election_batch("sw1kwon", "korean-elections")

# 시도별 및 전국 합계 추가
df_17th = add_17th_totals_by_region(df_17th_raw)


17대 대선 데이터 일괄 처리 시작
저장소: sw1kwon/korean-elections
폴더: original/Presidential_Elections/17th_2007
폴더에서 16개 파일 발견
처리 중: 01_17대선_투표구별개표자료_서울.xls (지역: 서울)
  완료: 25행 추가
처리 중: 02_17대선_투표구별개표자료_부산.xls (지역: 부산)
  완료: 16행 추가
처리 중: 03_17대선_투표구별개표자료_대구.xls (지역: 대구)
  완료: 8행 추가
처리 중: 04_17대선_투표구별개표자료_인천.xls (지역: 인천)
  완료: 10행 추가
처리 중: 05_17대선_투표구별개표자료_광주.xls (지역: 광주)
  완료: 5행 추가
처리 중: 06_17대선_투표구별개표자료_대전.xls (지역: 대전)
  완료: 5행 추가
처리 중: 07_17대선_투표구별개표자료_울산.xls (지역: 울산)
  완료: 5행 추가
처리 중: 08_17대선_투표구별개표자료_경기.xls (지역: 경기)
  완료: 44행 추가
처리 중: 09_17대선_투표구별개표자료_강원.xls (지역: 강원)
  완료: 18행 추가
처리 중: 10_17대선_투표구별개표자료_충북.xls (지역: 충북)
  완료: 13행 추가
처리 중: 11_17대선_투표구별개표자료_충남.xls (지역: 충남)
  완료: 16행 추가
처리 중: 12_17대선_투표구별개표자료_전북.xls (지역: 전북)
  완료: 15행 추가
처리 중: 13_17대선_투표구별개표자료_전남.xls (지역: 전남)
  완료: 22행 추가
처리 중: 14_17대선_투표구별개표자료_경북.xls (지역: 경북)
  완료: 24행 추가
처리 중: 15_17대선_투표구별개표자료_경남.xls (지역: 경남)
  완료: 20행 추가
처리 중: 16_17대선_투표구별개표자료_제주.xls (지역: 제주)
  완료: 2행 추가

일괄 처리 완료:
  - 성공: 16개 파일
  - 실패: 0개 파일
  - 최종 크기: 248행 x 20열


In [76]:
df_17th

Unnamed: 0,시도,구시군명__,읍면동명__,투표구명__,선거인수__,투표용지\n교부수__,투표수__,후보자별 득표상황_대통합민주신당_정동영,_한나라당_이명박,_민주노동당_권영길,_민주당_이인제,_창조한국당_문국현,_참주인연합_정근모,_경제공화당_허경영,_새시대참사람연합_전관,_한국사회당_금민,_무소속_이회창,_계_,무효\n투표수__,기권수__
0,전국,합계,,,37653518,23733396,23732854,6174681,11492389,712121,160708,1375498,15380,96756,7161,18223,3559963,23612880,119974,13920664
1,서울,합계,,,8051696,5066136,5066022,1237812,2689162,116344,23214,358781,3013,22405,911,3501,596226,5051369,14653,2985674
2,서울,종로구,합계,,133946,85483,85480,21515,45172,1889,398,5722,56,331,13,77,9984,85157,323,48466
3,서울,중구,합계,,106837,66496,66496,17299,35335,1387,328,4324,33,240,9,52,7278,66285,211,40341
4,서울,용산구,합계,,190910,117054,117051,25967,66096,2358,532,7544,78,486,12,77,13554,116704,347,73859
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
260,경남,거창군,합계,,50823,34593,34594,3637,19863,1708,127,1345,26,128,20,45,6982,33881,713,16229
261,경남,합천군,합계,,45959,31742,31741,2815,18867,1626,122,927,26,109,17,62,6339,30910,831,14218
262,제주,합계,,,414022,252132,252111,81570,96495,10954,1674,19421,152,1273,144,344,37495,249522,2589,161911
263,제주,제주시,합계,,296325,181325,181304,56798,70297,7059,1124,15142,114,929,90,227,27824,179604,1700,115021


In [77]:
df_17th.columns.tolist()

['시도',
 '구시군명__',
 '읍면동명__',
 '투표구명__',
 '선거인수__',
 '투표용지\n교부수__',
 '투표수__',
 '후보자별 득표상황_대통합민주신당_정동영',
 '_한나라당_이명박',
 '_민주노동당_권영길',
 '_민주당_이인제',
 '_창조한국당_문국현',
 '_참주인연합_정근모',
 '_경제공화당_허경영',
 '_새시대참사람연합_전관',
 '_한국사회당_금민',
 '_무소속_이회창',
 '_계_',
 '무효\n투표수__',
 '기권수__']

In [78]:
rename_dict17 = {
    '구시군명__': '구시군',
    '선거인수__': '선거인수',
    '투표수__': '투표수',
    '후보자별 득표상황_대통합민주신당_정동영': '득표수_1_대통합민주신당_정동영',
    '_한나라당_이명박': '득표수_2_한나라당_이명박',
    '_민주노동당_권영길': '득표수_3_민주노동당_권영길',
    '_민주당_이인제': '득표수_4_민주당_이인제',
    '_창조한국당_문국현': '득표수_6_창조한국당_문국현',
    '_참주인연합_정근모': '득표수_7_참주인연합_정근모',
    '_경제공화당_허경영': '득표수_8_경제공화당_허경영',
    '_새시대참사람연합_전관': '득표수_9_새시대참사람연합_전관',
    '_한국사회당_금민': '득표수_10_한국사회당_금민',
    '_무소속_이회창': '득표수_11_무소속_이회창',
    '_계_': '득표수_계',
    '무효\n투표수__': '무효투표수',
    '기권수__': '기권수'
}

In [79]:
df_17th.rename(columns=rename_dict17).drop(columns=['읍면동명__', '투표구명__', '투표용지\n교부수__'])

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_대통합민주신당_정동영,득표수_2_한나라당_이명박,득표수_3_민주노동당_권영길,득표수_4_민주당_이인제,득표수_6_창조한국당_문국현,득표수_7_참주인연합_정근모,득표수_8_경제공화당_허경영,득표수_9_새시대참사람연합_전관,득표수_10_한국사회당_금민,득표수_11_무소속_이회창,득표수_계,무효투표수,기권수
0,전국,합계,37653518,23732854,6174681,11492389,712121,160708,1375498,15380,96756,7161,18223,3559963,23612880,119974,13920664
1,서울,합계,8051696,5066022,1237812,2689162,116344,23214,358781,3013,22405,911,3501,596226,5051369,14653,2985674
2,서울,종로구,133946,85480,21515,45172,1889,398,5722,56,331,13,77,9984,85157,323,48466
3,서울,중구,106837,66496,17299,35335,1387,328,4324,33,240,9,52,7278,66285,211,40341
4,서울,용산구,190910,117051,25967,66096,2358,532,7544,78,486,12,77,13554,116704,347,73859
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
260,경남,거창군,50823,34594,3637,19863,1708,127,1345,26,128,20,45,6982,33881,713,16229
261,경남,합천군,45959,31741,2815,18867,1626,122,927,26,109,17,62,6339,30910,831,14218
262,제주,합계,414022,252111,81570,96495,10954,1674,19421,152,1273,144,344,37495,249522,2589,161911
263,제주,제주시,296325,181304,56798,70297,7059,1124,15142,114,929,90,227,27824,179604,1700,115021


In [80]:
df_17th = df_17th.rename(columns=rename_dict17).drop(columns=['읍면동명__', '투표구명__', '투표용지\n교부수__'])

In [81]:
df_17th[df_17th['구시군'] == '합계']

Unnamed: 0,시도,구시군,선거인수,투표수,득표수_1_대통합민주신당_정동영,득표수_2_한나라당_이명박,득표수_3_민주노동당_권영길,득표수_4_민주당_이인제,득표수_6_창조한국당_문국현,득표수_7_참주인연합_정근모,득표수_8_경제공화당_허경영,득표수_9_새시대참사람연합_전관,득표수_10_한국사회당_금민,득표수_11_무소속_이회창,득표수_계,무효투표수,기권수
0,전국,합계,37653518,23732854,6174681,11492389,712121,160708,1375498,15380,96756,7161,18223,3559963,23612880,119974,13920664
1,서울,합계,8051696,5066022,1237812,2689162,116344,23214,358781,3013,22405,911,3501,596226,5051369,14653,2985674
27,부산,합계,2843063,1765231,236708,1018715,48901,4599,94285,770,7351,406,1198,346319,1759252,5979,1077832
44,대구,합계,1896866,1267969,75932,876719,25777,1847,50514,367,3375,221,727,228199,1263678,4291,628897
53,인천,합계,2005874,1210220,286565,593283,42069,7612,84814,797,5769,323,1068,183057,1205357,4863,795654
64,광주,합계,1031333,663338,527588,56875,13597,7118,31524,398,1547,96,289,22520,661552,1786,367995
70,대전,합계,1098977,680264,159700,246008,17207,7223,48143,467,2356,204,683,195957,677948,2316,418713
76,울산,합계,806423,521216,70736,279891,43607,1884,28605,271,2099,121,467,90905,518586,2630,285207
82,경기,합계,8222124,5035641,1181936,2603443,144830,30513,354492,3378,23554,1312,3207,670742,5017407,18234,3186483
127,강원,합계,1164655,728895,136668,376004,28129,6085,42552,615,5063,436,849,127102,723503,5392,435760


In [82]:
df_17th.to_csv("temp1_president_17.csv", index=False, encoding="utf-8-sig")