# Functions

In [1]:
import pandas as pd

def remove_rows_from_csv(csv_url, column_name, value_to_remove):
    """
    GitHub raw URL에서 CSV를 불러와서 특정 열의 특정 값을 가진 행들을 제거하는 함수

    Parameters:
    -----------
    csv_url : str
        GitHub raw CSV URL
        (예: "https://raw.githubusercontent.com/user/repo/main/folder/file.csv")
    column_name : str
        필터링할 열 이름
    value_to_remove : str or int or float
        제거할 행의 해당 열 값

    Returns:
    --------
    pd.DataFrame
        특정 행이 제거되고 인덱스가 초기화된 DataFrame
    """

    try:
        # 1. CSV 파일 읽기
        df = pd.read_csv(csv_url)
        print(f"✅ CSV 파일 로드 완료: {len(df)}행")

        # 2. 열 존재 여부 확인
        if column_name not in df.columns:
            print(f"❌ 열 '{column_name}'이 존재하지 않습니다.")
            print(f"사용 가능한 열: {list(df.columns)}")
            return df

        # 3. 제거할 행 개수 확인
        rows_to_remove = df[df[column_name] == value_to_remove]
        remove_count = len(rows_to_remove)

        if remove_count == 0:
            print(f"⚠️ '{column_name}' 열에서 '{value_to_remove}' 값을 가진 행이 없습니다.")
            print(f"해당 열의 고유값: {df[column_name].unique()}")
            return df

        # 4. 특정 행들 제거
        df_filtered = df[df[column_name] != value_to_remove].copy()

        # 5. 인덱스 초기화
        df_filtered.reset_index(drop=True, inplace=True)

        print(f"✅ {remove_count}개 행 제거 완료")
        print(f"📊 최종 결과: {len(df_filtered)}행")

        return df_filtered

    except Exception as e:
        print(f"❌ 오류 발생: {e}")
        return pd.DataFrame()


# ### 사용 예시

# ## 기본 사용법
# cleaned_df = remove_rows_from_csv(
#     csv_url="https://raw.githubusercontent.com/username/repo/main/data.csv",
#     column_name="구시군",
#     value_to_remove="합계"
# )

# ## 실용적인 사용 예시
# # 실제 GitHub URL 사용
# github_url = "https://raw.githubusercontent.com/your-username/korean-elections/refs/heads/main/temp/v2_1_g/3rd_2002/temp2_1_governor_seoul_3.csv"

# # 1. 합계 행 제거 (구/군별 상세 데이터만)
# seoul_detailed = remove_rows_from_csv(github_url, "구시군", "합계")

# # 2. 낙선자 제거 (당선자만)
# winners_only = remove_rows_from_csv(github_url, "당선여부", "낙선")

# # 3. 무소속 후보 제거
# party_candidates = remove_rows_from_csv(github_url, "정당", "무소속")

# # 4. 득표수 0인 후보 제거
# valid_votes = remove_rows_from_csv(github_url, "득표수", 0)

# ###############################

# # 여러 조건으로 행 제거하는 확장 함수
# def remove_multiple_conditions(csv_url, conditions):
#     """
#     여러 조건으로 행을 제거하는 함수

#     Parameters:
#     -----------
#     csv_url : str
#         GitHub raw CSV URL
#     conditions : list of tuples
#         제거 조건들 [(column_name, value_to_remove), ...]

#     Returns:
#     --------
#     pd.DataFrame
#         조건에 맞는 행들이 제거된 DataFrame
#     """

#     try:
#         df = pd.read_csv(csv_url)
#         original_count = len(df)
#         print(f"✅ CSV 파일 로드 완료: {original_count}행")

#         total_removed = 0

#         for column_name, value_to_remove in conditions:
#             if column_name in df.columns:
#                 before_count = len(df)
#                 df = df[df[column_name] != value_to_remove]
#                 removed_count = before_count - len(df)
#                 total_removed += removed_count
#                 print(f"✅ '{column_name}' == '{value_to_remove}': {removed_count}개 행 제거")
#             else:
#                 print(f"❌ 열 '{column_name}'이 존재하지 않습니다.")

#         df.reset_index(drop=True, inplace=True)
#         print(f"📊 총 {total_removed}개 행 제거, 최종 {len(df)}행")

#         return df

#     except Exception as e:
#         print(f"❌ 오류 발생: {e}")
#         return pd.DataFrame()


# ### 사용 예시
# # 여러 조건으로 행 제거
# conditions = [
#     ("구시군", "합계"),
#     ("당선여부", "낙선"),
#     ("정당", "무소속")
# ]
# multi_cleaned_df = remove_multiple_conditions(csv_url, conditions)

# v3.3

## President

In [2]:
p3_3 = remove_rows_from_csv(
    csv_url="https://raw.githubusercontent.com/sw1kwon/korean-elections/refs/heads/main/temp/v3/temp3_1_president.csv",
    column_name="지역",
    value_to_remove="전국"
)

✅ CSV 파일 로드 완료: 139행
✅ 8개 행 제거 완료
📊 최종 결과: 131행


In [3]:
p3_3.head()

Unnamed: 0,지역,선거인수,투표수,보수정당,진보정당,그외정당,득표수_계,무효투표수,기권수,선거종류,선거년도
0,서울,7235830,6021311,2167298,2246636,1537843,5951777,69534,1214519,대통령,1992
1,부산,2506539,2135546,1551473,265055,298861,2115389,20157,370993,대통령,1992
2,대구,1458247,1172636,690245,90641,377307,1158193,14443,285611,대통령,1992
3,인천,1321616,1081011,397361,338538,330389,1066288,14723,240605,대통령,1992
4,광주,745270,685797,14504,652337,13759,680600,5197,59473,대통령,1992


In [4]:
p3_3.to_csv("temp3_3_president.csv", index=False, encoding="utf-8-sig")

## Governor

In [5]:
g3_3 = remove_rows_from_csv(
    csv_url="https://raw.githubusercontent.com/sw1kwon/korean-elections/refs/heads/main/temp/v3/temp3_1_governor.csv",
    column_name="지역",
    value_to_remove="전국"
)

✅ CSV 파일 로드 완료: 105행
✅ 6개 행 제거 완료
📊 최종 결과: 99행


In [6]:
g3_3.head()

Unnamed: 0,지역,선거인수,투표수,보수정당,진보정당,그외정당,득표수_계,무효투표수,기권수,선거종류,선거년도
0,서울,7665343,3510898,1819057,1496754,163294,3479105,31793,4154445,광역단체장,2002
1,부산,2784721,1163040,729589,221938,192594,1144121,18919,1621681,광역단체장,2002
2,대구,1814278,751994,452943,0,287396,740339,11655,1062284,광역단체장,2002
3,인천,1809907,711602,393932,225210,82111,701253,10349,1098305,광역단체장,2002
4,광주,954481,403821,43695,185938,167515,397148,6673,550660,광역단체장,2002


In [7]:
g3_3.to_csv("temp3_3_governor.csv", index=False, encoding="utf-8-sig")

# v3.4

## President

In [8]:
p3_4 = remove_rows_from_csv(
    csv_url="https://raw.githubusercontent.com/sw1kwon/korean-elections/refs/heads/main/temp/v3/temp3_2_president.csv",
    column_name="지역",
    value_to_remove="전국"
)

✅ CSV 파일 로드 완료: 139행
✅ 8개 행 제거 완료
📊 최종 결과: 131행


In [9]:
p3_4.head()

Unnamed: 0,지역,선거인수,투표수,보수정당,진보정당,그외정당,무소속,득표수_계,무효투표수,기권수,선거종류,선거년도
0,서울,7235830,6021311,2167298,2246636,1456961,80882,5951777,69534,1214519,대통령,1992
1,부산,2506539,2135546,1551473,265055,273889,24972,2115389,20157,370993,대통령,1992
2,대구,1458247,1172636,690245,90641,361782,15525,1158193,14443,285611,대통령,1992
3,인천,1321616,1081011,397361,338538,314067,16322,1066288,14723,240605,대통령,1992
4,광주,745270,685797,14504,652337,11045,2714,680600,5197,59473,대통령,1992


In [10]:
p3_4.to_csv("temp3_4_president.csv", index=False, encoding="utf-8-sig")

## Governor

In [11]:
g3_4 = remove_rows_from_csv(
    csv_url="https://raw.githubusercontent.com/sw1kwon/korean-elections/refs/heads/main/temp/v3/temp3_2_governor.csv",
    column_name="지역",
    value_to_remove="전국"
)

✅ CSV 파일 로드 완료: 105행
✅ 6개 행 제거 완료
📊 최종 결과: 99행


In [12]:
g3_4.head()

Unnamed: 0,지역,선거인수,투표수,보수정당,진보정당,그외정당,무소속,득표수_계,무효투표수,기권수,선거종류,선거년도
0,서울,7665343,3510898,1819057,1496754,128981,34313,3479105,31793,4154445,광역단체장,2002
1,부산,2784721,1163040,729589,221938,192594,0,1144121,18919,1621681,광역단체장,2002
2,대구,1814278,751994,452943,0,0,287396,740339,11655,1062284,광역단체장,2002
3,인천,1809907,711602,393932,225210,82111,0,701253,10349,1098305,광역단체장,2002
4,광주,954481,403821,43695,185938,29427,138088,397148,6673,550660,광역단체장,2002


In [13]:
g3_4.to_csv("temp3_4_governor.csv", index=False, encoding="utf-8-sig")