# Data Preprocessing

## 서울교통공사_승하차_인원수year1231.csv "총 승객수" column만 남기기

In [55]:
import pandas as pd

def read_csv_with_multiple_encodings(file_path, encodings=['euc-kr', 'utf-8', 'utf-8-sig']):
    """
    여러 인코딩을 시도하여 CSV 파일을 읽습니다.
    """
    for encoding in encodings:
        try:
            return pd.read_csv(file_path, encoding=encoding)
        except UnicodeDecodeError:
            print(f"Encoding {encoding} failed for {file_path}. Trying next encoding...")
    raise ValueError(f"Failed to read {file_path} with provided encodings.")
    
file_paths = [
    '서울교통공사_승하차_인원수20221231.csv',
    '서울교통공사_승하차_인원수20211231.csv',
    '서울교통공사_승하차_인원수20201231.csv',
    '서울교통공사_승하차_인원수20191231.csv',
    '서울교통공사_승하차_인원수20181231.csv',
    '서울교통공사_승하차_인원수20171231.csv'
]

# 각 파일에 대해 반복 작업을 수행합니다.
for file_path in file_paths:
    try:
        # 여러 인코딩을 시도하여 CSV 파일을 읽습니다.
        passenger_df = read_csv_with_multiple_encodings(file_path)

        # "승차총승객수"와 "하차총승객수"를 더하여 "총 승객수" 컬럼 생성
        passenger_df['총 승객수'] = passenger_df['승차총승객수'] + passenger_df['하차총승객수']

        # "역명"별로 "총 승객수" 집계
        total_passengers_by_station = passenger_df.groupby('역명')['총 승객수'].sum().reset_index()

        # 결과를 같은 파일 이름으로 저장
        total_passengers_by_station.to_csv(file_path, index=False, encoding='utf-8-sig')

        print(f"{file_path} 파일을 성공적으로 처리하고 저장했습니다.")
    except Exception as e:
        print(f"Error processing {file_path}: {e}")

Encoding euc-kr failed for 서울교통공사_승하차_인원수20211231.csv. Trying next encoding...
Error processing 서울교통공사_승하차_인원수20211231.csv: '승차총승객수'
Encoding euc-kr failed for 서울교통공사_승하차_인원수20201231.csv. Trying next encoding...
Error processing 서울교통공사_승하차_인원수20201231.csv: '승차총승객수'
Encoding euc-kr failed for 서울교통공사_승하차_인원수20191231.csv. Trying next encoding...
서울교통공사_승하차_인원수20191231.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20181231.csv. Trying next encoding...
서울교통공사_승하차_인원수20181231.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20171231.csv. Trying next encoding...
서울교통공사_승하차_인원수20171231.csv 파일을 성공적으로 처리하고 저장했습니다.


## 서울교통공사_승하차_인원수year1231.csv 소괄호 제거

In [56]:
import pandas as pd

def read_csv_with_multiple_encodings(file_path, encodings=['euc-kr', 'utf-8', 'utf-8-sig']):
    """
    여러 인코딩을 시도하여 CSV 파일을 읽습니다.
    """
    for encoding in encodings:
        try:
            return pd.read_csv(file_path, encoding=encoding)
        except UnicodeDecodeError:
            print(f"Encoding {encoding} failed for {file_path}. Trying next encoding...")
    raise ValueError(f"Failed to read {file_path} with provided encodings.")

# 파일 경로와 파일 이름을 리스트로 저장합니다.
file_paths = [
    '서울교통공사_승하차_인원수20221231.csv',
    '서울교통공사_승하차_인원수20211231.csv',
    '서울교통공사_승하차_인원수20201231.csv',
    '서울교통공사_승하차_인원수20191231.csv',
    '서울교통공사_승하차_인원수20181231.csv',
    '서울교통공사_승하차_인원수20171231.csv'
]

# 각 파일에 대해 반복 작업을 수행합니다.
for file_path in file_paths:
    try:
        # 여러 인코딩을 시도하여 CSV 파일을 읽습니다.
        passenger_df = read_csv_with_multiple_encodings(file_path)

        # "역명" 컬럼에서 괄호와 그 안의 내용을 제거
        passenger_df['역명'] = passenger_df['역명'].str.replace(r'\(.*\)', '', regex=True)

        # 결과를 새로운 CSV 파일로 저장
        new_file_path = file_path.replace('.csv', '_cleaned_v2.csv')
        passenger_df.to_csv(new_file_path, index=False, encoding='utf-8-sig')

        print(f"{new_file_path} 파일을 성공적으로 처리하고 저장했습니다.")
    except Exception as e:
        print(f"Error processing {file_path}: {e}")


Encoding euc-kr failed for 서울교통공사_승하차_인원수20211231.csv. Trying next encoding...
서울교통공사_승하차_인원수20211231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20201231.csv. Trying next encoding...
서울교통공사_승하차_인원수20201231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20191231.csv. Trying next encoding...
서울교통공사_승하차_인원수20191231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20181231.csv. Trying next encoding...
서울교통공사_승하차_인원수20181231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
Encoding euc-kr failed for 서울교통공사_승하차_인원수20171231.csv. Trying next encoding...
서울교통공사_승하차_인원수20171231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.


## 서울교통공사_지하역사_공기질_측정_정보.csv 소괄호 제거

In [36]:
# 연도 리스트 생성
years = range(2017, 2023)

# 반복 작업 수행
for year in years:
    try:
        # 파일 읽기
        file_name = f'서울교통공사_지하역사_공기질_측정_정보_{year}1231.csv'
        df = pd.read_csv(f'{file_name}', encoding='euc-kr')
        
        # "역명" 컬럼에서 괄호와 그 안의 내용을 제거
        df['역명'] = df['역명'].str.replace(r'\(.*\)', '', regex=True)
        
        # 결과를 새로운 CSV 파일로 저장
        cleaned_file_name = f'서울교통공사_지하역사_공기질_측정_정보_{year}1231_cleaned_v2.csv'
        df.to_csv(f'{cleaned_file_name}', index=False, encoding='utf-8-sig')
    except FileNotFoundError:
        print(f'{file_name} 파일을 찾을 수 없습니다.')

## Column명 맞추기

In [38]:
df_2017 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20171231_cleaned_v2.csv')
df_2018 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20181231_cleaned_v2.csv')
df_2019 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20191231_cleaned_v2.csv')
df_2020 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20201231_cleaned_v2.csv')
df_2021 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20211231_cleaned_v2.csv')
df_2022 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')

# 2017년 데이터 컬럼 이름 변경 및 필요 없는 컬럼 삭제
df_2017 = df_2017.rename(columns={
    '역명': '역명',
    '유지기준 PM10 (㎍/㎥)140이하': '미세먼지',
    '유지기준 CO2(ppm)1000이하': '이산화탄소',
    '유지기준 Rn(Bq/㎥) 148 이하': '폼알데하이드',
    '유지기준 CO(ppm)9이하': '일산화탄소'
})

# 2018년 데이터 컬럼 이름 변경
df_2018 = df_2018.rename(columns={
    '역명': '역명',
    '미세먼지_PM-10(140 ㎍/㎥ 이하)': '미세먼지',
    '이산화탄소_CO2 (1000 ppm 이하)': '이산화탄소',
    '포름알데히드_HCHO(100 ㎍/㎥ 이하)': '폼알데하이드',
    '일산화탄소_CO(9 ppm이하)': '일산화탄소'
})

# 2019년 데이터 컬럼 이름 변경
df_2019 = df_2019.rename(columns={
    '포름알데히드': '폼알데하이드'
})

# 2020년 데이터 컬럼 이름 변경
df_2020 = df_2020.rename(columns={
    '포름알데히드': '폼알데하이드'
})

# 2021년 데이터 컬럼 이름 변경
df_2021 = df_2021.rename(columns={
    '포름알데히드': '폼알데하이드'
})

# 데이터에서 필요 없는 컬럼 삭제
df_2017 = df_2017[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]
df_2018 = df_2018[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]
df_2019 = df_2019[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]
df_2020 = df_2020[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]
df_2021 = df_2021[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]
df_2022 = df_2022[['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소']]

# 컬럼 이름 일치 확인
df_2017.columns, df_2018.columns, df_2019.columns, df_2020.columns, df_2021.columns, df_2022.columns

(Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'),
 Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'),
 Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'),
 Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'),
 Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'),
 Index(['역명', '미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소'], dtype='object'))

In [39]:
df_2017.to_csv('서울교통공사_지하역사_공기질_측정_정보_20171231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
df_2018.to_csv('서울교통공사_지하역사_공기질_측정_정보_20181231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
df_2019.to_csv('서울교통공사_지하역사_공기질_측정_정보_20191231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
df_2020.to_csv('서울교통공사_지하역사_공기질_측정_정보_20201231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
df_2021.to_csv('서울교통공사_지하역사_공기질_측정_정보_20211231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
df_2022.to_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

## 공기질 파일, 승하차 파일: '서울역' -> '서울' 변경

In [57]:
## 승하차 ##

# 파일 경로 리스트
file_paths = [
    '서울교통공사_승하차_인원수20221231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20211231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20201231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20191231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20181231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20171231_cleaned_v2.csv'
]

# 각 파일에 대해 반복 작업을 수행합니다.
for file_path in file_paths:
    # CSV 파일을 읽습니다.
    passenger_df = pd.read_csv(file_path, encoding='utf-8-sig')

    # '역명' 컬럼에서 '서울역' 값을 '서울'로 변경
    passenger_df['역명'] = passenger_df['역명'].str.replace('서울역', '서울')

    # 수정된 데이터를 다시 저장
    passenger_df.to_csv(file_path, index=False, encoding='utf-8-sig')
    
    print(f"{file_path} 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.")


서울교통공사_승하차_인원수20221231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.
서울교통공사_승하차_인원수20211231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.
서울교통공사_승하차_인원수20201231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.
서울교통공사_승하차_인원수20191231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.
서울교통공사_승하차_인원수20181231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.
서울교통공사_승하차_인원수20171231_cleaned_v2.csv 파일의 '역명' 컬럼에서 '서울역' 값을 '서울'로 변경하여 저장했습니다.


In [8]:
## 공기질 ##

# CSV 파일 읽기
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')

# '역명' 컬럼에서 '서울역' 값을 '서울'로 변경
air_quality_df['역명'] = air_quality_df['역명'].str.replace('서울역', '서울')

# 수정된 데이터를 다시 저장
air_quality_df.to_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

In [40]:
import pandas as pd

# 파일 경로 리스트
file_paths = [
    '서울교통공사_지하역사_공기질_측정_정보_20171231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20181231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20191231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20201231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20211231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv'
]

# 각 파일을 처리하여 '역명' 컬럼의 값을 수정하고 저장
for file_path in file_paths:
    # CSV 파일 읽기
    df = pd.read_csv(file_path)
    
    # '서울역' 값을 '서울'로 변경
    df['역명'] = df['역명'].str.replace('서울역', '서울')
    
    # '역명' 컬럼에서 숫자 제거
    df['역명'] = df['역명'].str.replace(r'\d+', '', regex=True)
    
    # 변경된 데이터를 다시 저장
    df.to_csv(file_path, index=False, encoding='utf-8-sig')

# 개별 저장 완료 후 확인
print("모든 파일이 개별적으로 수정 및 저장되었습니다.")


모든 파일이 개별적으로 수정 및 저장되었습니다.


In [9]:
# CSV 파일을 읽어 데이터프레임으로 변환
coordinate_df = pd.read_csv('서울교통공사_1_8호선_역사_좌표(위경도)정보_20231031.csv', encoding='euc-kr')
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv')

In [6]:
air_quality_df_21 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20211231_cleaned_v2.csv')
air_quality_df_20 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20201231_cleaned_v2.csv')
air_quality_df_19 = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20191231_cleaned_v2.csv')

## 역사_좌표(위경도) / 공기질 측정 정보 / 승하차 인원수 사이의 공통된 역명 확인

In [10]:
# 각 데이터프레임에서 "역명" 값 추출
coordinate_stations = set(coordinate_df['역명'])
air_quality_stations = set(air_quality_df['역명'])
passenger_stations = set(passenger_df['역명'])

# 공통된 역명 확인
common_stations_all = coordinate_stations & air_quality_stations & passenger_stations

# 좌표 파일과 공기질 측정 파일 간의 공통된 역명 확인
common_stations_coordinate_air_quality = coordinate_stations & air_quality_stations
# 좌표 파일과 승하차 인원수 파일 간의 공통된 역명 확인
common_stations_coordinate_passenger = coordinate_stations & passenger_stations
# 공기질 측정 파일과 승하차 인원수 파일 간의 공통된 역명 확인
common_stations_air_quality_passenger = air_quality_stations & passenger_stations

# 공기질 측정 파일에만 있는 역명 값 확인
air_quality_only_stations = air_quality_stations - (coordinate_stations | passenger_stations)
# 승하차 인원수 파일에만 있는 역명 값 확인
passenger_only_stations = passenger_stations - (coordinate_stations | air_quality_stations)
# 좌표 파일에만 있는 역명 값 확인
coordinate_only_stations = coordinate_stations - (air_quality_stations | passenger_stations)

# 결과 출력
print("세 파일 모두에 공통된 역명 값:", common_stations_all)
print()
print("공기질 측정 파일에만 있는 역명 값:", air_quality_only_stations)
print()
print("승하차 인원수 파일에만 있는 역명 값:", passenger_only_stations)
print()
print("좌표 파일에만 있는 역명 값:", coordinate_only_stations)


세 파일 모두에 공통된 역명 값: {'산성', '애오개', '미사', '수서', '신길', '아현', '신정네거리', '청담', '이대', '숙대입구', '성신여대입구', '모란', '잠실새내', '상봉', '강남', '마포', '대흥', '미아사거리', '석촌', '수유', '가락시장', '군자', '단대오거리', '신설동', '독바위', '중계', '철산', '남한산성입구', '낙성대', '문래', '보문', '창신', '수락산', '용마산', '연신내', '건대입구', '일원', '학여울', '여의나루', '홍제', '충정로', '충무로', '고속터미널', '오금', '우장산', '을지로입구', '종로3가', '종합운동장', '둔촌동', '신림', '월곡', '디지털미디어시티', '길동', '강동구청', '신사', '길음', '숭실대입구', '대치', '돌곶이', '강남구청', '망원', '신흥', '개화산', '신도림', '광나루', '버티고개', '방배', '장승배기', '구파발', '강동', '홍대입구', '신당', '암사', '선릉', '용두', '동대입구', '이촌', '양재', '삼성', '월드컵경기장', '공릉', '신정', '양천구청', '장한평', '봉천', '마들', '왕십리', '고덕', '대청', '사당', '광화문', '반포', '공덕', '교대', '남구로', '불광', '마곡', '삼각지', '증산', '도곡', '동대문역사문화공원', '총신대입구', '독립문', '회현', '상수', '명동', '서초', '동대문', '청량리', '송정', '수진', '하계', '대림', '천왕', '제기동', '명일', '상왕십리', '마장', '오목교', '어린이대공원', '개롱', '여의도', '신촌', '양평', '화곡', '종각', '한성대입구', '쌍문', '문정', '서울', '상일동', '합정', '혜화', '마천', '역촌', '석계', '내방', '응암', '녹사평', '상월곡', '을지로4가', '올림픽공원', '가산디지털단

## 중복된 역명으로 파일 업데이트

In [18]:
### 공기질 ###


# 연도 리스트 생성
years = range(2017, 2023)

# 반복 작업 수행
for year in years:
    try:
        # 파일 읽기
        file_name = f'서울교통공사_지하역사_공기질_측정_정보_{year}1231_cleaned_v2.csv'
        df = pd.read_csv(f'{file_name}')
        
        # 'common_stations_all'에 존재하는 '역명'만 남기기
        df_filtered = df[df['역명'].isin(common_stations_all)]
        
        # 결과를 새로운 CSV 파일로 저장
        cleaned_file_name = f'서울교통공사_지하역사_공기질_측정_정보_{year}1231_cleaned_v2.csv'
        df_filtered.to_csv(cleaned_file_name, index=False, encoding='utf-8-sig')
    except FileNotFoundError:
        print(f'{file_name} 파일을 찾을 수 없습니다.')

In [58]:
### 승하차 ###

# 파일 경로 리스트
file_paths = [
    '서울교통공사_승하차_인원수20221231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20211231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20201231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20191231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20181231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20171231_cleaned_v2.csv'
]

# 각 파일에 대해 반복 작업을 수행합니다.
for file_path in file_paths:
    try:
        # 파일 읽기
        df = pd.read_csv(file_path, encoding='utf-8-sig')
        
        # 'common_stations_all'에 존재하는 '역명'만 남기기
        df_filtered = df[df['역명'].isin(common_stations_all)]
        
        # 결과를 같은 파일 이름으로 저장
        df_filtered.to_csv(file_path, index=False, encoding='utf-8-sig')
        
        print(f"{file_path} 파일을 성공적으로 처리하고 저장했습니다.")
    except FileNotFoundError:
        print(f'{file_path} 파일을 찾을 수 없습니다.')
    except Exception as e:
        print(f'{file_path} 파일 처리 중 오류 발생: {e}')


서울교통공사_승하차_인원수20221231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_승하차_인원수20211231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_승하차_인원수20201231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_승하차_인원수20191231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_승하차_인원수20181231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_승하차_인원수20171231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.


## 업데이트 되었는지 확인

In [68]:
# CSV 파일을 읽어 데이터프레임으로 변환
coordinate_df = pd.read_csv('서울교통공사_1_8호선_역사_좌표(위경도)정보_20231031.csv', encoding='euc-kr')
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv')

# 각 데이터프레임에서 "역명" 값 추출
coordinate_stations = set(coordinate_df['역명'])
air_quality_stations = set(air_quality_df['역명'])
passenger_stations = set(passenger_df['역명'])

# 공기질 측정 파일에만 있는 역명 값 확인
air_quality_only_stations = air_quality_stations - (coordinate_stations | passenger_stations)
# 승하차 인원수 파일에만 있는 역명 값 확인
passenger_only_stations = passenger_stations - (coordinate_stations | air_quality_stations)
# 좌표 파일에만 있는 역명 값 확인
coordinate_only_stations = coordinate_stations - (air_quality_stations | passenger_stations)

# 공통된 역명 확인
common_stations_all = coordinate_stations & air_quality_stations & passenger_stations

In [69]:
# 결과 출력
print("세 파일 모두에 공통된 역명 값:", common_stations_all)
print()
print("공기질 측정 파일에만 있는 역명 값:", air_quality_only_stations)
print()
print("승하차 인원수 파일에만 있는 역명 값:", passenger_only_stations)
print()
print("좌표 파일에만 있는 역명 값:", coordinate_only_stations)

세 파일 모두에 공통된 역명 값: {'산성', '애오개', '미사', '수서', '신길', '아현', '신정네거리', '청담', '이대', '숙대입구', '성신여대입구', '모란', '잠실새내', '강남', '상봉', '마포', '대흥', '미아사거리', '신설동', '수유', '가락시장', '군자', '중계', '석촌', '독바위', '단대오거리', '철산', '남한산성입구', '낙성대', '문래', '보문', '창신', '수락산', '용마산', '연신내', '홍제', '학여울', '일원', '여의나루', '건대입구', '충정로', '충무로', '을지로입구', '종합운동장', '고속터미널', '오금', '우장산', '신림', '둔촌동', '월곡', '디지털미디어시티', '길동', '강동구청', '신사', '길음', '숭실대입구', '대치', '돌곶이', '망원', '강남구청', '신흥', '개화산', '신도림', '광나루', '버티고개', '방배', '장승배기', '구파발', '강동', '홍대입구', '신당', '암사', '선릉', '용두', '동대입구', '이촌', '양재', '삼성', '월드컵경기장', '공릉', '신정', '양천구청', '장한평', '봉천', '마들', '왕십리', '고덕', '대청', '사당', '광화문', '반포', '교대', '불광', '공덕', '남구로', '마곡', '삼각지', '증산', '도곡', '동대문역사문화공원', '총신대입구', '독립문', '회현', '상수', '명동', '서초', '동대문', '청량리', '송정', '수진', '하계', '대림', '천왕', '제기동', '명일', '상왕십리', '마장', '오목교', '어린이대공원', '여의도', '개롱', '신촌', '화곡', '양평', '종각', '한성대입구', '쌍문', '문정', '서울', '상일동', '합정', '혜화', '마천', '역촌', '응암', '석계', '내방', '녹사평', '상월곡', '올림픽공원', '무악재', '김포공항', '가산디지털단지'

In [24]:
df1 = pd.read_csv('위도경도기준_공기질_승차인원수.csv') #, encoding='euc-kr')
len(df1)

249

In [25]:
df2 = pd.read_csv('서울교통공사_1_8호선_역사_좌표(위경도)정보_20231031.csv', encoding='euc-kr')
len(df2)

276