# Data Preprocessing

## 서울교통공사_승하차_인원수20221231.csv "총 승객수" column만 남기기

In [2]:
import pandas as pd

# CSV 파일 읽기
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231.csv', encoding='euc-kr')

# "승차총승객수"와 "하차총승객수"를 더하여 "총 승객수" 컬럼 생성
passenger_df['총 승객수'] = passenger_df['승차총승객수'] + passenger_df['하차총승객수']

# "역명"별로 "총 승객수" 집계
total_passengers_by_station = passenger_df.groupby('역명')['총 승객수'].sum().reset_index()

# 결과를 같은 파일 이름으로 저장
total_passengers_by_station.to_csv('서울교통공사_승하차_인원수20221231.csv', index=False, encoding='utf-8-sig')

## 서울교통공사_승하차_인원수20221231.csv 소괄호 제거

In [3]:
# CSV 파일 읽기
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231.csv')

# "역명" 컬럼에서 괄호와 그 안의 내용을 제거
passenger_df['역명'] = passenger_df['역명'].str.replace(r'\(.*\)', '', regex=True)

# 결과를 새로운 CSV 파일로 저장
passenger_df.to_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

## 서울교통공사_지하역사_공기질_측정_정보_20221231.csv 소괄호 제거

In [7]:
# CSV 파일 읽기
passenger_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231.csv', encoding='euc-kr')

# "역명" 컬럼에서 괄호와 그 안의 내용을 제거
passenger_df['역명'] = passenger_df['역명'].str.replace(r'\(.*\)', '', regex=True)

# 결과를 새로운 CSV 파일로 저장
passenger_df.to_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

## 공기질 파일, 승하차 파일: '서울역' -> '서울' 변경

In [8]:
# CSV 파일 읽기
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv')

# '역명' 컬럼에서 '서울역' 값을 '서울'로 변경
air_quality_df['역명'] = air_quality_df['역명'].str.replace('서울역', '서울')
passenger_df['역명'] = passenger_df['역명'].str.replace('서울역', '서울')

# 수정된 데이터를 다시 저장
air_quality_df.to_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
passenger_df.to_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

In [13]:
# CSV 파일을 읽어 데이터프레임으로 변환
coordinate_df = pd.read_csv('서울교통공사_1_8호선_역사_좌표(위경도)정보_20231031.csv', encoding='euc-kr')
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv')

## 역사_좌표(위경도) / 공기질 측정 정보 / 승하차 인원수 사이의 공통된 역명 확인

In [14]:
# 각 데이터프레임에서 "역명" 값 추출
coordinate_stations = set(coordinate_df['역명'])
air_quality_stations = set(air_quality_df['역명'])
passenger_stations = set(passenger_df['역명'])

# 공통된 역명 확인
common_stations_all = coordinate_stations & air_quality_stations & passenger_stations

# 좌표 파일과 공기질 측정 파일 간의 공통된 역명 확인
common_stations_coordinate_air_quality = coordinate_stations & air_quality_stations
# 좌표 파일과 승하차 인원수 파일 간의 공통된 역명 확인
common_stations_coordinate_passenger = coordinate_stations & passenger_stations
# 공기질 측정 파일과 승하차 인원수 파일 간의 공통된 역명 확인
common_stations_air_quality_passenger = air_quality_stations & passenger_stations

# 공기질 측정 파일에만 있는 역명 값 확인
air_quality_only_stations = air_quality_stations - (coordinate_stations | passenger_stations)
# 승하차 인원수 파일에만 있는 역명 값 확인
passenger_only_stations = passenger_stations - (coordinate_stations | air_quality_stations)
# 좌표 파일에만 있는 역명 값 확인
coordinate_only_stations = coordinate_stations - (air_quality_stations | passenger_stations)

# 결과 출력
print("세 파일 모두에 공통된 역명 값:", common_stations_all)
print()
print("공기질 측정 파일에만 있는 역명 값:", air_quality_only_stations)
print()
print("승하차 인원수 파일에만 있는 역명 값:", passenger_only_stations)
print()
print("좌표 파일에만 있는 역명 값:", coordinate_only_stations)


세 파일 모두에 공통된 역명 값: {'도곡', '명동', '화랑대', '하계', '역촌', '천왕', '제기동', '여의나루', '무악재', '불광', '합정', '신도림', '발산', '마곡', '청량리', '을지로입구', '청담', '어린이대공원', '숙대입구', '남한산성입구', '광화문', '복정', '수유', '오목교', '광나루', '태릉입구', '대흥', '천호', '방이', '홍제', '선릉', '매봉', '방화', '단대오거리', '회현', '삼성', '길동', '강동구청', '안국', '강남구청', '구파발', '쌍문', '종로3가', '영등포시장', '종로5가', '공덕', '둔촌동', '내방', '석촌', '신풍', '이태원', '까치산', '송정', '송파', '숭실대입구', '봉화산', '신용산', '개롱', '이대', '신정네거리', '아차산', '상일동', '애오개', '거여', '동대문역사문화공원', '왕십리', '일원', '강동', '상봉', '남태령', '화곡', '디지털미디어시티', '면목', '수서', '보라매', '낙성대', '강일', '미사', '을지로4가', '먹골', '신금호', '독바위', '서울대입구', '홍대입구', '반포', '성신여대입구', '온수', '경찰병원', '신흥', '고려대', '공릉', '하남검단산', '광흥창', '압구정', '대치', '종각', '철산', '행당', '신당', '논현', '충무로', '상도', '수락산', '남구로', '오금', '신대방삼거리', '녹사평', '돌곶이', '용마산', '구산', '잠실새내', '양천구청', '총신대입구', '사가정', '여의도', '용두', '답십리', '장승배기', '장한평', '영등포구청', '잠원', '중계', '개화산', '하남시청', '효창공원앞', '신정', '대림', '한성대입구', '종합운동장', '우장산', '모란', '광명사거리', '마천', '길음', '고덕', '보문', '혜화', '굽은다리', '몽촌토성', '교대', '

## 중복된 역명으로 파일 업데이트

In [18]:
# 'common_stations_all'에 존재하는 '역명'만 남기기
air_quality_df_filtered = air_quality_df[air_quality_df['역명'].isin(common_stations_all)]
passenger_df_filtered = passenger_df[passenger_df['역명'].isin(common_stations_all)]

# 수정된 데이터를 다시 저장
air_quality_df_filtered.to_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')
passenger_df_filtered.to_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv', index=False, encoding='utf-8-sig')

## 업데이트 되었는지 확인

In [22]:
# CSV 파일을 읽어 데이터프레임으로 변환
coordinate_df = pd.read_csv('서울교통공사_1_8호선_역사_좌표(위경도)정보_20231031.csv', encoding='euc-kr')
air_quality_df = pd.read_csv('서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv')
passenger_df = pd.read_csv('서울교통공사_승하차_인원수20221231_cleaned_v2.csv')

# 각 데이터프레임에서 "역명" 값 추출
coordinate_stations = set(coordinate_df['역명'])
air_quality_stations = set(air_quality_df['역명'])
passenger_stations = set(passenger_df['역명'])

# 공기질 측정 파일에만 있는 역명 값 확인
air_quality_only_stations = air_quality_stations - (coordinate_stations | passenger_stations)
# 승하차 인원수 파일에만 있는 역명 값 확인
passenger_only_stations = passenger_stations - (coordinate_stations | air_quality_stations)
# 좌표 파일에만 있는 역명 값 확인
coordinate_only_stations = coordinate_stations - (air_quality_stations | passenger_stations)

# 공통된 역명 확인
common_stations_all = coordinate_stations & air_quality_stations & passenger_stations

In [23]:
# 결과 출력
print("세 파일 모두에 공통된 역명 값:", common_stations_all)
print()
print("공기질 측정 파일에만 있는 역명 값:", air_quality_only_stations)
print()
print("승하차 인원수 파일에만 있는 역명 값:", passenger_only_stations)
print()
print("좌표 파일에만 있는 역명 값:", coordinate_only_stations)

세 파일 모두에 공통된 역명 값: {'도곡', '명동', '화랑대', '하계', '역촌', '천왕', '여의나루', '제기동', '무악재', '불광', '합정', '신도림', '발산', '마곡', '청량리', '을지로입구', '청담', '어린이대공원', '남한산성입구', '숙대입구', '광화문', '복정', '수유', '오목교', '광나루', '태릉입구', '대흥', '천호', '방이', '홍제', '매봉', '방화', '선릉', '단대오거리', '회현', '삼성', '길동', '강동구청', '안국', '강남구청', '공덕', '구파발', '내방', '쌍문', '영등포시장', '종로3가', '둔촌동', '석촌', '종로5가', '신풍', '이태원', '까치산', '송파', '송정', '숭실대입구', '신용산', '개롱', '신정네거리', '이대', '상일동', '아차산', '애오개', '거여', '동대문역사문화공원', '왕십리', '강동', '상봉', '일원', '남태령', '화곡', '디지털미디어시티', '면목', '보라매', '수서', '낙성대', '강일', '미사', '을지로4가', '먹골', '신금호', '독바위', '서울대입구', '홍대입구', '반포', '성신여대입구', '온수', '경찰병원', '신흥', '고려대', '공릉', '하남검단산', '광흥창', '압구정', '대치', '종각', '철산', '행당', '신당', '논현', '충무로', '상도', '수락산', '남구로', '오금', '신대방삼거리', '녹사평', '돌곶이', '용마산', '구산', '잠실새내', '사가정', '양천구청', '총신대입구', '녹번', '여의도', '용두', '답십리', '장승배기', '장한평', '영등포구청', '잠원', '중계', '개화산', '대림', '하남시청', '신정', '효창공원앞', '한성대입구', '종합운동장', '우장산', '모란', '광명사거리', '마천', '고덕', '길음', '몽촌토성', '보문', '굽은다리', '혜화', '교대', '안