In [44]:
import pandas as pd

# 파일을 읽어옵니다.
file_name = 'data/elevator_lift.csv'
df = pd.read_csv(file_name)

df

Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
0,1호선,서울역(1),4,5,1,0
1,1호선,시청(1),3,3,0,0
2,1호선,종각,4,2,0,0
3,1호선,종로3가(1),3,4,0,0
4,1호선,종로5가,3,0,0,0
...,...,...,...,...,...,...
281,9호선(3단계),송파나루역,5,6,0,0
282,9호선(3단계),한성백제역,3,12,0,0
283,9호선(3단계),올림픽공원역,3,14,0,0
284,9호선(3단계),둔촌오륜역,3,8,0,0


In [45]:
# 숫자 열들을 숫자형으로 변환합니다.
numeric_columns = ['엘리베이터(E/V)', '에스컬레이터(E/S)', '휠체어리프트(W/L)', '수평자동보도(M/W)']
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

df

Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
0,1호선,서울역(1),4,5,1,0
1,1호선,시청(1),3,3,0,0
2,1호선,종각,4,2,0,0
3,1호선,종로3가(1),3,4,0,0
4,1호선,종로5가,3,0,0,0
...,...,...,...,...,...,...
281,9호선(3단계),송파나루역,5,6,0,0
282,9호선(3단계),한성백제역,3,12,0,0
283,9호선(3단계),올림픽공원역,3,14,0,0
284,9호선(3단계),둔촌오륜역,3,8,0,0


In [46]:
# 호선 열의 고유한 값들을 찾습니다.
unique_lines = df['호선'].unique()
unique_count = len(unique_lines)

# 고유한 값의 개수와 각각의 값을 출력합니다.
print(f"호선 열의 고유한 값 개수: {unique_count}")
print("고유한 값들:")
for line in unique_lines:
    print(line)


호선 열의 고유한 값 개수: 10
고유한 값들:
1호선
2호선
3호선
4호선
5호선
6호선
7호선
8호선
9호선(2단계)
9호선(3단계)


In [47]:
# 괄호로 시작하는 부분을 삭제합니다.
df['역명'] = df['역명'].str.replace(r'\(.*\)', '', regex=True).str.strip()

# '역명' 열을 인덱스로 설정합니다.
df.set_index('역명', inplace=True)

# 인덱스 중 '역'으로 끝나는 역명의 '역' 삭제
df.index = df.index.str.replace(r'역$', '', regex=True)

# '호선', '수평자동보도(M/W)', '에스컬레이터(E/S)' 열을 삭제합니다.
df.drop(columns=['호선', '수평자동보도(M/W)', '에스컬레이터(E/S)'], inplace=True)

df

Unnamed: 0_level_0,엘리베이터(E/V),휠체어리프트(W/L)
역명,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,4,1
시청,3,0
종각,4,0
종로3가,3,0
종로5가,3,0
...,...,...
송파나루,5,0
한성백제,3,0
올림픽공원,3,0
둔촌오륜,3,0


In [48]:
# 역명으로 그룹화하고 수치를 평균 값으로 대체합니다.
df_grouped = df.groupby('역명').mean()

df_grouped.to_csv("results/elevators_wheelchair_lifts.csv")

df_grouped

# # 가중치를 설정합니다.
# weight_elevator = 0.7
# weight_wheelchair = 0.3

# # 가중치를 적용하여 새로운 열을 생성합니다.
# df_grouped['가중치_합'] = (df_grouped['엘리베이터(E/V)'] * weight_elevator +
#                         df_grouped['휠체어리프트(W/L)'] * weight_wheelchair)

# # 결과를 출력합니다.
# df_grouped.drop(columns=['엘리베이터(E/V)', '휠체어리프트(W/L)'], inplace=True)

# df_grouped

Unnamed: 0_level_0,엘리베이터(E/V),휠체어리프트(W/L)
역명,Unnamed: 1_level_1,Unnamed: 2_level_1
가락시장,4.5,0.0
가산디지털단지,4.0,4.0
강남,4.0,0.0
강남구청,2.0,1.0
강동,2.0,2.0
...,...,...
홍제,3.0,0.0
화곡,2.0,0.0
화랑대,4.0,0.0
회현,2.0,0.0


In [49]:
# 파일을 읽어옵니다.
file_name = 'results/지하철_위도경도.csv'
d12 = pd.read_csv(file_name)

d12 = d12[['전철역명', '구']]
d12 = d12.set_index('전철역명')

d12

Unnamed: 0_level_0,구
전철역명,Unnamed: 1_level_1
석계,노원구
서울,중구
영등포,영등포구
대방,영등포구
신도림,구로구
...,...
정릉,성북구
북한산보국문,성북구
신설동,성북구
보문,성북구


In [50]:
# d12의 인덱스가 이미 '전철역명'이고, '구' 열이 존재하는지 확인
if '구' in d12.columns:
    # df_grouped의 인덱스 값들이 d12의 인덱스에 모두 포함되어 있는지 확인
    missing_stations = df_grouped.index.difference(d12.index)
    if len(missing_stations) > 0:
        print(f"다음 역명들이 d12 데이터 프레임에 존재하지 않습니다: {missing_stations}")
        # df_grouped에서 없는 역명들을 제거
        df_grouped = df_grouped.drop(missing_stations)
    # 매핑 작업 수행
    df_grouped["구"] = df_grouped.index.map(d12["구"])
else:
    print("d12 데이터 프레임에 '구' 열이 없습니다.")

# 결과 출력
df_grouped


다음 역명들이 d12 데이터 프레임에 존재하지 않습니다: Index(['광명사거리', '남위례', '남한산성입구', '단대오거리', '뚝섬유원지', '모란', '미사', '산성', '수진',
       '신흥', '장암', '지축', '철산', '충무로', '하남검단산', '하남시청', '하남풍산'],
      dtype='object')


InvalidIndexError: Reindexing only valid with uniquely valued Index objects

In [51]:
# d12 데이터 프레임의 인덱스 중복 여부 확인
duplicate_index = d12.index[d12.index.duplicated(keep=False)]
if not duplicate_index.empty:
    print("중복된 인덱스 값이 존재합니다:")
    print(duplicate_index.value_counts())
    
    # 중복된 인덱스 값이 있는 행 출력
    duplicated_rows = d12.loc[duplicate_index]
    print("중복된 인덱스 값이 있는 행:")
    print(duplicated_rows)
else:
    print("인덱스에 중복된 값이 없습니다.")


중복된 인덱스 값이 존재합니다:
전철역명
김포공항     5
서울       4
청량리      4
왕십리      4
공덕       4
        ..
강남       2
선릉       2
잠실       2
을지로3가    2
중랑       2
Name: count, Length: 80, dtype: int64
중복된 인덱스 값이 있는 행:
         구
전철역명      
석계     노원구
석계     노원구
서울      중구
서울     용산구
서울    동대문구
...    ...
신설동   동대문구
신설동   동대문구
신설동    성북구
보문     성북구
보문     성북구

[434 rows x 1 columns]


In [52]:
import pandas as pd

# 파일을 읽어옵니다.
file_name = 'results/지하철_위도경도.csv'
d12 = pd.read_csv(file_name)

# 필요한 열만 선택하고 '전철역명'을 인덱스로 설정합니다.
d12 = d12[['전철역명', '구']].set_index('전철역명')

# 중복된 인덱스를 찾습니다.
duplicates = d12[d12.index.duplicated(keep=False)]

# 중복된 인덱스 중에서 값이 모두 같은 것만 남깁니다.
unique_duplicates = duplicates.groupby(level=0).filter(lambda x: (x == x.iloc[0]).all().all())

# 고유한 인덱스와 중복된 인덱스 중에서 값이 모두 같은 첫 번째 항목을 합칩니다.
d12_unique = pd.concat([d12[~d12.index.isin(unique_duplicates.index)], unique_duplicates[~unique_duplicates.index.duplicated(keep='first')]])

# 결과 확인
d12_unique


Unnamed: 0_level_0,구
전철역명,Unnamed: 1_level_1
서울,중구
영등포,영등포구
대방,영등포구
도봉,도봉구
개봉,구로구
...,...
신논현,강남구
마곡나루,강서구
샛강,영등포구
망우,중랑구


In [53]:
# 파일을 읽어옵니다.
file_name = 'results/지하철_위도경도.csv'
d12 = pd.read_csv(file_name)

# 필요한 열만 선택하고 '전철역명'을 인덱스로 설정합니다.
d12 = d12[['전철역명', '구']].set_index('전철역명')

# 중복된 인덱스를 제거하고 첫 번째 항목을 유지합니다.
d12 = d12[~d12.index.duplicated(keep='first')]

# 결과 확인
d12


Unnamed: 0_level_0,구
전철역명,Unnamed: 1_level_1
석계,노원구
서울,중구
영등포,영등포구
대방,영등포구
신도림,구로구
...,...
삼양사거리,강북구
솔샘,성북구
정릉,성북구
북한산보국문,성북구


In [54]:
import pandas as pd

# 파일을 읽어옵니다.
file_name = 'results/지하철_위도경도.csv'
d12 = pd.read_csv(file_name)

# 필요한 열만 선택하고 '전철역명'을 인덱스로 설정합니다.
d12 = d12[['전철역명', '구']].set_index('전철역명')

# 중복된 인덱스를 찾습니다.
duplicates = d12[d12.index.duplicated(keep=False)]

# 중복된 인덱스 중에서 값이 모두 같은지 확인합니다.
def check_duplicates(group):
    if (group == group.iloc[0]).all().all():
        return False  # 값이 모두 같으면 False 반환 (중복 제거 가능)
    else:
        return True   # 값이 다르면 True 반환 (차이 보여주기)

# 값이 다른 중복된 인덱스 필터링
different_duplicates = duplicates.groupby(level=0).filter(check_duplicates)

# 중복된 인덱스 중에서 값이 다른 경우를 출력합니다.
if not different_duplicates.empty:
    print("다음 인덱스 값들이 중복되었고, 값이 다릅니다:")
    for name, group in different_duplicates.groupby(level=0):
        print(f"\n인덱스: {name}")
        print(group)
else:
    print("중복된 인덱스 값 중에서 값이 다른 경우가 없습니다.")


다음 인덱스 값들이 중복되었고, 값이 다릅니다:

인덱스: 대림
         구
전철역명      
대림     구로구
대림    영등포구

인덱스: 대방
         구
전철역명      
대방    영등포구
대방     동작구

인덱스: 동대문
         구
전철역명      
동대문   동대문구
동대문     중구

인덱스: 디지털미디어시티
             구
전철역명          
디지털미디어시티   은평구
디지털미디어시티  서대문구
디지털미디어시티   마포구

인덱스: 서울
         구
전철역명      
서울      중구
서울     용산구
서울    동대문구
서울     용산구

인덱스: 성신여대입구
           구
전철역명        
성신여대입구   성북구
성신여대입구  동대문구

인덱스: 신림
        구
전철역명     
신림    동작구
신림    관악구

인덱스: 신설동
         구
전철역명      
신설동   동대문구
신설동   동대문구
신설동    성북구

인덱스: 신촌
        구
전철역명     
신촌    마포구
신촌    용산구

인덱스: 청량리
         구
전철역명      
청량리   동대문구
청량리    성동구
청량리   동대문구
청량리   동대문구

인덱스: 충정로
         구
전철역명      
충정로   서대문구
충정로    종로구

인덱스: 회기
         구
전철역명      
회기    동대문구
회기     중랑구
회기     중랑구


In [55]:
# 파일을 읽어옵니다.
file_name = 'results/지하철_위도경도.csv'
d12 = pd.read_csv(file_name)

# 필요한 열만 선택하고 '전철역명'을 인덱스로 설정합니다.
d12 = d12[['전철역명', '구']].set_index('전철역명')

# 중복된 인덱스를 제거하고 첫 번째 항목을 유지합니다.
d12 = d12[~d12.index.duplicated(keep='first')]

# 결과 확인
d12


Unnamed: 0_level_0,구
전철역명,Unnamed: 1_level_1
석계,노원구
서울,중구
영등포,영등포구
대방,영등포구
신도림,구로구
...,...
삼양사거리,강북구
솔샘,성북구
정릉,성북구
북한산보국문,성북구


In [56]:
# d12의 인덱스가 이미 '전철역명'이고, '구' 열이 존재하는지 확인
if '구' in d12.columns:
    # df_grouped의 인덱스 값들이 d12의 인덱스에 모두 포함되어 있는지 확인
    missing_stations = df_grouped.index.difference(d12.index)
    if len(missing_stations) > 0:
        print(f"다음 역명들이 d12 데이터 프레임에 존재하지 않습니다: {missing_stations}")
        # df_grouped에서 없는 역명들을 제거
        df_grouped = df_grouped.drop(missing_stations)
    # 매핑 작업 수행
    df_grouped["구"] = df_grouped.index.map(d12["구"])
else:
    print("d12 데이터 프레임에 '구' 열이 없습니다.")

# 결과 출력
df_grouped


Unnamed: 0_level_0,엘리베이터(E/V),휠체어리프트(W/L),구
역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
가락시장,4.5,0.0,송파구
가산디지털단지,4.0,4.0,금천구
강남,4.0,0.0,강남구
강남구청,2.0,1.0,강남구
강동,2.0,2.0,강동구
...,...,...,...
홍제,3.0,0.0,서대문구
화곡,2.0,0.0,강서구
화랑대,4.0,0.0,노원구
회현,2.0,0.0,중구


In [60]:
gu_df = df_grouped.set_index('구').groupby('구').mean()

gu_df

Unnamed: 0_level_0,엘리베이터(E/V),휠체어리프트(W/L)
구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,3.285714,0.238095
강동구,3.615385,0.307692
강북구,2.666667,0.0
강서구,3.0,0.333333
관악구,2.666667,0.0
광진구,2.888889,0.277778
구로구,2.928571,2.357143
금천구,4.0,4.0
노원구,2.954545,0.636364
도봉구,4.666667,1.333333


In [63]:
len(gu_df.index.tolist())

25

In [65]:
gu_df.to_csv('results/elevators_wheelchair_lifts.csv')

In [76]:
import pandas as pd

dfdfdf = pd.read_csv('data/elevator_lift.csv')

dfdfdf

Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
0,1호선,서울역(1),4,5,1,0
1,1호선,시청(1),3,3,0,0
2,1호선,종각,4,2,0,0
3,1호선,종로3가(1),3,4,0,0
4,1호선,종로5가,3,0,0,0
...,...,...,...,...,...,...
281,9호선(3단계),송파나루역,5,6,0,0
282,9호선(3단계),한성백제역,3,12,0,0
283,9호선(3단계),올림픽공원역,3,14,0,0
284,9호선(3단계),둔촌오륜역,3,8,0,0


In [81]:
dfdfdf['역명'] = dfdfdf['역명'].str.replace(r'\(.*\)', '', regex=True)

dfdfdf['호선'] = dfdfdf['호선'].str.replace(r'\(.*\)', '', regex=True)

# 인덱스 중 '역'으로 끝나는 역명의 '역' 삭제
dfdfdf['역명'] = dfdfdf['역명'].str.replace(r'역$', '', regex=True)

In [82]:
dfdfdf

Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
0,1호선,서울,4,5,1,0
1,1호선,시청,3,3,0,0
2,1호선,종각,4,2,0,0
3,1호선,종로3가,3,4,0,0
4,1호선,종로5가,3,0,0,0
...,...,...,...,...,...,...
281,9호선,송파나루,5,6,0,0
282,9호선,한성백제,3,12,0,0
283,9호선,올림픽공원,3,14,0,0
284,9호선,둔촌오륜,3,8,0,0


In [83]:
dfdfdf["호선"].unique()

array(['1호선', '2호선', '3호선', '4호선', '5호선', '6호선', '7호선', '8호선', '9호선'],
      dtype=object)

In [84]:
dfdfdf['지하철역'] = dfdfdf['역명'] + "역 " + dfdfdf['호선']

In [85]:
dfdfdf

Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W),지하철역
0,1호선,서울,4,5,1,0,서울역 1호선
1,1호선,시청,3,3,0,0,시청역 1호선
2,1호선,종각,4,2,0,0,종각역 1호선
3,1호선,종로3가,3,4,0,0,종로3가역 1호선
4,1호선,종로5가,3,0,0,0,종로5가역 1호선
...,...,...,...,...,...,...,...
281,9호선,송파나루,5,6,0,0,송파나루역 9호선
282,9호선,한성백제,3,12,0,0,한성백제역 9호선
283,9호선,올림픽공원,3,14,0,0,올림픽공원역 9호선
284,9호선,둔촌오륜,3,8,0,0,둔촌오륜역 9호선


In [86]:
dfdfdf.set_index("지하철역")

Unnamed: 0_level_0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
지하철역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울역 1호선,1호선,서울,4,5,1,0
시청역 1호선,1호선,시청,3,3,0,0
종각역 1호선,1호선,종각,4,2,0,0
종로3가역 1호선,1호선,종로3가,3,4,0,0
종로5가역 1호선,1호선,종로5가,3,0,0,0
...,...,...,...,...,...,...
송파나루역 9호선,9호선,송파나루,5,6,0,0
한성백제역 9호선,9호선,한성백제,3,12,0,0
올림픽공원역 9호선,9호선,올림픽공원,3,14,0,0
둔촌오륜역 9호선,9호선,둔촌오륜,3,8,0,0


In [87]:
asdfasdf = pd.read_csv('results/지하철 역 구.csv')

# d12의 인덱스가 이미 '전철역명'이고, '구' 열이 존재하는지 확인
if '구' in asdfasdf.columns:
    # df_grouped의 인덱스 값들이 d12의 인덱스에 모두 포함되어 있는지 확인
    missing_stations = dfdfdf.index.difference(asdfasdf.index)
    if len(missing_stations) > 0:
        print(f"다음 역명들이 d12 데이터 프레임에 존재하지 않습니다: {missing_stations}")
        # df_grouped에서 없는 역명들을 제거
        dfdfdf = dfdfdf.drop(missing_stations)
    # 매핑 작업 수행
    dfdfdf["구"] = dfdfdf.index.map(asdfasdf["구"])
else:
    print("asdfasdf 데이터 프레임에 '구' 열이 없습니다.")

# 결과 출력
dfdfdf


다음 역명들이 d12 데이터 프레임에 존재하지 않습니다: RangeIndex(start=285, stop=286, step=1)


Unnamed: 0,호선,역명,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W),지하철역,구
0,1호선,서울,4,5,1,0,서울역 1호선,동대문구
1,1호선,시청,3,3,0,0,시청역 1호선,동대문구
2,1호선,종각,4,2,0,0,종각역 1호선,동대문구
3,1호선,종로3가,3,4,0,0,종로3가역 1호선,종로구
4,1호선,종로5가,3,0,0,0,종로5가역 1호선,종로구
...,...,...,...,...,...,...,...,...
280,9호선,석촌,5,25,0,0,석촌역 9호선,서초구
281,9호선,송파나루,5,6,0,0,송파나루역 9호선,서초구
282,9호선,한성백제,3,12,0,0,한성백제역 9호선,서초구
283,9호선,올림픽공원,3,14,0,0,올림픽공원역 9호선,서초구


In [96]:
df3 = dfdfdf.copy()

df3 = df3.drop(columns=['호선', '역명', '지하철역'])

df3 = df3.set_index('구').groupby('구').mean()

df3

Unnamed: 0_level_0,엘리베이터(E/V),에스컬레이터(E/S),휠체어리프트(W/L),수평자동보도(M/W)
구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남구,2.944444,6.666667,0.222222,0.0
강동구,3.583333,9.416667,1.583333,0.0
강북구,2.666667,4.0,0.0,0.0
강서구,3.210526,6.052632,0.210526,0.0
관악구,3.25,6.0,0.0,0.0
광진구,3.272727,6.727273,0.272727,0.0
구로구,3.142857,7.571429,0.142857,0.0
금천구,2.0,4.0,0.0,0.0
노원구,2.538462,5.307692,0.769231,0.0
도봉구,4.333333,5.333333,1.333333,0.0
