In [1]:
import pandas as pd
import chardet
import folium
from openpyxl import load_workbook
import matplotlib.pyplot as plt

In [None]:
file_path = 'dataFile/Gwangju_Bus_Route_Stop_Time_Based_Passenger_Counts_2024_04.xlsx'

def read_excel_in_chunks(file_path, sheet_name, chunk_size=10000):
    wb = load_workbook(filename=file_path, read_only=True)
    ws = wb[sheet_name]

    rows = ws.iter_rows(values_only=True)
    headers = next(rows)  # 첫 번째 행을 헤더로 사용
    chunks = []

    while True:
        chunk = []
        try:
            for _ in range(chunk_size):
                chunk.append(next(rows))
        except StopIteration:
            if chunk:
                chunks.append(pd.DataFrame(chunk, columns=headers))
            break
        
        chunks.append(pd.DataFrame(chunk, columns=headers))

    return pd.concat(chunks, ignore_index=True)

# 첫 번째 시트를 청크 단위로 읽어오기
sheet_name = '24.4.1.~4.7.'
df = read_excel_in_chunks(file_path, sheet_name, chunk_size=10000)

In [None]:
# 데이터 프레임의 크기(사이즈)를 확인
data_size = df.shape

# 행과 열의 수를 출력
print(f"Number of rows: {data_size[0]}")
print(f"Number of columns: {data_size[1]}")

# 전처리

## 광주광역시 버스 정류장 2024.04 승하차 엑셀 파일 데이터 합병

In [None]:
file_path = 'dataFile/Gwangju_Bus_Route_Stop_Time_Based_Passenger_Counts_2024_04.xlsx'

def read_excel_in_chunks(file_path, sheet_name, chunk_size=10000):
    wb = load_workbook(filename=file_path, read_only=True)
    ws = wb[sheet_name]

    rows = ws.iter_rows(values_only=True)
    headers = next(rows)  # 첫 번째 행을 헤더로 사용
    chunks = []

    while True:
        chunk = []
        try:
            for _ in range(chunk_size):
                chunk.append(next(rows))
        except StopIteration:
            if chunk:
                chunks.append(pd.DataFrame(chunk, columns=headers))
            break
        
        if chunk:
            chunks.append(pd.DataFrame(chunk, columns=headers))

    return pd.concat(chunks, ignore_index=True)

# 시트 이름 리스트
sheet_names = ['24.4.1.~4.7.', '24.4.8.~4.14.', '24.4.15.~4.21.', '24.4.22.~4.28.', '24.4.29.~30.']

# 각 시트를 읽어서 DataFrame에 저장
dfs = []
for i, sheet_name in enumerate(sheet_names, start=1):
    df = read_excel_in_chunks(file_path, sheet_name, chunk_size=10000)
    dfs.append(df)
    # DataFrame 저장
    globals()[f'df{i}'] = df

# 각 DataFrame 병합 및 거래건수 합산
def merge_and_aggregate(dfs):
    combined_df = pd.concat(dfs, ignore_index=True)
    # 그룹화 및 거래건수 합산
    merged_df = combined_df.groupby(['노선명', '정류장명', 'ARS_ID', '시간', '승하차']).agg({'거래건수': 'sum'}).reset_index()
    return merged_df

merged_df = merge_and_aggregate(dfs)

# 결과 확인
print(merged_df.head())

In [None]:
# 데이터 프레임의 크기(사이즈)를 확인
data_size = merged_df.shape

# 행과 열의 수를 출력
print(f"Number of rows: {data_size[0]}")
print(f"Number of columns: {data_size[1]}")

In [None]:
# 병합된 데이터를 엑셀 파일로 저장
output_file_path = 'dataFile/Merged_Gwangju_Bus_Data_2024_04.xlsx'
merged_df.to_excel(output_file_path, index=False)

print(f"Data has been successfully exported to {output_file_path}")

## 광주광역시 버스 정류장 2024.01 ~ 03 승하차 엑셀 파일 데이터 합병

In [None]:
file_path = 'dataFile/Gwangju_Bus_Route_Stop_Time_Based_Passenger_Counts_2024_01.xlsx'

def read_excel_in_chunks(file_path, sheet_name, chunk_size=10000):
    wb = load_workbook(filename=file_path, read_only=True)
    ws = wb[sheet_name]

    rows = ws.iter_rows(values_only=True)
    headers = next(rows)  # 첫 번째 행을 헤더로 사용
    chunks = []

    while True:
        chunk = []
        try:
            for _ in range(chunk_size):
                chunk.append(next(rows))
        except StopIteration:
            if chunk:
                chunks.append(pd.DataFrame(chunk, columns=headers))
            break
        
        if chunk:
            chunks.append(pd.DataFrame(chunk, columns=headers))

    return pd.concat(chunks, ignore_index=True)

# 시트 이름 리스트
sheet_names = ['24.1.1.~1.7.', '24.1.8.~1.14.', '24.1.15.~1.21.', '24.1.22.~1.28.', '24.1.29.~1.31.']

# 각 시트를 읽어서 DataFrame에 저장
dfs = []
for i, sheet_name in enumerate(sheet_names, start=1):
    df = read_excel_in_chunks(file_path, sheet_name, chunk_size=10000)
    dfs.append(df)
    # DataFrame 저장
    globals()[f'df{i}'] = df

# 각 DataFrame 병합 및 거래건수 합산
def merge_and_aggregate(dfs):
    combined_df = pd.concat(dfs, ignore_index=True)
    # 그룹화 및 거래건수 합산
    merged_df = combined_df.groupby(['노선명', '정류장명', 'ARS_ID', '시간', '승하차']).agg({'거래건수': 'sum'}).reset_index()
    return merged_df

merged_df = merge_and_aggregate(dfs)

# 병합된 데이터를 엑셀 파일로 저장
output_file_path = 'dataFile/Merged_Gwangju_Bus_Data_2024_01.xlsx'
merged_df.to_excel(output_file_path, index=False)

print(f"Data has been successfully exported to {output_file_path}")

## 광주광역시 버스 정류장 2024.01 ~ 04 승하차 엑셀 파일 합병 데이터 파일 최종 합병

In [None]:
# 파일 경로 리스트
file_paths = [
    'dataFile/Merged_Gwangju_Bus_Data_2024_01.xlsx',
    'dataFile/Merged_Gwangju_Bus_Data_2024_02.xlsx',
    'dataFile/Merged_Gwangju_Bus_Data_2024_03.xlsx',
    'dataFile/Merged_Gwangju_Bus_Data_2024_04.xlsx'
]

# 각 파일의 데이터를 읽어서 하나의 DataFrame에 병합
combined_dfs = []
for file_path in file_paths:
    df = pd.read_excel(file_path)
    combined_dfs.append(df)

# 모든 파일을 하나의 DataFrame으로 병합
combined_df = pd.concat(combined_dfs, ignore_index=True)

# 거래건수 합산
merged_df = combined_df.groupby(['노선명', '정류장명', 'ARS_ID', '시간', '승하차']).agg({'거래건수': 'sum'}).reset_index()

# 병합된 데이터를 엑셀 파일로 저장
output_file_path = 'dataFile/Merged_Gwangju_Bus_Data_2024_All.xlsx'
merged_df.to_excel(output_file_path, index=False)

print(f"Data has been successfully exported to {output_file_path}")

## 전국 버스 정류장 위치 데이터에서 광주광역시 위치 데이터 추가

In [None]:
csv_file_path = 'dataFile/MOLIT_National_Bus_Stop_Location_Information_20231016.csv'
excel_file_path = 'dataFile/Merged_Gwangju_Bus_Data_2024_All.xlsx'

# 인코딩 감지
with open(csv_file_path, 'rb') as f:
    result = chardet.detect(f.read())
encoding = result['encoding']
print(f"Detected encoding: {encoding}")

# CSV 파일을 청크 단위로 읽고 필터링
filtered_csv_data = []
chunk_size = 10000

for chunk in pd.read_csv(csv_file_path, encoding=encoding, chunksize=chunk_size):
    filtered_chunk = chunk[(chunk['도시명'] == '광주광역시') & (chunk['관리도시명'] == '광주')]
    filtered_csv_data.append(filtered_chunk)

df_csv_filtered = pd.concat(filtered_csv_data, ignore_index=True)
df_csv_filtered = df_csv_filtered[['모바일단축번호', '위도', '경도']]
print(f"Filtered CSV size: {df_csv_filtered.shape}")

# 엑셀 파일을 청크 단위로 읽고 병합하는 함수
def read_excel_in_chunks(file_path, chunk_size=10000):
    wb = load_workbook(filename=file_path, read_only=True)
    ws = wb.active

    rows = ws.iter_rows(values_only=True)
    headers = next(rows)  # 첫 번째 행을 헤더로 사용
    merged_data = []

    chunk = []
    for i, row in enumerate(rows, 1):
        chunk.append(row)
        if i % chunk_size == 0:
            df_chunk = pd.DataFrame(chunk, columns=headers)
            df_chunk = df_chunk.merge(df_csv_filtered, left_on='ARS_ID', right_on='모바일단축번호', how='left')
            merged_data.append(df_chunk)
            chunk = []

    # 남아있는 마지막 청크 처리
    if chunk:
        df_chunk = pd.DataFrame(chunk, columns=headers)
        df_chunk = df_chunk.merge(df_csv_filtered, left_on='ARS_ID', right_on='모바일단축번호', how='left')
        merged_data.append(df_chunk)

    return pd.concat(merged_data, ignore_index=True)

# 엑셀 파일 데이터를 청크 단위로 읽고 병합
df_merged = read_excel_in_chunks(excel_file_path, chunk_size=10000)

# 병합된 데이터를 엑셀 파일로 저장
output_file_path = 'dataFile/Merged_Gwangju_Bus_Data_With_Coordinates.xlsx'
df_merged.to_excel(output_file_path, index=False)
print(f"Data has been successfully exported to {output_file_path}")

In [None]:
def read_excel_in_chunks(file_path, chunk_size=10000):
    wb = load_workbook(filename=file_path, read_only=True)
    ws = wb.active  # 첫 번째 시트를 선택

    rows = ws.iter_rows(values_only=True)
    headers = next(rows)  # 첫 번째 행을 헤더로 사용
    chunks = []

    while True:
        chunk = []
        try:
            for _ in range(chunk_size):
                chunk.append(next(rows))
        except StopIteration:
            if chunk:
                chunks.append(pd.DataFrame(chunk, columns=headers))
            break
        
        if chunk:  # Ensure we only append non-empty chunks
            chunks.append(pd.DataFrame(chunk, columns=headers))

    return pd.concat(chunks, ignore_index=True)

# 파일 경로
file_path = 'dataFile/Merged_Gwangju_Bus_Data_With_Coordinates.xlsx'

# 엑셀 파일을 청크 단위로 읽어오기
bus_data_with_coordinates = read_excel_in_chunks(file_path, chunk_size=10000)

bus_data_with_coordinates.head(100)

In [None]:
# getOn, getOff, transfer 데이터를 필터링하여 각각의 DataFrame으로 분리
getOn_filtered = bus_data_with_coordinates[bus_data_with_coordinates['승하차'] == '승차']
getOff_filtered = bus_data_with_coordinates[bus_data_with_coordinates['승하차'] == '하차']
transfer_filtered = bus_data_with_coordinates[bus_data_with_coordinates['승하차'] == '환승']

# 피벗 테이블 생성 함수
def create_pivot_table(df, label):
    pivot_df = df.pivot_table(
        index=['일자', '노선명', '정류장명', 'ARS_ID', '위도', '경도'],
        columns='시간',
        values='거래건수',
        aggfunc='sum',
        fill_value=0
    )
    pivot_df.columns = [f"{col}시 {label}" for col in pivot_df.columns]
    pivot_df.reset_index(inplace=True)
    pivot_df.columns.name = None
    return pivot_df

# 각 데이터 프레임에 대해 피벗 테이블 생성
getOn_pivot = create_pivot_table(getOn_filtered, '승차인원')
getOff_pivot = create_pivot_table(getOff_filtered, '하차인원')
transfer_pivot = create_pivot_table(transfer_filtered, '환승인원')

# 파일 저장 경로
output_file_path_getOn = 'dataFile/Gwangju_Bus_Data_getOn_Pivot.xlsx'
output_file_path_getOff = 'dataFile/Gwangju_Bus_Data_getOff_Pivot.xlsx'
output_file_path_transfer = 'dataFile/Gwangju_Bus_Data_transfer_Pivot.xlsx'

# 피벗 테이블을 엑셀 파일로 저장
getOn_pivot.to_excel(output_file_path_getOn, index=False)
getOff_pivot.to_excel(output_file_path_getOff, index=False)
transfer_pivot.to_excel(output_file_path_transfer, index=False)

print(f"Data has been successfully exported to {output_file_path_getOn}")
print(f"Data has been successfully exported to {output_file_path_getOff}")
print(f"Data has been successfully exported to {output_file_path_transfer}")

# 분석

In [2]:
getOn_file_path = 'dataFile/Gwangju_Bus_Data_getOn_Pivot.xlsx'
getOff_file_path = 'dataFile/Gwangju_Bus_Data_getOff_Pivot.xlsx'
transfer_file_path = 'dataFile/Gwangju_Bus_Data_transfer_Pivot.xlsx'

getOn_df = pd.read_excel(getOn_file_path)
getOff_df = pd.read_excel(getOff_file_path)
transfer_df = pd.read_excel(transfer_file_path)

# 5시부터 23시까지의 합계 컬럼 생성
getOn_df['총 승차인원'] = getOn_df.loc[:, '5시 승차인원':'23시 승차인원'].sum(axis=1)
getOff_df['총 하차인원'] = getOff_df.loc[:, '5시 하차인원':'23시 하차인원'].sum(axis=1)
transfer_df['총 환승인원'] = transfer_df.loc[:, '5시 환승인원':'23시 환승인원'].sum(axis=1)

## 정류장 승차, 하차, 환승 혼잡도 표 분석 (시간대별 총 )

In [21]:
import matplotlib.colors as mcolors  # 이 줄을 추가하여 mcolors 모듈을 임포트합니다
# 승차 데이터를 분석하기 위한 데이터 프레임 생성
getOn_analyze_tb = getOn_df.drop(['일자', '노선명', '승하차', '위도', '경도'], axis=1)

# 총 승차인원을 기준으로 내림차순 정렬
getOn_analyze_tb = getOn_analyze_tb.sort_values(by='총 승차인원', ascending=False)

# 총 승차인원 컬럼 제거 
getOn_analyze_tb = getOn_analyze_tb.drop('총 승차인원', axis=1)

# 사용자 지정 색상 맵 생성 (흰색에서 파란색으로)
cmap = mcolors.LinearSegmentedColormap.from_list("custom_cmap", ["white", "blue"])

# 배경 그라데이션을 적용할 칼럼 목록
columns_to_style = [col for col in getOn_analyze_tb.columns if col not in ['정류장명', 'ARS_ID']]

# 텍스트 가운데 정렬을 적용할 칼럼 목록
columns_to_align_center = columns_to_style

# 배경 그라데이션 및 텍스트 가운데 정렬 적용
def style_specific_columns(styler):
    styler = styler.background_gradient(cmap=cmap, subset=columns_to_style)
    styler = styler.set_properties(**{'text-align': 'center'}, subset=columns_to_align_center)
    return styler

getOn_analyze_tb_styled = getOn_analyze_tb.style.pipe(style_specific_columns).hide(axis='index')

In [None]:
# 스타일이 적용된 데이터프레임을 HTML 파일로 저장 (UTF-8 인코딩 지정)
html = getOn_analyze_tb_styled.to_html()

# 메타 태그를 추가한 HTML 내용
html_with_meta = '<meta charset="UTF-8">' + html

with open("정류장 승차 인원 혼잡도 표.html", "w", encoding="utf-8") as f:
    f.write(html_with_meta)

print("HTML 파일로 저장되었습니다.")

In [None]:
def create_styled_table(df, total_col, output_file, color_map, drop_cols):
    # 데이터를 분석하기 위한 데이터 프레임 생성
    analyze_tb = df.drop(drop_cols, axis=1)

    # 총 인원을 기준으로 내림차순 정렬
    analyze_tb = analyze_tb.sort_values(by=total_col, ascending=False)

    # 총 인원 컬럼 제거 
    analyze_tb = analyze_tb.drop(total_col, axis=1)

    # 배경 그라데이션을 적용할 칼럼 목록
    columns_to_style = [col for col in analyze_tb.columns if col not in ['정류장명', 'ARS_ID']]

    # 텍스트 가운데 정렬을 적용할 칼럼 목록
    columns_to_align_center = columns_to_style

    # 배경 그라데이션 및 텍스트 가운데 정렬 적용
    def style_specific_columns(styler):
        styler = styler.background_gradient(cmap=color_map, subset=columns_to_style)
        styler = styler.set_properties(**{'text-align': 'center'}, subset=columns_to_align_center)
        return styler

    styled_df = analyze_tb.style.pipe(style_specific_columns).hide(axis='index')

    # 스타일이 적용된 데이터프레임을 HTML 파일로 저장 (UTF-8 인코딩 지정)
    html = styled_df.to_html()

    # 메타 태그를 추가한 HTML 내용
    html_with_meta = '<meta charset="UTF-8">' + html

    with open(output_file, "w", encoding="utf-8") as f:
        f.write(html_with_meta)

    print(f"{output_file} 파일로 저장되었습니다.")

# 사용자 지정 색상 맵 생성 (흰색에서 파란색으로)
cmap = mcolors.LinearSegmentedColormap.from_list("custom_cmap", ["white", "blue"])

# 파일 저장
create_styled_table(getOn_df, '총 승차인원', "정류장_승차_인원_혼잡도_표.html", cmap, ['일자', '노선명', '승하차', '위도', '경도'])
create_styled_table(getOff_df, '총 하차인원', "정류장_하차_인원_혼잡도_표.html", cmap, ['일자', '노선명', '승하차', '위도', '경도'])
create_styled_table(transfer_df, '총 환승인원', "정류장_환승_인원_혼잡도_표.html", cmap, ['일자', '노선명', '승하차', '위도', '경도'])

## 승차 출근, 퇴근 시간 혼잡도(표, 막대 그래프)

In [None]:
# 출근 시간과 퇴근 시간 동안의 승차 인원을 계산
getOn_df['출근 시간 총 승차인원'] = getOn_df[['6시 승차인원', '7시 승차인원', '8시 승차인원', '9시 승차인원']].sum(axis=1)
getOn_df['퇴근 시간 총 승차인원'] = getOn_df[['17시 승차인원', '18시 승차인원', '19시 승차인원', '20시 승차인원', '21시 승차인원', '22시 승차인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning = getOn_df.nlargest(10, '출근 시간 총 승차인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening = getOn_df.nlargest(10, '퇴근 시간 총 승차인원')

# 색상 설정을 위한 함수
def get_colors(values):
    norm = mcolors.Normalize(vmin=values.min(), vmax=values.max())
    cmap = mcolors.LinearSegmentedColormap.from_list("custom_cmap", ["gray", "blue"])
    return [cmap(norm(val)) for val in values]

# 정류장명과 노선명을 합치는 함수
def combine_station_route(df):
    df['정류장명'] = df['정류장명'] + ' (' + df['노선명'] + ')'
    return df

# 정류장명과 노선명을 합침
top_10_morning = combine_station_route(top_10_morning)
top_10_evening = combine_station_route(top_10_evening)

# Top 10 정류장의 시간대별 승차 인원수 시각화
def plot_top_10(df, title):
    df.set_index('정류장명', inplace=True)
    
    if title == '출근 시간대 Top 10 정류장 승차인원':
        columns_to_plot = ['6시 승차인원', '7시 승차인원', '8시 승차인원', '9시 승차인원']
    elif title == '퇴근 시간대 Top 10 정류장 승차인원':
        columns_to_plot = ['17시 승차인원', '18시 승차인원', '19시 승차인원', '20시 승차인원', '21시 승차인원', '22시 승차인원']
    else:
        print("error")
        return
    
    if columns_to_plot:
        ax = df[columns_to_plot].T.plot(kind='bar', stacked=True, figsize=(15, 10), colormap='coolwarm')
        plt.title(title)
        plt.ylabel('승차인원')
        plt.xlabel('시간대')
        plt.legend(title='정류장명')
        
        # 각 막대 위에 텍스트 추가
        for container in ax.containers:
            ax.bar_label(container, label_type='center')
        
        plt.show()

plot_top_10(top_10_morning, '출근 시간대 Top 10 정류장 승차인원')
plot_top_10(top_10_evening, '퇴근 시간대 Top 10 정류장 승차인원')


In [95]:
# 출근 시간과 퇴근 시간 동안의 승차 인원을 계산
getOn_df['출근 시간 총 승차인원'] = getOn_df[['6시 승차인원', '7시 승차인원', '8시 승차인원', '9시 승차인원']].sum(axis=1)
getOn_df['퇴근 시간 총 승차인원'] = getOn_df[['17시 승차인원', '18시 승차인원', '19시 승차인원', '20시 승차인원', '21시 승차인원', '22시 승차인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning = getOn_df.nlargest(10, '출근 시간 총 승차인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening = getOn_df.nlargest(10, '퇴근 시간 총 승차인원')

# Top 10 정류장의 시간대별 승차 인원수를 표로 표시
def display_top_10_table(df, title):
    if '출근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '6시 승차인원', '7시 승차인원', '8시 승차인원', '9시 승차인원', '출근 시간 총 승차인원']
    elif '퇴근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '17시 승차인원', '18시 승차인원', '19시 승차인원', '20시 승차인원', '21시 승차인원', '22시 승차인원', '퇴근 시간 총 승차인원']
    else:
        columns_to_show = []
    
    if columns_to_show:
        display_df = df[columns_to_show].copy()
        display_df.set_index('정류장명', inplace=True)
        display_df.style.set_caption(title).format(na_rep='-')

        return display_df

# 출근 시간대 Top 10 정류장 표
morning_table = display_top_10_table(top_10_morning, '출근 시간대 Top 10 정류장 승차인원')

# 퇴근 시간대 Top 10 정류장 표
evening_table = display_top_10_table(top_10_evening, '퇴근 시간대 Top 10 정류장 승차인원')

In [None]:
morning_table

In [None]:
evening_table

## 하차 출근, 퇴근 시간 혼잡도(표, 막대 그래프)

In [None]:
# 출근 시간과 퇴근 시간 동안의 하차 인원을 계산
getOff_df['출근 시간 총 하차인원'] = getOff_df[['6시 하차인원', '7시 하차인원', '8시 하차인원', '9시 하차인원']].sum(axis=1)
getOff_df['퇴근 시간 총 하차인원'] = getOff_df[['17시 하차인원', '18시 하차인원', '19시 하차인원', '20시 하차인원', '21시 하차인원', '22시 하차인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning_off = getOff_df.nlargest(10, '출근 시간 총 하차인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening_off = getOff_df.nlargest(10, '퇴근 시간 총 하차인원')

# 정류장명과 노선명을 합치는 함수
def combine_station_route(df):
    df['정류장명'] = df['정류장명'] + ' (' + df['노선명'] + ')'
    return df

# 정류장명과 노선명을 합침
top_10_morning_off = combine_station_route(top_10_morning_off)
top_10_evening_off = combine_station_route(top_10_evening_off)

# 색상 설정을 위한 함수
def get_colors(values):
    norm = mcolors.Normalize(vmin=values.min(), vmax=values.max())
    cmap = mcolors.LinearSegmentedColormap.from_list("custom_cmap", ["gray", "blue"])
    return [cmap(norm(val)) for val in values]

# Top 10 정류장의 시간대별 하차 인원수 시각화
def plot_top_10(df, title):
    df.set_index('정류장명', inplace=True)
    
    if title == '출근 시간대 Top 10 정류장 하차인원':
        columns_to_plot = ['6시 하차인원', '7시 하차인원', '8시 하차인원', '9시 하차인원']
    elif title == '퇴근 시간대 Top 10 정류장 하차인원':
        columns_to_plot = ['17시 하차인원', '18시 하차인원', '19시 하차인원', '20시 하차인원', '21시 하차인원', '22시 하차인원']
    else:
        print("error")
        return
    
    if columns_to_plot:
        ax = df[columns_to_plot].T.plot(kind='bar', stacked=True, figsize=(15, 10), colormap='coolwarm')
        plt.title(title)
        plt.ylabel('하차인원')
        plt.xlabel('시간대')
        plt.legend(title='정류장명')
        
        # 각 막대 위에 텍스트 추가
        for container in ax.containers:
            ax.bar_label(container, label_type='center')
        
        plt.show()

plot_top_10(top_10_morning_off, '출근 시간대 Top 10 정류장 하차인원')
plot_top_10(top_10_evening_off, '퇴근 시간대 Top 10 정류장 하차인원')


In [92]:
# 출근 시간과 퇴근 시간 동안의 하차 인원을 계산
getOff_df['출근 시간 총 하차인원'] = getOff_df[['6시 하차인원', '7시 하차인원', '8시 하차인원', '9시 하차인원']].sum(axis=1)
getOff_df['퇴근 시간 총 하차인원'] = getOff_df[['17시 하차인원', '18시 하차인원', '19시 하차인원', '20시 하차인원', '21시 하차인원', '22시 하차인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning_off = getOff_df.nlargest(10, '출근 시간 총 하차인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening_off = getOff_df.nlargest(10, '퇴근 시간 총 하차인원')

# Top 10 정류장의 시간대별 하차 인원수를 표로 표시
def display_top_10_off_table(df, title):
    if '출근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '6시 하차인원', '7시 하차인원', '8시 하차인원', '9시 하차인원', '출근 시간 총 하차인원']
    elif '퇴근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '17시 하차인원', '18시 하차인원', '19시 하차인원', '20시 하차인원', '21시 하차인원', '22시 하차인원', '퇴근 시간 총 하차인원']
    else:
        columns_to_show = []
    
    if columns_to_show:
        display_df = df[columns_to_show].copy()
        display_df.set_index('정류장명', inplace=True)
        display_df.style.set_caption(title).format(na_rep='-')

        return display_df

# 출근 시간대 Top 10 정류장 표 (하차 인원)
morning_table_off = display_top_10_off_table(top_10_morning_off, '출근 시간대 Top 10 정류장 하차인원')

# 퇴근 시간대 Top 10 정류장 표 (하차 인원)
evening_table_off = display_top_10_off_table(top_10_evening_off, '퇴근 시간대 Top 10 정류장 하차인원')

In [None]:
morning_table_off

In [None]:
evening_table_off

## 환승 출근, 퇴근 시간 혼잡도(표, 막대 그래프)

In [None]:
# 출근 시간과 퇴근 시간 동안의 환승 인원을 계산
transfer_df['출근 시간 총 환승인원'] = transfer_df[['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']].sum(axis=1)
transfer_df['퇴근 시간 총 환승인원'] = transfer_df[['17시 환승인원', '18시 환승인원', '19시 환승인원', '20시 환승인원', '21시 환승인원', '22시 환승인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning_transfer = transfer_df.nlargest(10, '출근 시간 총 환승인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening_transfer = transfer_df.nlargest(10, '퇴근 시간 총 환승인원')

# 정류장명과 노선명을 합치는 함수
def combine_station_route(df):
    df['정류장명'] = df['정류장명'] + ' (' + df['노선명'] + ')'
    return df

# 정류장명과 노선명을 합침
top_10_morning_transfer = combine_station_route(top_10_morning_transfer)
top_10_evening_transfer = combine_station_route(top_10_evening_transfer)

# 색상 설정을 위한 함수
def get_colors(values):
    norm = mcolors.Normalize(vmin=values.min(), vmax=values.max())
    cmap = mcolors.LinearSegmentedColormap.from_list("custom_cmap", ["gray", "blue"])
    return [cmap(norm(val)) for val in values]

# Top 10 정류장의 시간대별 환승 인원수 시각화
def plot_top_10(df, title):
    df.set_index('정류장명', inplace=True)
    
    if title == '출근 시간대 Top 10 정류장 환승인원':
        columns_to_plot = ['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']
    elif title == '퇴근 시간대 Top 10 정류장 환승인원':
        columns_to_plot = ['17시 환승인원', '18시 환승인원', '19시 환승인원', '20시 환승인원', '21시 환승인원', '22시 환승인원']
    else:
        print("error")
        return
    
    if columns_to_plot:
        ax = df[columns_to_plot].T.plot(kind='bar', stacked=True, figsize=(15, 10), colormap='coolwarm')
        plt.title(title)
        plt.ylabel('환승인원')
        plt.xlabel('시간대')
        plt.legend(title='정류장명')
        
        # 각 막대 위에 텍스트 추가
        for container in ax.containers:
            ax.bar_label(container, label_type='center')
        
        plt.show()

plot_top_10(top_10_morning_transfer, '출근 시간대 Top 10 정류장 환승인원')
plot_top_10(top_10_evening_transfer, '퇴근 시간대 Top 10 정류장 환승인원')


In [89]:
# 출근 시간과 퇴근 시간 동안의 환승 인원을 계산
transfer_df['출근 시간 총 환승인원'] = transfer_df[['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']].sum(axis=1)
transfer_df['퇴근 시간 총 환승인원'] = transfer_df[['17시 환승인원', '18시 환승인원', '19시 환승인원', '20시 환승인원', '21시 환승인원', '22시 환승인원']].sum(axis=1)

# 출근 시간 기준으로 Top 10 정류장 선정
top_10_morning_transfer = transfer_df.nlargest(10, '출근 시간 총 환승인원')

# 퇴근 시간 기준으로 Top 10 정류장 선정
top_10_evening_transfer = transfer_df.nlargest(10, '퇴근 시간 총 환승인원')

# Top 10 정류장의 시간대별 환승 인원수를 표로 표시
def display_top_10_transfer_table(df, title):
    if '출근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원', '출근 시간 총 환승인원']
    elif '퇴근 시간' in title:
        columns_to_show = ['노선명', '정류장명', 'ARS_ID', '17시 환승인원', '18시 환승인원', '19시 환승인원', '20시 환승인원', '21시 환승인원', '22시 환승인원', '퇴근 시간 총 환승인원']
    else:
        columns_to_show = []
    
    if columns_to_show:
        display_df = df[columns_to_show].copy()
        display_df.set_index('정류장명', inplace=True)
        display_df.style.set_caption(title).format(na_rep='-')

        return display_df

# 출근 시간대 Top 10 정류장 표 (환승 인원)
morning_table_transfer = display_top_10_transfer_table(top_10_morning_transfer, '출근 시간대 Top 10 정류장 환승인원')

# 퇴근 시간대 Top 10 정류장 표 (환승 인원)
evening_table_transfer = display_top_10_transfer_table(top_10_evening_transfer, '퇴근 시간대 Top 10 정류장 환승인원')

In [None]:
morning_table_transfer

In [None]:
evening_table_transfer

In [None]:
from folium.plugins import MarkerCluster
import folium

# 중심점을 설정 (정류장명이 '구시청사거리'인 정류장의 위도, 경도)
center_lat = getOn_df[getOn_df['정류장명'] == '구시청사거리']['위도'].values[0]
center_lon = getOn_df[getOn_df['정류장명'] == '구시청사거리']['경도'].values[0]

center = [center_lat, center_lon]

# 지도 생성
m = folium.Map(location=center, zoom_start=11)

# 색상 설정 함수
def get_color(type):
    if type == '승차':
        return 'blue'
    elif type == '하차':
        return 'red'
    elif type == '환승':
        return 'purple'

# 출근 시간대 기준으로 Top 10 정류장 선정
top_10_morning_on = getOn_df.nlargest(10, '출근 시간 총 승차인원')
top_10_morning_off = getOff_df.nlargest(10, '출근 시간 총 하차인원')
top_10_morning_transfer = transfer_df.nlargest(10, '출근 시간 총 환승인원')

# 데이터 준비 및 마커 추가
# 승차 데이터
for index, row in top_10_morning_on.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='blue', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>출근 시간 총 승차인원:</strong> {row['출근 시간 총 승차인원']}명<br>"
            f"<strong>유형:</strong> 승차<br>"
        ),
        tooltip='승차'
    ).add_to(m)

# 하차 데이터
for index, row in top_10_morning_off.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='red', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>출근 시간 총 하차인원:</strong> {row['출근 시간 총 하차인원']}명<br>"
            f"<strong>유형:</strong> 하차<br>"
        ),
        tooltip='하차'
    ).add_to(m)

# 환승 데이터
for index, row in top_10_morning_transfer.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='purple', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>출근 시간 총 환승인원:</strong> {row['출근 시간 총 환승인원']}명<br>"
            f"<strong>유형:</strong> 환승<br>"
        ),
        tooltip='환승'
    ).add_to(m)


# 지도 저장
m.save('2024 출근 시간대 승차 하차 환승 인원 포화상태.html')

m


In [None]:
from folium.plugins import MarkerCluster
import folium

# 중심점을 설정 (정류장명이 '구시청사거리'인 정류장의 위도, 경도)
center_lat = getOn_df[getOn_df['정류장명'] == '구시청사거리']['위도'].values[0]
center_lon = getOn_df[getOn_df['정류장명'] == '구시청사거리']['경도'].values[0]

center = [center_lat, center_lon]

# 지도 생성
m = folium.Map(location=center, zoom_start=11)

# 색상 설정 함수
def get_color(type):
    if type == '승차':
        return 'blue'
    elif type == '하차':
        return 'red'
    elif type == '환승':
        return 'purple'

# 퇴근 시간대 기준으로 Top 10 정류장 선정
top_10_evening_on = getOn_df.nlargest(10, '퇴근 시간 총 승차인원')
top_10_evening_off = getOff_df.nlargest(10, '퇴근 시간 총 하차인원')
top_10_evening_transfer = transfer_df.nlargest(10, '퇴근 시간 총 환승인원')

# 데이터 준비 및 마커 추가
# 승차 데이터
for index, row in top_10_evening_on.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='blue', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>퇴근 시간 총 승차인원:</strong> {row['퇴근 시간 총 승차인원']}명<br>"
            f"<strong>유형:</strong> 승차<br>"
        ),
        tooltip='승차'
    ).add_to(m)

# 하차 데이터
for index, row in top_10_evening_off.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='red', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>퇴근 시간 총 하차인원:</strong> {row['퇴근 시간 총 하차인원']}명<br>"
            f"<strong>유형:</strong> 하차<br>"
        ),
        tooltip='하차'
    ).add_to(m)

# 환승 데이터
for index, row in top_10_evening_transfer.iterrows():
    folium.Marker(
        location=(row['위도'], row['경도']),
        icon=folium.Icon(color='purple', icon='info-sign'),
        popup=(
            f"<strong>정류장명:</strong> {row['정류장명']}<br>"
            f"<strong>퇴근 시간 총 환승인원:</strong> {row['퇴근 시간 총 환승인원']}명<br>"
            f"<strong>유형:</strong> 환승<br>"
        ),
        tooltip='환승'
    ).add_to(m)

# 지도 저장
m.save('2024 퇴근 시간대 승차 하차 환승 인원 포화상태.html')

m


## 출근 시간 승차, 하차, 환승 top10 겹치는 정거장 + 노선명 찾기 (3개다 겹치는 경우 X, 2개씩 겹치는 경우 찾기)

In [35]:
# 출근 시간 동안의 승차, 하차, 환승 인원을 계산
getOn_df['출근 시간 총 승차인원'] = transfer_df[['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']].sum(axis=1)
getOff_df['출근 시간 총 하차인원'] = transfer_df[['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']].sum(axis=1)
transfer_df['출근 시간 총 환승인원'] = transfer_df[['6시 환승인원', '7시 환승인원', '8시 환승인원', '9시 환승인원']].sum(axis=1)


# 출근 시간대의 TOP 10 정류장 선정
top_10_morning_on = getOn_df.nlargest(10, '출근 시간 총 승차인원')
top_10_morning_off = getOff_df.nlargest(10, '출근 시간 총 하차인원')
top_10_morning_transfer = transfer_df.nlargest(10, '출근 시간 총 환승인원')

# 세 개의 조건에 따라 겹치는 정류장 찾기
common_stations_all = top_10_morning_on.merge(
    top_10_morning_off[['정류장명', '노선명', 'ARS_ID', '출근 시간 총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
).merge(
    top_10_morning_transfer[['정류장명', '노선명', 'ARS_ID', '출근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 두 개의 조건에 따라 겹치는 정류장 찾기
common_stations_on_off = top_10_morning_on.merge(
    top_10_morning_off[['정류장명', '노선명', 'ARS_ID', '출근 시간 총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_on_transfer = top_10_morning_on.merge(
    top_10_morning_transfer[['정류장명', '노선명', 'ARS_ID', '출근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_off_transfer = top_10_morning_off.merge(
    top_10_morning_transfer[['정류장명', '노선명', 'ARS_ID', '출근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 필요한 열만 선택하여 출력
common_stations_all = common_stations_all[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_off = common_stations_on_off[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_transfer = common_stations_on_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_off_transfer = common_stations_off_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]

In [None]:
common_stations_all

In [None]:
common_stations_on_off

In [None]:
common_stations_on_transfer

In [None]:
common_stations_off_transfer

# 퇴근 시간 승차, 하차, 환승 top10 겹치는 정거장 + 노선명 찾기 (3개다 겹치는 경우 X, 2개씩 겹치는 경우 찾기)

In [40]:
# 퇴근 시간대의 총 승차, 하차, 환승 인원 계산
getOn_df['퇴근 시간 총 승차인원'] = getOn_df[['17시 승차인원', '18시 승차인원', '19시 승차인원', '20시 승차인원', '21시 승차인원', '22시 승차인원']].sum(axis=1)
getOff_df['퇴근 시간 총 하차인원'] = getOff_df[['17시 하차인원', '18시 하차인원', '19시 하차인원', '20시 하차인원', '21시 하차인원', '22시 하차인원']].sum(axis=1)
transfer_df['퇴근 시간 총 환승인원'] = transfer_df[['17시 환승인원', '18시 환승인원', '19시 환승인원', '20시 환승인원', '21시 환승인원', '22시 환승인원']].sum(axis=1)

# 퇴근 시간대의 TOP 10 정류장 선정
top_10_evening_on = getOn_df.nlargest(10, '퇴근 시간 총 승차인원')
top_10_evening_off = getOff_df.nlargest(10, '퇴근 시간 총 하차인원')
top_10_evening_transfer = transfer_df.nlargest(10, '퇴근 시간 총 환승인원')

# 세 개의 조건에 따라 겹치는 정류장 찾기
common_stations_all = top_10_evening_on.merge(
    top_10_evening_off[['정류장명', '노선명', 'ARS_ID', '퇴근 시간 총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
).merge(
    top_10_evening_transfer[['정류장명', '노선명', 'ARS_ID', '퇴근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 두 개의 조건에 따라 겹치는 정류장 찾기
common_stations_on_off = top_10_evening_on.merge(
    top_10_evening_off[['정류장명', '노선명', 'ARS_ID', '퇴근 시간 총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_on_transfer = top_10_evening_on.merge(
    top_10_evening_transfer[['정류장명', '노선명', 'ARS_ID', '퇴근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_off_transfer = top_10_evening_off.merge(
    top_10_evening_transfer[['정류장명', '노선명', 'ARS_ID', '퇴근 시간 총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 필요한 열만 선택하여 출력
common_stations_all = common_stations_all[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_off = common_stations_on_off[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_transfer = common_stations_on_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_off_transfer = common_stations_off_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]

In [None]:
common_stations_all

In [None]:
common_stations_on_off

In [None]:
common_stations_on_transfer

In [None]:
common_stations_off_transfer

## 모든 정류장에 대한 총 승차, 하차, 환승 인원 수 top10(막대 그래프, 표)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import matplotlib.colors as mcolors
import numpy as np

# 한글 폰트 설정
font_path = 'C:/Windows/Fonts/malgun.ttf'  # 윈도우 시스템에서 '맑은 고딕' 폰트 경로
font_name = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=font_name)

# 모든 시간대의 총 승차, 하차, 환승 인원 계산
getOn_df['총 승차인원'] = getOn_df.loc[:, '5시 승차인원':'23시 승차인원'].sum(axis=1)
getOff_df['총 하차인원'] = getOff_df.loc[:, '5시 하차인원':'23시 하차인원'].sum(axis=1)
transfer_df['총 환승인원'] = transfer_df.loc[:, '5시 환승인원':'23시 환승인원'].sum(axis=1)

# 모든 시간대 기준으로 Top 10 정류장 선정
top_10_all_time_on = getOn_df.nlargest(10, '총 승차인원')
top_10_all_time_off = getOff_df.nlargest(10, '총 하차인원')
top_10_all_time_transfer = transfer_df.nlargest(10, '총 환승인원')

# Top 10 정류장의 총 승차, 하차, 환승 인원수를 막대 그래프로 시각화
def plot_top_10_all_time(df, column, title, ylabel):
    df.set_index('정류장명', inplace=True)
    ax = df[column].plot(kind='bar', stacked=True, figsize=(15, 10), colormap='coolwarm')
    plt.title(title)
    plt.ylabel(ylabel)
    plt.xlabel('정류장명')
    plt.legend(title='정류장명')
    
    # 각 막대 위에 텍스트 추가
    for container in ax.containers:
        ax.bar_label(container, label_type='center')
    
    plt.show()

# 승차 인원 막대 그래프
plot_top_10_all_time(top_10_all_time_on, '총 승차인원', '모든 시간대 Top 10 정류장 승차인원', '총 승차인원')

# 하차 인원 막대 그래프
plot_top_10_all_time(top_10_all_time_off, '총 하차인원', '모든 시간대 Top 10 정류장 하차인원', '총 하차인원')

# 환승 인원 막대 그래프
plot_top_10_all_time(top_10_all_time_transfer, '총 환승인원', '모든 시간대 Top 10 정류장 환승인원', '총 환승인원')


In [45]:
import pandas as pd

# 모든 시간대의 총 승차, 하차, 환승 인원 계산
getOn_df['총 승차인원'] = getOn_df.loc[:, '5시 승차인원':'23시 승차인원'].sum(axis=1)
getOff_df['총 하차인원'] = getOff_df.loc[:, '5시 하차인원':'23시 하차인원'].sum(axis=1)
transfer_df['총 환승인원'] = transfer_df.loc[:, '5시 환승인원':'23시 환승인원'].sum(axis=1)

# 모든 시간대 기준으로 Top 10 정류장 선정
top_10_all_time_on = getOn_df.nlargest(10, '총 승차인원')
top_10_all_time_off = getOff_df.nlargest(10, '총 하차인원')
top_10_all_time_transfer = transfer_df.nlargest(10, '총 환승인원')

# Top 10 정류장의 총 승차, 하차, 환승 인원수를 표로 표시
def display_top_10_all_time_table(df, column, title):
    display_df = df[['정류장명', '노선명', 'ARS_ID', '위도', '경도', column]].copy()
    display_df.set_index('정류장명', inplace=True)
    display_df.style.set_caption(title).format(na_rep='-')

    return display_df

# 승차 인원 표
top_10_all_time_on_table = display_top_10_all_time_table(top_10_all_time_on, '총 승차인원', '모든 시간대 Top 10 정류장 승차인원')

# 하차 인원 표
top_10_all_time_off_table = display_top_10_all_time_table(top_10_all_time_off, '총 하차인원', '모든 시간대 Top 10 정류장 하차인원')

# 환승 인원 표
top_10_all_time_transfer_table = display_top_10_all_time_table(top_10_all_time_transfer, '총 환승인원', '모든 시간대 Top 10 정류장 환승인원')

In [None]:
top_10_all_time_on_table

In [None]:
top_10_all_time_off_table

In [None]:
top_10_all_time_transfer_table

## 모든 정류장 승차, 하차, 환승 top10 겹치는게 있는지 파악

In [29]:
# 모든 시간대의 총 승차, 하차, 환승 인원 계산
getOn_df['총 승차인원'] = getOn_df.loc[:, '5시 승차인원':'23시 승차인원'].sum(axis=1)
getOff_df['총 하차인원'] = getOff_df.loc[:, '5시 하차인원':'23시 하차인원'].sum(axis=1)
transfer_df['총 환승인원'] = transfer_df.loc[:, '5시 환승인원':'23시 환승인원'].sum(axis=1)

# 모든 시간대 기준으로 Top 10 정류장 선정
top_10_all_time_on = getOn_df.nlargest(10, '총 승차인원')
top_10_all_time_off = getOff_df.nlargest(10, '총 하차인원')
top_10_all_time_transfer = transfer_df.nlargest(10, '총 환승인원')

# 세 조건에 따라 겹치는 정류장 찾기
common_stations_all = top_10_all_time_on.merge(
    top_10_all_time_off[['정류장명', '노선명', 'ARS_ID', '총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
).merge(
    top_10_all_time_transfer[['정류장명', '노선명', 'ARS_ID', '총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 두 개의 조건에 따라 겹치는 정류장 찾기
common_stations_on_off = top_10_all_time_on.merge(
    top_10_all_time_off[['정류장명', '노선명', 'ARS_ID', '총 하차인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_on_transfer = top_10_all_time_on.merge(
    top_10_all_time_transfer[['정류장명', '노선명', 'ARS_ID', '총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

common_stations_off_transfer = top_10_all_time_off.merge(
    top_10_all_time_transfer[['정류장명', '노선명', 'ARS_ID', '총 환승인원']],
    on=['정류장명', '노선명', 'ARS_ID']
)

# 필요한 열만 선택하여 출력
common_stations_all = common_stations_all[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_off = common_stations_on_off[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_on_transfer = common_stations_on_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]
common_stations_off_transfer = common_stations_off_transfer[['일자', '정류장명', '노선명', 'ARS_ID', '위도', '경도']]


In [None]:
common_stations_all

In [None]:
common_stations_on_off

In [None]:
common_stations_on_transfer

In [None]:
common_stations_off_transfer