<a href="https://colab.research.google.com/github/songjeongmin86/20240716/blob/main/Untitled4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
import pandas as pd

# 1) CSV 불러오기
file_path = "한국철도공사_KTX_상하행_역별_승하차_20231231.csv"
df = pd.read_csv(file_path, encoding="cp949")

# 2) 연도 컬럼 추가 (운행년월: 'YYYY-MM' → 연도만 사용)
df["연도"] = df["운행년월"].str[:4].astype(int)

# 3) 승, 하차 통합 이용객 수 계산
df["총이용객"] = (
    df["하행_승차인원수"] +
    df["하행_하차인원수"] +
    df["상행_승차인원수"] +
    df["상행_하차인원수"]
)

print(df.head(100))

       운행년월   정차역  하행_승차인원수  하행_하차인원수  상행_승차인원수  상행_하차인원수    연도     총이용객
0   2010-01    서울    837659       103       263    893007  2010  1731032
1   2010-01    용산    183799        19        86    202844  2010   386748
2   2010-01   영등포         0         0         0         1  2010        1
3   2010-01    수원         1         0         0         4  2010        5
4   2010-01    대전    127187    214317    226219    129055  2010   696778
..      ...   ...       ...       ...       ...       ...   ...      ...
95  2010-04    김제       562      3106      3000       638  2010     7306
96  2010-04    정읍      1211     15351     16449      1520  2010    34531
97  2010-04    장성       128      5442      6520       220  2010    12310
98  2010-04  광주송정      6078     36221     34820      6376  2010    83495
99  2010-04    나주       103      5658      5322        63  2010    11146

[100 rows x 8 columns]


In [8]:
df_2022_year = df[df["연도"] == 2022]
df_2022_grp = df_2022_year.groupby("정차역", as_index=False)["총이용객"].sum()
df_2022 = df_2022_grp.rename(columns={"정차역": "역명", "총이용객": "total_2022"})

# 2023년은 조금 다른 방식으로 진행. chaining
df_2023 = (
    df[df["연도"] == 2023]
    .groupby("정차역", as_index=False)["총이용객"].sum()
    .rename(columns={"정차역": "역명", "총이용객": "total_2023"})
)

print("문제 1 결과: df_2022")
print(df_2022.head())
print("문제 1 결과: df_2023")
print(df_2023.head())
print()

문제 1 결과: df_2022
   역명  total_2022
0  경산      108047
1  경주     1764394
2  계룡      226092
3  곡성       81664
4  공주      217530
문제 1 결과: df_2023
   역명  total_2023
0  경산      128560
1  경주     2153350
2  계룡      262445
3  곡성       93847
4  공주      287088



In [14]:
df_inc = df_2023.merge(df_2022, on="역명", how="left")
df_inc["증가율"] = (df_inc["total_2023"] - df_inc["total_2022"])/df_inc["total_2022"]

print(df_inc.head(100))

       역명  total_2023  total_2022       증가율
0      경산      128560    108047.0  0.189853
1      경주     2153350   1764394.0  0.220447
2      계룡      262445    226092.0  0.160789
3      곡성       93847     81664.0  0.149184
4      공주      287088    217530.0  0.319763
5      광명    11718891   9834349.0  0.191629
6    광주송정     4862628   4176882.0  0.164177
7     구례구      106266     93817.0  0.132695
8      구미           1         NaN       NaN
9      구포      891933    706040.0  0.263290
10     김제       30215     26894.0  0.123485
11   김천구미     2189257   1895161.0  0.155183
12     나주      756840    695227.0  0.088623
13     남원      483580    417083.0  0.159433
14     논산      268707    220414.0  0.219101
15     대구           1         1.0  0.000000
16     대전    11598990   9762345.0  0.188136
17    동대구    12729324  11232702.0  0.133238
18     마산      921383    806151.0  0.142941
19     목포     1711126   1545596.0  0.107098
20     물금        3579         NaN       NaN
21     밀양      589587    513455.

In [15]:
N = 8000000  # 최소 기준 인원 (800만 명)

df_candidates = df_inc.loc[df_inc["total_2023"]>=N,]
print(df_candidates.head(100))

      역명  total_2023  total_2022       증가율
5     광명    11718891   9834349.0  0.191629
16    대전    11598990   9762345.0  0.188136
17   동대구    12729324  11232702.0  0.133238
22    부산    13176729  10224377.0  0.288756
25    서울    32630853  26755372.0  0.219600
32    오송     8407695   7066555.0  0.189787
34    용산    10749689   9064579.0  0.185901
45  천안아산     8681334   7456112.0  0.164325


In [16]:
df_sorted = df_candidates.sort_values("증가율", ascending=False).reset_index(drop=True)
print(df_sorted.head(100))

     역명  total_2023  total_2022       증가율
0    부산    13176729  10224377.0  0.288756
1    서울    32630853  26755372.0  0.219600
2    광명    11718891   9834349.0  0.191629
3    오송     8407695   7066555.0  0.189787
4    대전    11598990   9762345.0  0.188136
5    용산    10749689   9064579.0  0.185901
6  천안아산     8681334   7456112.0  0.164325
7   동대구    12729324  11232702.0  0.133238


In [12]:
print(df_sorted[:3])

   역명  total_2023  total_2022       증가율
0  부산    13176729  10224377.0  0.288756
1  서울    32630853  26755372.0  0.219600
2  광명    11718891   9834349.0  0.191629
