In [17]:
import pandas as pd

# 1. CSV 파일 불러오기
file_path = 'data/혼잡도_2022_통합.csv'
df = pd.read_csv(file_path, encoding='utf-8')  # 필요시 'euc-kr'로 변경

# 2. 기본 정보 확인
print("✅ 데이터 미리보기")
display(df.head())

print("\n📌 컬럼 정보")
print(df.columns)

print("\n📌 결측치 개수")
print(df.isnull().sum())

print("\n📌 데이터 타입")
print(df.dtypes)

✅ 데이터 미리보기


Unnamed: 0,tm,line,station_number,name,direction,stn,TMP,wd,WSD,rn_day,PCP,REH,si,ta_chi,congestion,year,month,day,hour,datetime
0,2022010100,1,150,서울역,상선,419,-9.4,61.0,3.5,0.0,0.0,34.0,-99.0,-12.8,0,2022,1,1,0,2022-01-01 00:00:00
1,2022010101,1,150,서울역,상선,419,-9.4,39.4,2.0,0.0,0.0,35.8,-99.0,-10.4,0,2022,1,1,1,2022-01-01 00:01:00
2,2022010105,1,150,서울역,상선,419,-9.7,350.9,0.9,0.0,0.0,44.5,-99.0,-10.8,2,2022,1,1,5,2022-01-01 00:05:00
3,2022010106,1,150,서울역,상선,419,-9.4,139.6,0.5,0.0,0.0,43.4,-99.0,-11.0,5,2022,1,1,6,2022-01-01 00:06:00
4,2022010107,1,150,서울역,상선,419,-10.1,173.6,2.7,0.0,0.0,49.2,-99.0,-10.9,4,2022,1,1,7,2022-01-01 00:07:00



📌 컬럼 정보
Index(['tm', 'line', 'station_number', 'name', 'direction', 'stn', 'TMP', 'wd',
       'WSD', 'rn_day', 'PCP', 'REH', 'si', 'ta_chi', 'congestion', 'year',
       'month', 'day', 'hour', 'datetime'],
      dtype='object')

📌 결측치 개수
tm                    0
line                  0
station_number        0
name                  0
direction             0
stn                   0
TMP               37922
wd                    0
WSD               49768
rn_day                0
PCP               89830
REH               42860
si                    0
ta_chi                0
congestion            0
year                  0
month                 0
day                   0
hour                  0
datetime              0
dtype: int64

📌 데이터 타입
tm                  int64
line                int64
station_number      int64
name               object
direction          object
stn                 int64
TMP               float64
wd                float64
WSD               float64
rn_day            floa

In [18]:
# 필요 없는 컬럼 삭제: wd(풍향), rn_day(일강수량)
df.drop(columns=['wd', 'rn_day'], inplace=True)

# 삭제 후 컬럼 목록 확인
print("📌 컬럼 목록 (삭제 후)")
print(df.columns)

📌 컬럼 목록 (삭제 후)
Index(['tm', 'line', 'station_number', 'name', 'direction', 'stn', 'TMP',
       'WSD', 'PCP', 'REH', 'si', 'ta_chi', 'congestion', 'year', 'month',
       'day', 'hour', 'datetime'],
      dtype='object')


In [19]:
nxy_path = 'data/지하철역_nxy_정제본.csv'
nxy_df = pd.read_csv(nxy_path, encoding='utf-8-sig')  # 필요시 'euc-kr'로

# 미리보기
print("🗺️ 역 좌표 데이터 미리보기")
display(nxy_df.head())

🗺️ 역 좌표 데이터 미리보기


Unnamed: 0,id,name,address,roadAddress,displayCode,displayName,city_id,city_name,point_x,point_y,routeType_id,routeType_name,transfers,nx,ny
0,100,소요산,경기도 동두천시 상봉암동 126-3,경기도 동두천시 평화로 2925,100,소요산역,1000,서울,127.061049,37.948747,1,1호선,,61,135
1,70134,노포,부산광역시 금정구 노포동 133,부산광역시 금정구 중앙대로 2238,134,노포역,7000,부산,129.094817,35.283594,71,1호선,,98,78
2,40146,안심,대구광역시 동구 괴전동 536-1,대구광역시 동구 안심로 455,146,안심역,4000,대구,128.733868,35.871249,41,1호선,,91,91
3,50129,평동,광주광역시 광산구 월전동 51-23,광주광역시 광산구 평동로 870,119,평동역,5000,광주,126.769559,35.124754,51,1호선,,57,74
4,30122,반석,대전광역시 유성구 반석동 685,대전광역시 유성구 북유성대로 303,122,반석역,3000,대전,127.314616,36.392128,31,1호선,,66,101


In [20]:
# name 기준으로 혼잡도 df에 nx, ny 병합
df = df.merge(nxy_df[['name', 'nx', 'ny']], on='name', how='left')

# 병합 결과 확인
print("✅ 병합 완료. 좌표 정보 추가된 미리보기")
display(df[['name', 'nx', 'ny']].head())

✅ 병합 완료. 좌표 정보 추가된 미리보기


Unnamed: 0,name,nx,ny
0,서울역,60.0,126.0
1,서울역,60.0,126.0
2,서울역,60.0,126.0
3,서울역,60.0,126.0
4,서울역,60.0,126.0


In [None]:
# nx 또는 ny가 결측(NaN)인 경우 필터링
missing_coords = df[df['nx'].isna() | df['ny'].isna()]

# 중복 제거된 역 이름만 추출
missing_station_names = missing_coords['name'].dropna().unique()

# 결과 출력
print("❌ nx, ny 좌표가 없는 역 목록:")
for name in missing_station_names:
    print(f"- {name}")

# 전체 개수도 같이 보기
print(f"\n총 {len(missing_station_names)}개 역에서 좌표가 누락되었습니다.")

❌ nx, ny 좌표가 없는 역 목록:
- 신촌(지하)
- 성수E
- 응암S

총 3개 역에서 좌표가 누락되었습니다.


In [22]:
# '신촌'이 포함된 역명 검색
contains_sinchon = df[df['name'].str.contains('신촌', na=False)]

# 중복 제거 후 역명 리스트 출력
sinchon_stations = contains_sinchon['name'].dropna().unique()

print("🔍 '신촌'이 포함된 지하철역 목록:")
for name in sinchon_stations:
    print(f"- {name}")


🔍 '신촌'이 포함된 지하철역 목록:
- 신촌(지하)


In [23]:
# '신촌(지하)' → '신촌'으로 역명 변경
df['name'] = df['name'].replace('신촌(지하)', '신촌')

In [29]:
# 2호선 + 신촌 조건의 역 정보 추출
sinchon_nxy = nxy_df[(nxy_df['routeType_name'] == '2호선') & (nxy_df['name'] == '신촌')]

print("📍 2호선 신촌역 (nxy) 좌표 정보:")
display(sinchon_nxy)

📍 2호선 신촌역 (nxy) 좌표 정보:


Unnamed: 0,id,name,address,roadAddress,displayCode,displayName,city_id,city_name,point_x,point_y,routeType_id,routeType_name,transfers,nx,ny
623,240,신촌,서울특별시 마포구 노고산동 31-11,서울특별시 마포구 신촌로 90,240,신촌역,1000,서울,126.936849,37.555183,2,2호선,,59,126


In [31]:
# 1. nxy_df에서 '2호선 신촌역' 좌표 추출
sinchon_coords = nxy_df[(nxy_df['routeType_name'] == '2호선') & (nxy_df['name'] == '신촌')]

# 2. 좌표값 추출
sinchon_nx = sinchon_coords['nx'].values[0]
sinchon_ny = sinchon_coords['ny'].values[0]

# 3. 혼잡도 df에서 '신촌' 역 전체에 좌표 할당
df.loc[df['name'] == '신촌', 'nx'] = sinchon_nx
df.loc[df['name'] == '신촌', 'ny'] = sinchon_ny

In [32]:
# 좌표가 잘 들어갔는지 확인
df[df['name'] == '신촌'][['name', 'nx', 'ny']].drop_duplicates()

Unnamed: 0,name,nx,ny
207900,신촌,59.0,126.0


In [33]:
# 제거할 키워드 리스트 (역 이름의 일부)
keywords_to_remove = ['성수E', '응암S']

# 각 키워드가 포함된 행 제거
for keyword in keywords_to_remove:
    df = df[~df['name'].str.contains(keyword, na=False)]

print(f"✅ 삭제 완료: 다음 키워드가 포함된 역들 → {keywords_to_remove}")

✅ 삭제 완료: 다음 키워드가 포함된 역들 → ['성수E', '응암S']


In [34]:
output_path = 'data/혼잡도_2022_정제.csv'
df.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"📁 저장 완료: {output_path}")

📁 저장 완료: data/혼잡도_2022_정제.csv


In [35]:
import pandas as pd

# 1. CSV 파일 불러오기
file_path = 'data/혼잡도_2023_통합.csv'
df = pd.read_csv(file_path, encoding='utf-8')  # 필요시 'euc-kr'로 변경

# 2. 기본 정보 확인
print("✅ 데이터 미리보기")
display(df.head())

print("\n📌 컬럼 정보")
print(df.columns)

print("\n📌 결측치 개수")
print(df.isnull().sum())

print("\n📌 데이터 타입")
print(df.dtypes)

✅ 데이터 미리보기


Unnamed: 0,tm,line,station_number,name,direction,stn,TMP,wd,WSD,rn_day,PCP,REH,si,ta_chi,congestion,year,month,day,hour,datetime
0,2023010100,1,150,서울역,상선,419,0.3,318.0,3.4,0.0,0.0,66.5,-99.0,0.7,0,2023,1,1,0,2023-01-01 00:00:00
1,2023010101,1,150,서울역,상선,419,0.6,293.8,3.4,0.0,0.0,67.5,-99.0,-0.6,0,2023,1,1,1,2023-01-01 00:01:00
2,2023010105,1,150,서울역,상선,419,-0.8,29.6,3.7,0.0,0.0,55.1,-99.0,-2.2,3,2023,1,1,5,2023-01-01 00:05:00
3,2023010106,1,150,서울역,상선,419,-1.8,48.1,3.4,0.0,0.0,62.8,-99.0,-4.0,6,2023,1,1,6,2023-01-01 00:06:00
4,2023010107,1,150,서울역,상선,419,-2.6,21.4,2.9,0.0,0.0,68.8,-99.0,-2.8,5,2023,1,1,7,2023-01-01 00:07:00



📌 컬럼 정보
Index(['tm', 'line', 'station_number', 'name', 'direction', 'stn', 'TMP', 'wd',
       'WSD', 'rn_day', 'PCP', 'REH', 'si', 'ta_chi', 'congestion', 'year',
       'month', 'day', 'hour', 'datetime'],
      dtype='object')

📌 결측치 개수
tm                     0
line                   0
station_number         0
name                   0
direction              0
stn                    0
TMP               105748
wd                     0
WSD               108468
rn_day                 0
PCP               148548
REH               106130
si                     0
ta_chi                 0
congestion             0
year                   0
month                  0
day                    0
hour                   0
datetime               0
dtype: int64

📌 데이터 타입
tm                  int64
line                int64
station_number      int64
name               object
direction          object
stn                 int64
TMP               float64
wd                float64
WSD               float64
rn

In [36]:
# 필요 없는 컬럼 삭제: wd(풍향), rn_day(일강수량)
df.drop(columns=['wd', 'rn_day'], inplace=True)

# 삭제 후 컬럼 목록 확인
print("📌 컬럼 목록 (삭제 후)")
print(df.columns)

📌 컬럼 목록 (삭제 후)
Index(['tm', 'line', 'station_number', 'name', 'direction', 'stn', 'TMP',
       'WSD', 'PCP', 'REH', 'si', 'ta_chi', 'congestion', 'year', 'month',
       'day', 'hour', 'datetime'],
      dtype='object')


In [37]:
nxy_path = 'data/지하철역_nxy_정제본.csv'
nxy_df = pd.read_csv(nxy_path, encoding='utf-8-sig')  # 필요시 'euc-kr'로

# 미리보기
print("🗺️ 역 좌표 데이터 미리보기")
display(nxy_df.head())

🗺️ 역 좌표 데이터 미리보기


Unnamed: 0,id,name,address,roadAddress,displayCode,displayName,city_id,city_name,point_x,point_y,routeType_id,routeType_name,transfers,nx,ny
0,100,소요산,경기도 동두천시 상봉암동 126-3,경기도 동두천시 평화로 2925,100,소요산역,1000,서울,127.061049,37.948747,1,1호선,,61,135
1,70134,노포,부산광역시 금정구 노포동 133,부산광역시 금정구 중앙대로 2238,134,노포역,7000,부산,129.094817,35.283594,71,1호선,,98,78
2,40146,안심,대구광역시 동구 괴전동 536-1,대구광역시 동구 안심로 455,146,안심역,4000,대구,128.733868,35.871249,41,1호선,,91,91
3,50129,평동,광주광역시 광산구 월전동 51-23,광주광역시 광산구 평동로 870,119,평동역,5000,광주,126.769559,35.124754,51,1호선,,57,74
4,30122,반석,대전광역시 유성구 반석동 685,대전광역시 유성구 북유성대로 303,122,반석역,3000,대전,127.314616,36.392128,31,1호선,,66,101


In [38]:
# name 기준으로 혼잡도 df에 nx, ny 병합
df = df.merge(nxy_df[['name', 'nx', 'ny']], on='name', how='left')

# 병합 결과 확인
print("✅ 병합 완료. 좌표 정보 추가된 미리보기")
display(df[['name', 'nx', 'ny']].head())

✅ 병합 완료. 좌표 정보 추가된 미리보기


Unnamed: 0,name,nx,ny
0,서울역,60.0,126.0
1,서울역,60.0,126.0
2,서울역,60.0,126.0
3,서울역,60.0,126.0
4,서울역,60.0,126.0


In [39]:
# nx 또는 ny가 결측(NaN)인 경우 필터링
missing_coords = df[df['nx'].isna() | df['ny'].isna()]

# 중복 제거된 역 이름만 추출
missing_station_names = missing_coords['name'].dropna().unique()

# 결과 출력
print("❌ nx, ny 좌표가 없는 역 목록:")
for name in missing_station_names:
    print(f"- {name}")

# 전체 개수도 같이 보기
print(f"\n총 {len(missing_station_names)}개 역에서 좌표가 누락되었습니다.")

❌ nx, ny 좌표가 없는 역 목록:
- 신촌(지하)
- 성수E
- 응암S
- 청산
- 전곡
- 연천

총 6개 역에서 좌표가 누락되었습니다.


In [40]:
# '신촌'이 포함된 역명 검색
contains_sinchon = df[df['name'].str.contains('신촌', na=False)]

# 중복 제거 후 역명 리스트 출력
sinchon_stations = contains_sinchon['name'].dropna().unique()

print("🔍 '신촌'이 포함된 지하철역 목록:")
for name in sinchon_stations:
    print(f"- {name}")

🔍 '신촌'이 포함된 지하철역 목록:
- 신촌(지하)


In [41]:
# '신촌(지하)' → '신촌'으로 역명 변경
df['name'] = df['name'].replace('신촌(지하)', '신촌')

In [42]:
# 1. nxy_df에서 '2호선 신촌역' 좌표 추출
sinchon_coords = nxy_df[(nxy_df['routeType_name'] == '2호선') & (nxy_df['name'] == '신촌')]

# 2. 좌표값 추출
sinchon_nx = sinchon_coords['nx'].values[0]
sinchon_ny = sinchon_coords['ny'].values[0]

# 3. 혼잡도 df에서 '신촌' 역 전체에 좌표 할당
df.loc[df['name'] == '신촌', 'nx'] = sinchon_nx
df.loc[df['name'] == '신촌', 'ny'] = sinchon_ny

In [43]:
# 좌표가 잘 들어갔는지 확인
df[df['name'] == '신촌'][['name', 'nx', 'ny']].drop_duplicates()

Unnamed: 0,name,nx,ny
214830,신촌,59.0,126.0


In [44]:
# 제거할 키워드 리스트 (역 이름의 일부)
keywords_to_remove = ['성수E', '응암S']

# 각 키워드가 포함된 행 제거
for keyword in keywords_to_remove:
    df = df[~df['name'].str.contains(keyword, na=False)]

print(f"✅ 삭제 완료: 다음 키워드가 포함된 역들 → {keywords_to_remove}")

✅ 삭제 완료: 다음 키워드가 포함된 역들 → ['성수E', '응암S']


In [47]:
# 조회할 역 리스트
target_stations = ['청산', '전곡', '연천']

# 해당 역만 필터링
df_stations = df[df['name'].isin(target_stations)]

# 결과 미리보기
print(f"🔍 포함된 행 수: {len(df_stations)}")
display(df_stations[['name', 'line', 'year', 'month', 'day', 'hour']].drop_duplicates().sort_values(by=['name', 'year', 'month', 'day', 'hour']).head(10))


🔍 포함된 행 수: 2016


Unnamed: 0,name,line,year,month,day,hour
7720730,연천,1,2023,12,16,0
7720731,연천,1,2023,12,16,1
7720732,연천,1,2023,12,16,5
7720733,연천,1,2023,12,16,6
7720734,연천,1,2023,12,16,7
7720735,연천,1,2023,12,16,8
7720736,연천,1,2023,12,16,9
7720737,연천,1,2023,12,16,10
7720738,연천,1,2023,12,16,11
7720739,연천,1,2023,12,16,12


In [48]:
import numpy as np

# 새 역 목록과 위경도 정보
coords = {
    '청산': {'lat': 37.99365314, 'lon': 127.07289117},
    '전곡': {'lat': 38.02458719, 'lon': 127.07135565},
    '연천': {'lat': 38.10154647, 'lon': 127.07422939}
}

# 격자 좌표 변환 함수
def latlon_to_grid(lat, lon):
    RE = 6371.00877  # Earth radius (km)
    GRID = 5.0       # Grid spacing (km)
    SLAT1 = 30.0     # Projection latitude 1 (degree)
    SLAT2 = 60.0     # Projection latitude 2 (degree)
    OLON = 126.0     # Reference longitude (degree)
    OLAT = 38.0      # Reference latitude (degree)
    XO = 43          # Reference point X
    YO = 136         # Reference point Y

    DEGRAD = np.pi / 180.0
    re = RE / GRID
    slat1 = SLAT1 * DEGRAD
    slat2 = SLAT2 * DEGRAD
    olon = OLON * DEGRAD
    olat = OLAT * DEGRAD

    sn = np.tan(np.pi * 0.25 + slat2 * 0.5) / np.tan(np.pi * 0.25 + slat1 * 0.5)
    sn = np.log(np.cos(slat1) / np.cos(slat2)) / np.log(sn)
    sf = np.tan(np.pi * 0.25 + slat1 * 0.5)
    sf = (sf ** sn * np.cos(slat1)) / sn
    ro = np.tan(np.pi * 0.25 + olat * 0.5)
    ro = re * sf / (ro ** sn)

    ra = np.tan(np.pi * 0.25 + lat * DEGRAD * 0.5)
    ra = re * sf / (ra ** sn)
    theta = lon * DEGRAD - olon
    if theta > np.pi:
        theta -= 2.0 * np.pi
    if theta < -np.pi:
        theta += 2.0 * np.pi
    theta *= sn

    x = ra * np.sin(theta) + XO
    y = ro - ra * np.cos(theta) + YO

    return int(x + 1.5), int(y + 1.5)

# 혼잡도 df에 좌표 반영
for station, pos in coords.items():
    nx, ny = latlon_to_grid(pos['lat'], pos['lon'])
    df.loc[df['name'] == station, 'nx'] = nx
    df.loc[df['name'] == station, 'ny'] = ny

# 결과 확인
print(df[df['name'].isin(coords.keys())][['name', 'nx', 'ny']].drop_duplicates())

        name    nx     ny
7719386   청산  62.0  137.0
7720058   전곡  62.0  138.0
7720730   연천  62.0  139.0


In [49]:
# 저장 경로 설정
output_path = 'data/혼잡도_2022_최종정제본.csv'

# CSV로 저장 (Excel에서도 한글 깨짐 없이 열리도록 utf-8-sig 인코딩 사용)
df.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"📁 저장 완료: {output_path}")

📁 저장 완료: data/혼잡도_2022_최종정제본.csv
