In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from matplotlib.ticker import PercentFormatter
from matplotlib.colors import Normalize

In [2]:
# 폰트 설정
import matplotlib as mpl
import matplotlib.font_manager as fm

font_path = r"C:\Windows\Fonts\malgun.ttf"  
font_prop = fm.FontProperties(fname=font_path)
mpl.rcParams['font.family'] = font_prop.get_name()
mpl.rcParams['axes.unicode_minus'] = False

In [27]:
# data load
df = pd.read_excel(r'..\datasets\250716.xlsx')
df_geo_new = pd.read_csv(r'..\datasets\df_geo_new.csv') # 위경도 좌표

print(df.head())
print(df_geo_new.head())

   순번                   출발지 주소              중간집결지 주소            최종 도착지 주소  \
0   1  경기도 고양시 덕양구 중앙로633번길 12   경기도 고양시 덕양구 혜음로 142  경기도 고양시 덕양구 혜음로 142   
1   2   대구광역시 서구 북비산로61길 20-24      경상북도 경주시 태종로 516  경기도 고양시 덕양구 동헌로 305   
2   3   서울특별시 양천구 목동중앙본로11길 19  서울특별시 서초구 사평대로45길 26  강원특별자치도 동해시 대동로 430   
3   4        서울특별시 강남구 학동로 432       경기도 과천시 중앙로 294      경기도 과천시 중앙로 294   
4   5         대구광역시 남구 명덕로 236      대구광역시 수성구 무열로 56     대구광역시 수성구 무열로 56   

    중간집결 기한    최종도착 기한 이동방법  
0  0+1일 14시   0+1일 14시   개별  
1  0+28일 9시  0+28일 14시   집단  
2   0+3일 8시   0+3일 14시   집단  
3  0+1일 14시   0+1일 14시   개별  
4  0+3일 14시   0+3일 14시   개별  
   num  start_lat   start_lng    mid_lat     mid_lng    end_lat     end_lng
0    1  37.626949  126.827581  37.713020  126.902443  37.713020  126.902443
1    2  35.881731  128.567540  35.839566  129.185196  37.713651  126.889915
2    3  37.540484  126.867756  37.506451  127.012692  37.503393  129.130509
3    4  37.517981  127.048764  37.441493  126.996973 

In [28]:
# Merge
df_merge = pd.merge(df, df_geo_new, left_on = '순번', right_on = 'num', how = 'left').drop(columns = ['num'])

print(df_merge.head(3))
print(df_merge.tail(3))

   순번                   출발지 주소              중간집결지 주소            최종 도착지 주소  \
0   1  경기도 고양시 덕양구 중앙로633번길 12   경기도 고양시 덕양구 혜음로 142  경기도 고양시 덕양구 혜음로 142   
1   2   대구광역시 서구 북비산로61길 20-24      경상북도 경주시 태종로 516  경기도 고양시 덕양구 동헌로 305   
2   3   서울특별시 양천구 목동중앙본로11길 19  서울특별시 서초구 사평대로45길 26  강원특별자치도 동해시 대동로 430   

    중간집결 기한    최종도착 기한 이동방법  start_lat   start_lng    mid_lat     mid_lng  \
0  0+1일 14시   0+1일 14시   개별  37.626949  126.827581  37.713020  126.902443   
1  0+28일 9시  0+28일 14시   집단  35.881731  128.567540  35.839566  129.185196   
2   0+3일 8시   0+3일 14시   집단  37.540484  126.867756  37.506451  127.012692   

     end_lat     end_lng  
0  37.713020  126.902443  
1  37.713651  126.889915  
2  37.503393  129.130509  
            순번                    출발지 주소               중간집결지 주소  \
815772  815773      광주광역시 광산구 장신로19번길 10       광주광역시 북구 우치로 339   
815773  815774        서울특별시 동작구 사당로8길 55  서울특별시 강동구 양재대로156길 11   
815774  815775  경기도 성남시 중원구 자혜로17번길 42-3     강원특별자치도 원주시 연세대길 1   

     

In [30]:
# statistics
print(df_merge.shape)
print(df_merge['이동방법'].value_counts())

# 위경도 NA 확인
num_na = df_merge.isna().any(axis = 1).sum()
mask = df_merge.isna().any(axis = 1)
print('num_na:', num_na)

df_na = df_merge[mask].copy().reset_index(drop = True)
print(df_na)
# 변환안된 것: 16,233행

df_na.to_csv('df_na.csv', index = False, encoding = 'cp949')

(815775, 13)
이동방법
개별    412505
집단    403270
Name: count, dtype: int64
num_na: 7603
          순번                    출발지 주소                중간집결지 주소  \
0        299          서울특별시 광진구 능동로 69      서울특별시 광진구 강변북로 139   
1        391           충청남도 당진시 동부로 99       충청남도 계룡시 계룡대로 750   
2       1125  경기도 동두천시 아차노리로52번길 36-15     경기도 동두천시 어등로 어등로 45   
3       1293       경상북도 경주시 외외1길 112-4    경상북도 안동시 경동로 경동로 371   
4       1693   경기도 성남시 중원구 둔촌대로63번길 11  경기도 성남시 분당구 대왕판교로 1210   
...      ...                       ...                     ...   
7598  814825    경기도 고양시 일산서구 일현로 97-11   경기도 고양시 일산서구 중앙로 1601   
7599  814927  경기도 용인시 기흥구 서천동로43번길 9-6    충청남도 보령시 해망산길 288-39   
7600  815021           대전광역시 서구 관저로 84       충청남도 계룡시 계룡대로 750   
7601  815029        서울특별시 동대문구 사가정로 65      서울특별시 광진구 강변북로 139   
7602  815453        대전광역시 서구 도솔로 497-1       충청남도 계룡시 계룡대로 750   

                       최종 도착지 주소    중간집결 기한    최종도착 기한 이동방법  start_lat  \
0           강원특별자치도 철원군 금강산로 858    0+4일 9시   0+4일

In [None]:
# # 주소 제거
# import re

# def cut_addr(string):
#     # 맨 끝에 ' 공백 + 숫자+ (옵션: -숫자+)' 제거

#     return re.sub(r'\s+\d+(?:-\d+)?$', '', string)

# # 주소 수정
# mask1 = df_na['start_lat'].isna() | df_na['start_lng'].isna()
# mask2 = df_na['mid_lat'].isna() | df_na['mid_lng'].isna()
# mask3 = df_na['end_lat'].isna() | df_na['end_lng'].isna()

# df_na.loc[mask1, '출발주소_수정'] = df_na.loc[mask1, '출발지 주소'].apply(cut_addr)
# df_na.loc[mask2, '중간주소_수정'] = df_na.loc[mask2, '중간집결지 주소'].apply(cut_addr)
# df_na.loc[mask3, '최종주소_수정'] = df_na.loc[mask3, '최종 도착지 주소'].apply(cut_addr)

# # NA값 채우기
# df_na['출발주소_수정'] = df_na['출발주소_수정'].fillna(df_na['출발지 주소'])
# df_na['중간주소_수정'] = df_na['중간주소_수정'].fillna(df_na['중간집결지 주소'])
# df_na['최종주소_수정'] = df_na['최종주소_수정'].fillna(df_na['최종 도착지 주소'])
# df_na

# df_na.to_csv('df_na2.csv', index = False, encoding = 'cp949')

In [None]:
# print(df_na[df_na['start_lat'].isna()]['출발지 주소'].nunique())
# print(df_na[df_na['start_lat'].isna()]['출발지 주소'].unique())

# print(df_na[df_na['mid_lat'].isna()]['중간집결지 주소'].nunique())
# print(df_na[df_na['mid_lat'].isna()]['중간집결지 주소'].unique())

# print(df_na[df_na['end_lat'].isna()]['최종 도착지 주소'].nunique())
# print(df_na[df_na['end_lat'].isna()]['최종 도착지 주소'].unique())

111
['대전광역시 대덕구 계족로690번길 135' '서울특별시 동작구 등용로12길 25' '대전광역시 유성구 둔곡길 58'
 '경기도 남양주시 훈민로 300' '광주광역시 광산구 신가번영로47번길 8-20' '경기도 시흥시 마유로423번길 1042'
 '충청남도 당진시 석문면 죽림로 45-25' '경기도 고양시 덕양구 호국로1595번길 7676-6'
 '경기도 의정부시 송양로 373-20' '충청남도 서산시 대산읍 정자동2로 393-3'
 '경상남도 창원시 성산구 대원로93번길 24' '부산광역시 사상구 신천대로 34' '경상북도 봉화군 상운면 하눌로 45'
 '경기도 연천군 왕징면 왕산로 678-345' '전라남도 영암군 시종면 고분로 287-60' '서울특별시 중랑구 신내역로1길 20'
 '경기도 양평군 용문면 용문로 25' '강원특별자치도 동해시 이원길 3924-72' '대구광역시 수성구 대학로 2317'
 '광주광역시 북구 수완로9번길 1020' '서울특별시 강동구 양재대로 31-10' '경기도 안성시 대덕면 백제고분로48길 16'
 '서울특별시 광진구 광나루로16길 236' '광주광역시 광산구 신가로40번길 52-11' '경상북도 포항시 북구 이인로 14'
 '서울특별시 은평구 통일로71가길 26-8' '인천광역시 연수구 비류대로232번길 13-8' '서울특별시 중구 다산로 24-9'
 '경기도 하남시 감일순환로 47' '전북특별자치도 전주시 덕진구 기린대로 111' '충청북도 제천시 관전로 84'
 '경기도 하남시 위례순환로 220' '충청남도 천안시 서북구 두정중5길 381' '경기도 김포시 김포한강11로255번길 206'
 '경기도 파주시 탄현면 검산로519번길 101' '서울특별시 중랑구 사가정로39길 253'
 '경기도 수원시 영통구 동수원로146번길 48' '경기도 남양주시 솔샘로47길 189-130'
 '대구광역시 서구 달구벌대로371길 69-7' '충청북도 충주시 동수7길 259-7' '광주광역시 동구 삼정로 1'
 '경기도 동두천시