In [136]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from matplotlib.ticker import PercentFormatter
from matplotlib.colors import Normalize

In [137]:
# 폰트 설정
import matplotlib as mpl
import matplotlib.font_manager as fm

font_path = r"C:\Windows\Fonts\malgun.ttf"  
font_prop = fm.FontProperties(fname=font_path)
mpl.rcParams['font.family'] = font_prop.get_name()
mpl.rcParams['axes.unicode_minus'] = False

In [138]:
# data load
df = pd.read_excel(r'..\datasets\250716.xlsx')
df_geo = pd.read_csv(r'..\datasets\df_geo.csv') # 위경도 좌표

print(df.head())
print(df_geo.head())

   순번                   출발지 주소              중간집결지 주소            최종 도착지 주소  \
0   1  경기도 고양시 덕양구 중앙로633번길 12   경기도 고양시 덕양구 혜음로 142  경기도 고양시 덕양구 혜음로 142   
1   2   대구광역시 서구 북비산로61길 20-24      경상북도 경주시 태종로 516  경기도 고양시 덕양구 동헌로 305   
2   3   서울특별시 양천구 목동중앙본로11길 19  서울특별시 서초구 사평대로45길 26  강원특별자치도 동해시 대동로 430   
3   4        서울특별시 강남구 학동로 432       경기도 과천시 중앙로 294      경기도 과천시 중앙로 294   
4   5         대구광역시 남구 명덕로 236      대구광역시 수성구 무열로 56     대구광역시 수성구 무열로 56   

    중간집결 기한    최종도착 기한 이동방법  
0  0+1일 14시   0+1일 14시   개별  
1  0+28일 9시  0+28일 14시   집단  
2   0+3일 8시   0+3일 14시   집단  
3  0+1일 14시   0+1일 14시   개별  
4  0+3일 14시   0+3일 14시   개별  
   num  start_lat   start_lng    mid_lat     mid_lng    end_lat     end_lng
0    1  37.626949  126.827581  37.713020  126.902443  37.713020  126.902443
1    2  35.881731  128.567540  35.839566  129.185196  37.713651  126.889915
2    3  37.540484  126.867756  37.506451  127.012692  37.503393  129.130509
3    4  37.517981  127.048764  37.441493  126.996973 

In [139]:
# Merge
df_merge = pd.merge(df, df_geo, left_on = '순번', right_on = 'num', how = 'left').drop(columns = ['num'])

print(df_merge.head(3))
print(df_merge.tail(3))

   순번                   출발지 주소              중간집결지 주소            최종 도착지 주소  \
0   1  경기도 고양시 덕양구 중앙로633번길 12   경기도 고양시 덕양구 혜음로 142  경기도 고양시 덕양구 혜음로 142   
1   2   대구광역시 서구 북비산로61길 20-24      경상북도 경주시 태종로 516  경기도 고양시 덕양구 동헌로 305   
2   3   서울특별시 양천구 목동중앙본로11길 19  서울특별시 서초구 사평대로45길 26  강원특별자치도 동해시 대동로 430   

    중간집결 기한    최종도착 기한 이동방법  start_lat   start_lng    mid_lat     mid_lng  \
0  0+1일 14시   0+1일 14시   개별  37.626949  126.827581  37.713020  126.902443   
1  0+28일 9시  0+28일 14시   집단  35.881731  128.567540  35.839566  129.185196   
2   0+3일 8시   0+3일 14시   집단  37.540484  126.867756  37.506451  127.012692   

     end_lat     end_lng  
0  37.713020  126.902443  
1  37.713651  126.889915  
2  37.503393  129.130509  
            순번                    출발지 주소               중간집결지 주소  \
815772  815773      광주광역시 광산구 장신로19번길 10       광주광역시 북구 우치로 339   
815773  815774        서울특별시 동작구 사당로8길 55  서울특별시 강동구 양재대로156길 11   
815774  815775  경기도 성남시 중원구 자혜로17번길 42-3     강원특별자치도 원주시 연세대길 1   

     

In [None]:
# statistics
print(df_merge.shape)
print(df_merge['이동방법'].value_counts())

# 위경도 NA 확인
num_na = df_merge.isna().any(axis = 1).sum()
mask = df_merge.isna().any(axis = 1)
print('num_na:', num_na)

df_na = df_merge[mask].copy().reset_index(drop = True)
print(df_na)
# 변환안된 것: 16,233행
# 사용가능 총: 799,542행

# df_na.to_csv('df_na.csv', index = False, encoding = 'cp949')

(815775, 13)
이동방법
개별    412505
집단    403270
Name: count, dtype: int64
num_na: 16233
           순번                  출발지 주소                  중간집결지 주소  \
0          73   서울특별시 마포구 대흥로24라길 6-8  서울특별시 동대문구 답십리로11길 30-22   
1          82      경기도 안성시 대덕면 내리5길 1      경기도 수원시 영통구 월드컵로 206   
2         128   충청남도 천안시 동남구 수도산공원길 1  충청남도 천안시 동남구 천안대로 429-13   
3         278     충청남도 천안시 동남구 일봉로 17  충청남도 천안시 동남구 천안대로 429-13   
4         283   충청남도 천안시 서북구 부성18로 29  충청남도 천안시 동남구 천안대로 429-13   
...       ...                     ...                       ...   
16228  815580  충청남도 천안시 서북구 두정역동2길 33  충청남도 천안시 동남구 천안대로 429-13   
16229  815585      경기도 화성시 동탄대로시범길 19  서울특별시 동대문구 답십리로11길 30-22   
16230  815602    충청남도 천안시 서북구 불당25로 8  충청남도 천안시 동남구 천안대로 429-13   
16231  815660        서울특별시 강서구 우현로 67  서울특별시 동대문구 답십리로11길 30-22   
16232  815772         충청남도 아산시 실옥로 15  충청남도 천안시 동남구 천안대로 429-13   

                  최종 도착지 주소    중간집결 기한    최종도착 기한 이동방법  start_lat   start_lng  \
0      강원특별자치도 원주시 북원로 3223   

In [141]:
# 주소 제거
import re

def cut_addr(string):
    # 맨 끝에 ' 공백 + 숫자+ (옵션: -숫자+)' 제거

    return re.sub(r'\s+\d+(?:-\d+)?$', '', string)

In [142]:
# 주소 수정
mask1 = df_na['start_lat'].isna() | df_na['start_lng'].isna()
mask2 = df_na['mid_lat'].isna() | df_na['mid_lng'].isna()
mask3 = df_na['end_lat'].isna() | df_na['end_lng'].isna()

df_na.loc[mask1, '출발주소_수정'] = df_na.loc[mask1, '출발지 주소'].apply(cut_addr)
df_na.loc[mask2, '중간주소_수정'] = df_na.loc[mask2, '중간집결지 주소'].apply(cut_addr)
df_na.loc[mask3, '최종주소_수정'] = df_na.loc[mask3, '최종 도착지 주소'].apply(cut_addr)

In [None]:
# NA값 채우기
df_na['출발주소_수정'] = df_na['출발주소_수정'].fillna(df_na['출발지 주소'])
df_na['중간주소_수정'] = df_na['중간주소_수정'].fillna(df_na['중간집결지 주소'])
df_na['최종주소_수정'] = df_na['최종주소_수정'].fillna(df_na['최종 도착지 주소'])
df_na

# df_na.to_csv('df_na2.csv', index = False, encoding = 'cp949')