#### 전주 데이터셋 확인

In [32]:
import numpy as np
import pandas as pd
from freeman.aiddd.data_manager import read_data

In [3]:
%%time
df_data = read_data('2nd provide pole')
df_data.shape

CPU times: user 17.2 s, sys: 40 ms, total: 17.2 s
Wall time: 17.2 s


(38390, 63)

In [4]:
# 한개의 값으로 구성된 컬럼 제거
nunique_per_column = df_data.nunique()
single_value_column_list = nunique_per_column[nunique_per_column == 1].index
df_data.drop(columns=single_value_column_list, axis=1, inplace=True)

# 결과확인
print(
    f'Number of Drop Columns: {len(single_value_column_list)}\n'
    f'Columns: {[col for col in single_value_column_list]}\n'
    f'Data shape: {df_data.shape}'
)

Number of Drop Columns: 16
Columns: ['공사변경순번', '공사구분코드', '공사성격코드', '전주수량', '도색판공사특성코드', '전주버팀목공사특성코드', '철주철탑중량', '각입중량', '잔토처리여부', '기설설비유실여부', '선로순시여부', '조류둥지철거여부', '아라미드공법여부', '선로순시횟수', '조류둥지철거수량', '고강도전주_영업배전_공사성격']
Data shape: (38390, 47)


In [5]:
for _column_name in df_data.columns:
    print(df_data[_column_name].value_counts().sort_values(ascending=False))

공사번호
476920213694    106
477420193177    100
477420193089     55
442720203885     51
476920204407     48
               ... 
477420213335      1
474620225316      1
474620225259      1
477420213327      1
474620234659      1
Name: count, Length: 18313, dtype: int64
전산화번호
6304S412    2
6787D042    1
7298B392    1
7298B422    1
7298B441    1
           ..
4000Q262    1
3496F851    1
3801A842    1
3302X561    1
3899W931    1
Name: count, Length: 38389, dtype: int64
GISID
262913093    1
262913073    1
262913071    1
262913099    1
262913083    1
            ..
401866975    1
405460980    1
409085086    1
405727377    1
405998316    1
Name: count, Length: 38390, dtype: int64
전주순번
0    38389
1        1
Name: count, dtype: int64
전주형태코드
O    37068
G     1194
V      121
H        7
Name: count, dtype: int64
전주종류코드
C    29998
H     7744
B      468
E       28
1       19
M        4
R        3
2        2
Q        2
Name: count, dtype: int64
전주규격코드
10.0    21448
12.0     7312
16.0     6412
14.0     2

#### 질문사항:
* `전주형태코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `전주종류코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `전주규격코드`는 지형지물이나 거리 등 지리적 요건으로 자동 지정이 가능한가?
* `전주버팀목수량`은 경로상의 전주간 각도 등으로 추정 가능한가?
* `전주버팀목종류코드`는 경로상의 전주간 각도 등으로 추정 가능한가?
* `암반율코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `암반종류코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `풍속`은 어떤값을 지정하나? 자동으로 지정할 수 있나? 해당 지역의 년평균풍속이라든지?
* `지반코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `전주깊이`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `점용위치코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `점용구분코드`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?
* `고강도전주사용유무`는 지형지물이나 기타 지리적 요건으로 자동 지정이 가능한가?

#### 전산화번호

In [6]:
df_data[df_data['전산화번호']=='6304S412']

Unnamed: 0,공사번호,전산화번호,GISID,전주순번,전주형태코드,전주종류코드,전주규격코드,도색판종류코드,전주버팀목수량,번호판구분코드,...,H빔공사성격코드,고강도전주사용유무,전주오름볼트사용여부,사업소명,접수종류코드,접수종류명,공사형태코드,공사형태명,계약전력,X좌표-Y좌표
21494,474920213231,6304S412,343215190,0,O,C,10.0,C,1,P,...,,N,,제천지사,11,신설(상용/임시),2,외선소요,3,"14267172.175975,4461824.25581191,1,0"
21925,474920213966,6304S412,351541314,0,O,C,10.0,C,1,P,...,,N,,제천지사,11,신설(상용/임시),2,외선소요,5,"14267214.0920556,4461787.72958481,1,0"


In [8]:
df_data_no_442720203885 = df_data[df_data['공사번호']=='442720203885']

In [10]:
df_data_xy = df_data[['공사번호', '전산화번호', 'GISID', 'X좌표-Y좌표']]

In [11]:
df_data_xy.iloc[0]['X좌표-Y좌표']

'14289801.7912967,4449034.10434287,1,0'

In [13]:
df_data_xy = df_data_xy.copy()
df_data_xy[['x', 'y', 'one', 'zero']] = \
    df_data_xy['X좌표-Y좌표'].str.split(',', expand=True)

In [15]:
for _key in ['one', 'zero']:
    print(df_data_xy[_key].value_counts())

one
1    38390
Name: count, dtype: int64
zero
0    38390
Name: count, dtype: int64


In [16]:
df_data_xy_sorted = df_data_xy.copy()
df_data_xy_sorted = df_data_xy_sorted.sort_values(by=['공사번호', '전산화번호'])

In [19]:
_check_idx = 0
for _idx, _row in df_data_xy_sorted.iterrows():
    print(_idx, _row.values)
    if _check_idx > 3:
        break
    _check_idx += 1

2811 ['442720173009' '2274E946' 240001222
 '14193002.1108434,4388890.30222702,1,0' '14193002.1108434'
 '4388890.30222702' '1' '0']
2812 ['442720173009' '2275W532' 287818448
 '14192759.7965464,4390079.4163759,1,0' '14192759.7965464'
 '4390079.4163759' '1' '0']
2813 ['442720173009' '2275W541' 240558929
 '14192757.370998,4390092.38811853,1,0' '14192757.370998'
 '4390092.38811853' '1' '0']
2814 ['442720173009' '2275Y462' 264545249
 '14192706.7397098,4389631.09393951,1,0' '14192706.7397098'
 '4389631.09393951' '1' '0']
2815 ['442720173789' '3473Q202' 317322580
 '14221835.1393864,4384695.19306763,1,0' '14221835.1393864'
 '4384695.19306763' '1' '0']


In [24]:
# 전산화번호로 정렬된 상태에서
# 같은 공사번호인 경우 인덱스 순서가 다른(이전 인덱스가 현재 인덱스보다 큰) 레코드 확인
prev_const_no = 0
prev_index_no = 0
prev_row = None

check_result = []
for index, row in df_data_xy_sorted.iterrows():
    current_const_no = row['공사번호']
    if prev_const_no == current_const_no and index < prev_index_no:
        prev_values = [1, prev_index_no] + prev_row.values
        current_values = [2, index] + row.values
        check_result.append(prev_values)
        check_result.append(current_values)
    prev_const_no = current_const_no
    prev_index_no = index
    prev_row = row

* 전산화번호로 정렬한 경우 인덱스가 역전된 경우가 없는것을 보니 전산화번호순으로 전주 순서가 생성되는것 같음

#### GISID

In [25]:
df_data_xy_sorted = df_data_xy_sorted.sort_values(by=['공사번호', 'GISID'])

In [45]:
# GISID로 정렬된 상태에서
# 같은 공사번호인 경우 인덱스 순서가 다른(이전 인덱스가 현재 인덱스보다 큰) 레코드 확인
prev_const_no = 0
prev_index_no = 0
prev_row = None

check_result = []
for index, row in df_data_xy_sorted.iterrows():
    current_const_no = row['공사번호']
    if prev_const_no == current_const_no and index < prev_index_no:
        prev_values_head = np.array([1, prev_index_no])
        prev_values = [1, prev_index_no] + prev_row.values.tolist()
        # current_values_head = np.array([2, index])
        # current_values = np.concatenate((current_values_head, row.values), axis=None)
        current_values = [2, index] + row.values.tolist()
        check_result.append(prev_values)
        check_result.append(current_values)
    prev_const_no = current_const_no
    prev_index_no = index
    prev_row = row

In [46]:
column_names = ['순서', '인덱스'] + df_data_xy_sorted.columns.to_list()
df_check_result = pd.DataFrame(check_result, columns=column_names)

* GISID로는 인덱스가 일정하지 않음, 지도에 찍어봐야 알 수 있나?