#### 개요

* 전체 데이터를 대상으로 공통 컬럼 확인

#### 라이브러리 불러오기

In [68]:
import os
import warnings
import numpy as np
import pandas as pd

# 사용자정의 함수: key를 입력하면 해당 데이터를 데이터프레임으로 읽어옴
from aiddd.get_datas import get_data

#### Jupyter 설정

In [2]:
# 엑셀파일을 읽을 때, openpyxl라이브러리에서 스타일관련 오류를 출력하는데, 
# 일반적으로 이 경고는 무시해도 무방하기 때문에 설정을 변경함
warnings.filterwarnings(
    'ignore',
    category=UserWarning,
    module='openpyxl.styles.stylesheet'
)

#### 모든 데이터 불러오기

In [3]:
df = {
    'kbt': {
        '고객': get_data('kbt 고객'),
        '인입선': get_data('kbt 인입선'),
        '장주애자': get_data('kbt 장주애자'),
        '전선': get_data('kbt 전선'),
        '전주': get_data('kbt 전주'),
        '접지': get_data('kbt 접지'),
        '지지선': get_data('kbt 지지선'),
    },
    '공사비': {
        '공사비': get_data('공사비'),
    },
    '기별': {
        '애자': get_data('기별 애자'),
        '인입선': get_data('기별 인입선'),
        '장주': get_data('기별 장주'),
        '전선': get_data('기별 전선'),
        '전주': get_data('기별 전주'),
        '접지': get_data('기별 접지'),
        '지지선': get_data('기별 지지선'),
    },
    '설계': {
        '고객': get_data('설계 고객'),
        '애자': get_data('설계 애자'),
        '인입선': get_data('설계 인입선'),
        '장주': get_data('설계 장주'),
        '전선': get_data('설계 전선'),
        '전주': get_data('설계 전주'),
        '접지': get_data('설계 접지'),
        '지지선': get_data('설계 지지선'),
    },
}

#### 각 데이터셋별 공통 컬럼명 추출

In [20]:
# 각 데이터셋별 공통 컬럼명 추출
for key in df.keys():
    print(f'{key}:')
    common_cols = df[key][list(df[key].keys())[0]].columns
    if len(df[key].keys()) != 1:
        for key2 in list(df[key].keys())[1:]:
            common_cols = [
                col for col in common_cols if col in df[key][key2].columns
            ]
    print(common_cols)
        

kbt:
['CMRM_CD', 'GID', 'FAC_STAT_CD', 'CSNTI_DT', 'LST_RVSE_DT', 'DESN_OBJ_GID']
공사비:
Index(['공사번호', '공사변경순번', '배전공사형태코드', '회사분공사비', '도급분공사비', '자본적금액', '수익적금액',
       '본사분재료비', '외자분재료비', '내자분재료비',
       ...
       '최초등록일시', '최초등록자사번', '최종변경일시', '최종변경자사번', '사업소명', '접수종류코드', '접수종류명',
       '공사형태코드', '공사형태명', '계약전력'],
      dtype='object', length=143)
기별:
['공사단위', '공사번호', '공사변경순번', '전산화번호', '설계설비GID', '배전공사형태코드', '기단위공통순번', '자재번호', '기단위자재수량', '자재단가', '자재연관전개번호', '품번호', '공종코드', '공종규격코드1', '공종규격코드2', '기단위품수량', '기단위동시수량', '기단위전환수량', '직접노무비', '공구손료', '기계경비', '잡재료비', '품연관전개번호', '해설순번', '해설번호', '해설코드1', '해설코드2', '기단위해설값', '해설명', '해설구분코드', '기단위작업계수', '사업소명', '접수종류코드', '접수종류명', '공사형태코드', '공사형태명', '계약전력']
설계:
['공사번호', '공사변경순번', '전산화번호', '공사구분코드', 'GISID', '최초등록일시', '최초등록자사번', '최종변경일시', '최종변경자사번', '사업소명', '접수종류코드', '접수종류명', '공사형태코드', '공사형태명', '계약전력']


#### 데이터셋 간 공통 컬럼명 추출

In [71]:
def get_common_cols(*cols):
    common_cols = df[cols[0]][list(df[cols[0]].keys())[0]].columns
    for key in cols:
        for key2 in list(df[key].keys()):
            common_cols = [
                col for col in common_cols if col in df[key][key2].columns
            ]
    
    return common_cols

In [72]:
get_common_cols('공사비', '기별')

['공사번호',
 '공사변경순번',
 '배전공사형태코드',
 '잡재료비',
 '직접노무비',
 '기계경비',
 '공구손료',
 '사업소명',
 '접수종류코드',
 '접수종류명',
 '공사형태코드',
 '공사형태명',
 '계약전력']

In [73]:
get_common_cols('공사비', '설계')

['공사번호',
 '공사변경순번',
 '최초등록일시',
 '최초등록자사번',
 '최종변경일시',
 '최종변경자사번',
 '사업소명',
 '접수종류코드',
 '접수종류명',
 '공사형태코드',
 '공사형태명',
 '계약전력']

In [74]:
get_common_cols('설계', '기별')

['공사번호',
 '공사변경순번',
 '전산화번호',
 '사업소명',
 '접수종류코드',
 '접수종류명',
 '공사형태코드',
 '공사형태명',
 '계약전력']

In [75]:
get_common_cols('공사비', '설계', '기별')

['공사번호', '공사변경순번', '사업소명', '접수종류코드', '접수종류명', '공사형태코드', '공사형태명', '계약전력']

#### 공통 컬럼별 유니크값 확인

In [93]:
def get_common_cols_nunique(*cols):
    common_cols = get_common_cols(*cols)
    df_nunique = pd.DataFrame()
    
    for key1 in cols:
        for key2 in df[key1].keys():
            nunique = df[key1][key2][common_cols].nunique()
            nunique.name = f'{key1}-{key2}'
            df_nunique = pd.concat([df_nunique, nunique], axis=1)
    return df_nunique.T

In [94]:
get_common_cols_nunique('공사비', '설계', '기별')

Unnamed: 0,공사번호,공사변경순번,사업소명,접수종류코드,접수종류명,공사형태코드,공사형태명,계약전력
공사비-공사비,7097,1,1,14,14,3,3,261
설계-고객,3681,1,1,9,9,3,3,114
설계-애자,3941,1,1,12,12,3,3,184
설계-인입선,5181,1,1,11,11,3,3,172
설계-장주,3942,1,1,12,12,3,3,184
설계-전선,4289,1,1,13,13,3,3,177
설계-전주,3886,1,1,13,13,3,3,195
설계-접지,4769,1,1,13,13,3,3,223
설계-지지선,3502,1,1,12,12,3,3,186
기별-애자,3851,1,1,12,12,3,3,183


In [95]:
df['공사비']['공사비']['공사변경순번'].value_counts()

공사변경순번
99    7097
Name: count, dtype: int64

In [96]:
df['공사비']['공사비']['사업소명'].value_counts()

사업소명
동청주지사    7097
Name: count, dtype: int64

In [97]:
df['공사비']['공사비']['접수종류명'].value_counts()

접수종류명
신설(상용/임시)     5810
신설(발전기)        597
증설             185
공급방식변경증설       155
계약종별변경증설       127
단순공급방식변경        74
해지후재사용(신규)      46
공급지점변경          43
일부해지(신규)        27
계약단위합병          23
신증설(예비전력)        6
증설(발전기)          2
계약변경(발전기)        1
계약단위분할           1
Name: count, dtype: int64

In [98]:
df['공사비']['공사비']['공사형태명'].value_counts()

공사형태명
외선소요         7031
외선소요(선공급)      55
외선불요           11
Name: count, dtype: int64