#### Construction Cost: 공사비

In [1]:
import os
import warnings
import numpy as np
import pandas as pd

from aiddd.get_datas import get_data

In [2]:
# 엑셀파일을 읽을 때, openpyxl라이브러리에서 스타일관련 오류를 출력하는데, 
# 일반적으로 이 경고는 무시해도 무방하기 때문에 설정을 변경함
warnings.filterwarnings(
    'ignore',
    category=UserWarning,
    module='openpyxl.styles.stylesheet'
)

In [3]:
df_cc = get_data('공사비')
df_cc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7097 entries, 0 to 7096
Columns: 143 entries, 공사번호 to 계약전력
dtypes: float64(11), int64(123), object(9)
memory usage: 7.7+ MB


In [4]:
df_cc.isna().sum().sort_values(ascending=False)

신기술공종규격코드    7097
전선변압기코드번호    7097
CUD상태코드      7097
공사번호            0
더블블레이드수익금       0
             ... 
전선기술경비          0
전선기술재료비         0
전선기술노무비         0
경비              0
계약전력            0
Length: 143, dtype: int64

In [5]:
# '신기술공종규격코드', '전선변압기코드번호', 'CUD상태코드'는 모두 NaN이기 때문에 제거
df_cc.drop(columns=['신기술공종규격코드', '전선변압기코드번호', 'CUD상태코드'], axis=1, inplace=True)

In [14]:
# 하나의 값만 존재하는 컬럼 추출
cols_with_unique = df_cc.columns[df_cc.nunique() == 1]
len(cols_with_unique)

83

In [15]:
# 하나의 값만 존재하며 그 값이 0인 컬럼 추출
cols_with_unique_zero = [
    col for col in df_cc.columns if df_cc[col].nunique()==1 and df_cc[col][0]==0
]
len(cols_with_unique_zero)

80

In [17]:
# 하나의 값만 존재하며 그 값이 0이 아닌 컬럼
cols_with_unique_not_zero = [
    col for col in df_cc.columns if df_cc[col].nunique()==1 and df_cc[col][0]!=0
]
df_cc[cols_with_unique_not_zero].head()[:1]

Unnamed: 0,공사변경순번,배전공사형태코드,사업소명
0,99,,동청주지사


In [18]:
# 하나의 값만 존재하면 그 값이 0인 컬럼 제거
df_cc.drop(columns=cols_with_unique_zero, axis=1, inplace=True)

In [19]:
df_cc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7097 entries, 0 to 7096
Data columns (total 60 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   공사번호             7097 non-null   int64  
 1   공사변경순번           7097 non-null   int64  
 2   배전공사형태코드         7097 non-null   object 
 3   회사분공사비           7097 non-null   int64  
 4   도급분공사비           7097 non-null   int64  
 5   자본적금액            7097 non-null   int64  
 6   수익적금액            7097 non-null   int64  
 7   본사분재료비           7097 non-null   int64  
 8   내자분재료비           7097 non-null   int64  
 9   내자분저장품재료비        7097 non-null   int64  
 10  내자분비저장품재료비       7097 non-null   int64  
 11  도급분재료비           7097 non-null   int64  
 12  지입재료비            7097 non-null   int64  
 13  잡재료비             7097 non-null   int64  
 14  직접노무비            7097 non-null   int64  
 15  간접노무비            7097 non-null   int64  
 16  기계경비             7097 non-null   int64  
 17  공구손료          

In [20]:
df_cc[['접수종류명', '공사형태명']].nunique()

접수종류명    14
공사형태명     3
dtype: int64

In [21]:
df_cc['접수종류명'].value_counts()

접수종류명
신설(상용/임시)     5810
신설(발전기)        597
증설             185
공급방식변경증설       155
계약종별변경증설       127
단순공급방식변경        74
해지후재사용(신규)      46
공급지점변경          43
일부해지(신규)        27
계약단위합병          23
신증설(예비전력)        6
증설(발전기)          2
계약변경(발전기)        1
계약단위분할           1
Name: count, dtype: int64

In [22]:
df_cc['공사형태명'].value_counts()

공사형태명
외선소요         7031
외선소요(선공급)      55
외선불요           11
Name: count, dtype: int64