### 필요 열 생성 및 에너지 절감 필요 공동주택 선정 
- 단지분류 열 생성
- 세대별로 데이터 셋 분리 
- 단지분류가 "아파트"인 값만 추출
- 2010년 이하에 준공된 아파트 추출 
- 2021 상반기 세대당 월별 전기공용 평균 값 추출
- 2021 상반기 세대당 월별 전기공용 평균 기준으로 이상 단지 탐지 

**분석 대상 선별 후, 엑셀 작업**
- #22 Graph. 에너지 절감 필요 아파트 비율
- #23 Table. 에너지 절감 필요 아파트 가명칭

**분석 대상** 
- 다른 단지분류를 제외한 '아파트'에 해당하는 값만 대상으로 이상치 추출
- 10년 이상된 아파트 대상으로 이상치 탐지 
- 2021년 상반기 가구별 전기공용 평균 기준 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("아파트전체정보_ver0.2.csv", engine = 'python')

In [None]:
df_basic = pd.read_csv("단지기본정보_ver3.csv", engine = 'python')

**아파트전체정보에 단지분류 열 추가**

In [None]:
df['단지분류'] = ''

In [None]:
for i in range(len(df_basic)):
    for j in range(len(df)):
        if df.loc[j, '가명칭'] == df_basic.loc[i, '가명칭']:
            df.loc[j, '단지분류'] = df_basic.loc[i, '단지분류']

In [None]:
df.to_csv("아파트전체정보_ver0.2.csv", index = False, encoding = 'cp949')

**아파트만 추출**

In [None]:
df_아파트 = df[df['단지분류'] == '아파트']

In [None]:
df_아파트.단지분류.unique()

array(['아파트'], dtype=object)

In [None]:
len(df_아파트.가명칭.unique())

380

In [None]:
len(df_아파트[df_아파트['사용승인년도_범위'] <= 2010].가명칭.unique())

308

**세대별로 분리**
- 공동주택 중 아파트의 세대별로 분리 

In [None]:
groups = df_아파트.groupby(df_아파트.세대수_범위)

In [None]:
df300 = groups.get_group(300)
df500 = groups.get_group(500)
df700 = groups.get_group(700)
df900 = groups.get_group(900)
df1100 = groups.get_group(1100)
df1300 = groups.get_group(1300)
df4000 = groups.get_group(4000)

In [None]:
df300.to_csv("300세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df500.to_csv("500세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df700.to_csv("700세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df900.to_csv("900세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df1100.to_csv("1100세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df1300.to_csv("1300세대_아파트_ver2.csv", index = False, encoding = 'cp949')
df4000.to_csv("4000세대_아파트_ver2.csv", index = False, encoding = 'cp949')

In [None]:
print('300세대 아파트 공용전기료 평균', df300['전기공용_우리단지총액'].mean())
print('500세대 아파트 공용전기료 평균', df500['전기공용_우리단지총액'].mean())
print('700세대 아파트 공용전기료 평균', df700['전기공용_우리단지총액'].mean())
print('900세대 아파트 공용전기료 평균', df900['전기공용_우리단지총액'].mean())
print('1100세대 아파트 공용전기료 평균', df1100['전기공용_우리단지총액'].mean())
print('1300세대 아파트 공용전기료 평균', df1300['전기공용_우리단지총액'].mean())
print('4000세대 아파트 공용전기료 평균', df4000['전기공용_우리단지총액'].mean())

300세대 아파트 공용전기료 평균 1078420.486818346
500세대 아파트 공용전기료 평균 3166386.4136636634
700세대 아파트 공용전기료 평균 2807507.2862225096
900세대 아파트 공용전기료 평균 3763052.461838006
1100세대 아파트 공용전기료 평균 6704542.161123853
1300세대 아파트 공용전기료 평균 5988345.879061372
4000세대 아파트 공용전기료 평균 10701396.621046228


**2010년이하 아파트전체정보 추출**

In [None]:
df300_10이하 = df300[df300['사용승인년도_범위'] <= 2010].copy()

In [None]:
df500_10이하 = df500[df500['사용승인년도_범위'] <= 2010].copy()
df700_10이하 = df700[df700['사용승인년도_범위'] <= 2010].copy()
df900_10이하 = df900[df900['사용승인년도_범위'] <= 2010].copy()
df1100_10이하 = df1100[df1100['사용승인년도_범위'] <= 2010].copy()
df1300_10이하 = df1300[df1300['사용승인년도_범위'] <= 2010].copy()
df4000_10이하 = df4000[df4000['사용승인년도_범위'] <= 2010].copy()

In [None]:
print(df300_10이하.사용승인년도.unique())
print(df500_10이하.사용승인년도.unique())
print(df700_10이하.사용승인년도.unique())
print(df900_10이하.사용승인년도.unique())
print(df1100_10이하.사용승인년도.unique())
print(df1300_10이하.사용승인년도.unique())
print(df4000_10이하.사용승인년도.unique())

[2002 2006 2000 2003 2007 1997 1985 1995 1999 1986 1992 2004 2005 1984
 1991 1989 1990 2001 1996 1998]
[2007 1990 1999 1985 2000 1979 1987 1978 1994 1991 1986 1998 2006 1995
 1992 1993 2005 2004 2008 2001 1989]
[1989 1985 2007 2006 1991 1990 1996 1992 2004 1983 1994 1993 1997 2005
 2002 2001 2000 2003 1987 1999]
[2007 2006 2008 2003 1987 1992 1994 1989 1978 1981 1986 2005 1988 1990
 1997 1995 1996 1991 2002 2004 2001 2000 1993 1998]
[2006 1990 1999 1998 2001 1994 2007 2008 2005 1995 1991 1987 2000 1993
 1997 1992 2004 2009]
[2007 2000 2005 1993 1994 1999 1998 1991 1995 1987]
[1992 1990 2003 2000 1986 1995 1994 1998 1993 1999 1997 1991 2002 2004
 1996]


**세대별 월별 전기공용금액 열 생성**

In [None]:
df300_10이하['세대별_월별_전기공용'] = ''

In [None]:
df300_10이하['세대별_월별_전기공용'] = df300_10이하['전기공용_우리단지총액'] / df300_10이하['세대수']

In [None]:
df300_10이하

Unnamed: 0,명칭(단지코드),부과년월,전기공용_우리단지총액,부과년도,부과월,단지분류,법정동주소,사용승인일,동수,세대수,...,세대전기계약방식,승강기대수,지상,지하,주차관제.홈네트워크,CCTV대수,부대복리시설수,반기,분기,세대별_월별_전기공용
2076,A30009202,201801.0,249900.0,2018.0,1.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,1,964.864865
2077,A30009202,201802.0,-464790.0,2018.0,2.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,1,-1794.555985
2078,A30009202,201803.0,79600.0,2018.0,3.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,1,307.335907
2079,A30009202,201804.0,386590.0,2018.0,4.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,2,1492.625483
2080,A30009202,201805.0,17512.0,2018.0,5.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,2,67.613900
2081,A30009202,201806.0,-124860.0,2018.0,6.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,상반기,2,-482.084942
2082,A30009202,201807.0,-23870.0,2018.0,7.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,하반기,3,-92.162162
2083,A30009202,201808.0,-88790.0,2018.0,8.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,하반기,3,-342.818533
2084,A30009202,201809.0,-254590.0,2018.0,9.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,하반기,3,-982.972973
2085,A30009202,201810.0,17590.0,2018.0,10.0,아파트,대전광역시 동구 가양동 162-11,20020731,1,259,...,단일계약,3,36.0,150,무,27,2,하반기,4,67.915058


In [None]:
df500_10이하['세대별_월별_전기공용'] = ''

In [None]:
df500_10이하['세대별_월별_전기공용'] = df500_10이하['전기공용_우리단지총액'] / df500_10이하['세대수']

In [None]:
df700_10이하['세대별_월별_전기공용'] = ''

In [None]:
df700_10이하['세대별_월별_전기공용'] = df700_10이하['전기공용_우리단지총액'] / df700_10이하['세대수']

In [None]:
df900_10이하['세대별_월별_전기공용'] = ''
df900_10이하['세대별_월별_전기공용'] = df900_10이하['전기공용_우리단지총액'] / df900_10이하['세대수']

In [None]:
df1100_10이하['세대별_월별_전기공용'] = ''
df1100_10이하['세대별_월별_전기공용'] = df1100_10이하['전기공용_우리단지총액'] / df1100_10이하['세대수']

In [None]:
df1300_10이하['세대별_월별_전기공용'] = ''
df1300_10이하['세대별_월별_전기공용'] = df1300_10이하['전기공용_우리단지총액'] / df1300_10이하['세대수']

In [None]:
df4000_10이하['세대별_월별_전기공용'] = ''
df4000_10이하['세대별_월별_전기공용'] = df4000_10이하['전기공용_우리단지총액'] / df4000_10이하['세대수']

In [None]:
df4000_10이하.세대수_범위.unique()

array([4000], dtype=int64)

In [None]:
df1300_10이하.세대수_범위.unique()

array([1300], dtype=int64)

In [None]:
df1100_10이하.세대수_범위.unique()

array([1100], dtype=int64)

In [None]:
df900_10이하.세대수_범위.unique()

array([900], dtype=int64)

In [None]:
df700_10이하.세대수_범위.unique()

array([700], dtype=int64)

In [None]:
df500_10이하.세대수_범위.unique()

array([500], dtype=int64)

In [None]:
df300_10이하.세대수_범위.unique()

array([300], dtype=int64)

**2021년 상반기 세대당 월별 전기공용 평균 구하기**

In [None]:
grouped300 = df300_10이하[df300_10이하['부과년도'] == 2021].groupby(['가명칭'])
df300_2021 = pd.DataFrame(grouped300['세대별_월별_전기공용'].mean())

In [None]:
grouped500 = df500_10이하[df500_10이하['부과년도'] == 2021].groupby(['가명칭'])
df500_2021 = pd.DataFrame(grouped500['세대별_월별_전기공용'].mean())

In [None]:
grouped700 = df700_10이하[df700_10이하['부과년도'] == 2021].groupby(['가명칭'])
df700_2021 = pd.DataFrame(grouped700['세대별_월별_전기공용'].mean())

In [None]:
grouped900 = df900_10이하[df900_10이하['부과년도'] == 2021].groupby(['가명칭'])
df900_2021 = pd.DataFrame(grouped900['세대별_월별_전기공용'].mean())

In [None]:
grouped1100 = df1100_10이하[df1100_10이하['부과년도'] == 2021].groupby(['가명칭'])
df1100_2021 = pd.DataFrame(grouped1100['세대별_월별_전기공용'].mean())

In [None]:
grouped1300 = df1300_10이하[df1300_10이하['부과년도'] == 2021].groupby(['가명칭'])
df1300_2021 = pd.DataFrame(grouped1300['세대별_월별_전기공용'].mean())

In [None]:
grouped4000 = df4000_10이하[df4000_10이하['부과년도'] == 2021].groupby(['가명칭'])
df4000_2021 = pd.DataFrame(grouped4000['세대별_월별_전기공용'].mean())

### 에너지 절감 필요 공동주택 선정
- IQR 그래프를 활용하여 이상치 값 추출 즉, 에너지 사용료가 많이 나가는 아파트 추출 
- 세대수별로 나누어 각각 이상치 판단

**IQR그래프 / 이상치 탐지**
- IQR 코드 
- 데이터 셋별로 이상치 탐지 
- 2010년 이하, 세대별 (300, 700, 900, 1100, 1300, 4000)
- 기준 값 : 2021년 상반기 "세대별 월별 전기공용" 평균 
- 평균의 분포 > 이상치 탐지 

**300세대 이상치**
- Q3 이상 (75% 이상)
- Q3 + 1.5*IQR (극단 이상치)

In [None]:
Q3_300_2021 = df300_2021.quantile(.75)['세대별_월별_전기공용']
IQR_300_2021 = df300_2021.quantile(.75)['세대별_월별_전기공용'] - df300_2021.quantile(.25)['세대별_월별_전기공용']

In [None]:
Q3_300_2021_단지명 = []

# 이상치 Q3 기준 
for i in df300_2021.index:
    if df300_2021.loc[i, '세대별_월별_전기공용']  > Q3_300_2021:
        Q3_300_2021_단지명.append(i)

In [None]:
Outliers_300_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df300_2021.index:
    if df300_2021.loc[i, '세대별_월별_전기공용']  > Q3_300_2021 + 1.5*IQR_300_2021:
        Outliers_300_2021_단지명.append(i)

**500세대 이상치**

In [None]:
Q3_500_2021 = df500_2021.quantile(.75)['세대별_월별_전기공용']
IQR_500_2021 = df500_2021.quantile(.75)['세대별_월별_전기공용'] - df500_2021.quantile(.25)['세대별_월별_전기공용']

Q3_500_2021_단지명 = []

# 이상치 Q3 기준 
for i in df500_2021.index:
    if df500_2021.loc[i, '세대별_월별_전기공용']  > Q3_500_2021:
        Q3_500_2021_단지명.append(i)
        
Outliers_500_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df500_2021.index:
    if df500_2021.loc[i, '세대별_월별_전기공용']  > Q3_500_2021 + 1.5*IQR_500_2021:
        Outliers_500_2021_단지명.append(i)

**700세대 이상치**

In [None]:
Q3_700_2021 = df700_2021.quantile(.75)['세대별_월별_전기공용']
IQR_700_2021 = df700_2021.quantile(.75)['세대별_월별_전기공용'] - df700_2021.quantile(.25)['세대별_월별_전기공용']

Q3_700_2021_단지명 = []

# 이상치 Q3 기준 
for i in df700_2021.index:
    if df700_2021.loc[i, '세대별_월별_전기공용']  > Q3_700_2021:
        Q3_700_2021_단지명.append(i)
        
Outliers_700_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df700_2021.index:
    if df700_2021.loc[i, '세대별_월별_전기공용']  > Q3_700_2021 + 1.5*IQR_700_2021:
        Outliers_700_2021_단지명.append(i)

**900세대 이상치**

In [None]:
Q3_900_2021 = df900_2021.quantile(.75)['세대별_월별_전기공용']
IQR_900_2021 = df900_2021.quantile(.75)['세대별_월별_전기공용'] - df900_2021.quantile(.25)['세대별_월별_전기공용']

Q3_900_2021_단지명 = []

# 이상치 Q3 기준 
for i in df900_2021.index:
    if df900_2021.loc[i, '세대별_월별_전기공용']  > Q3_900_2021:
        Q3_900_2021_단지명.append(i)
        
Outliers_900_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df900_2021.index:
    if df900_2021.loc[i, '세대별_월별_전기공용']  > Q3_900_2021 + 1.5*IQR_900_2021:
        Outliers_900_2021_단지명.append(i)

**1100세대 이상치**

In [None]:
Q3_1100_2021 = df1100_2021.quantile(.75)['세대별_월별_전기공용']
IQR_1100_2021 = df1100_2021.quantile(.75)['세대별_월별_전기공용'] - df1100_2021.quantile(.25)['세대별_월별_전기공용']

Q3_1100_2021_단지명 = []

# 이상치 Q3 기준 
for i in df1100_2021.index:
    if df1100_2021.loc[i, '세대별_월별_전기공용']  > Q3_1100_2021:
        Q3_1100_2021_단지명.append(i)
        
Outliers_1100_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df1100_2021.index:
    if df1100_2021.loc[i, '세대별_월별_전기공용']  > Q3_1100_2021 + 1.5*IQR_1100_2021:
        Outliers_1100_2021_단지명.append(i)

**1300세대 이상치**

In [None]:
Q3_1300_2021 = df1300_2021.quantile(.75)['세대별_월별_전기공용']
IQR_1300_2021 = df1300_2021.quantile(.75)['세대별_월별_전기공용'] - df1300_2021.quantile(.25)['세대별_월별_전기공용']

Q3_1300_2021_단지명 = []

# 이상치 Q3 기준 
for i in df1300_2021.index:
    if df1300_2021.loc[i, '세대별_월별_전기공용']  > Q3_1300_2021:
        Q3_1300_2021_단지명.append(i)
        
Outliers_1300_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df1300_2021.index:
    if df1300_2021.loc[i, '세대별_월별_전기공용']  > Q3_1300_2021 + 1.5*IQR_1300_2021:
        Outliers_1300_2021_단지명.append(i)

**4000세대 이상치**

In [None]:
Q3_4000_2021 = df4000_2021.quantile(.75)['세대별_월별_전기공용']
IQR_4000_2021 = df4000_2021.quantile(.75)['세대별_월별_전기공용'] - df4000_2021.quantile(.25)['세대별_월별_전기공용']

Q3_4000_2021_단지명 = []

# 이상치 Q3 기준 
for i in df4000_2021.index:
    if df4000_2021.loc[i, '세대별_월별_전기공용']  > Q3_4000_2021:
        Q3_4000_2021_단지명.append(i)
        
Outliers_4000_2021_단지명 = []

# 이상치 Q3 + 1.5*IQR 기준 
for i in df4000_2021.index:
    if df4000_2021.loc[i, '세대별_월별_전기공용']  > Q3_4000_2021 + 1.5*IQR_4000_2021:
        Outliers_4000_2021_단지명.append(i)

**Q3 이상의 이상치**

In [None]:
print("300세대 Q3 이상치 : ", Q3_300_2021_단지명)
print("500세대 Q3 이상치 : ", Q3_500_2021_단지명)
print("700세대 Q3 이상치 : ", Q3_700_2021_단지명)
print("900세대 Q3 이상치 : ", Q3_900_2021_단지명)
print("1100세대 Q3 이상치 : ", Q3_1100_2021_단지명)
print("1300세대 Q3 이상치 : ", Q3_1300_2021_단지명)
print("4000세대 Q3 이상치 : ", Q3_4000_2021_단지명)

300세대 Q3 이상치 :  ['구암2', '도룡3', '도마3', '문화12', '변3', '산성2', '선화1', '오정3', '용문1', '용문2', '용운5', '읍내1', '인2', '태평10', '하기5']
500세대 Q3 이상치 :  ['관평10', '관평4', '관평8', '관평9', '교촌2', '둔산16', '목상1', '복수5', '용산1', '용산2', '용산3', '용산4', '태평2', '하기1']
700세대 Q3 이상치 :  ['가오6', '관평2', '관평3', '관평5', '괴정1', '노은3', '둔산13', '둔산15', '월평7', '유천1', '지족13', '지족19', '지족20', '지족21', '태평7', '홍도1']
900세대 Q3 이상치 :  ['가수원2', '관저6', '관평7', '노은1', '둔산9', '복수6', '신성3', '원내1', '원내3', '월평3', '천1', '하기2']
1100세대 Q3 이상치 :  ['관저1', '관저8', '관평1', '관평6', '문화2', '복수2', '산성4', '삼성2']
1300세대 Q3 이상치 :  ['관저18', '대성1', '둔산12', '태평12', '태평3']
4000세대 Q3 이상치 :  ['갈마6', '도마2', '둔산10', '둔산23', '둔산26', '목3', '송촌2', '전민4', '정림2']


In [None]:
Q3_300_2021_단지명_df = pd.DataFrame(Q3_300_2021_단지명).rename({0:'300세대_Q3_가구별_전기공용'}, axis =1)
Q3_500_2021_단지명_df = pd.DataFrame(Q3_500_2021_단지명).rename({0:'500세대_Q3_가구별_전기공용'}, axis =1)
Q3_700_2021_단지명_df = pd.DataFrame(Q3_700_2021_단지명).rename({0:'700세대_Q3_가구별_전기공용'}, axis =1)
Q3_900_2021_단지명_df = pd.DataFrame(Q3_900_2021_단지명).rename({0:'900세대_Q3_가구별_전기공용'}, axis =1)
Q3_1100_2021_단지명_df = pd.DataFrame(Q3_1100_2021_단지명).rename({0:'1100세대_Q3_가구별_전기공용'}, axis =1)
Q3_1300_2021_단지명_df = pd.DataFrame(Q3_1300_2021_단지명).rename({0:'1300세대_Q3_가구별_전기공용'}, axis =1)
Q3_4000_2021_단지명_df = pd.DataFrame(Q3_4000_2021_단지명).rename({0:'4000세대_Q3_가구별_전기공용'}, axis =1)

In [None]:
whole_q3 = pd.concat([Q3_300_2021_단지명_df, Q3_500_2021_단지명_df, Q3_700_2021_단지명_df, Q3_900_2021_단지명_df, Q3_1100_2021_단지명_df, Q3_1300_2021_단지명_df,Q3_4000_2021_단지명_df ], axis=1)

In [None]:
whole_q3.to_csv("가구별_전기공용_Q3_아파트만_ver3.csv", index=False, encoding = 'cp949')

**Q3 + 1.5*IQR 이상치**

In [None]:
print("300세대 Q3 + 1.5*IQR 이상치 : ", Outliers_300_2021_단지명)
print("500세대 Q3 + 1.5*IQR 이상치 : ", Outliers_500_2021_단지명)
print("700세대 Q3 + 1.5*IQR 이상치 : ", Outliers_700_2021_단지명)
print("900세대 Q3 + 1.5*IQR 이상치 : ", Outliers_900_2021_단지명)
print("1100세대 Q3 + 1.5*IQR 이상치 : ", Outliers_1100_2021_단지명)
print("1300세대 Q3 + 1.5*IQR 이상치 : ", Outliers_1300_2021_단지명)
print("4000세대 Q3 + 1.5*IQR 이상치 : ", Outliers_4000_2021_단지명)

300세대 Q3 + 1.5*IQR 이상치 :  ['도룡3', '읍내1', '하기5']
500세대 Q3 + 1.5*IQR 이상치 :  ['관평10', '관평9', '목상1', '용산2', '용산3', '태평2']
700세대 Q3 + 1.5*IQR 이상치 :  ['관평3']
900세대 Q3 + 1.5*IQR 이상치 :  ['관저6', '복수6']
1100세대 Q3 + 1.5*IQR 이상치 :  []
1300세대 Q3 + 1.5*IQR 이상치 :  []
4000세대 Q3 + 1.5*IQR 이상치 :  ['도마2']


In [None]:
Outliers_300_2021_단지명_df = pd.DataFrame(Outliers_300_2021_단지명).rename({0:'300세대_이상치_가구별_전기공용'}, axis =1)
Outliers_500_2021_단지명_df = pd.DataFrame(Outliers_500_2021_단지명).rename({0:'500세대_이상치_가구별_전기공용'}, axis =1)
Outliers_700_2021_단지명_df = pd.DataFrame(Outliers_700_2021_단지명).rename({0:'700세대_이상치_가구별_전기공용'}, axis =1)
Outliers_900_2021_단지명_df = pd.DataFrame(Outliers_900_2021_단지명).rename({0:'900세대_이상치_가구별_전기공용'}, axis =1)
Outliers_1100_2021_단지명_df = pd.DataFrame(Outliers_1100_2021_단지명).rename({0:'1100세대_이상치_가구별_전기공용'}, axis =1)
Outliers_1300_2021_단지명_df = pd.DataFrame(Outliers_1300_2021_단지명).rename({0:'1300세대_이상치_가구별_전기공용'}, axis =1)
Outliers_4000_2021_단지명_df = pd.DataFrame(Outliers_4000_2021_단지명).rename({0:'4000세대_이상치_가구별_전기공용'}, axis =1)

In [None]:
whole_outlier = pd.concat([Outliers_300_2021_단지명_df, Outliers_500_2021_단지명_df, Outliers_700_2021_단지명_df, Outliers_900_2021_단지명_df, Outliers_1100_2021_단지명_df, Outliers_1300_2021_단지명_df,Outliers_4000_2021_단지명_df ], axis=1)

In [None]:
whole_outlier.to_csv("가구별_전기공용_이상치_아파트만_ver3.csv", index = False, encoding = 'cp949')

**Q3 이상치**

In [None]:
whole_q3

Unnamed: 0,300세대_Q3_가구별_전기공용,500세대_Q3_가구별_전기공용,700세대_Q3_가구별_전기공용,900세대_Q3_가구별_전기공용,1100세대_Q3_가구별_전기공용,1300세대_Q3_가구별_전기공용,4000세대_Q3_가구별_전기공용
0,구암2,관평10,가오6,가수원2,관저1,관저18,갈마6
1,도룡3,관평4,관평2,관저6,관저8,대성1,도마2
2,도마3,관평8,관평3,관평7,관평1,둔산12,둔산10
3,문화12,관평9,관평5,노은1,관평6,태평12,둔산23
4,변3,교촌2,괴정1,둔산9,문화2,태평3,둔산26
5,산성2,둔산16,노은3,복수6,복수2,,목3
6,선화1,목상1,둔산13,신성3,산성4,,송촌2
7,오정3,복수5,둔산15,원내1,삼성2,,전민4
8,용문1,용산1,월평7,원내3,,,정림2
9,용문2,용산2,유천1,월평3,,,


**Q3 + 1.5*IQR**

In [None]:
whole_outlier

Unnamed: 0,300세대_이상치_가구별_전기공용,500세대_이상치_가구별_전기공용,700세대_이상치_가구별_전기공용,900세대_이상치_가구별_전기공용,4000세대_이상치_가구별_전기공용
0,도룡3,관평10,관평3,관저6,도마2
1,읍내1,관평9,,복수6,
2,하기5,목상1,,,
3,,용산2,,,
4,,용산3,,,
5,,태평2,,,


**이상치 단지 탐색**

In [None]:
whole_outlier.columns

Index(['300세대_이상치_가구별_전기공용', '500세대_이상치_가구별_전기공용', '700세대_이상치_가구별_전기공용',
       '900세대_이상치_가구별_전기공용', '4000세대_이상치_가구별_전기공용'],
      dtype='object')

In [None]:
out_cnt = 0
for i in whole_outlier.columns:
    out_cnt += whole_outlier[i].notnull().sum()

In [None]:
out_cnt

13

In [None]:
final_out = pd.concat([whole_outlier['300세대_이상치_가구별_전기공용'], whole_outlier['500세대_이상치_가구별_전기공용'],  whole_outlier['700세대_이상치_가구별_전기공용'], whole_outlier['900세대_이상치_가구별_전기공용'], whole_outlier['4000세대_이상치_가구별_전기공용']]).dropna().reset_index().drop('index', axis=1).rename({0:"이상치_단지_가명칭"}, axis=1)

In [None]:
# 극단 이상치 리스트 
for i in final_out['이상치_단지_가명칭'].values:
    print(i)

도룡3
읍내1
하기5
관평10
관평9
목상1
용산2
용산3
태평2
관평3
관저6
복수6
도마2


**극단 이상치 단지에 해당하는 아파트 전체 정보 추출**

In [None]:
final_whole_out = []

In [None]:
for j in final_out['이상치_단지_가명칭'].values:
    for i in range(len(df)):
        if df.loc[i, '가명칭'] == j:
            final_whole_out.append(df.loc[i,:])

In [None]:
final_whole_out = pd.DataFrame(final_whole_out)

In [None]:
final_whole_out

Unnamed: 0,명칭(단지코드),부과년월,전기공용_우리단지총액,부과년도,부과월,단지분류,법정동주소,사용승인일,동수,세대수,...,가명칭,세대전기계약방식,승강기대수,지상,지하,주차관제.홈네트워크,CCTV대수,부대복리시설수,반기,분기
13332,A30534002,201801.0,348340.0,2018.0,1.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,1
13333,A30534002,201802.0,7276570.0,2018.0,2.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,1
13334,A30534002,201803.0,1582400.0,2018.0,3.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,1
13335,A30534002,201804.0,1340840.0,2018.0,4.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,2
13336,A30534002,201805.0,1291560.0,2018.0,5.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,2
13337,A30534002,201806.0,4399150.0,2018.0,6.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,상반기,2
13338,A30534002,201807.0,7125770.0,2018.0,7.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,하반기,3
13339,A30534002,201808.0,9738850.0,2018.0,8.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,하반기,3
13340,A30534002,201809.0,72320.0,2018.0,9.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,하반기,3
13341,A30534002,201810.0,1416630.0,2018.0,10.0,아파트,대전광역시 유성구 도룡동 431-6,19891012,3,150,...,도룡3,단일계약,8,134.0,0,무,32,6,하반기,4


In [None]:
final_whole_out.to_csv("이상치_단지_전체정보_아파트만_ver3.csv", index = False, encoding = 'cp949')

**극단 이상치와 시설 특성 비교**

In [None]:
final_whole_out['세대전기계약방식'].groupby(final_whole_out['가명칭']).value_counts()

가명칭   세대전기계약방식
관저6   종합계약        42
관평10  종합계약        42
관평3   종합계약        42
관평9   종합계약        42
도룡3   단일계약        42
도마2   단일계약        42
목상1   단일계약        42
복수6   단일계약        42
용산2   종합계약        42
용산3   단일계약        42
읍내1   단일계약        42
태평2   단일계약        42
하기5   단일계약        42
Name: 세대전기계약방식, dtype: int64

In [None]:
final_whole_out_fac = final_whole_out.groupby('세대수_범위').mean().loc[:, ['전기공용_우리단지총액','사용승인년도','승강기대수', '지상','지하','부대복리시설수']]

In [None]:
df_fac = df.groupby('세대수_범위').mean().loc[:, ['전기공용_우리단지총액','사용승인년도', '승강기대수', '지상','지하','부대복리시설수']]

In [None]:
final_whole_out_fac['지하비율'] = ''

In [None]:
final_whole_out_fac['지하비율'] = final_whole_out_fac['지하'] / (final_whole_out_fac['지하'] + final_whole_out_fac['지상'])

In [None]:
final_whole_out_fac

Unnamed: 0_level_0,전기공용_우리단지총액,사용승인년도,승강기대수,지상,지하,부대복리시설수,지하비율
세대수_범위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
300,4584864.0,1997.333333,6.666667,104.666667,145.0,5.0,0.580774
500,9322997.0,2004.666667,17.0,168.166667,508.666667,4.0,0.751539
700,9598760.0,2006.0,40.0,228.0,743.0,7.0,0.765191
900,6681768.0,2003.5,24.5,285.0,518.0,4.5,0.645081
4000,32342120.0,1986.0,46.0,1042.0,0.0,4.0,0.0


In [None]:
df_fac['지하비율'] = ''

In [None]:
df_fac['지하비율'] = df_fac['지하'] / (df_fac['지하'] + df_fac['지상'])

In [None]:
df_fac

Unnamed: 0_level_0,전기공용_우리단지총액,사용승인년도,승강기대수,지상,지하,부대복리시설수,지하비율
세대수_범위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
300,1660867.0,2003.231657,5.394324,63.729886,148.676973,3.458468,0.699963
500,3376320.0,1999.303226,11.713978,151.28172,274.793548,5.027957,0.644941
700,2924458.0,2000.824622,18.413098,238.344773,441.929471,5.895151,0.649634
900,4237908.0,1999.632184,22.03295,316.693487,516.121073,5.962452,0.619731
1100,6938607.0,2002.516797,29.367861,357.070549,742.210526,6.56383,0.675178
1300,5988346.0,2002.364621,30.969314,381.50361,958.388087,6.222022,0.715273
4000,10701400.0,1997.8382,51.870438,895.874696,1059.626521,5.534672,0.54187


**이상 단지 수와 전체 공동주택 단지 수**

In [None]:
len(df['가명칭'].unique())

429

In [None]:
len(final_whole_out['가명칭'].unique())

13