# Importing Python module

## data processing module

In [1]:
# 데이터 처리를 위한 모듈들
import pandas as pd
import numpy as np

## visualization module

In [2]:
# 시각화를 위한 모듈들
import matplotlib.pyplot as plt
import matplotlib as mpl

import seaborn as sns
sns.set_theme(style="whitegrid")

In [3]:
# 시각화를 위한 사전 설정들 1.
# %matplotlib inline을 주피터 노트북 셀에 실행하면 해당 셀 아래에 그래프 출력

%matplotlib inline

In [4]:
# 시각화를 위한 사전 설정들 2.
# 한글 폰트 설정

from matplotlib import font_manager, rc  # 한글폰트 설정
import platform

if platform.system()=="Windows":
    font_name=font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
    
mpl.rcParams['axes.unicode_minus']=False

In [5]:
# 기타 사전 설정
# warnigs 표시 설정 = ignore

import warnings
warnings.filterwarnings("ignore")

In [6]:
# 간단하게 시각화
import plotly.express as px

# 세세하게 시각화
import plotly.graph_objects as go

# subplot 생성
from plotly.subplots import make_subplots

In [7]:
# 판다스 plot옵션
pd.options.plotting.backend = "plotly"

## Map module

In [8]:
# 지도 기반 시각화
# pip install folium
import folium

# 재산공개내역(aaset disclosure)

## asset data

In [50]:
ast_det = pd.read_excel("202303_001.xlsx", sheet_name='상세재산')
ast_tot = pd.read_excel("202303_001.xlsx", sheet_name='총계_명단')

In [51]:
ast_det.head(1)

Unnamed: 0,연월,no,monaCode,소속구분,소속,직위,이름,재산구분,본인과의관계,재산의 종류,소재지 면적 등 권리의 명세,종전가액,증가액,증가액실거래가격,감소액,감소액실거래가격,현재가액,변동사유
0,202303,324,YKW37422,1.국회의원,국회,국회의원,권은희,비영리법인에 출연한 재산,본인,출연,"협동조합 하우스, 출연재산: 3,000천원, 보유직위: 조합원",-,-,,-,,-,변동 없음


In [11]:
ast_tot.head(1)

Unnamed: 0,연월,no,monaCode,소속구분,소속,직위,이름,종전가액,증가액,감소액,현재가액,증감액,가액변동
0,202303,143,YOG1280B,1.국회의원,국회,국회의원,안철수,204055509,6419280,75765185,134709604,-69345905,-69184290.0


In [12]:
ast_det.shape, ast_tot.shape

((5971, 18), (333, 13))

In [84]:
ast_det.columns[3:]

Index(['소속구분', '소속', '직위', '이름', '재산구분', '본인과의관계', '재산의 종류', '소재지 면적 등 권리의 명세',
       '종전가액', '증가액', '증가액실거래가격', '감소액', '감소액실거래가격', '현재가액', '변동사유'],
      dtype='object')

In [145]:
df_dis_items = pd.DataFrame(ast_det.columns[3:],
                         index = list(range(1, len(ast_det.columns[3:])+1)),
                         columns = ['공개항목'])
df_dis_items

Unnamed: 0,공개항목
1,소속구분
2,소속
3,직위
4,이름
5,재산구분
6,본인과의관계
7,재산의 종류
8,소재지 면적 등 권리의 명세
9,종전가액
10,증가액


### 소속, 소속구분, 직위 항목 추출

In [96]:
dis_class = ast_det['소속'].unique()
dis_class

array(['국회'], dtype=object)

In [95]:
dis_subclass = ast_det['소속구분'].unique()
dis_subclass

array(['1.국회의원', '2.국회사무처', '4.국회예산정책처', '5.국회입법조사처', '3.국회도서관'],
      dtype=object)

In [101]:
dis_pos = ast_det['직위'].unique()
dis_pos

array(['국회의원', '의장비서실장', '국회부의장', '수석전문위원', '국회의장', '수석비서관', '입법차장',
       '국회사무총장', '국회예산정책처장', '정책연구위원', '정치행정조사실장', '법제실장', '사무차장',
       '국회도서관장', '의회정보실장'], dtype=object)

In [110]:
# 리스트에서 문자열 변환
def to_string(list_):
    to_str = ''    
    for i in list_:
        to_str += (', ' + i)
    return to_str[2:]

In [117]:
dis_div = [dis_subclass, dis_class, dis_pos]

In [118]:
dis_div_str = [to_string(i) for i in dis_div]
dis_div_str

['1.국회의원, 2.국회사무처, 4.국회예산정책처, 5.국회입법조사처, 3.국회도서관',
 '국회',
 '국회의원, 의장비서실장, 국회부의장, 수석전문위원, 국회의장, 수석비서관, 입법차장, 국회사무총장, 국회예산정책처장, 정책연구위원, 정치행정조사실장, 법제실장, 사무차장, 국회도서관장, 의회정보실장']

### 항목과 항목별 상세

In [146]:
df_dis_items['항목별 상세'] = ''

In [147]:
df_dis_items['항목별 상세'][1] = dis_div_str[0]
df_dis_items['항목별 상세'][2] = dis_div_str[1]
df_dis_items['항목별 상세'][3] = dis_div_str[2]
df_dis_items

Unnamed: 0,공개항목,항목별 상세
1,소속구분,"1.국회의원, 2.국회사무처, 4.국회예산정책처, 5.국회입법조사처, 3.국회도서관"
2,소속,국회
3,직위,"국회의원, 의장비서실장, 국회부의장, 수석전문위원, 국회의장, 수석비서관, 입법차장..."
4,이름,
5,재산구분,
6,본인과의관계,
7,재산의 종류,
8,소재지 면적 등 권리의 명세,
9,종전가액,
10,증가액,


### 소속구분

In [156]:
dis_subclass

array(['1.국회의원', '2.국회사무처', '4.국회예산정책처', '5.국회입법조사처', '3.국회도서관'],
      dtype=object)

In [157]:
df_dis_subclass= pd.DataFrame(dis_subclass,
                              index = list(range(1, len(dis_subclass)+1)),
                              columns = ['소속구분'])
df_dis_subclass

Unnamed: 0,소속구분
1,1.국회의원
2,2.국회사무처
3,4.국회예산정책처
4,5.국회입법조사처
5,3.국회도서관


### 직위

In [172]:
# 소속구분, 직위
gb_class_pos = ast_det.groupby(['소속구분','직위'], dropna=False)

In [179]:
gb_class_pos['이름'].count().reset_index().reindex(range(1,15))

Unnamed: 0,소속구분,직위,이름
1,1.국회의원,국회의원,5251
2,1.국회의원,국회의장,10
3,2.국회사무처,국회사무총장,22
4,2.국회사무처,법제실장,28
5,2.국회사무처,사무차장,27
6,2.국회사무처,수석비서관,79
7,2.국회사무처,수석전문위원,362
8,2.국회사무처,의장비서실장,20
9,2.국회사무처,입법차장,19
10,2.국회사무처,정책연구위원,51


In [178]:
df_dis_pos = pd.DataFrame(dis_pos,
                          index = list(range(1, len(dis_pos)+1)),
                          columns = ['직위'])
df_dis_pos

Unnamed: 0,직위
1,국회의원
2,의장비서실장
3,국회부의장
4,수석전문위원
5,국회의장
6,수석비서관
7,입법차장
8,국회사무총장
9,국회예산정책처장
10,정책연구위원


# 분석대상자 현황

In [232]:
name = ast_det['이름'].unique()

In [233]:
len(name)

331

## 직위별

In [234]:
target = ast_det.groupby(['소속구분','직위'])['이름'].unique()
[len(x) for x in target]

[2, 293, 1, 1, 1, 1, 4, 19, 1, 1, 5, 1, 1, 1, 1]

In [235]:
df_target = target.to_frame()
df_target

Unnamed: 0_level_0,Unnamed: 1_level_0,이름
소속구분,직위,Unnamed: 2_level_1
1.국회의원,국회부의장,"[정우택, 김영주]"
1.국회의원,국회의원,"[권은희, 김병주, 김웅, 김학용, 도종환, 박덕흠, 박성준, 배준영, 안철수, 오..."
1.국회의원,국회의장,[김진표]
2.국회사무처,국회사무총장,[이광재]
2.국회사무처,법제실장,[박재유]
2.국회사무처,사무차장,[홍형선]
2.국회사무처,수석비서관,"[고재학, 조경호, 최웅식, 송기복]"
2.국회사무처,수석전문위원,"[송병철, 지동하, 송주아, 정성희, 박태형, 조기열, 정연호, 오명호, 김일권, ..."
2.국회사무처,의장비서실장,[박경미]
2.국회사무처,입법차장,[박장호]


In [236]:
df_target['인원'] = [len(x) for x in target]
df_target

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,인원
소속구분,직위,Unnamed: 2_level_1,Unnamed: 3_level_1
1.국회의원,국회부의장,"[정우택, 김영주]",2
1.국회의원,국회의원,"[권은희, 김병주, 김웅, 김학용, 도종환, 박덕흠, 박성준, 배준영, 안철수, 오...",293
1.국회의원,국회의장,[김진표],1
2.국회사무처,국회사무총장,[이광재],1
2.국회사무처,법제실장,[박재유],1
2.국회사무처,사무차장,[홍형선],1
2.국회사무처,수석비서관,"[고재학, 조경호, 최웅식, 송기복]",4
2.국회사무처,수석전문위원,"[송병철, 지동하, 송주아, 정성희, 박태형, 조기열, 정연호, 오명호, 김일권, ...",19
2.국회사무처,의장비서실장,[박경미],1
2.국회사무처,입법차장,[박장호],1


In [250]:
df_target.drop('이름', axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,인원
소속구분,직위,Unnamed: 2_level_1
1.국회의원,국회부의장,2
1.국회의원,국회의원,293
1.국회의원,국회의장,1
2.국회사무처,국회사무총장,1
2.국회사무처,법제실장,1
2.국회사무처,사무차장,1
2.국회사무처,수석비서관,4
2.국회사무처,수석전문위원,19
2.국회사무처,의장비서실장,1
2.국회사무처,입법차장,1


In [251]:
df_target

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,인원
소속구분,직위,Unnamed: 2_level_1,Unnamed: 3_level_1
1.국회의원,국회부의장,"[정우택, 김영주]",2
1.국회의원,국회의원,"[권은희, 김병주, 김웅, 김학용, 도종환, 박덕흠, 박성준, 배준영, 안철수, 오...",293
1.국회의원,국회의장,[김진표],1
2.국회사무처,국회사무총장,[이광재],1
2.국회사무처,법제실장,[박재유],1
2.국회사무처,사무차장,[홍형선],1
2.국회사무처,수석비서관,"[고재학, 조경호, 최웅식, 송기복]",4
2.국회사무처,수석전문위원,"[송병철, 지동하, 송주아, 정성희, 박태형, 조기열, 정연호, 오명호, 김일권, ...",19
2.국회사무처,의장비서실장,[박경미],1
2.국회사무처,입법차장,[박장호],1


## 소속구분별

In [245]:
target2 = ast_det.groupby('소속구분')['이름'].unique()
[len(x) for x in target2]

[296, 33, 2, 1, 1]

In [246]:
df_target2 = target2.to_frame()
df_target2

Unnamed: 0_level_0,이름
소속구분,Unnamed: 1_level_1
1.국회의원,"[권은희, 김병주, 김웅, 김학용, 도종환, 박덕흠, 박성준, 배준영, 안철수, 오..."
2.국회사무처,"[박경미, 송병철, 지동하, 송주아, 고재학, 박장호, 정성희, 박태형, 조기열, ..."
3.국회도서관,"[이명우, 노우진]"
4.국회예산정책처,[조의섭]
5.국회입법조사처,[이신우]


In [247]:
df_target2['인원'] = [len(x) for x in target2]
df_target2

Unnamed: 0_level_0,이름,인원
소속구분,Unnamed: 1_level_1,Unnamed: 2_level_1
1.국회의원,"[권은희, 김병주, 김웅, 김학용, 도종환, 박덕흠, 박성준, 배준영, 안철수, 오...",296
2.국회사무처,"[박경미, 송병철, 지동하, 송주아, 고재학, 박장호, 정성희, 박태형, 조기열, ...",33
3.국회도서관,"[이명우, 노우진]",2
4.국회예산정책처,[조의섭],1
5.국회입법조사처,[이신우],1


In [248]:
df_target2.drop('이름', axis=1)

Unnamed: 0_level_0,인원
소속구분,Unnamed: 1_level_1
1.국회의원,296
2.국회사무처,33
3.국회도서관,2
4.국회예산정책처,1
5.국회입법조사처,1


# Preprocessing

## prepocessing : asset data 

### missing value, data type convert

In [252]:
ast_det.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5971 entries, 0 to 5970
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   연월               5971 non-null   int64  
 1   no               5971 non-null   int64  
 2   monaCode         5317 non-null   object 
 3   소속구분             5971 non-null   object 
 4   소속               5971 non-null   object 
 5   직위               5971 non-null   object 
 6   이름               5971 non-null   object 
 7   재산구분             5971 non-null   object 
 8   본인과의관계           5971 non-null   object 
 9   재산의 종류           3928 non-null   object 
 10  소재지 면적 등 권리의 명세  5971 non-null   object 
 11  종전가액             5971 non-null   object 
 12  증가액              5971 non-null   object 
 13  증가액실거래가격         81 non-null     float64
 14  감소액              5971 non-null   object 
 15  감소액실거래가격         84 non-null     float64
 16  현재가액             5971 non-null   object 
 17  변동사유          

In [14]:
# RangeIndex: 5971 entries, 0 to 5970
# Data columns (total 18 columns):
# --------------------------------------------
# 
# 2   monaCode            5317 non-null   object  결측
# 9   재산의 종류          3928 non-null   object  결측
# 11  종전가액             5971 non-null   object  타입변경
# 12  증가액               5971 non-null   object  탑입변경
# 13  증가액실거래가격        81 non-null   float64 결측
# 14  감소액               5971 non-null   object  타입변경
# 15  감소액실거래가격        84 non-null   float64 결측
# 16  현재가액             5971 non-null   object  타입변경
#

In [253]:
ast_det.columns

Index(['연월', 'no', 'monaCode', '소속구분', '소속', '직위', '이름', '재산구분', '본인과의관계',
       '재산의 종류', '소재지 면적 등 권리의 명세', '종전가액', '증가액', '증가액실거래가격', '감소액',
       '감소액실거래가격', '현재가액', '변동사유'],
      dtype='object')

In [254]:
ast_det['종전가액'] = pd.to_numeric(ast_det['종전가액'], errors='coerce')
ast_det['증가액'] = pd.to_numeric(ast_det['증가액'], errors='coerce')
ast_det['증가액실거래가격'] = pd.to_numeric(ast_det['증가액실거래가격'], errors='coerce')
ast_det['감소액'] = pd.to_numeric(ast_det['감소액'], errors='coerce')
ast_det['감소액실거래가격'] = pd.to_numeric(ast_det['감소액실거래가격'], errors='coerce')
ast_det['현재가액'] = pd.to_numeric(ast_det['현재가액'], errors='coerce')

In [255]:
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5971 entries, 0 to 5970
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   종전가액      5939 non-null   float64
 1   증가액       5939 non-null   float64
 2   증가액실거래가격  81 non-null     float64
 3   감소액       5939 non-null   float64
 4   감소액실거래가격  84 non-null     float64
 5   현재가액      5939 non-null   float64
dtypes: float64(6)
memory usage: 280.0 KB


In [256]:
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']].isna().sum()

종전가액          32
증가액           32
증가액실거래가격    5890
감소액           32
감소액실거래가격    5887
현재가액          32
dtype: int64

In [257]:
ast_det.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5971 entries, 0 to 5970
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   연월               5971 non-null   int64  
 1   no               5971 non-null   int64  
 2   monaCode         5317 non-null   object 
 3   소속구분             5971 non-null   object 
 4   소속               5971 non-null   object 
 5   직위               5971 non-null   object 
 6   이름               5971 non-null   object 
 7   재산구분             5971 non-null   object 
 8   본인과의관계           5971 non-null   object 
 9   재산의 종류           3928 non-null   object 
 10  소재지 면적 등 권리의 명세  5971 non-null   object 
 11  종전가액             5939 non-null   float64
 12  증가액              5939 non-null   float64
 13  증가액실거래가격         81 non-null     float64
 14  감소액              5939 non-null   float64
 15  감소액실거래가격         84 non-null     float64
 16  현재가액             5939 non-null   float64
 17  변동사유          

## Feature Type

In [258]:
#  0   연월                 5971 non-null   int64  
#  1   no                   5971 non-null   int64  
#  2   monaCode             5317 non-null   object 
#  ------------------------------------------------------------------
#  3   소속구분             5971 non-null   object         [ Who ... ]
#  4   소속                 5971 non-null   object 
#  5   직위                 5971 non-null   object 
#  ------------------------------------------------
#  6   이름                5971 non-null   object 
#  8   본인과의관계         5971 non-null   object
#  ------------------------------------------------------------------
#  7   재산구분             5971 non-null   object         [ Where ... ]
#  9   재산의 종류          3928 non-null   object 
#  ------------------------------------------------
#  10  소재지 면적 등 권리의 명세  5971 non-null   object   
#  ------------------------------------------------------------------
#  11  종전가액             5939 non-null   float64
#  12  증가액               5939 non-null   float64
#  13  증가액실거래가격        81 non-null   float64
#  14  감소액               5939 non-null   float64
#  15  감소액실거래가격        84 non-null   float64
#  16  현재가액             5939 non-null   float64        [ How much ...]
#  ------------------------------------------------------------------
#  17  변동사유             5729 non-null   object 
#  ------------------------------------------------------------------

In [21]:
# print(len(ast_det['monaCode'].unique()), ast_det['monaCode'].unique())
# 298

In [259]:
print(len(ast_det['소속구분'].unique()), ast_det['소속구분'].unique())

5 ['1.국회의원' '2.국회사무처' '4.국회예산정책처' '5.국회입법조사처' '3.국회도서관']


In [260]:
print(len(ast_det['소속'].unique()), ast_det['소속'].unique())

1 ['국회']


In [261]:
print(len(ast_det['직위'].unique()), ast_det['직위'].unique())

15 ['국회의원' '의장비서실장' '국회부의장' '수석전문위원' '국회의장' '수석비서관' '입법차장' '국회사무총장'
 '국회예산정책처장' '정책연구위원' '정치행정조사실장' '법제실장' '사무차장' '국회도서관장' '의회정보실장']


In [262]:
# print(len(ast_det['이름'].unique()), ast_det['이름'].unique())
# 331

In [263]:
print(len(ast_det['재산구분'].unique()), ast_det['재산구분'].unique())

17 ['비영리법인에 출연한 재산' '지식재산권' '증권' '건물' '채무' '채권' '예금' '토지' '현금' '회원권'
 '정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금'
 '부동산에 관한 규정이 준용되는 권리와 자동차·건설기계·선박 및 항공기' '합명·합자·유한회사 출자지분' '골동품 및 예술품'
 '금 및 백금' '보석류' '고지거부 및 등록제외사항']


In [264]:
print(len(ast_det['본인과의관계'].unique()), ast_det['본인과의관계'].unique())

15 ['본인' '차녀' '배우자' '장녀' '장남' '모' '부' '차남' '삼남' '삼녀' '손녀1' '손녀2' '손자2' '손자1'
 '손녀3']


In [265]:
print(len(ast_det['재산의 종류'].unique()), ast_det['재산의 종류'].unique())

68 ['출연' '저작재산권' '기타' '주식매수선택권' '상장주식' '비상장주식' '빌딩' '금융채무' nan '아파트(전세(임차)권)'
 '공장' '근린생활시설' '아파트' '상가' '대지' '복합건물(주택+상가)' '교육연구 및복지시설' '기타(채권)'
 '아파트(분양권)' '복합건물(주택+상가)(전세(임차)권)' '임야' '건물임대채무' '단독주택' '오피스텔' '잡종지' '금융채'
 '다가구주택' '다세대주택(전세(임차)권)' '답' '자동차관련시설' '사무실' '전' '연립주택' '주차장'
 '연립주택(전세(임차)권)' '단독주택(전세(임차)권)' '다세대주택' '골프' '창고' '목장용지' '과수원' '유지'
 '공장용지' '오피스텔(전세(임차)권)' '상가(전세(임차)권)' '하천' '회사채' '출자' '오피스텔(분양권)'
 '다가구주택(전세(임차)권)' '숙박시설' '숙박시설(분양권)' '국채' '사무실(전세(임차)권)' '근린생활시설(전세(임차)권)'
 '헬스' '자동차' '묘지' '도로' '콘도미니엄' '공채' '숙박시설(전세(임차)권)' '의료시설(전세(임차)권)'
 '기타(전세(임차)권)' '토지임대채무' '빌딩(전세(임차)권)' '구거' '종교용지']


In [266]:
print(len(ast_det['소재지 면적 등 권리의 명세'].unique()), ast_det['소재지 면적 등 권리의 명세'].unique())

5236 ['협동조합 하우스, 출연재산: 3,000천원, 보유직위: 조합원' '9791187822523'
 '9791187822370 (소득금액: 86천원)' ...
 '서울특별시 마포구 합정동 건우빌라 건물 0.00㎡ 중 0.00㎡ (건물 총면적 250.00㎡ 감소, 지분면적 25.00㎡ 감소)'
 '2006년식 미니 쿠퍼 배기량(1,600cc) 감소' '우리은행 0(150,000 감소)']


In [267]:
print(len(ast_det['변동사유'].unique()), ast_det['변동사유'].unique())

1159 ['변동 없음' nan '판매감소' ... '전세 해지' '주식매도' '전세금 상환']


In [268]:
ast_det['현재가액'].sum(), ast_det['현재가액'].max(), ast_det['현재가액'].min(), ast_det['현재가액'].mean()

(1374283442.0, 124062000.0, 0.0, 231399.80501767976)

### 소속구분

In [269]:
print(len(ast_det['소속구분'].unique()), ast_det['소속구분'].unique())

5 ['1.국회의원' '2.국회사무처' '4.국회예산정책처' '5.국회입법조사처' '3.국회도서관']


In [270]:
t_df = ast_det.groupby('소속구분')['현재가액'].agg('sum').reset_index()

In [271]:
t_df

Unnamed: 0,소속구분,현재가액
0,1.국회의원,1261784000.0
1,2.국회사무처,100488600.0
2,3.국회도서관,5446297.0
3,4.국회예산정책처,3811051.0
4,5.국회입법조사처,2753855.0


In [272]:
t_df

Unnamed: 0,소속구분,현재가액
0,1.국회의원,1261784000.0
1,2.국회사무처,100488600.0
2,3.국회도서관,5446297.0
3,4.국회예산정책처,3811051.0
4,5.국회입법조사처,2753855.0


### chart 1. 국회 소속 구분별 자산 총액

In [300]:
fig = px.bar(t_df.sort_values('현재가액', ascending=True),
             x='현재가액',
             y='소속구분',
             title = '국회 소속 구분별 자산 총액 (재산의 종류별 총합 기준) : 1조 3천 742억',
             text_auto=True
            )

fig.update_layout(
    width = 1000,
    height = 300,
)

fig.update_xaxes(title_text='자산총액(단위: 조(B), 10억(M))')
fig.update_yaxes(title_text='')

fig.show()
fig.write_html('plotly_chart.html')

In [37]:
# 현재가액 총계 : 1,374,283,442,000 (1조 3천 742억)

## 개인별 집계

In [38]:
gb_who = ast_det.groupby(['소속구분','직위','이름'])

In [39]:
gb_who['현재가액'].sum().reset_index()

Unnamed: 0,소속구분,직위,이름,현재가액
0,1.국회의원,국회부의장,김영주,3198001.0
1,1.국회의원,국회부의장,정우택,14314204.0
2,1.국회의원,국회의원,강기윤,13343004.0
3,1.국회의원,국회의원,강대식,543773.0
4,1.국회의원,국회의원,강득구,1390325.0
...,...,...,...,...
328,2.국회사무처,정책연구위원,정을호,2238634.0
329,3.국회도서관,국회도서관장,이명우,1570416.0
330,3.국회도서관,의회정보실장,노우진,3875881.0
331,4.국회예산정책처,국회예산정책처장,조의섭,3811051.0


In [40]:
gb_who.get_group(('1.국회의원','국회부의장','김영주'))[['본인과의관계','재산구분','재산의 종류','현재가액']]

Unnamed: 0,본인과의관계,재산구분,재산의 종류,현재가액
229,본인,예금,,1115731.0
236,본인,건물,아파트,1089000.0
581,배우자,예금,,538054.0
958,본인,정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금,,326332.0
2274,본인,부동산에 관한 규정이 준용되는 권리와 자동차·건설기계·선박 및 항공기,자동차,77280.0
3052,본인,채무,금융채무,31604.0
3510,본인,건물,사무실(전세(임차)권),20000.0


In [41]:
type(gb_who.groups)

pandas.io.formats.printing.PrettyDict

In [42]:
gb_who.sum() #[['현재가액']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,연월,no,종전가액,증가액,증가액실거래가격,감소액,감소액실거래가격,현재가액
소속구분,직위,이름,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1.국회의원,국회부의장,김영주,1416121,98,2915626.0,1177908.0,0.0,895533.0,0.0,3198001.0
1.국회의원,국회부의장,정우택,5462181,837,11129510.0,6902656.0,0.0,3717962.0,7350.0,14314204.0
1.국회의원,국회의원,강기윤,5462181,1566,14530019.0,4750251.0,0.0,5937266.0,0.0,13343004.0
1.국회의원,국회의원,강대식,1213818,447,432002.0,269349.0,0.0,157578.0,0.0,543773.0
1.국회의원,국회의원,강득구,2023030,825,1183151.0,231344.0,29000.0,24170.0,0.0,1390325.0
...,...,...,...,...,...,...,...,...,...,...
2.국회사무처,정책연구위원,정을호,1213818,35235,2322648.0,142511.0,0.0,226525.0,0.0,2238634.0
3.국회도서관,국회도서관장,이명우,2023030,59085,1507252.0,1227304.0,0.0,1164140.0,0.0,1570416.0
3.국회도서관,의회정보실장,노우진,6271393,183799,4052836.0,471680.0,0.0,648635.0,1500.0,3875881.0
4.국회예산정책처,국회예산정책처장,조의섭,2629939,77363,3676680.0,224925.0,0.0,90554.0,0.0,3811051.0


In [43]:
gb_w_sum = gb_who.sum()[['현재가액']]
gb_w_sum

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,현재가액
소속구분,직위,이름,Unnamed: 3_level_1
1.국회의원,국회부의장,김영주,3198001.0
1.국회의원,국회부의장,정우택,14314204.0
1.국회의원,국회의원,강기윤,13343004.0
1.국회의원,국회의원,강대식,543773.0
1.국회의원,국회의원,강득구,1390325.0
...,...,...,...
2.국회사무처,정책연구위원,정을호,2238634.0
3.국회도서관,국회도서관장,이명우,1570416.0
3.국회도서관,의회정보실장,노우진,3875881.0
4.국회예산정책처,국회예산정책처장,조의섭,3811051.0


In [44]:
gb_w_sum.loc[('1.국회의원')] # ['국회부의장']

Unnamed: 0_level_0,Unnamed: 1_level_0,현재가액
직위,이름,Unnamed: 2_level_1
국회부의장,김영주,3198001.0
국회부의장,정우택,14314204.0
국회의원,강기윤,13343004.0
국회의원,강대식,543773.0
국회의원,강득구,1390325.0
국회의원,...,...
국회의원,홍정민,1690721.0
국회의원,황보승희,953648.0
국회의원,황운하,1652133.0
국회의원,황희,889143.0


In [45]:
ast_det.groupby(['소속구분','직위', '이름'])['현재가액'].agg('sum').reset_index()

Unnamed: 0,소속구분,직위,이름,현재가액
0,1.국회의원,국회부의장,김영주,3198001.0
1,1.국회의원,국회부의장,정우택,14314204.0
2,1.국회의원,국회의원,강기윤,13343004.0
3,1.국회의원,국회의원,강대식,543773.0
4,1.국회의원,국회의원,강득구,1390325.0
...,...,...,...,...
328,2.국회사무처,정책연구위원,정을호,2238634.0
329,3.국회도서관,국회도서관장,이명우,1570416.0
330,3.국회도서관,의회정보실장,노우진,3875881.0
331,4.국회예산정책처,국회예산정책처장,조의섭,3811051.0


## assembly data

In [46]:
asm_det = pd.read_excel("assembly_18_to_21.xlsx", sheet_name='상세')
asm_cur = pd.read_excel("assembly_18_to_21.xlsx", sheet_name='현재')

In [47]:
asm_det.head(1)

Unnamed: 0,대수,hjId,monaCode,이름,특이사항,한자,영문명,양력/음력,생년월일,성별,...,직책,전화,위원회,이메일,홈페이지,보좌관,선임비서관,비서관,주요약력,사무실
0,18,2448.0,XQ98168F,강길부,,姜吉夫,KANG GHILBOO,음,1942-06-05,남,...,,,,,,,,,,


In [48]:
asm_cur.head(1)

Unnamed: 0,번호,교섭단체,정당,지역구,비례대표,계,비율
0,1,교섭단체,더불어민주당,152,16,168,56.38


In [49]:
asm_det.shape, asm_cur.shape

((1299, 24), (9, 7))