# 2023 국회위원 재산공개내역 시각화

## 시각화를 위한 파이썬 모듈

In [1]:
# 데이터 처리를 위한 모듈들
import pandas as pd
import numpy as np
import re
# 시각화를 위한 모듈들
import matplotlib.pyplot as plt
import matplotlib as mpl

import seaborn as sns
sns.set_theme(style="whitegrid")

# 시각화를 위한 사전 설정들 1.
# %matplotlib inline을 주피터 노트북 셀에 실행하면 해당 셀 아래에 그래프 출력

%matplotlib inline

# 시각화를 위한 사전 설정들 2.
# 한글 폰트 설정

from matplotlib import font_manager, rc  # 한글폰트 설정
import platform

if platform.system()=="Windows":
    font_name=font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
    
mpl.rcParams['axes.unicode_minus']=False

# 기타 사전 설정
# warnigs 표시 설정 = ignore

import warnings
warnings.filterwarnings("ignore")

# 간단하게 시각화
import plotly.express as px

# 세세하게 시각화
import plotly.graph_objects as go

# subplot 생성
from plotly.subplots import make_subplots

# 지도 기반 시각화
# pip install folium
import folium

# 국회의원 재산공개 데이터 셋

In [15]:
ast_det = pd.read_excel("202303_001.xlsx", sheet_name='상세재산')
ast_tot = pd.read_excel("202303_001.xlsx", sheet_name='총계_명단')

In [16]:
ast_det.shape, ast_tot.shape

((5971, 18), (333, 13))

# 전처리 : 재산 금액 데이터 자료형 변경

##  '상세재산' 자산 데이터 자료형 변경

In [17]:
# 재산 금액 항목에 결측치에 대한 처리
# to_numeric(, erros='coerce')
# 결측값(숫자형으로 변경될 수 없는 경우, None)

ast_det['종전가액'] = pd.to_numeric(ast_det['종전가액'], errors='coerce')
ast_det['증가액'] = pd.to_numeric(ast_det['증가액'], errors='coerce')
ast_det['증가액실거래가격'] = pd.to_numeric(ast_det['증가액실거래가격'], errors='coerce')
ast_det['감소액'] = pd.to_numeric(ast_det['감소액'], errors='coerce')
ast_det['감소액실거래가격'] = pd.to_numeric(ast_det['감소액실거래가격'], errors='coerce')
ast_det['현재가액'] = pd.to_numeric(ast_det['현재가액'], errors='coerce')

In [18]:
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5971 entries, 0 to 5970
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   종전가액      5939 non-null   float64
 1   증가액       5939 non-null   float64
 2   증가액실거래가격  81 non-null     float64
 3   감소액       5939 non-null   float64
 4   감소액실거래가격  84 non-null     float64
 5   현재가액      5939 non-null   float64
dtypes: float64(6)
memory usage: 280.0 KB


## 1.2.2  '상세재산' 자산 데이터 NaN -> Zero 로 변경

In [19]:
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']] =\
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']].fillna(value=0)
ast_det[['종전가액','증가액','증가액실거래가격','감소액','감소액실거래가격','현재가액']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5971 entries, 0 to 5970
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   종전가액      5971 non-null   float64
 1   증가액       5971 non-null   float64
 2   증가액실거래가격  5971 non-null   float64
 3   감소액       5971 non-null   float64
 4   감소액실거래가격  5971 non-null   float64
 5   현재가액      5971 non-null   float64
dtypes: float64(6)
memory usage: 280.0 KB


## '총계_명단' 자산 데이터 자료형 변경

In [20]:
ast_tot['종전가액'] = pd.to_numeric(ast_tot['종전가액'], errors='coerce')
ast_tot['증가액'] = pd.to_numeric(ast_tot['증가액'], errors='coerce')
ast_tot['감소액'] = pd.to_numeric(ast_tot['감소액'], errors='coerce')
ast_tot['현재가액'] = pd.to_numeric(ast_tot['현재가액'], errors='coerce')
ast_tot['증감액'] = pd.to_numeric(ast_tot['증감액'], errors='coerce')
ast_tot['가액변동'] = pd.to_numeric(ast_tot['가액변동'], errors='coerce')

In [21]:
ast_tot[['종전가액', '증가액', '감소액', '현재가액', '증감액', '가액변동']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 333 entries, 0 to 332
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종전가액    333 non-null    int64  
 1   증가액     333 non-null    int64  
 2   감소액     333 non-null    int64  
 3   현재가액    333 non-null    int64  
 4   증감액     333 non-null    int64  
 5   가액변동    330 non-null    float64
dtypes: float64(1), int64(5)
memory usage: 15.7 KB


## '총계_명단' 자산 데이터 NaN -> Zero 로 변경

In [22]:
ast_tot[['종전가액', '증가액', '감소액', '현재가액', '증감액', '가액변동']]=\
ast_tot[['종전가액', '증가액', '감소액', '현재가액', '증감액', '가액변동']].fillna(value=0)
ast_tot[['종전가액', '증가액', '감소액', '현재가액', '증감액', '가액변동']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 333 entries, 0 to 332
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종전가액    333 non-null    int64  
 1   증가액     333 non-null    int64  
 2   감소액     333 non-null    int64  
 3   현재가액    333 non-null    int64  
 4   증감액     333 non-null    int64  
 5   가액변동    333 non-null    float64
dtypes: float64(1), int64(5)
memory usage: 15.7 KB


## '재산구분', '재산의 종류' : 글자수 줄이기

In [23]:
ast_det['재산구분'].value_counts().reset_index()

Unnamed: 0,재산구분,count
0,건물,1343
1,예금,1226
2,토지,968
3,채무,694
4,부동산에 관한 규정이 준용되는 권리와 자동차·건설기계·선박 및 항공기,558
5,증권,386
6,정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금,289
7,고지거부 및 등록제외사항,242
8,채권,139
9,회원권,33


In [25]:
# '부동산에 관한 규정이 준용되는 권리와 자동차·건설기계·선박 및 항공기' -> '자동차 등'
temp_bool1 = ast_det['재산구분'] == '부동산에 관한 규정이 준용되는 권리와 자동차·건설기계·선박 및 항공기'
ast_det.loc[temp_bool1, '재산구분'] = '자동차 등'

# '정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금' -> '정치자금법 예금'
temp_bool2 = ast_det['재산구분'] == '정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금'
ast_det.loc[temp_bool2, '재산구분'] = '정치자금법 예금'

# '정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금' -> '정치자금법 예금'
temp_bool3 = ast_det['재산의 종류'] == '정치자금법에 따른 정치자금의 수입 및 지출을 위한 예금계좌의 예금'
ast_det.loc[temp_bool3, '재산의 종류'] = '정치자금법 예금'

In [37]:
asset_divison = ast_det['재산구분'].value_counts().reset_index()
asset_divison = asset_divison.rename(columns={'count':'소유자수'})
asset_divison

Unnamed: 0,재산구분,소유자수
0,건물,1343
1,예금,1226
2,토지,968
3,채무,694
4,자동차 등,558
5,증권,386
6,정치자금법 예금,289
7,고지거부 및 등록제외사항,242
8,채권,139
9,회원권,33


# 재산구분별 현황

In [38]:
asset_div_sum = ast_det.groupby('재산구분')['현재가액'].sum().reset_index()
asset_div_sum

Unnamed: 0,재산구분,현재가액
0,건물,562720662.0
1,고지거부 및 등록제외사항,0.0
2,골동품 및 예술품,135000.0
3,금 및 백금,29165.0
4,보석류,10000.0
5,비영리법인에 출연한 재산,0.0
6,예금,255852773.0
7,자동차 등,8265959.0
8,정치자금법 예금,31000784.0
9,증권,247050194.0


In [61]:
asset_div_subtotal = pd.merge(asset_divison, asset_div_sum, on = '재산구분', how='inner')
asset_div_subtotal.sort_values('현재가액', ascending=False)

Unnamed: 0,재산구분,소유자수,현재가액
0,건물,1343,562720662.0
1,예금,1226,255852773.0
5,증권,386,247050194.0
3,채무,694,131130848.0
2,토지,968,90604622.0
8,채권,139,42578106.0
6,정치자금법 예금,289,31000784.0
4,자동차 등,558,8265959.0
10,현금,30,2231300.0
9,회원권,33,2094330.0


In [56]:
asset_div_nop = asset_div_subtotal['소유자수'].sum()
asset_div_total = asset_div_subtotal['현재가액'].sum()
asset_div_nop, asset_div_total

(5971, 1374283442.0)

In [64]:
fig = px.bar(asset_div_subtotal.sort_values('현재가액', ascending=True),
             x='현재가액',
             y='재산구분',
             title = '재산구분 총액 (채무 합산) : 1조 3천 742억',
             text_auto=True
            )

fig.update_layout(
    width = 1000,
    height = 600,
)

fig.update_xaxes(title_text='재산 총액')
fig.update_yaxes(title_text='재산 구분')

fig.show()

# fig.write_html('plotly_chart.html')

In [59]:
fig = px.bar(asset_div_subtotal.sort_values('현재가액', ascending=True),
             x='소유자수',
             y='재산구분',
             title = '재산구분별 소유자 수 ',
             text_auto=True
            )

fig.update_layout(
    width = 500,
    height = 600,
)

fig.update_xaxes(title_text='재산 소유자 수(명)')
fig.update_yaxes(title_text='')

fig.show()

# fig.write_html('plotly_chart.html')