### 웹스크래핑한 데이터를 Pandas DataFrame객체로 저장하여 분석 및 시각화

In [None]:
import pandas as pd

member_df = pd.DataFrame(columns=['이름','정당','선거구','당선횟수','지역비례','성별','소속위원회','이미지','사무실 전화','사무실 호실',\
                                  '개별 홈페이지','이메일','보좌관','선임비서관','비서관','의원실 안내'])

for member_detail in member_detail_list:
    # Row 하나 생성
    df_new_row = pd.DataFrame.from_records([member_detail])
    member_df = pd.concat([member_df, df_new_row])
    # dict <=> Series
    #series_obj = pd.Series(member_detail)
    # Series 객체를 append 
    #member_df = member_df.append(series_obj, ignore_index=True)

print(member_df.columns)
print(member_df.shape)    
member_df.head(2)

In [None]:
# index가 1부터 시작하도록 재설정
member_df.reset_index(drop=True, inplace=True)
member_df.index = member_df.index + 1
print(member_df.index)

In [None]:
import pandas as pd

member_df = pd.read_json('data/members.json')
print(member_df.shape)

In [None]:
member_df['정당'].unique()

In [None]:
member_df['정당'].value_counts()

In [None]:
member_df['당선횟수'].value_counts()

In [None]:
member_df.loc[member_df['당선횟수'] == '6선',['이름','정당']]

In [None]:

member_df.loc[member_df['당선횟수'].isin(['5선', '6선']), ['이름', '정당']]

In [None]:
member_df['성별'].value_counts(normalize=True)

In [None]:
member_df['선거구'].value_counts()

In [None]:
#선거구2 컬럼을 새로 추가
#경남 창원시성산구 -> 경남
print(type(member_df['선거구']))
print(type(member_df['선거구'].str))
#Series객체를 StringMethods 객체로 변환(문자열 슬라이싱을 하기 위해서)
temp_str = member_df['선거구'].str
#2글자 슬라이싱 값을 선거구2 라는 컬럼으로 저장
member_df['선거구2'] = temp_str[:2]

member_df.loc[0:3,['선거구','선거구2']]

In [None]:
member_df['선거구2'].value_counts()

In [None]:
# Row Counting - normalize=True 속성은 % (퍼센티지) 비율로 나타냄
member_df['선거구2'].value_counts(normalize=True)

In [None]:
member_df['지역비례'].value_counts()

In [None]:
member_df['지역비례'].value_counts(normalize=True)

In [None]:
member_df['이미지'].tail()

In [None]:
from IPython.display import Image, display

for img_url in member_df['이미지'].sample(3):
    print(img_url)
    #display(Image(url=img_url))

### 시각화
*   Image 출력 - Image 객체, diplay() 함수 사용
*   seaborn - countplot, distplot, heatmap Plot 그려보기
*   maplotlib - histogram, pie Plot 그려보기
*   한글폰트 설정

In [None]:

%matplotlib inline

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

import seaborn as sns

In [None]:
#한글폰트 설정
font_path = 'C:\\Windows\\Fonts\\malgun.ttf'
# font의 파일정보로 font name을 알아내기
font_prop = fm.FontProperties(fname=font_path).get_name()
print(font_prop)
# matplotlib의 rc(run command) 함수를 사용해서 폰트이름 설정
matplotlib.rc('font', family=font_prop)

### Seaborn 의 막대 그래프
*   barplot - x축과 y축을 둘 다 설정할 수 있음
*   countplot - x축 이나 y축 중에서 하나만 설정할 수 있음
**      범주형 속성을 가지는 데이터들의 히스토그램을 보여준다.
**      종류별로 count를 보여주는 Plot이다.

In [None]:
member_df['정당'].value_counts().index

In [None]:
figure, (axes1,axes2,axes3) = plt.subplots(nrows=3, ncols=1)
figure.set_size_inches(18,12)

sns.countplot(data=member_df, x='정당', ax=axes1, order=member_df['정당'].value_counts().index, hue='정당')
sns.countplot(data=member_df, x='당선횟수', ax=axes2, order=member_df['당선횟수'].value_counts().index, hue='당선횟수')
sns.countplot(data=member_df, x='성별', ax=axes3, order=member_df['성별'].value_counts().index, hue='성별')

plt.show()

### Matplotlib 의 Pie Plot 그려보기

In [None]:

cdf = member_df['선거구2'].value_counts(normalize=True)
print(cdf.index)
cdf

In [None]:
# figure size 설정
figure = plt.figure(figsize=(20,12))
print(type(figure))
# pie() 함수 - pie plot을 그려주는 함수
plt.pie(cdf, labels=cdf.index, autopct='%1.1f%%', startangle=140, shadow=True)
# pie plot을 그릴때 원의 형태를 유지하도록 하는 설정
plt.axis('equal')
plt.title('선거구 분포값')
plt.show()

### Seaborn의 HistPlot (분포도)
*   히스토그램은 구간에 따른 Count를 표현하기 때문에, y는 count로 고정되어 있어 x값만 설정하면 됩니다. ( x 와 y 중에서 하나만 설정하면 됩니다.)
*   hue 옵션은 값에 따라 Plot의 색을 다르게 표현할 수 있다.
*   multiple = 'dodge'|'stack'

In [None]:
figure, axes1 = plt.subplots(nrows=1, ncols=1)
figure.set_size_inches(18,12)

_ = sns.histplot(data=member_df, x='정당', ax=axes1, hue='성별', multiple='dodge',
             palette={'남': 'blue', '여': 'red'}, shrink=0.8)
plt.show()

In [None]:

member_df.loc[member_df['정당'] == '조국혁신당',['이름','성별']]

In [None]:

member_df.loc[member_df['정당'] == '조국혁신당',['이름','성별']].groupby('성별').count()

### 다중 빈도 막대 그래프 catplot
*   다중 빈도 막대그래프는 countplot() 또는 catplot() 이 있습니다.
*   hue 옵션은 변량을 색상으로 구분하는 파라미터입니다.

In [None]:
# 선거구 이름들이 빈도순으로 정렬된 리스트입니다.
s_index = member_df['선거구2'].value_counts().index
s_index

In [None]:
# figure, axes1 = plt.subplots(nrows=1, ncols=1)
# figure.set_size_inches(24,12)

_ = sns.catplot(data=member_df, y='선거구2', hue='성별', kind='count',
             palette={'남': 'navy', '여': 'orange'},
             order=s_index)
plt.show()

### 히스토그램을 만드는 displot
*   hue와 palette를 사용하여 색상을 지정할 수 있습니다.
*   col 옵션은 성별에 따라 서브플롯을 나누어서 그려줍니다.

In [None]:
_ = sns.displot(
    data=member_df,
    x='당선횟수',
    hue='성별',  # 성별에 따라 색상 구분
    col='성별',  # 성별에 따라 캔버스 구분
    palette={'남': 'blue', '여': 'orange'},  # 색상 지정
    kde=True,  # 커널 밀도 추정 곡선 추가 (선택 사항)
    height=5,  # 각 플롯의 높이
    aspect=1.5  # 각 플롯의 가로 세로 비율
)
plt.show()