# Pandas로 국민청원 데이터 분석하기

## Pandas와 NumPy를 import해 옵니다.

In [1]:
import pandas as pd
from pandas.api.types import CategoricalDtype
import numpy as np
print(pd.__version__)
print(np.__version__)

0.20.1
1.12.1


## csv 데이터를 불러 옵니다.

In [3]:
df = pd.read_csv('https://s3.ap-northeast-2.amazonaws.com/data10902/petition/petition.csv', parse_dates=['start', 'end'])

## 읽어온 데이터가 몇 행 몇 열인지 봅니다.

In [4]:
df.shape

(210424, 8)

## 일부 데이터 미리 보기
* 상단 5개의 데이터를 불러옵니다.

In [6]:
df.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


* 하단 3개의 데이터를 불러옵니다.

In [7]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
210421,271765,2018-06-15,2018-07-15,0,3,일자리,판교 롯데마트에서,모 음식코너에서 시식을 위해 주 5일 일하는 50대 여성 알바 근로자...
210422,271766,2018-06-15,2018-07-15,0,12,인권/성평등,여탕에 남자아이들이 들어오자못하게 해주세요.,안녕하세요.청원자입니다.저는 보다시피 고 2입니다. 제가 어제 목욕탕(사우나)를 같...
210423,271767,2018-06-15,2018-07-15,0,2,미래,인천과 강원도 원주와 태백에도 중앙정부행정기관 청사를 설치해주세요,인천광역시 서구 원창동과 강원도 원주시 무실동과 강원도 정선에도 강원도 태백시 동점...


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210424 entries, 0 to 210423
Data columns (total 8 columns):
article_id    210424 non-null int64
start         210424 non-null datetime64[ns]
end           210424 non-null datetime64[ns]
answered      210424 non-null int64
votes         210424 non-null int64
category      210424 non-null object
title         210424 non-null object
content       210423 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 12.8+ MB


## 결측치가 있는지 확인해 봅니다.

In [40]:
df.isnull().sum()

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

## 데이터 요약하기
* 어떤 컬럼이 있고 어떤 타입인지 출력해 봅니다.

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210424 entries, 0 to 210423
Data columns (total 8 columns):
article_id    210424 non-null int64
start         210424 non-null datetime64[ns]
end           210424 non-null datetime64[ns]
answered      210424 non-null int64
votes         210424 non-null int64
category      210424 non-null object
title         210424 non-null object
content       210423 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 12.8+ MB


* 데이터 타입만 따로 뽑아 봅니다.

In [44]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object

* 컬럼명만 따로 추출해 봅니다.

In [45]:
df.columns

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')

* 수치형 데이터에 대한 요약을 봅니다.

In [49]:
# df.describe()
# df.describe(include = 'all')

# 국민청원에서 가장 많이 나온 단어는?
df.describe(include = [np.object]) 

Unnamed: 0,category,title,content
count,210424,210424,210423
unique,17,175539,195348
top,정치개혁,이명박 출국금지,이명박 출국금지
freq,38835,3018,597


## 답변대상 청원 보기
20만건 이상 투표를 받으면 답변 대상 청원이 됩니다.<br/>20만건 이상 투표를 받은 청원의 갯수를 세어보세요.

In [67]:
# 이거는 내가 작성한 코드...
# df['title'].str
# answer = df[ df.votes > 200000  ]
# answer.shape

answer = df.loc[df['votes'] > 200000]
answer.shape

(43, 8)

* 20만건 이상 투표를 받은 상위 5개의 청원을 head()를 통해 출력해 보세요.

In [70]:
answer.sort_values(by = 'votes', ascending = False).head(5)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
118970,142600,2018-02-19,2018-03-21,1,614127,문화/예술/체육/언론,"김보름, 박지우 선수의 자격박탈과 적폐 빙상연맹의 엄중 처벌을 청원합니다","오늘 여자 단체전 팀추월에서 김보름, 박지우 선수는 팀전인데도 불구하고 개인의 영달..."
183791,230552,2018-05-11,2018-06-10,1,419006,인권/성평등,여성도 대한민국 국민입니다. 성별 관계없는 국가의 보호를 요청합니다.,최근 홍대 누드크로키 모델의 불법촬영 사건이 있었습니다.\n사건은 굉장히 빠르게 처...
91882,105105,2018-01-20,2018-02-19,1,360905,외교/통일/국방,나경원 의원 평창올림픽 위원직을 파면시켜주세요,안녕하세요. 청와대에 청원은 처음해 보는 경험인지라 조금은 어색하고 뭐라 말을 시작...


* 20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 줍니다. 컬럼 이름은 `answer`로 합니다.

In [0]:
df['answer'] = (df['votes'] > 200000) == 1

* df 데이터프레임의 크기를 다시 찍어 보세요. 컬럼 하나가 늘었나요?

* 새로 생성해 준 answer의 타입은 boolean 타입입니다. int로 변경해 보세요.

* 답변대상 청원중 아직 답변되지 않은 청원의 수를 계산해 보세요.

## 답변 대상 청원 중 투표를 가장 많이 받은 것

## 어느 분야의 청원이 가장 많이 들어왔는지?
pandas의 value_counts로 특정 컬럼의 데이터를 그룹화하여 카운된 숫자를 볼 수 있습니다.<br/>
어느 분야의 청원이 가장 많이 들어왔는지 찾아보세요.

In [62]:
petitions_unique = pd.pivot_table(df, index = ['category'], aggfunc = np.sum)
petitions_best = petitions_unique.sort_values(by = 'votes', \
                                              ascending = False).reset_index()
petitions_best

Unnamed: 0,category,answered,article_id,votes
0,인권/성평등,9,2475400553,5842796
1,정치개혁,1,4899206540,3053479
2,문화/예술/체육/언론,4,1461621936,3045112
3,기타,1,3269538542,2905688
4,안전/환경,2,1945769421,2575066
5,보건복지,2,1434543598,2518928
6,외교/통일/국방,1,1973544566,2330451
7,육아/교육,1,1488322911,2038942
8,행정,1,1451787154,1157404
9,경제민주화,1,1152562203,1107672


## 각 청원이 얼마 동안 집계되었는지?
청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.

## 피봇 테이블로 투표를 가장 많이 받은 분야를 찾아보세요.

## 투표를 가장 많이 받은 날은 언제일까요?

## 청원을 많이 받은 날 VS 투표를 많이 받은 날에 대해 각각 상위 5개 목록을 추출해 봅니다. 
이때, title, content는 안 나와도 됩니다.

## 시계열 데이터 보기
* 월별 청원수를 집계해 보세요.

* 청원이 가장 많이 들어온 달은 언제인가요?
* 요일별 청원 수는 어떻게 되나요?

In [0]:
특정 단어가 들어가는 청원을 찾아보세요.

In [18]:
crypto = df[( df.title.str.find('가상화폐') != -1 ) | ( df.content.str.find('가상화폐') != -1  )]
crypto.shape

(7773, 8)

In [25]:
# 정규표현식 사용을 위해 import
import re
p = r'.*(아시안게임|국가대표|선동열|KBO).*'
care = df[df['title'].str.match(p) |
           df['content'].str.match(p, flags=re.MULTILINE)]
care.shape

(1613, 8)

In [32]:
df['title'].str
search = df[( df.title.str.find('기록') != -1 ) & ( df.content.str.find('기록') != -1  ) & ( df.votes > 0 ) ]
search[['title','content', 'votes']].sort_values(by='votes', ascending=False).head(7)

Unnamed: 0,title,content,votes
109697,고등학교 학교생활기록부 기재 항목 개선안의 무효화를 적극청원합니다.,"안녕하십니까, 현재 대구광역시 모 고교에 재학중인 고교생입니다. 식견 부족한 고등학...",6439
109893,고등학교 학교생활기록부(학생부) 개편안 무효화를 청원합니다.,"안녕하십니까, 저희는 올해 고등학생이 되는 청소년들입니다.\n얼마 전 교육부에서 고...",1636
70980,2017년도 의무기록사 국가고시에 대해 할말이있습니다.,대학 보건행정과를 나왔습니다.\n저희 과에서 최고 시험은 의무기록사면허시험입니다.\...,761
62145,(학생부종합전형)학교생활기록부 작성 항목의 개정을 바랍니다.,현행 학교생활기록부 작성 양식을 바꾸었으면 합니다.\n거창하게\n대입 수시 전형 중...,291
127420,김어준씨에 대한 거짓 청원글 기록 삭제하지말고 남겨주세요,최근 미투운동이 확산되면서 본질은 사라지고 인신공격과 정치적공세로 치닫을까봐 우려하...,169
202055,"공직후보자, 특히 단체장 후보의 건강기록 공개를 의무화 하자!",공직후보자 건강은 공직수행에 매우 중요한 요소이며 유권자는 공직 후보자의 건강상태를...,125
60366,소액벌금형 전과기록자도 특별사면에 적용시켜 주십시오.,"개요 :\n- 다가오는 연말연초 사면, 복권, 등 관련하여 대통령께서 특별사면을 하...",110


In [36]:
search.sort_index(axis = 1).head(7)

Unnamed: 0,answered,article_id,category,content,end,start,title,votes
14479,0,14564,보건복지,"딸아이가 아빠로부터 성추행을 당해 경찰에 신고하였고,\n가해자인 친부가 검찰에 송치...",2017-10-18,2017-09-18,[의료법 개정 건의건] 성추행한 친부가 피해자 아이의 의료기록을 열람하고 있습니다!,4
15443,0,15556,문화/예술/체육/언론,"안녕하세요.\n저는 중국 충칭(重慶)에 살면서 한국기업의 노무관리 자문역, 주간지ㆍ...",2017-10-20,2017-09-20,"중국 내 임시정부, 광복군 유적과 다른 독립운동 사적에 대한 전면적인 기록을 남겨야...",1
17300,0,17445,보건복지,안녕하세요 줄초상치르고 이제야 정신차린 유가족입니다\n오늘 내일하시는 할머니를 입원...,2017-10-27,2017-09-27,"부산대학병원의 진료거부, 기료기록 조작",1
18356,0,18573,외교/통일/국방,안녕하세요! 대한민국 국민의 한사람 입니다.\n국민이 국가를 위하여 헌신하였는데...,2017-10-31,2017-10-01,"63년만에 병적기록을 찾았고, 국가의 잘못으로 이제야 등록하였데 보상이 안되는건 말...",1
18981,0,19220,육아/교육,친일파 식민사학자 이병도와 신석호는 일제시대 일본인 스승밑에서 왜곡된 역사학 일본인...,2017-11-04,2017-10-05,"단군,고조선,부여,요하문명을 연구하고 역사책에 기록해야 합니다",2
20673,0,21053,인권/성평등,1. 본인은 0000년 0월 0일 입대하여 27사단 77연대 2대대 5중대에서 군생...,2017-11-12,2017-10-13,"민간인 사찰 기록, 이유와 목적 밝혀야",1
21111,0,21548,육아/교육,학교생활기록부에는 학생의 전반적인 학교 활동과 학생이 교육활동을 통한 이룬 성취 등...,2017-11-15,2017-10-16,한국사능력검정시험 학교생활기록부 입력 가능하도록 해주세요,1


In [37]:
col = search.columns
col

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')

## 위 분석 외에 각자 해보고 싶은 분석을 해보세요.

# 시각화
참고 : http://plotnine.readthedocs.io/en/stable/
[has2k1/plotnine-examples: Jupyter Notebooks that are part of the plotnine documentation](https://github.com/has2k1/plotnine-examples)

#### 한글폰트 사용하기
* 한글이 깨져보이는 것을 해결하기 위해 한글폰트를 사용해야 한다.
* 여기에서는 나눔바른고딕을 사용하도록 한다. 
    * 이때 폰트가 로컬 컴퓨터에 설치되어 있어야한다. 
    * 나눔고딕은 무료로 사용할 수 있는 폰트다. 
    * 참고 : [네이버 나눔글꼴 라이선스](https://help.naver.com/support/contents/contents.nhn?serviceNo=1074&categoryNo=3497)
* 한글을 사용하기 위해서는 ggplot에서 theme에 폰트를 지정해 주면된다.
* 아래의 문서를 참고하면 **element_text**와 관련된 옵션을 볼 수 있다.
* 참고 : [plotnine.themes.element_text — plotnine 0.3.0 documentation](http://plotnine.readthedocs.io/en/stable/generated/plotnine.themes.element_text.html)

In [0]:
from plotnine import *

(ggplot(df)
 + aes('category')
 + geom_bar(fill='green')
 + theme(text=element_text(family='NanumBarunGothic'),
        axis_text_x=element_text(rotation=60))
)