# Pandas로 국민청원 데이터 분석하기

## Pandas와 NumPy를 import해 옵니다.

In [1]:
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)

0.23.1
1.14.5


## csv 데이터를 불러 옵니다.

In [2]:
df = pd.read_csv('petition.csv', parse_dates=['start', 'end'])

## 읽어온 데이터가 몇 행 몇 열인지 봅니다.

In [3]:
df.shape

(210424, 8)

## 일부 데이터 미리 보기
* 상단 5개의 데이터를 불러옵니다.

In [4]:
df.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


* 하단 3개의 데이터를 불러옵니다.

In [5]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
210421,271765,2018-06-15,2018-07-15,0,3,일자리,판교 롯데마트에서,모 음식코너에서 시식을 위해 주 5일 일하는 50대 여성 알바 근로자...
210422,271766,2018-06-15,2018-07-15,0,12,인권/성평등,여탕에 남자아이들이 들어오자못하게 해주세요.,안녕하세요.청원자입니다.저는 보다시피 고 2입니다. 제가 어제 목욕탕(사우나)를 같...
210423,271767,2018-06-15,2018-07-15,0,2,미래,인천과 강원도 원주와 태백에도 중앙정부행정기관 청사를 설치해주세요,인천광역시 서구 원창동과 강원도 원주시 무실동과 강원도 정선에도 강원도 태백시 동점...


## 결측치가 있는지 확인해 봅니다.

In [6]:
df.isnull().sum()

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

## 데이터 요약하기
* 어떤 컬럼이 있고 어떤 타입인지 출력해 봅니다.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210424 entries, 0 to 210423
Data columns (total 8 columns):
article_id    210424 non-null int64
start         210424 non-null datetime64[ns]
end           210424 non-null datetime64[ns]
answered      210424 non-null int64
votes         210424 non-null int64
category      210424 non-null object
title         210424 non-null object
content       210423 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 12.8+ MB


* 데이터 타입만 따로 뽑아 봅니다.

In [8]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object

* 컬럼명만 따로 추출해 봅니다.

In [9]:
col = df.columns
col

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')

* 수치형 데이터에 대한 요약을 봅니다.

In [10]:
df.describe(include=[np.int64])   

Unnamed: 0,article_id,answered,votes
count,210424.0,210424.0,210424.0
mean,126356.643358,0.000128,146.814508
std,79120.580606,0.011327,4595.002647
min,21.0,0.0,0.0
25%,54617.75,0.0,1.0
50%,126121.5,0.0,3.0
75%,192984.5,0.0,10.0
max,271767.0,1.0,714875.0


* 카테고리(object) 형태의 데이터에 대한 요약을 봅니다.

In [11]:
df.describe(include=[np.object])

Unnamed: 0,category,title,content
count,210424,210424,210423
unique,17,175539,195348
top,정치개혁,이명박 출국금지,이명박 출국금지
freq,38835,3018,597


## 답변대상 청원 보기
20만건 이상 투표를 받으면 답변 대상 청원이 됩니다.<br/>20만건 이상 투표를 받은 청원의 갯수를 세어보세요.

In [12]:
df_hotvote = df[df['votes'] >= 200000]
df_hotvote.shape

(43, 8)

* 20만건 이상 투표를 받은 상위 5개의 청원을 head()를 통해 출력해 보세요.

In [13]:
df_hotvote.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
1752,1785,2017-09-03,2017-11-02,1,296330,인권/성평등,청소년이란 이유로 보호법을 악용하는 잔인무도한 청소년들이 늘어나고있습니다. 반드시 ...,안녕하십니까. 청소년보호법이란 명목하에 나쁜짓을 일삼는 청소년들이 너무나 많아지고 ...
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
18111,18278,2017-09-30,2017-10-30,1,235372,인권/성평등,낙태죄 폐지와 자연유산 유도약(미프진) 합법화 및 도입을 부탁드립니다.,안녕하세요. 존경하는 대통령님 의원님\n낙태죄 폐지를 청원합니다.\n현재 대한민국은...
25032,26024,2017-11-04,2017-12-04,1,216774,안전/환경,'주취감형(술을 먹으면 형벌 감형)' 폐지를 건의(청원)합니다.,"'주취감형'이란, 술을 먹고 범행을 저지를 때, 심신미약 (이성이 없고 우발적)이라..."
43992,45581,2017-11-17,2017-12-17,1,281985,보건복지,"권역외상센터 (이국종 교수님) 추가적, 제도적, 환경적, 인력 지원","청원사항)\n중증외상분야의 추가적, 제도적, 환경적, 인력 지원 방안마련\n현 의료..."


* 20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 줍니다. 컬럼 이름은 `answer`로 합니다.

In [14]:
df['answer'] = df['votes'] >= 200000

* df 데이터프레임의 크기를 다시 찍어 보세요. 컬럼 하나가 늘었나요?

In [15]:
df.shape

(210424, 9)

* 새로 생성해 준 answer의 타입은 boolean 타입입니다. int로 변경해 보세요.

In [16]:
df['answer'] = df['answer'].astype(int)
df['answer'].dtype

dtype('int32')

* 답변대상 청원중 아직 답변되지 않은 청원의 수를 계산해 보세요.

In [17]:
noanswer = len(df) - len(df_hotvote)
noanswer

210381

## 답변 대상 청원 중 투표를 가장 많이 받은 것

In [20]:
df.sort_values('votes', ascending=False).head(1)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...,1


## 어느 분야의 청원이 가장 많이 들어왔는지?
pandas의 value_counts로 특정 컬럼의 데이터를 그룹화하여 카운된 숫자를 볼 수 있습니다.<br/>
어느 분야의 청원이 가장 많이 들어왔는지 찾아보세요.

In [23]:
df['category'].value_counts()

정치개혁           38835
기타             25985
인권/성평등         21089
안전/환경          16264
육아/교육          14384
외교/통일/국방       13881
보건복지           11623
행정             10919
일자리            10503
문화/예술/체육/언론    10437
교통/건축/국토        9906
미래              9406
경제민주화           8404
성장동력            4001
반려동물            2113
저출산/고령화대책       1763
농산어촌             911
Name: category, dtype: int64

## 각 청원이 얼마 동안 집계되었는지?
청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.

In [25]:
df['start'].value_counts().head()

2017-11-11    9623
2017-09-05    5952
2018-01-11    3368
2018-02-06    2631
2017-11-09    2487
Name: start, dtype: int64

## 피봇 테이블로 투표를 가장 많이 받은 분야를 찾아보세요.

In [None]:
pd.pivot_table(df, values='votes', )

## 투표를 가장 많이 받은 날은 언제일까요?

## 청원을 많이 받은 날 VS 투표를 많이 받은 날에 대해 각각 상위 5개 목록을 추출해 봅니다. 
이때, title, content는 안 나와도 됩니다.

## 시계열 데이터 보기
* 월별 청원수를 집계해 보세요.

* 청원이 가장 많이 들어온 달은 언제인가요?
* 요일별 청원 수는 어떻게 되나요?

특정 단어가 들어가는 청원을 찾아보세요.

In [13]:
crypto = df[( df.title.str.find('가상화폐') != -1 ) | ( df.content.str.find('가상화폐') != -1  )]
crypto.shape

(7773, 8)

In [None]:
# 정규표현식 사용을 위해 import
import re
p = r'.*(돌봄|아이|초등|보육).*'
care = df[df['title'].str.match(p) |
           df['content'].str.match(p, flags=re.MULTILINE)]
care.shape

In [80]:
# 정규표현식 사용을 위해 import
import re
p = r'.*(BJ).*'
care = df[df['title'].str.match(p) &
           df['content'].str.match(p, flags=re.MULTILINE)]
print(care.shape)
care.sample(10)

(39, 8)


Unnamed: 0,article_id,start,end,answered,votes,category,title,content
81769,92222,2018-01-12,2018-02-11,0,0,정치개혁,BJ응애 라는 사람처럼 코인 도박시장에 빠진사람들을 구해주세요.,코인 거래소 시장은 도박 그이상의 도박시장입니다. 그 이상 그 이하도 아닙니다.\n...
181564,227327,2018-05-08,2018-06-07,0,58,인권/성평등,"인터넷BJ, 일반여성 길거리 섭외후 만취상태 여성 성적유린 및 여성 몰래 성관계 (...","이 글을 여성단체나, 페미니스트, 등등 모든 남성, 여성분들이 많이 읽었으면 합니다..."
177928,222252,2018-05-03,2018-06-02,0,15,문화/예술/체육/언론,"아프리카TV 전수조사해주세요.심각합니다,이래도 가만히 있어야합니까? 인터넷방송BJ직...","팝콘티비 = 나우콤 = 아프리카TV 게이트 현직 BJ들,전직 BJ들,관계자,가담자,..."
53695,55795,2017-12-01,2017-12-31,0,2,기타,12월에 출범하는 인터넷BJ 정책협의체에 관하여,존경하는 대통령님 및 그외 청와대 종사하니는 여러분 안녕하십니까 대한민국의 미래를 ...
177960,222292,2018-05-04,2018-06-03,0,13,문화/예술/체육/언론,인터넷방송 정말로 심각합니다.인터넷방송BJ직업법안만들어주세요.,"나우콤 = 아프리카TV 게이트 현직 BJ들,전직 BJ들,관계자,가담자,운영자,기획팀..."
102430,122242,2018-01-30,2018-03-01,0,4,문화/예술/체육/언론,인터넷 개인방송 (BJ) 1일 별풍선 상한선 1백만원 하향 조치 반대,BJ님들도 다양한 방법으로 시청자에게 힘이 되어주는 직업인데 그들의 수입을 강제적으...
194034,245140,2018-05-27,2018-06-26,0,13,기타,인터넷 개인방송 헌팅BJ들 지금 처벌하지 않으면 나중에 사회 큰 문제입니다.,팝콘티비나 이런 성인방송 플랫폼에서 개인헌팅하는 BJ들이 매일 밖에 나가서 방송을 ...
200732,259082,2018-06-01,2018-07-01,0,4,문화/예술/체육/언론,아프리카TV에 가슴꼴 보이게 방송하는 여자BJ를 처벌해주세요,아프리카TV에 보면 항상 가슴꼴을 드러내놓고 방송하는 여자BJ들 눈앞에서\n안보였으...
179083,223780,2018-05-04,2018-06-03,0,9,문화/예술/체육/언론,"별풍선 제안한 BJ,아프리카TV 게이트.정말 심각합니다. 학부모님분들 이래도 가만이...",안녕하세요 아프리카TV/팝콘티비/유튜브/트위치 시청을 했던 시청자입니다.\n올해 들...
65494,69611,2017-12-19,2018-01-18,0,14,인권/성평등,BJ들의 공공장소 라이브 방송 금지법을 청원합니다,존경하는 대통령님 안녕하십니까?\n고등학생 입니다.\n최근 인터넷 방송이 성행하면서...


In [72]:
care.sample(10)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
171061,212091,2018-04-25,2018-05-25,0,281,문화/예술/체육/언론,번역가 '박지훈'을 퇴출시켜주세요,많은 할리우드 영화들을 비롯한 외국 영화를 번역가 박지훈이 번역하는데 오역을 남발함...
171858,213106,2018-04-26,2018-05-26,0,56,기타,어,어벤져스 인피니티워 영화 오역\n이게 뭡니까?\n번역가 박지훈 논란 밝혀주시면 감사...
205710,265782,2018-06-07,2018-07-07,0,9,문화/예술/체육/언론,박지훈 번역가 퇴출하자,현재 여러 외국 영화들은 이 박지훈 번역가로 통해 번역이 됩니다. 그러나 번역의 질...
171201,212254,2018-04-25,2018-05-25,0,8477,문화/예술/체육/언론,박지훈 번역가의 작품(번역)참여를 반대합니다,지금까지 영화에서 수많은 오역과 발번역을 하여 각종 비난과 퇴출운동이 일어나고 있는...
207969,268777,2018-06-11,2018-07-11,0,23,문화/예술/체육/언론,[쥬라기월드] [어벤져스] 사태의 재발 방지를 위해 영화 등급분류 제도 개선을 청원...,며칠 전 영화 [쥬라기 월드: 폴른 킹덤]이 세계 최초로 개봉을 하였습니다.\n그런...
204507,264140,2018-06-06,2018-07-06,0,8,기타,디즈니 코리아 영화번역가 박지훈의 퇴출,문재인 대통령님께 정중히 부탁립니다 .4월25일에 어벤져스인피니티워가 개봉했는데요 ...
127545,152612,2018-02-27,2018-03-29,0,12,육아/교육,연예인들 대학입학 특혜도 조사해 주세요!,연예인들은 대학입학 과정에서 특혜가 너무 많습니다. 공정해야 할 대학입시에 돈 잘...
173862,215810,2018-04-30,2018-05-30,0,199,일자리,번역가 박지훈 번역계 추방,해외 영화 번역과 관련하여 그동안 말아드신게 많은 것 같습니다.\n이제 보내주세요 ...
171741,212963,2018-04-26,2018-05-26,0,215,기타,어밴져스3 번역가 처벌요구,어밴저스3의 한국어 번역한 박지훈 번역가는 오역으로인해서 해고시켜주세요
171178,212223,2018-04-25,2018-05-25,0,130,문화/예술/체육/언론,박지훈 번역가의 작품 참여를 반대합니다,대한민국 번역가 사상 최악의 오역가\n박지훈 번역가의 작품 참여(번역)를 반대합니다...


In [73]:
care

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
127545,152612,2018-02-27,2018-03-29,0,12,육아/교육,연예인들 대학입학 특혜도 조사해 주세요!,연예인들은 대학입학 과정에서 특혜가 너무 많습니다. 공정해야 할 대학입시에 돈 잘...
171061,212091,2018-04-25,2018-05-25,0,281,문화/예술/체육/언론,번역가 '박지훈'을 퇴출시켜주세요,많은 할리우드 영화들을 비롯한 외국 영화를 번역가 박지훈이 번역하는데 오역을 남발함...
171178,212223,2018-04-25,2018-05-25,0,130,문화/예술/체육/언론,박지훈 번역가의 작품 참여를 반대합니다,대한민국 번역가 사상 최악의 오역가\n박지훈 번역가의 작품 참여(번역)를 반대합니다...
171201,212254,2018-04-25,2018-05-25,0,8477,문화/예술/체육/언론,박지훈 번역가의 작품(번역)참여를 반대합니다,지금까지 영화에서 수많은 오역과 발번역을 하여 각종 비난과 퇴출운동이 일어나고 있는...
171741,212963,2018-04-26,2018-05-26,0,215,기타,어밴져스3 번역가 처벌요구,어밴저스3의 한국어 번역한 박지훈 번역가는 오역으로인해서 해고시켜주세요
171858,213106,2018-04-26,2018-05-26,0,56,기타,어,어벤져스 인피니티워 영화 오역\n이게 뭡니까?\n번역가 박지훈 논란 밝혀주시면 감사...
173862,215810,2018-04-30,2018-05-30,0,199,일자리,번역가 박지훈 번역계 추방,해외 영화 번역과 관련하여 그동안 말아드신게 많은 것 같습니다.\n이제 보내주세요 ...
204507,264140,2018-06-06,2018-07-06,0,8,기타,디즈니 코리아 영화번역가 박지훈의 퇴출,문재인 대통령님께 정중히 부탁립니다 .4월25일에 어벤져스인피니티워가 개봉했는데요 ...
205710,265782,2018-06-07,2018-07-07,0,9,문화/예술/체육/언론,박지훈 번역가 퇴출하자,현재 여러 외국 영화들은 이 박지훈 번역가로 통해 번역이 됩니다. 그러나 번역의 질...
207969,268777,2018-06-11,2018-07-11,0,23,문화/예술/체육/언론,[쥬라기월드] [어벤져스] 사태의 재발 방지를 위해 영화 등급분류 제도 개선을 청원...,며칠 전 영화 [쥬라기 월드: 폴른 킹덤]이 세계 최초로 개봉을 하였습니다.\n그런...


## 위 분석 외에 각자 해보고 싶은 분석을 해보세요.

In [156]:
import wordcloud as wc

# 시각화
참고 : http://plotnine.readthedocs.io/en/stable/
[has2k1/plotnine-examples: Jupyter Notebooks that are part of the plotnine documentation](https://github.com/has2k1/plotnine-examples)

#### 한글폰트 사용하기
* 한글이 깨져보이는 것을 해결하기 위해 한글폰트를 사용해야 한다.
* 여기에서는 나눔바른고딕을 사용하도록 한다. 
    * 이때 폰트가 로컬 컴퓨터에 설치되어 있어야한다. 
    * 나눔고딕은 무료로 사용할 수 있는 폰트다. 
    * 참고 : [네이버 나눔글꼴 라이선스](https://help.naver.com/support/contents/contents.nhn?serviceNo=1074&categoryNo=3497)
* 한글을 사용하기 위해서는 ggplot에서 theme에 폰트를 지정해 주면된다.
* 아래의 문서를 참고하면 **element_text**와 관련된 옵션을 볼 수 있다.
* 참고 : [plotnine.themes.element_text — plotnine 0.3.0 documentation](http://plotnine.readthedocs.io/en/stable/generated/plotnine.themes.element_text.html)

In [None]:
from plotnine import *

(ggplot(df)
 + aes('category')
 + geom_bar(fill='green')
 + theme(text=element_text(family='NanumBarunGothic'),
        axis_text_x=element_text(rotation=60))
)