# Pandas로 국민청원 데이터 분석하기

## Pandas와 NumPy를 import해 옵니다.

In [35]:
import pandas as pd
import numpy as np

## csv 데이터를 불러 옵니다.

In [36]:
df = pd.read_csv('petition.csv', parse_dates=['start', 'end'])

## 읽어온 데이터가 몇 행 몇 열인지 봅니다.

In [37]:
df.shape

(377756, 8)

## 일부 데이터 미리 보기
* 상단 5개의 데이터를 불러옵니다.

In [38]:
df.head(5)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


* 하단 3개의 데이터를 불러옵니다.

In [39]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
377753,492041,2019-01-09,2019-02-08,0,1,외교/통일/국방,남한땅에 옥류관을 오픈해주세요,말그대로 옥류관을 여기서 열면 진짜 재미있고 신나는 일이 일어날것 같은 느낌이 듭니...
377754,492042,2019-01-09,2019-02-08,0,4,정치개혁,임종석실장님 수고많으셨습니다.,범죄정권이후 많은 어려움을 갖고 시작한 국민의정부.\n저급한 자칭 보수단체와 한국당...
377755,492043,2019-01-09,2019-02-08,0,1,행정,예천군과 환경부를 규탄합니다. 어불성설인 가축사육 관련 법규를 개정해주세요!,해당 사건이 발생한 곳은 요즘은 매체에서 매일 나오는 곳으로 '군의원의 외유성 해외...


## 결측치가 있는지 확인해 봅니다.

In [40]:
df.isnull().sum()

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

## 데이터 요약하기
* 어떤 컬럼이 있고 어떤 타입인지 출력해 봅니다.

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 377756 entries, 0 to 377755
Data columns (total 8 columns):
article_id    377756 non-null int64
start         377756 non-null datetime64[ns]
end           377756 non-null datetime64[ns]
answered      377756 non-null int64
votes         377756 non-null int64
category      377756 non-null object
title         377756 non-null object
content       377755 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 23.1+ MB


* 데이터 타입만 따로 뽑아 봅니다.

In [42]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object

* 컬럼명만 따로 추출해 봅니다.

In [43]:
df.columns

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')

* 수치형 데이터에 대한 요약을 봅니다.

In [44]:
df.describe()

Unnamed: 0,article_id,answered,votes
count,377756.0,377756.0,377756.0
mean,239703.455924,7.7e-05,151.4069
std,146382.86348,0.008761,4842.551
min,21.0,0.0,0.0
25%,108933.75,0.0,1.0
50%,237637.0,0.0,5.0
75%,367937.25,0.0,15.0
max,492043.0,1.0,1192049.0


* 카테고리(object) 형태의 데이터에 대한 요약을 봅니다.

In [45]:
df.describe(include=np.object)

Unnamed: 0,category,title,content
count,377756,377756,377755
unique,17,330206,358060
top,정치개혁,이명박 출국금지,이명박 출국금지
freq,59020,3018,597


## 답변대상 청원 보기
20만건 이상 투표를 받으면 답변 대상 청원이 됩니다.<br/>20만건 이상 투표를 받은 청원의 갯수를 세어보세요.

In [46]:
df_20 = df.loc[df['votes'] > 200000]
df_20.shape

(77, 8)

In [47]:
df.loc[df['votes'] > 1000 ].count()

article_id    3343
start         3343
end           3343
answered      3343
votes         3343
category      3343
title         3343
content       3343
dtype: int64

In [48]:
df_20.category.value_counts()

인권/성평등         23
안전/환경          10
문화/예술/체육/언론     7
정치개혁            7
기타              7
외교/통일/국방        4
반려동물            4
육아/교육           3
교통/건축/국토        3
보건복지            3
경제민주화           2
성장동력            2
행정              1
미래              1
Name: category, dtype: int64

In [49]:
df_20[['title', 'content']].head(3)

Unnamed: 0,title,content
1752,청소년이란 이유로 보호법을 악용하는 잔인무도한 청소년들이 늘어나고있습니다. 반드시 ...,안녕하십니까. 청소년보호법이란 명목하에 나쁜짓을 일삼는 청소년들이 너무나 많아지고 ...
10894,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
18111,낙태죄 폐지와 자연유산 유도약(미프진) 합법화 및 도입을 부탁드립니다.,안녕하세요. 존경하는 대통령님 의원님\n낙태죄 폐지를 청원합니다.\n현재 대한민국은...


* 20만건 이상 투표를 받은 상위 5개의 청원을 head()를 통해 출력해 보세요.

In [50]:
df_20_loc = df.loc[df.votes > 200000]
df_20_loc.sort_values(by='votes', ascending=False).head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
118970,142600,2018-02-19,2018-03-21,1,614127,문화/예술/체육/언론,"김보름, 박지우 선수의 자격박탈과 적폐 빙상연맹의 엄중 처벌을 청원합니다","오늘 여자 단체전 팀추월에서 김보름, 박지우 선수는 팀전인데도 불구하고 개인의 영달..."
183791,230552,2018-05-11,2018-06-10,1,419006,인권/성평등,여성도 대한민국 국민입니다. 성별 관계없는 국가의 보호를 요청합니다.,최근 홍대 누드크로키 모델의 불법촬영 사건이 있었습니다.\n사건은 굉장히 빠르게 처...


* 20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 줍니다. 컬럼 이름은 `answer`로 합니다.

In [51]:
df['answer'] = (df['votes'] > 200000) == 1

* df 데이터프레임의 크기를 다시 찍어 보세요. 컬럼 하나가 늘었나요?

In [52]:
df.shape

(377756, 9)

In [19]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
answer                  bool
dtype: object

* 새로 생성해 준 answer의 타입은 boolean 타입입니다. int로 변경해 보세요.

In [53]:
df['answer'] = df['answer'].astype('int')

* 답변대상 청원중 아직 답변되지 않은 청원의 수를 계산해 보세요.

In [54]:
df['answer_diff'] = df['answer'] - df['answered']
df['answer_diff'].sum()

48

## 답변 대상 청원 중 투표를 가장 많이 받은 것

In [22]:
answered_df = df.loc[df['answer'] == 1]
answered_df.sort_values('votes', ascending=False).head(5)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer,answer_diff
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...,1,1
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...,1,1
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!,1,0
118970,142600,2018-02-19,2018-03-21,1,614127,문화/예술/체육/언론,"김보름, 박지우 선수의 자격박탈과 적폐 빙상연맹의 엄중 처벌을 청원합니다","오늘 여자 단체전 팀추월에서 김보름, 박지우 선수는 팀전인데도 불구하고 개인의 영달...",1,0
183791,230552,2018-05-11,2018-06-10,1,419006,인권/성평등,여성도 대한민국 국민입니다. 성별 관계없는 국가의 보호를 요청합니다.,최근 홍대 누드크로키 모델의 불법촬영 사건이 있었습니다.\n사건은 굉장히 빠르게 처...,1,0


## 어느 분야의 청원이 가장 많이 들어왔는지?
pandas의 value_counts로 특정 컬럼의 데이터를 그룹화하여 카운된 숫자를 볼 수 있습니다.<br/>
어느 분야의 청원이 가장 많이 들어왔는지 찾아보세요.

In [23]:
category = pd.DataFrame(df['category'].value_counts()).reset_index()
category.columns = ['category', 'counts']
category

Unnamed: 0,category,counts
0,정치개혁,59020
1,기타,46449
2,인권/성평등,33738
3,안전/환경,29196
4,교통/건축/국토,26910
5,외교/통일/국방,25705
6,육아/교육,24861
7,보건복지,23608
8,일자리,22111
9,행정,19373


## 청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.

In [24]:
start_df = pd.DataFrame(df['start'].value_counts()).reset_index()
start_df.columns = ['start', 'counts']
start_df = start_df.sort_values('counts', ascending=False)
print('청원 집계: {}일'.format(start_df.shape[0]))
start_df.head()

청원 집계: 509일


Unnamed: 0,start,counts
0,2017-11-11,9623
1,2017-09-05,5952
2,2018-01-11,3368
3,2018-02-06,2631
4,2017-11-09,2487


## 피봇 테이블로 투표를 가장 많이 받은 분야를 찾아보세요.

In [25]:
petitions_unique = pd.pivot_table(df, index=['category'], aggfunc=np.sum)
petitions_best = petitions_unique.sort_values(by='votes', \
                                              ascending=False).reset_index()
petitions_best

Unnamed: 0,category,answer,answer_diff,answered,article_id,votes
0,인권/성평등,23,14,9,7329787166,12225998
1,안전/환경,10,8,2,6806887655,6512799
2,정치개혁,7,5,2,12787866627,5686172
3,기타,7,6,1,11097814909,4720310
4,육아/교육,3,2,1,5482023289,4420589
5,보건복지,3,1,2,5965078695,4269399
6,문화/예술/체육/언론,7,3,4,3948940469,4086382
7,외교/통일/국방,4,3,1,6404855753,3637926
8,교통/건축/국토,3,1,2,7909816091,2834727
9,반려동물,4,4,0,918432206,2023905


## 투표를 가장 많이 받은 날은 언제일까요?

In [26]:
petitions_start = pd.pivot_table(df, index=['start'], aggfunc=np.sum)
votes_df = petitions_start.sort_values(by='votes', ascending=False)
votes_df.loc[petitions_start['votes'] > 350000]

Unnamed: 0_level_0,answer,answer_diff,answered,article_id,votes
start,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-10-17,1,1,0,378900198,1300523
2018-10-31,2,2,0,430964099,827096
2018-06-13,1,1,0,146187973,786157
2018-10-18,2,2,0,423557789,721524
2018-02-19,1,0,1,99332898,701520
2018-11-09,2,2,0,349439392,672819
2018-07-22,1,1,0,282639463,672491
2017-09-06,1,0,1,22268570,648209
2018-06-24,2,2,0,359345089,628925
2018-10-04,2,1,1,290746555,626761


## 청원을 많이 받은 날 VS 투표를 많이 받은 날에 대해 각각 상위 5개 목록을 추출해 봅니다. 
이때, title, content는 안 나와도 됩니다.

In [27]:
# 두 개의 데이터프레임을 합치기 위해 인덱스를 생성한다.
votes_df = votes_df.reset_index()
hottest_day_df = start_df.merge(votes_df, on='start', how='left')
hottest_day_df.sort_values('counts', ascending=False)[:5]

Unnamed: 0,start,counts,answer,answer_diff,answered,article_id,votes
0,2017-11-11,9623,0,0,0,348559310,85074
1,2017-09-05,5952,0,0,0,38414241,48808
2,2018-01-11,3368,0,0,0,291069195,44570
3,2018-02-06,2631,0,0,0,342371897,83038
4,2017-11-09,2487,0,0,0,73459579,34774


In [28]:
hottest_day_df.sort_values('votes', ascending=False)[:5]

Unnamed: 0,start,counts,answer,answer_diff,answered,article_id,votes
113,2018-10-17,926,1,1,0,378900198,1300523
80,2018-10-31,1010,2,2,0,430964099,827096
365,2018-06-13,542,1,1,0,146187973,786157
74,2018-10-18,1032,2,2,0,423557789,721524
258,2018-02-19,698,1,0,1,99332898,701520


## 시계열 데이터 보기
* 월별 청원수를 집계해 보세요.

In [55]:
df['start_month'] = df['start'].dt.month
df['start_day'] = df['start'].dt.day
df['start_hour'] = df['start'].dt.hour
df['start_dow'] = df['start'].dt.dayofweek
df.shape

(377756, 14)

In [56]:
df['start_month'].value_counts()

11    52847
9     40888
12    38498
1     37410
10    31687
8     28851
2     25857
7     25714
5     25499
6     25483
4     23227
3     21795
Name: start_month, dtype: int64

* 청원이 가장 많이 들어온 달은 언제인가요?
* 요일별 청원 수는 어떻게 되나요?

In [59]:
crypto = df[( df.title.str.find('가상화폐') != -1 ) | ( df.content.str.find('가상화폐') != -1  )]
crypto.shape

(7911, 14)

In [60]:
crypto.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer,answer_diff,start_month,start_day,start_hour,start_dow
12781,12841,2017-09-08,2017-12-07,0,3,성장동력,가상전자화폐를 인정하고 규제해야합니다,가상전자화폐\n흔히 코인이라 불리는 비생산적이고 소모적이며\n시장을 혼란케 하고 산...,0,0,9,8,0,4
19325,19575,2017-10-06,2017-11-05,0,5,성장동력,ICO 전면금지에 대한 입장,정부는 9월 29일 김용범 금융위원회 부위원장 주재로 <가상통화 관계기관 합동TF>...,0,0,10,6,0,4
20874,21277,2017-10-15,2017-11-14,0,3906,미래,대통령님에게 전하는 지부상소(持斧上疏)입니다. -블록체인 기술에 대한 이야기-,지부상소(持斧上疏)를 이야기할 만큼 간절하게 원합니다.\n이 글이 문재인 대통령님께...,0,0,10,15,0,6
20911,21327,2017-10-15,2017-11-14,0,3,경제민주화,가상화폐 투기 광풍을 막아주세요,가상화폐 규제 어떻게 해야 하나 ?\n이제 우리 앞에 놓여진 사회적 이슈가 되어\n...,0,0,10,15,0,6
26541,27765,2017-11-08,2017-12-08,0,1,경제민주화,가상화폐 투자대행회사의 무분별한 수수료 바로잡아주세요,가상화폐 ico로 대리업무를 대행해주고 5-30% 수수료를 책정하고 계약서나 기타 ...,0,0,11,8,0,2


In [61]:
crypto['category'].value_counts()

경제민주화          1970
미래             1897
성장동력           1409
기타             1019
정치개혁            882
행정              350
일자리             113
인권/성평등           65
안전/환경            55
외교/통일/국방         44
교통/건축/국토         39
문화/예술/체육/언론      29
보건복지             16
저출산/고령화대책         8
육아/교육             8
반려동물              5
농산어촌              2
Name: category, dtype: int64

## 특정 단어가 들어가는 청원을 찾아보세요.

In [34]:
import re
p = r'.*(돌봄|아이|초등|보육).*'
care = df[df['title'].str.match(p) |
           df['content'].str.match(p, flags=re.MULTILINE)]
care.shape

(45689, 14)

## 위 분석 외에 각자 해보고 싶은 분석을 해보세요.