# Pandas로 국민청원 데이터 분석하기

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('https://s3.ap-northeast-2.amazonaws.com/data10902/petition/petition.csv', parse_dates=['start', 'end'])

In [4]:
df.shape

(395547, 8)

In [4]:
# article_id가 1-20까지는 새발자가 테스트 용도로 쓰다가 데이터베이스 복구를 하지 않아서 첫 글이 21이 됨
df.head(5)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


In [5]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
395544,517120,2019-02-04,2019-03-06,0,0,안전/환경,환경문제,명절이면 후로 제일문제는 쓰레기 문제 입니다.\n제일문제는 선물세트와 농산물세트 입...
395545,517121,2019-02-04,2019-03-06,0,20,정치개혁,"청화대,더불어민주당, 당장 답하라,,,,,,","좌파 더불어민주당, 좌파 정권 청화대는 선한 국민들을 더는 기망하지 말고 담장 답하..."
395546,517122,2019-02-04,2019-03-06,0,16,인권/성평등,여성부 폐지,국민들이 원합니다\n폐지 좀 시키세요;


In [6]:
df.isnull().sum()

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395547 entries, 0 to 395546
Data columns (total 8 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   article_id  395547 non-null  int64         
 1   start       395547 non-null  datetime64[ns]
 2   end         395547 non-null  datetime64[ns]
 3   answered    395547 non-null  int64         
 4   votes       395547 non-null  int64         
 5   category    395547 non-null  object        
 6   title       395547 non-null  object        
 7   content     395546 non-null  object        
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 24.1+ MB


In [8]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object

In [9]:
df.columns

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')

수치형 데이터에 대한 요약

In [10]:
df.describe()

Unnamed: 0,article_id,answered,votes
count,395547.0,395547.0,395547.0
mean,251608.934635,7.3e-05,150.1188
std,153219.216242,0.008562,4802.583
min,21.0,0.0,0.0
25%,115236.5,0.0,2.0
50%,253682.0,0.0,5.0
75%,386137.5,0.0,15.0
max,517122.0,1.0,1192049.0


카테고리(object) 형태의 데이터에 대한 요약
* count와 unique가 일치하지 않는 것은 도배글이 많다는 것을 의미한다

## 답변대상인 청원 보기
* 20만건 이상 투표를 받으면 답변 대상 청원이 된다
* 20만건 이상 투표를 받은 청원의 개수 세기

In [12]:
df_20 = df.loc[df['votes'] > 200000]
df_20.shape

(80, 8)

In [13]:
df_20.category.value_counts()

인권/성평등         24
안전/환경          10
정치개혁            8
기타              8
문화/예술/체육/언론     7
반려동물            4
외교/통일/국방        4
육아/교육           3
보건복지            3
교통/건축/국토        3
경제민주화           2
성장동력            2
행정              1
미래              1
Name: category, dtype: int64

* 20만건 이상 투표를 받은 상위 5개의 청원을 출력

In [15]:
df_20[['title', 'content']].head(3)

Unnamed: 0,title,content
1752,청소년이란 이유로 보호법을 악용하는 잔인무도한 청소년들이 늘어나고있습니다. 반드시 ...,안녕하십니까. 청소년보호법이란 명목하에 나쁜짓을 일삼는 청소년들이 너무나 많아지고 ...
10894,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
18111,낙태죄 폐지와 자연유산 유도약(미프진) 합법화 및 도입을 부탁드립니다.,안녕하세요. 존경하는 대통령님 의원님\n낙태죄 폐지를 청원합니다.\n현재 대한민국은...


20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 준다. 컬럼의 이름은 answer

In [16]:
df['answer'] = (df['votes'] > 200000) == 1

In [17]:
df.shape  #열의 개수가 한개 늘었다

(395547, 9)

In [18]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
answer                  bool
dtype: object

새로 생성한 answer의 타입은 boolean 타입. int로 변경한다

In [19]:
df['answer'] = df['answer'].astype('int')

* 답변대상 청원 중 아직 답변되지 않은 청원의 수를 계산

In [20]:
df['answer_diff'] = df['answer']-df['answered']
df['answer_diff'].sum()

51

# 답변 대상 청원 중 투표를 가장 많이 받은 것

In [47]:
answered_df = df.loc[df['answer'] == 1]

In [45]:
answer_mostvoted_10 = answered_df.sort_values('votes', ascending=False).head(10)

### 청원이 가장 많이 들어온 날은 언제인지 정렬

In [61]:
start_df = pd.DataFrame(df['start'].value_counts()).reset_index()
start_df.columns = ['start', 'counts']
start_df = start_df.sort_values('counts', ascending=False)
print('청원 집계: {}일'.format(start_df.shape[0]))
start_df.head()

청원 집계: 535일


Unnamed: 0,start,counts
0,2017-11-11,9623
1,2017-09-05,5952
2,2018-01-11,3368
3,2018-02-06,2631
4,2017-11-09,2487


### 투표를 가장 많이 받은 날은 언제?

In [62]:
petitions_start = pd.pivot_table(df, index=['start'], aggfunc=np.sum)
votes_df = petitions_start.sort_values(by='votes', ascending=False)
votes_df.loc[petitions_start['votes'] > 350000]

Unnamed: 0_level_0,answer,answer_diff,answered,article_id,votes
start,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-10-17,1,1,0,378900198,1300523
2018-10-31,2,2,0,430964099,827096
2018-06-13,1,1,0,146187973,786157
2018-10-18,2,2,0,423557789,721524
2018-02-19,1,0,1,99332898,701520
2018-11-09,2,2,0,349439392,672819
2018-07-22,1,1,0,282639463,672491
2017-09-06,1,0,1,22268570,648209
2018-06-24,2,2,0,359345089,628925
2018-10-04,2,1,1,290746555,626761


### 월별 청원수

In [63]:
df['start_month'] = df['start'].dt.month
df['start_day'] = df['start'].dt.day
df['start_hour'] = df['start'].dt.hour
df['start_dow'] = df['start'].dt.dayofweek
df.shape

(395547, 14)

In [23]:
!pip install folium

Collecting folium
  Downloading folium-0.11.0-py2.py3-none-any.whl (93 kB)
Collecting branca>=0.3.0
  Downloading branca-0.4.1-py3-none-any.whl (24 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.4.1 folium-0.11.0


In [24]:
import plotly.io as pio
pio.renderers.default = 'notebook_connected'   

import numpy as np
import pandas as pd 

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates

import plotly.express as px

from datetime import date, timedelta

import plotly.offline as py

import folium 
from folium import plugins

import warnings
warnings.filterwarnings("ignore")

import os

In [25]:
def pie_chart(data, col, title = ''):
    cnt_df = data[col].value_counts().reset_index()
    fig = px.pie(cnt_df, 
                 values = col, 
                 names = 'index', 
                 title = title, 
                 template = 'seaborn',
                 color_discrete_sequence=px.colors.sequential.RdBu)
    fig.update_traces(rotation=90, pull=0.05, textinfo="value+percent+label")
    fig.show()

1. 20만명이 넘어서 답변을 받아야하는 사람들의 관심분야 그래프와 도배성 글이 많은 관심분야의 relationship
2. 답변 대상이 아닌 것 중에 가장 높은 관심(글을 쓴 사람의 수)의 카테고리
3. 요일별 청원수: 주중과 주말을 나누어 각각 어떤 카테고리에 투표를 많이 하거나 이의 제기를 많이했는지 확인
4. 답변 대상(20만명 이상)인 것 중에 글이 얼마나 올라오는 지
도배성 글이 많은 관심분야(카테고리)검토
5. 답변 대상의 청원 중 투표를 많이 받은 순서로 카테고리 선정
6. 답변 대상이 아닌 것 중 투표를 많이 받은 순서로 카테고리 선정 


## 1. 전체 청원의 분야별 비율과 답변 대상인 청원(투표수가 20만명 이상인 청원)의 분야별 비율 비교 

In [52]:
pie_chart(df, 'category', title = '전체청원의 분야별 비율')

In [34]:
pie_chart(df_20, 'category', title = '답변대상청원의 분야별 비율')

>분석
:전체 청원은 정치개혁 관련한 글의 수가 15.9%, 인권/성평등 분야 글의 수가 8.85%로 가장 많은 청원 1, 2위에 속한다
그러나, 20만명 이상의 투표를 받은 즉, 답변 대상의 청원의 수는 인권/성평등 분야가 30%로 1위, 안전/환경 분야가 12.5%로 2위, 그리고 정치개혁 분야가 10%로 3위에 속했다. 이를 통해, 청원의 수와 국민의 관심이 어느정도는 일치한다고 볼 수 있다. 그러나, 인권/성평등 분야의 답변대상인 청원 비율이 압도적으로 커서 대다수 국민의 관심이 인권/성평등 분야에 쏠려있다고 유추할 수 있다.

## 2. 전체 청원의 분야별 비율과 답변 대상이 아닌 청원(투표수가 20만명 이상이 아닌 청원)의 분야별 비율 비교 

In [53]:
non_answered_df = df.loc[df['answer'] == 0]

In [57]:
pie_chart(df, 'category', title = '전체청원의 분야별 비율')

In [60]:
pie_chart(non_answered_df, 'category', title = '답변대상청원이 아닌 글의 분야별 비율')

>분석: 답변대상청원이 아닌 청원의 분야별 비율은 전체청원의 분야별 비율과 거의 비슷하다. 이는 1에서 답변 대상인 청원의 수가 압도적으로 적기 때문에 쉽게 유추할 수 있다. 또한, 청원에 올리는 글들의 대부분이 많은 사람들이 공감하지 못하는 글들임을 알 수 있다.

## 3. 월별 카테고리별 청원수 비교

In [63]:
df['start_month'] = df['start'].dt.month
df['start_day'] = df['start'].dt.day
df['start_hour'] = df['start'].dt.hour
df['start_dow'] = df['start'].dt.dayofweek
df.shape

(395547, 14)

In [82]:
pie_chart(df, 'start_month', title = '월별 청원글의 수')

In [84]:
df_20['start_month'] = df_20['start'].dt.month
df_20['start_day'] = df_20['start'].dt.day
df_20['start_hour'] = df_20['start'].dt.hour
df_20['start_dow'] = df_20['start'].dt.dayofweek
df.shape

(395547, 14)

In [87]:
pie_chart(df_20, 'start_month', title = '답변대상청원 중 월별 청원글의 수')

>분석: 전체적으로는 1월과 11월에 각각 청원이 많이 올라왔음을 알 수 있다. 해당 월에 많은 사람들이 관심을 가질만한 이슈가 있었음을 유추할 수 있다. 또한, 20만명이 넘은 청원글이 올라온 월의 경우, 10월과 1월에 가장 많았다. 이는 위의 결과와 유사한 결과로 동일하게 해석될 수 있다.

## 4. 분야별 투표수가 최하위 청원글 10000 분석

In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395547 entries, 0 to 395546
Data columns (total 14 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   article_id   395547 non-null  int64         
 1   start        395547 non-null  datetime64[ns]
 2   end          395547 non-null  datetime64[ns]
 3   answered     395547 non-null  int64         
 4   votes        395547 non-null  int64         
 5   category     395547 non-null  object        
 6   title        395547 non-null  object        
 7   content      395546 non-null  object        
 8   answer       395547 non-null  int32         
 9   answer_diff  395547 non-null  int64         
 10  start_month  395547 non-null  int64         
 11  start_day    395547 non-null  int64         
 12  start_hour   395547 non-null  int64         
 13  start_dow    395547 non-null  int64         
dtypes: datetime64[ns](2), int32(1), int64(8), object(3)
memory usage: 40.7+ MB


In [111]:
least_voted = df.sort_values('votes', ascending=True)
least_voted_10000 = least_voted.iloc[0:10001,]

In [109]:
pie_chart(least_voted_10000, 'category', title = '분야별 투표수가 최하위 청원의 비율')

>분석: 카테고리별 투표수 최하위 청원의 비율에서 정치개혁 분야의 비율이 압도적으로 높음을 알 수 있다. 이는, 정치개혁 분야의 도배글이나 다수의 공감과 동의를 얻지 못하는 청원글이 정치개혁분야에서 많다는 것을 유추할 수 있다. 또한, 위의 다른 자료들에서는 볼 수 없었던 행정과 유아/교육 카테고리의 비율이 높은데 이것도 정치개혁 분야와 마찬가지로 타인의 공감을 얻지 못하는 개인의 입장을 국민청원사이트에 올리는 경우가 많아서임을 알 수 있다. 

## 5. 답변대상이 아닌 청원 중 투표수가 많은 청원

In [124]:
least_voted = df.sort_values('votes', ascending=True)
non_answered_df = df.loc[df['answer'] == 0]
non_ans_max = non_answered_df.sort_values('votes', ascending = False).iloc[:10000, ]

In [125]:
pie_chart(non_ans_max, 'category', title = '답변대상이 아닌 청원 중 투표수 최상위 청원 10000')

>분석: 아쉽게 20만을 넘기지 못한 청원은 인권/성평등 분야가 1위, 육아/교육분야가 2위이다. 답변대상인 청원의 자료만으로 알 수 없었던 국민의 관심이 드러나는 부분이다. 인권/성평등 분야와 마찬가지로 육아/교육 분야는 이 차트에서 큰 비중을 차지한다. 

끝