# Pandas로 국민청원 데이터 분석하기

## Pandas와 NumPy를 import해 옵니다.

In [1]:
import pandas as pd
import numpy as np

## csv 데이터를 불러 옵니다.

In [2]:
df = pd.read_csv('data/petition.csv', parse_dates=['start', 'end'])

## 읽어온 데이터가 몇 행 몇 열인지 봅니다.

In [3]:
df.shape

(377756, 8)

## 일부 데이터 미리 보기
* 상단 5개의 데이터를 불러옵니다.

In [4]:
df.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


* 하단 3개의 데이터를 불러옵니다.

In [5]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
377753,492041,2019-01-09,2019-02-08,0,1,외교/통일/국방,남한땅에 옥류관을 오픈해주세요,말그대로 옥류관을 여기서 열면 진짜 재미있고 신나는 일이 일어날것 같은 느낌이 듭니...
377754,492042,2019-01-09,2019-02-08,0,4,정치개혁,임종석실장님 수고많으셨습니다.,범죄정권이후 많은 어려움을 갖고 시작한 국민의정부.\n저급한 자칭 보수단체와 한국당...
377755,492043,2019-01-09,2019-02-08,0,1,행정,예천군과 환경부를 규탄합니다. 어불성설인 가축사육 관련 법규를 개정해주세요!,해당 사건이 발생한 곳은 요즘은 매체에서 매일 나오는 곳으로 '군의원의 외유성 해외...


## 결측치가 있는지 확인해 봅니다.

In [6]:
df.isnull().sum()

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

## 데이터 요약하기
* 어떤 컬럼이 있고 어떤 타입인지 출력해 봅니다.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 377756 entries, 0 to 377755
Data columns (total 8 columns):
article_id    377756 non-null int64
start         377756 non-null datetime64[ns]
end           377756 non-null datetime64[ns]
answered      377756 non-null int64
votes         377756 non-null int64
category      377756 non-null object
title         377756 non-null object
content       377755 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 23.1+ MB


* 데이터 타입만 따로 뽑아 봅니다.

In [8]:
print(df.dtypes)

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object


* 컬럼명만 따로 추출해 봅니다.

In [9]:
print(df.columns)

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content'],
      dtype='object')


* 수치형 데이터에 대한 요약을 봅니다.

In [10]:
df.describe()

Unnamed: 0,article_id,answered,votes
count,377756.0,377756.0,377756.0
mean,239703.455924,7.7e-05,151.4069
std,146382.86348,0.008761,4842.551
min,21.0,0.0,0.0
25%,108933.75,0.0,1.0
50%,237637.0,0.0,5.0
75%,367937.25,0.0,15.0
max,492043.0,1.0,1192049.0


* 카테고리(object) 형태의 데이터에 대한 요약을 봅니다.

In [11]:
df.describe(include=np.object)

Unnamed: 0,category,title,content
count,377756,377756,377755
unique,17,330206,358060
top,정치개혁,이명박 출국금지,이명박 출국금지
freq,59020,3018,597


## 답변대상 청원 보기
20만건 이상 투표를 받으면 답변 대상 청원이 됩니다.<br/>20만건 이상 투표를 받은 청원의 갯수를 세어보세요.

In [12]:
print(f"20만건 이상 투표를 받은 청원의 갯수 : {df[df.votes >= 200000].shape[0]}건")

20만건 이상 투표를 받은 청원의 갯수 : 77건


* 20만건 이상 투표를 받은 상위 5개의 청원을 head()를 통해 출력해 보세요.

In [13]:
df[df.votes >= 200000].sort_values(by='votes', ascending=False).head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
118970,142600,2018-02-19,2018-03-21,1,614127,문화/예술/체육/언론,"김보름, 박지우 선수의 자격박탈과 적폐 빙상연맹의 엄중 처벌을 청원합니다","오늘 여자 단체전 팀추월에서 김보름, 박지우 선수는 팀전인데도 불구하고 개인의 영달..."
183791,230552,2018-05-11,2018-06-10,1,419006,인권/성평등,여성도 대한민국 국민입니다. 성별 관계없는 국가의 보호를 요청합니다.,최근 홍대 누드크로키 모델의 불법촬영 사건이 있었습니다.\n사건은 굉장히 빠르게 처...


* 20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 줍니다. 컬럼 이름은 `answer`로 합니다.

In [14]:
df['answer'] = df.votes >= 200000

* df 데이터프레임의 크기를 다시 찍어 보세요. 컬럼 하나가 늘었나요?

In [15]:
print(df.shape, "\n네, 컬럼 하나 늘었어요.")

(377756, 9) 
네, 컬럼 하나 늘었어요.


* 새로 생성해 준 answer의 타입은 boolean 타입입니다. int로 변경해 보세요.

In [16]:
df['answer'] = df['answer'].astype(int)

* 답변대상 청원중 아직 답변되지 않은 청원의 수를 계산해 보세요.

In [17]:
df[ (df['answer'] == 1) & (df['answered'] == 0) ].shape[0]

48

In [18]:
# 다른 방법

## 답변 대상 청원 중 투표를 가장 많이 받은 것

In [19]:
df[ (df['answer'] == 1) & ( df['votes'] == df.votes.max() ) ]

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...,1


## 어느 분야의 청원이 가장 많이 들어왔는지?
pandas의 value_counts로 특정 컬럼의 데이터를 그룹화하여 카운된 숫자를 볼 수 있습니다.<br/>
어느 분야의 청원이 가장 많이 들어왔는지 찾아보세요.

In [20]:
df.category.value_counts().head(1)

정치개혁    59020
Name: category, dtype: int64

## 각 청원이 얼마 동안 집계되었는지?
청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.

In [21]:
df.start.value_counts().head(1)

2017-11-11    9623
Name: start, dtype: int64

## 피봇 테이블로 투표를 가장 많이 받은 분야를 찾아보세요.

In [22]:
df.pivot_table(values='votes', index='category', aggfunc=np.sum).sort_values(by='votes', ascending=False).head(1)

Unnamed: 0_level_0,votes
category,Unnamed: 1_level_1
인권/성평등,12225998


## 투표를 가장 많이 받은 날은 언제일까요?

In [23]:
# 투표를 받은 날은 시작일을 기준으로 가정한다.
df.pivot_table(values='votes', index='start', aggfunc=np.sum).sort_values('votes', ascending=False).head(1)

Unnamed: 0_level_0,votes
start,Unnamed: 1_level_1
2018-10-17,1300523


## 청원을 많이 받은 날 VS 투표를 많이 받은 날에 대해 각각 상위 5개 목록을 추출해 봅니다. 
이때, title, content는 안 나와도 됩니다.

In [24]:
print("청원을 많이 받은 날 \n", df.start.value_counts().head(), "\n",)

청원을 많이 받은 날 
 2017-11-11    9623
2017-09-05    5952
2018-01-11    3368
2018-02-06    2631
2017-11-09    2487
Name: start, dtype: int64 



In [25]:
print("투표를 많이 받은 날 \n", df.pivot_table(values='votes', index='start', aggfunc=np.sum).sort_values('votes', ascending=False).head())

투표를 많이 받은 날 
               votes
start              
2018-10-17  1300523
2018-10-31   827096
2018-06-13   786157
2018-10-18   721524
2018-02-19   701520


## 시계열 데이터 보기
* 월별 청원수를 집계해 보세요.

In [26]:
df.groupby(df['start'].dt.month).size()

start
1     37410
2     25857
3     21795
4     23227
5     25499
6     25483
7     25714
8     28851
9     40888
10    31687
11    52847
12    38498
dtype: int64

In [27]:
df.groupby( [ df['start'].dt.year, df['start'].dt.month ] ).size()

start  start
2017   8         1171
       9        17068
       10        5951
       11       29473
       12       18456
2018   1        31338
       2        25857
       3        21795
       4        23227
       5        25499
       6        25483
       7        25714
       8        27680
       9        23820
       10       25736
       11       23374
       12       20042
2019   1         6072
dtype: int64

* 청원이 가장 많이 들어온 달은 언제인가요?
* 요일별 청원 수는 어떻게 되나요?

In [28]:
# 가장 많이 들어온 달 : 11월
df.groupby(df['start'].dt.month).size().sort_values(ascending=False).head(1)

start
11    52847
dtype: int64

In [29]:
# 요일별 청원수
df.groupby(df['start'].dt.day_name()).size().sort_values(ascending=False)

start
Tuesday      62905
Thursday     59638
Wednesday    59479
Friday       53776
Monday       51700
Saturday     48676
Sunday       41582
dtype: int64

* 특정 단어가 들어가는 청원을 찾아보세요.

In [30]:
import re
p = r'.*(돌봄|아이|초등|보육).*'
care = df(df['title'].str.match(p) | df['content'].str.match(p, flag=re.MULTILINE))
care.shape

TypeError: match() got an unexpected keyword argument 'flag'

## 위 분석 외에 각자 해보고 싶은 분석을 해보세요.

In [None]:
df.groupby( [ df['start'].dt.year, df['start'].dt.month ]).size()