# Pandas로 국민청원 데이터 분석하기

## Pandas와 NumPy를 import해 옵니다.

In [2]:
import pandas as pd
import numpy as np

## csv 데이터를 불러 옵니다.

In [3]:
df = pd.read_csv('data/petition.csv', parse_dates=['start', 'end'])

## 읽어온 데이터가 몇 행 몇 열인지 봅니다.

In [3]:
df.shape

(377756, 8)

## 일부 데이터 미리 보기
* 상단 5개의 데이터를 불러옵니다.

In [4]:
df.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
3,24,2017-08-19,2017-08-26,0,53,일자리,공공기관 무조건적인 정규직전환을 반대합니다.,현정부에서 정규직 일자리를 늘리는 것에 찬성합니다. 그런데 공공기관 비정규직들은 인...
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."


* 하단 3개의 데이터를 불러옵니다.

In [5]:
df.tail(3)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
377753,492041,2019-01-09,2019-02-08,0,1,외교/통일/국방,남한땅에 옥류관을 오픈해주세요,말그대로 옥류관을 여기서 열면 진짜 재미있고 신나는 일이 일어날것 같은 느낌이 듭니...
377754,492042,2019-01-09,2019-02-08,0,4,정치개혁,임종석실장님 수고많으셨습니다.,범죄정권이후 많은 어려움을 갖고 시작한 국민의정부.\n저급한 자칭 보수단체와 한국당...
377755,492043,2019-01-09,2019-02-08,0,1,행정,예천군과 환경부를 규탄합니다. 어불성설인 가축사육 관련 법규를 개정해주세요!,해당 사건이 발생한 곳은 요즘은 매체에서 매일 나오는 곳으로 '군의원의 외유성 해외...


## 결측치가 있는지 확인해 봅니다.

In [17]:
# isnull()의 결과가 True인 것을 합한다.
df.isnull().sum()

# 결측치가 거의 없다!!

article_id    0
start         0
end           0
answered      0
votes         0
category      0
title         0
content       1
dtype: int64

## 데이터 요약하기
* 어떤 컬럼이 있고 어떤 타입인지 출력해 봅니다.

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 377756 entries, 0 to 377755
Data columns (total 8 columns):
article_id    377756 non-null int64
start         377756 non-null datetime64[ns]
end           377756 non-null datetime64[ns]
answered      377756 non-null int64
votes         377756 non-null int64
category      377756 non-null object
title         377756 non-null object
content       377755 non-null object
dtypes: datetime64[ns](2), int64(3), object(3)
memory usage: 23.1+ MB


* 데이터 타입만 따로 뽑아 봅니다.

In [20]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
dtype: object

* 컬럼명만 따로 추출해 봅니다.

In [64]:
print(df.columns)
print(df.columns[4])

Index(['article_id', 'start', 'end', 'answered', 'votes', 'category', 'title',
       'content', 'answer'],
      dtype='object')
votes


* 수치형 데이터에 대한 요약을 봅니다.

In [24]:
df.describe()

Unnamed: 0,article_id,answered,votes
count,377756.0,377756.0,377756.0
mean,239703.455924,7.7e-05,151.4069
std,146382.86348,0.008761,4842.551
min,21.0,0.0,0.0
25%,108933.75,0.0,1.0
50%,237637.0,0.0,5.0
75%,367937.25,0.0,15.0
max,492043.0,1.0,1192049.0


* 카테고리(object) 형태의 데이터에 대한 요약을 봅니다.

In [27]:
df.describe(include=[np.object])

Unnamed: 0,category,title,content
count,377756,377756,377755
unique,17,330206,358060
top,정치개혁,이명박 출국금지,이명박 출국금지
freq,59020,3018,597


## 답변대상 청원 보기
20만건 이상 투표를 받으면 답변 대상 청원이 됩니다.<br/>20만건 이상 투표를 받은 청원의 갯수를 세어보세요.

In [31]:
df[ df["votes"] > 200000 ].sample(5)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
164274,203181,2018-04-17,2018-05-17,1,302082,행정,다산신도시 실버택배 비용은 입주민들의 관리비로 충당해야합니다.,다산신도시 입주민들이 택배원 대상으로 갑질을 저질러 사회적으로 큰 물의를 빚은 바 ...
316569,412722,2018-10-20,2018-11-19,0,261418,인권/성평등,조두순의 출소를 반대합니다,제 얘기를 하기에 앞서 요즘 페이스북이라는 sns에서 화제가 되고 있는 글을 하나 ...
74640,81026,2018-01-06,2018-02-05,1,213219,인권/성평등,초.중.고 학교 페미니즘교육 의무화,아직 판단이 무분별한 어린학생들이 학교에서 여성비하적요소가 들어있는 단어들을 아무렇...
138242,165796,2018-03-13,2018-04-12,0,304320,정치개혁,국민들은 정부 개헌안을 지지합니다. 정부의 개헌을 꼭 실현시켜 주십시오.,공약은 중요한 것입니다.\n국민과의 약속입니다.\n대통령님은 공약을 이행해주십시오....
137035,164255,2018-03-12,2018-04-11,0,216886,기타,GMO완전표시제 시행을 촉구합니다!,우리나라는 안전성 논란이 계속되고 있는 식용 GMO를 연간 200만 톤 이상 수입합...


* 20만건 이상 투표를 받은 상위 5개의 청원을 head()를 통해 출력해 보세요.

In [36]:
df[ df["votes"] > 200000 ].sort_values(by="votes", ascending=False).head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...
10894,10949,2017-09-06,2017-12-05,1,615354,미래,조두순 출소반대,제발 조두순 재심다시해서 무기징역으로 해야됩니다!!!
118970,142600,2018-02-19,2018-03-21,1,614127,문화/예술/체육/언론,"김보름, 박지우 선수의 자격박탈과 적폐 빙상연맹의 엄중 처벌을 청원합니다","오늘 여자 단체전 팀추월에서 김보름, 박지우 선수는 팀전인데도 불구하고 개인의 영달..."
183791,230552,2018-05-11,2018-06-10,1,419006,인권/성평등,여성도 대한민국 국민입니다. 성별 관계없는 국가의 보호를 요청합니다.,최근 홍대 누드크로키 모델의 불법촬영 사건이 있었습니다.\n사건은 굉장히 빠르게 처...


* 20만건 이상 투표를 받은 청원을 별도의 컬럼을 만들어 줍니다. 컬럼 이름은 `answer`로 합니다.

- 20만 넘으면 1 / 아니면 0

In [53]:
def answer(vote):
    if vote >= 200000:
        return 1
    return 0

In [84]:
df["answer"] = df['votes'].apply(answer)
# df["answer"] = df['votes'] >= 200000
# df["answer"] = df["answer"].astype("int")

In [85]:
df.head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...,0
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...,0


In [86]:
df[ df["votes"] > 200000 ].sort_values(by="votes", ascending=False).head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
313314,408609,2018-10-17,2018-11-16,0,1192049,안전/환경,강서구 피시방 살인 사건. 또 심신미약 피의자입니다.,2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...,1
208597,269548,2018-06-13,2018-07-13,0,714875,외교/통일/국방,"제주도 불법 난민 신청 문제에 따른 난민법, 무사증 입국, 난민신청허가 폐지/개헌 ...",2012년 난민법 제정으로 인해 외국인은 한달 무비자로 입국할 수 있으나 난민신청자...,1


* df 데이터프레임의 크기를 다시 찍어 보세요. 컬럼 하나가 늘었나요?

In [57]:
df.shape

(377756, 9)

* 새로 생성해 준 answer의 타입은 boolean 타입입니다. int로 변경해 보세요.

In [58]:
df.dtypes

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
answer                 int64
dtype: object

* 답변대상 청원중 아직 답변되지 않은 청원의 수를 계산해 보세요.

In [81]:
df[ df["answer"] == 1 ].groupby(by="answered").count()

Unnamed: 0_level_0,article_id,start,end,votes,category,title,content,answer
answered,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,48,48,48,48,48,48,48,48
1,29,29,29,29,29,29,29,29


In [88]:
df[ df["answer"] == 1 ]["answered"].value_counts()

0    48
1    29
Name: answered, dtype: int64

In [70]:
# df.groupby?

## 답변 대상 청원 중 투표를 가장 많이 받은 것

In [79]:
df[df["answer"] == 1].sort_values(by="votes", ascending=False).iloc[0]

article_id                                               408609
start                                       2018-10-17 00:00:00
end                                         2018-11-16 00:00:00
answered                                                      0
votes                                                   1192049
category                                                  안전/환경
title                             강서구 피시방 살인 사건. 또 심신미약 피의자입니다.
content       2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\...
answer                                                        1
Name: 313314, dtype: object

In [80]:
df[df["answer"] == 1].sort_values(by="votes", ascending=False).iloc[0]["content"]

'2018년 10월 14일 엊그제 일어난 강서구 피시방 살인사건에 대한 청원입니다.\\n21세의 알바생이 불친절했다는 이유로 손님이 흉기로 수차례 찔러 무참히 살해당했습니다.\\n피의자가족들의 말에 의하면 피의자는 우울증약을 복용하고 있다고 합니다.\\n뉴스를 보며 어린 학생이 너무 불쌍했고, 또 심신미약 이유로 감형 되려나하는 생각이 들었습니다.\\n오늘 우리 아이가 너무 놀라워하며 이야기를 합니다.\\n위 뉴스 보셨냐며.. 자기가 아는 형이라고...\\n모델 준비하며 고등학교 때도 자기가 돈 벌어야한다며 알바 여러개 하고, 그러면서도 매일 모델수업받으러 다닌 성실한 형이라고 합니다.\\n키도 크고 성격도 좋아서 성공 할 줄 알았는데 어떻게 이런 일이 생기냐며...\\n서로 경쟁자일 수도 있는데, 자신도 고등학생이면서 더 어린 동생들 잘 챙겨 주던 고마운 형이라며 너무 슬퍼합니다.\\n피의자 말만 듣고, 그 학생이 불친절 해서 마치 원인제공 한 것 처럼 나온 뉴스에도 화가 납니다.\\n언제 어디서 일어날지 모르는 일이며 피해자가 내 가족, 나 자신 일 수도 있습니다.\\n언제까지 우울증, 정신질환, 심신미약 이런 단어들로 처벌이 약해져야 합니까.\\n나쁜 마음먹으면 우울증 약 처방받고 함부로 범죄를 저지를 수도 있습니다.  심신미약의 이유로 감형되거나 집행유예가 될 수 있으니까요.\\n지금보다 더 강력하게 처벌하면 안될까요?\\n세상이 무서워도 너무 무섭습니다.\\n자신의 꿈을 위해 어릴 때부터 성실하게 살아온 젊은 영혼이 하늘에서 편히 쉴 수 있기를 기도합니다.'

## 어느 분야의 청원이 가장 많이 들어왔는지?
pandas의 value_counts로 특정 컬럼의 데이터를 그룹화하여 카운된 숫자를 볼 수 있습니다.<br/>
어느 분야의 청원이 가장 많이 들어왔는지 찾아보세요.

In [107]:
sr_category = df['category'].value_counts()
sr_category.index
sr_category.values
df_category = pd.DataFrame({
    "category": sr_category.index,
    "counts": sr_category.values})

In [108]:
df_category

Unnamed: 0,category,counts
0,정치개혁,59020
1,기타,46449
2,인권/성평등,33738
3,안전/환경,29196
4,교통/건축/국토,26910
5,외교/통일/국방,25705
6,육아/교육,24861
7,보건복지,23608
8,일자리,22111
9,행정,19373


## 각 청원이 얼마 동안 집계되었는지?
청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.

In [120]:
from datetime import datetime

In [121]:
df.head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...,0
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...,0


In [126]:
df.dtypes 

# start         datetime64[ns]

article_id             int64
start         datetime64[ns]
end           datetime64[ns]
answered               int64
votes                  int64
category              object
title                 object
content               object
answer                 int64
dtype: object

In [133]:
df.start

0        2017-08-19
1        2017-08-19
2        2017-08-19
3        2017-08-19
4        2017-08-19
            ...    
377751   2019-01-09
377752   2019-01-09
377753   2019-01-09
377754   2019-01-09
377755   2019-01-09
Name: start, Length: 377756, dtype: datetime64[ns]

In [140]:
# 각 데이터의 실제 값
print(df.start[0])
print(df.start[377754])
print(df.start[377754].year)
print(df.start[377754].month)
print(df.start[377754].day)
print(df.start[377754].hour)
print(df.start[377754].minute)
print(df.start[377754].second)

2017-08-19 00:00:00
2019-01-09 00:00:00
2019
1
9
0
0
0


In [135]:
# 날짜의 차이 구하기
print(df.start[377754]-df.start[0] )

508 days 00:00:00


In [145]:
df["voting_day"] = df.end - df.start

In [147]:
df.head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer,voting_day
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...,0,90 days
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...,0,90 days


In [149]:
df.sort_values("voting_day", ascending=False).head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer,voting_day
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...,0,90 days
7500,7551,2017-09-05,2017-12-04,0,0,안전/환경,소년법폐지,이번 부산청소년 폭행사건을 보고 경악을 금치 못했습니다.\n소년법 폐지하고 가해학생...,0,90 days


## 청원이 가장 많이 들어 온 날은 언제인지 정렬해 보세요.
- start 기준으로 잡겠다.

In [165]:
df.start.value_counts().head(5)

2017-11-11    9623
2017-09-05    5952
2018-01-11    3368
2018-02-06    2631
2017-11-09    2487
Name: start, dtype: int64

In [166]:
df.start.value_counts().tail(5)

2017-08-26    74
2017-08-22    69
2017-08-27    49
2017-08-19    39
2017-09-16     4
Name: start, dtype: int64

## 피봇 테이블로 투표를 가장 많이 받은 분야를 찾아보세요.

In [111]:
df.head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content,answer
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...,0
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...,0


In [119]:
cat_votes_pivot = df.pivot_table(index="category", values="votes", aggfunc=sum)
cat_votes_pivot.sort_values(by="votes", ascending=False).head()

Unnamed: 0_level_0,votes
category,Unnamed: 1_level_1
인권/성평등,12225998
안전/환경,6512799
정치개혁,5686172
기타,4720310
육아/교육,4420589


In [118]:
# df.pivot_table?

## 투표를 가장 많이 받은 날은 언제일까요?
- 해당 날짜에 진행중인 청원이 가장 많은 날
- 기준은 처음 날짜부터
- start보다 뒤면서 end보다 앞이면 => True

In [4]:
from datetime import timedelta

In [5]:
print(df.start.sort_values()[0])
print(df.end.sort_values().iloc[-1])

2017-08-19 00:00:00
2019-02-08 00:00:00


In [6]:
start_date = df.start.sort_values()[0]
end_date = df.end.sort_values().iloc[-1]

In [7]:
df.start

0        2017-08-19
1        2017-08-19
2        2017-08-19
3        2017-08-19
4        2017-08-19
            ...    
377751   2019-01-09
377752   2019-01-09
377753   2019-01-09
377754   2019-01-09
377755   2019-01-09
Name: start, Length: 377756, dtype: datetime64[ns]

In [8]:
tmp_date = start_date
tmp_date_start = (tmp_date >= df.start)
tmp_date_end = (tmp_date <= df.end)
tmp_date_in = tmp_date_start & tmp_date_end
tmp_date_in.sum()

39

In [9]:
specific_date = start_date
new_date = specific_date + timedelta(21)
new_date

Timestamp('2017-09-09 00:00:00')

In [10]:
start_date = df.start.sort_values()[0]
end_date = df.end.sort_values().iloc[-1]

tmp_date = start_date
date_list = list()
num_list = list()
cnt = 0

while 1:
    cnt += 1
    tmp_date_start = (tmp_date >= df.start)
    tmp_date_end = (tmp_date <= df.end)
    tmp_date_in = tmp_date_start & tmp_date_end
    if tmp_date>=start_date and tmp_date<=end_date:
        date_list.append(tmp_date)
        num_list.append( tmp_date_in.sum() )
        
        tmp_date = tmp_date + timedelta(1)
        if cnt%10 == 0:
            print("cnt: " + str(cnt))
    else:
        tmp_date = tmp_date + timedelta(1)
        if cnt%10 == 0:
            print("cnt: " + str(cnt))
        break
# print(date_list)
# print(num_list)

cnt: 10
cnt: 20
cnt: 30
cnt: 40
cnt: 50
cnt: 60
cnt: 70
cnt: 80
cnt: 90
cnt: 100
cnt: 110
cnt: 120
cnt: 130
cnt: 140
cnt: 150
cnt: 160
cnt: 170
cnt: 180
cnt: 190
cnt: 200
cnt: 210
cnt: 220
cnt: 230
cnt: 240
cnt: 250
cnt: 260
cnt: 270
cnt: 280
cnt: 290
cnt: 300
cnt: 310
cnt: 320
cnt: 330
cnt: 340
cnt: 350
cnt: 360
cnt: 370
cnt: 380
cnt: 390
cnt: 400
cnt: 410
cnt: 420
cnt: 430
cnt: 440
cnt: 450
cnt: 460
cnt: 470
cnt: 480
cnt: 490
cnt: 500
cnt: 510
cnt: 520
cnt: 530
cnt: 540


In [11]:
df.head(2)

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
0,21,2017-08-19,2017-11-17,0,9,안전/환경,스텔라 데이지호에 대한 제안입니다.,스텔라 데이지호에 대한 제안입니다.\n3월31일 스텔라 데이지호가 침몰하고 5달째가...
1,22,2017-08-19,2017-11-17,0,17,기타,비리제보처를 만들어주세요.,현 정부에 국민들이 가장 원하는 것은 부패척결입니다. 우리 사회에 각종 비리들이 ...


In [12]:
most_vote_df = pd.DataFrame({
    "date": date_list,
    "vote_date": num_list
})

In [15]:
most_vote_df.sort_values("vote_date", ascending=False)

Unnamed: 0,date,vote_date
106,2017-12-03,37079
174,2018-02-09,37025
175,2018-02-10,36983
173,2018-02-08,36745
105,2017-12-02,36688
...,...,...
4,2017-08-23,365
3,2017-08-22,285
2,2017-08-21,216
1,2017-08-20,127


## 청원을 많이 받은 날 VS 투표를 많이 받은 날에 대해 각각 상위 5개 목록을 추출해 봅니다. 
이때, title, content는 안 나와도 됩니다.

## 시계열 데이터 보기
* 월별 청원수를 집계해 보세요.

* 청원이 가장 많이 들어온 달은 언제인가요?
* 요일별 청원 수는 어떻게 되나요?

* 특정 단어가 들어가는 청원을 찾아보세요.

## 위 분석 외에 각자 해보고 싶은 분석을 해보세요.