### 问题赞同数分布分析
在前面的分析中，我们从1000个关注度最高（可能现在已经不是了）的问题中对每一种问题所属的类别进行了描述性统计。<br>
接下来，我们会对其中回答数较多的问题进行分析，分析每个问题的每一个回答的赞同数的分布情况。

In [18]:
import pandas as pd
import numpy as np
df = pd.read_csv(r'./result.csv')
df  # 表格内容如下所示
# ID:问题的ID | NAME:问题的名称 | FOLLOWER_COUNT:问题的关注人数 | ANSWER_COUNT:问题的回答数 | TYPE:问题的类别

Unnamed: 0,ID,NAME,FOLLOWER_COUNT,ANSWER_COUNT,TYPE
0,20840874,哪些东西买了之后，会让人因生活质量和幸福感提升而感觉相见恨晚？,421573,3942,购物
1,20894671,日常生活中有哪些十分钟就能学会并可以终生受用的技能？,343832,1554,社会
2,36546814,有哪些堪称「神器」，却鲜为人知的软件/网站/互联网服务？,451891,2026,应用（软件）
3,22238159,你有什么相见恨晚的知识想推荐给年轻人？,330564,3887,调查类问题
4,27391031,怎么花最少的钱提升出租屋的格调？,409004,3606,生活
5,20958648,淘宝上有哪些网购美食？,267112,1604,淘宝网
6,35216653,有哪些物美价廉的淘宝店值得推荐？,189404,1152,生活
7,38485891,有哪些好看到让人浑身颤抖、无法自拔、久久不忘的电影？,234052,10957,艺术
8,21758700,Excel 有哪些可能需要熟练掌握而很多人不会的技能？,216430,359,生活
9,28358499,如何长时间高效学习？,295481,1219,心理学


根据以上内容，我们首先要进行筛选。对`df`根据`FOLLOWER_COUNT`(关注人数)排序，再根据`ANSWER_COUNT`(回答个数)进行排序，筛选出TOP100。

In [19]:
follower_top_100 = df.sort_values(by='FOLLOWER_COUNT', ascending=False).sort_values(by='ANSWER_COUNT', ascending=False)[:100]
follower_top_100  # 表格如下所示

Unnamed: 0,ID,NAME,FOLLOWER_COUNT,ANSWER_COUNT,TYPE
523,32094733,拥有稀有的姓是种怎样的体验？,94097,32697,文化
109,20406962,你最孤独的时刻是什么？,128893,32575,生活
14,38501171,有哪些你看过一眼就难以忘怀的句子？,254877,29125,电影
54,23802668,有哪些让你感叹「写出这种句子的人，我十辈子都追不上了」的句子？,292929,21983,文学
292,39532486,你遇到过的坏老师可以有多坏？,68923,20107,生活
148,35720340,哪个瞬间让你突然觉得读书真有用？,271022,18700,生活
50,23819007,你有什么道理后悔没有早点知道？,464564,18532,生活
97,31914864,思念到极致是什么感觉？,110253,18492,生活
73,37206525,有没有一部电影让你在深夜中痛哭？,158618,17907,影视评论
49,38244425,有哪些让你「心上开出一朵花」的瞬间？,135905,17819,生活


In [21]:
follower_top_100['TYPE'].value_counts()

生活       39
调查类问题    10
文学        7
电影        4
美食        3
心理学       3
恋爱        3
教育        2
人际交往      2
学习        2
人生        2
健身        2
恋爱心理      2
审美        1
爱情        1
宠物        1
家庭教育      1
社会        1
人性        1
法律        1
艺术        1
健康        1
文化        1
影视评论      1
心理        1
文艺        1
产品        1
情感        1
摄影        1
时尚        1
女性        1
青春        1
Name: TYPE, dtype: int64

In [None]:
follower_top_100.to_csv('./follower_top_100.csv', encoding='utf-8', index=None)  #保存文件便于读取

初步筛选完毕后，我们将以上表格保存。接下来，我们想要分析的是每一个问题的赞同数分布情况。比如说，一个问题有8000个回答，那么赞同数在5K以上的占多少百分比呢？1K~5K之间呢？我们最终想要通过分析，看看每一个高关注度问题的回答赞同数是不是有相似的分布。

#### 分析思路
* 赞同数区间划分
    * 超高赞:5K以上
    * 高赞:1K~5K
    * 普通:100~1000
    * 临界点:不等于0<br>
首先读取100个文件，转换成DataFrame对象，再进行聚类分析。

In [22]:
from os import listdir
from os.path import join
PATH = r'./list'

In [23]:
"""
自定义一个函数，读取csv文件进行操作
"""
def foco_classify(file):
    df = pd.read_csv(file)
    fol_over_5000 = df[df['赞同数'] >= 5000]['赞同数'].count()  # 赞同数5K以上的回答的个数
    fol_1000_5000 = df[(df['赞同数'] >= 1000) & (df['赞同数'] < 5000)]['赞同数'].count()  # 赞同数1K~5K的回答的个数
    fol_100_1000 = df[(df['赞同数'] >= 100) & (df['赞同数'] < 1000)]['赞同数'].count()  # 赞同数100~1000的回答的个数
    fol_0 = df[df['赞同数'] != 0]['赞同数'].count()  # 赞同数不等于0的回答的个数
    return [df['赞同数'].count(), fol_over_5000, fol_1000_5000, fol_100_1000, fol_0]

In [24]:
res = []
for _ in listdir(PATH):
    file = join(PATH, _)
    res.append(foco_classify(file))

In [28]:
res = pd.DataFrame(res, columns=['TOTAL_COUNT', '>=5000', '1000~5000', '100~1000', '!=0'])
res  # 表格如下所示

Unnamed: 0,TOTAL_COUNT,>=5000,1000~5000,100~1000,!=0
0,6315,5,30,76,1973
1,7613,8,31,124,2594
2,8800,24,38,112,3365
3,8063,5,49,147,2620
4,16390,15,35,141,11552
5,10370,9,45,144,3260
6,11995,15,33,96,2345
7,12798,38,53,239,4947
8,14068,18,29,73,3556
9,12515,5,23,98,2904


以上表格显示了每一个问题的赞的分布情况。

In [33]:
s1 = (res['>=5000'] / res['TOTAL_COUNT']).describe()  # 5K赞同数以上的回答的百分比
s2 = (res['1000~5000'] / res['TOTAL_COUNT']).describe()  # 1K~5K赞同数的回答的百分比
s3 = (res['100~1000'] / res['TOTAL_COUNT']).describe()  # 100~1000赞同数的回答的百分比
s4 = (res['!=0'] / res['TOTAL_COUNT']).describe()  # 赞同数不为零的回答的百分比

In [34]:
s1 

count    100.000000
mean       0.001990
std        0.001959
min        0.000000
25%        0.000755
50%        0.001327
75%        0.002680
max        0.011187
dtype: float64

In [35]:
s2

count    100.000000
mean       0.004751
std        0.004382
min        0.000428
25%        0.001991
50%        0.003563
75%        0.005386
max        0.024156
dtype: float64

In [36]:
s3

count    100.000000
mean       0.013888
std        0.010150
min        0.003963
25%        0.007272
50%        0.011106
75%        0.016348
max        0.059441
dtype: float64

In [37]:
s4

count    100.000000
mean       0.324989
std        0.127326
min        0.127909
25%        0.233359
50%        0.300136
75%        0.383426
max        0.738335
dtype: float64

通过描述性统计分析，每一个问题中，能够获得超高赞的回答的个数平均只有**0.2%**，远远小于清华、北大的录取率！对于每一个问题，回答数不为零的回答平均也仅仅只有32%。看来，哪怕我的回答只有“可怜”的1个赞，好歹也超过68%的答主了呢~