# Stack Overflow の質問分析

ここでは、プログラミング専門の質問掲示板、[Stack Overflow](https://stackoverflow.com/) のデータを分析してみます。

# プログラミングの前準備

## 目的の設定

データ分析で、実際にプログラミングを行う段階は後の方になります。

まずは、何のためにデータ分析をするのか、どのような疑問を解き明かしたいのか、目的を設定することが重要です。

目的によって、どのようなデータが、どのくらい必要か変わってきます。

例えば、

- [能力のアピールは Stack Overflow の投稿のモチベーションとして寄与しているか?](https://pubsonline.informs.org/doi/10.1287/mnsc.2018.3264)
- [質問の内容から解答までの時間を予測できるか?](https://ieeexplore.ieee.org/document/7180106)
- [他者から解答を受け取ると、他の人の質問に解答しやすくなるか?](https://www.kansai-u.ac.jp/riss/output/paper/pdf/RISS_DP_No111.pdf)

場合によっては、追加のアンケートなどが必要になります。

とりあえず、ここでは「質問 1 つあたりの解答数の平均値」を知りたいとします。

また、直近の質問のデータを用いるとします。

ここで、必要なデータを全て羅列する必要はありませんが、ざっくりとした方向性は決めておいた方が良いでしょう。

## データセットを探す

Web サイトからデータセット (データの集まり) を集める場合、自力で集めるか、Web サイト側が公開しているデータセットを使うか方法などがあります。

インターネット検索を駆使しましょう。

Web サイトによっては、API (Application Programming Interface) という、データをやりとりするためのシステムが用意されていることがあります。

「Stack Overflow question API」などで検索すると、お目当てのページにヒットすることがあります。

- [質問の API 説明ページ](https://api.stackexchange.com/docs/questions)

Stack Overflow の場合は、他にも [Internet Archive](https://archive.org/details/stackexchange) や [BigQuery の公開プロジェクト](https://console.cloud.google.com/marketplace/product/stack-exchange/stack-overflow?hl=ja&project=stackoverflow-207101)などでもデータセットが公開されています。

このようなデータセットが用意されておらず、API もない場合は自力で行うか、他者に依頼する方法などがあります。

Web スクレイピングを使ってプログラミングでデータ収集するという手もあります。

該当の Web サイトの利用規約には従ってください。

# データ分析

データセットが用意できたら、データ分析を行います。

ですが、いきなりプログラミングはしません。

まずは、何が必要かを大まかにリストにまとめます。

例えば、「質問 1 つあたりの解答数の平均値」を今回は知りたいので、

1. データの前処理
2. 質問を 1 つ取り出す
3. 解答数を取得し、別データに追加
4. 平均値の計算して結果を出力

ぐらいでしょうか。

この段階ではタスクを細かくしすぎずに、3 ~ 5 ぐらいのステップに分けます。

このステップをコードのコメントに入れておいても良いでしょう。

In [None]:
# 1. データの前処理
# 2. 質問を 1 つ取り出す
# 3. 解答数を取得し、別データに追加
# 4. 平均値の計算して結果を出力

## データ前処理

データセットを取得しても、目的に完全に沿っていることはまずありません。

欠損値や新しい変数を作成するなど、目的に応じたデータセットに変換する必要があります。

これをデータの *前処理* (preprocessing) といいます。

データ前処理は複雑なので、ここでは省略します。

以下のようなデータが準備できたと仮定します。

このデータは以下のリンクから、一部を省略したものです。

- [データ URL](https://api.stackexchange.com/docs/questions#fromdate=2024-07-08&todate=2024-07-10&order=desc&sort=activity&filter=default&site=stackoverflow&run=true)

また、`false` は `False`、`true` は `True` に変換しています。

In [1]:
data = {
    'items': [
        {
            'is_answered': False,
            'view_count': 46,
            'answer_count': 2,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 42,
            'answer_count': 0,
            'score': -2,
        },
        {
            'is_answered': True,
            'view_count': 41,
            'answer_count': 4,
            'score': 3,
        },
        {
            'is_answered': False,
            'view_count': 9,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 24,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 11,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 16,
            'answer_count': 1,
            'score': -1,
        },
        {
            'is_answered': False,
            'view_count': 8,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': True,
            'view_count': 37,
            'answer_count': 1,
            'score': 1,
        },
        {
            'is_answered': False,
            'view_count': 18,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 47,
            'answer_count': 2,
            'score': 1,
        },
        {
            'is_answered': False,
            'view_count': 47,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 14,
            'answer_count': 1,
            'score': -1,
        },
        {
            'is_answered': False,
            'view_count': 18,
            'answer_count': 1,
            'score': -1,
        },
        {
            'is_answered': False,
            'view_count': 19,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': True,
            'view_count': 54,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 60,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 55,
            'answer_count': 0,
            'score': 2,
        },
        {
            'is_answered': False,
            'view_count': 14,
            'answer_count': 2,
            'score': 1,
        },
        {
            'is_answered': False,
            'view_count': 13,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 33,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 28,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 22,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 29,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 12,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 17,
            'answer_count': 1,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 33,
            'answer_count': 2,
            'score': 1,
        },
        {
            'is_answered': False,
            'view_count': 43,
            'answer_count': 1,
            'score': -4,
        },
        {
            'is_answered': False,
            'view_count': 17,
            'answer_count': 0,
            'score': 0,
        },
        {
            'is_answered': False,
            'view_count': 27,
            'answer_count': 0,
            'score': 0,
        }
    ],
    'has_more': True,
    'quota_max': 10000,
    'quota_remaining': 9989
}


## 解答数取得まで

データセットのデータ構造を読み解きましょう。

例えば、上の `data` には `item` キーの値として質問データのリストが与えられています。

質問データは辞書型で、ここでは `answer_count` が解答数です。

`answer_count`、`view_count` などの定義は API の説明ページに載っていることが多いです。

最終的にはループ処理を行いますが、まずは 1 つだけ取り出し、データを処理することをお勧めします。

In [4]:
data["items"][0]["answer_count"] # 0 番目の質問データの取得

2

このデータをリストに追加します。

リストに `value` を追加するには、 `<my_list>.append(value)` とします。 

In [13]:
my_list = [1]
print(my_list) # 1
my_list.append(3) # 3 を追加
print(my_list) # 1, 3

[1]
[1, 3]


In [14]:
answer_counts = [] # 解答数のリスト
answer_counts.append(data["items"][0]["answer_count"])
answer_counts

[2]

後は、この作業をループ処理で書いてみます。

In [16]:
answer_counts = []
for question in data["items"]:
    answer_counts.append(question["answer_count"])
    
print(answer_counts[:5]) # 最初の 5 つを出力

[2, 0, 4, 0, 0]


## 結果の出力まで

解答数のリストが用意できたので、平均値を計算し、その結果を出力します。

平均値を計算するには、リスト内の数値の合計値を計算する `sum` 関数とリストの長さを計算する `len` 関数を用います。

In [18]:
sum(answer_counts) / len(answer_counts)

0.8

他にも、`mean` 関数を用いることもできます。

`mean` 関数は、まず使えるように関数を追加する必要があります。

この方法については、別途説明します。

In [20]:
from statistics import mean
mean(answer_counts)

0.8

分析のコードをまとめると、以下のようになります。

プログラミングでは、計画が非常に重要です。

まずは大まかなステップに分けて、各ステップで実行可能なレベルまで細かいタスクに分解します。

一見面倒ですが、こちらの方が早く終わります。

また、知識が足りない場合 (例えばリストに要素を追加する方法) も、細かいタスクに分けていれば、情報探索が容易になるでしょう。

In [21]:
# 1. データの前処理

answer_counts = []
# 2. 質問を 1 つ取り出す
for question in data["items"]:  
    # 3. 解答数を取得し、別データに追加
    answer_counts.append(question["answer_count"])  
    
# 4. 平均値の計算して結果を出力
print(sum(answer_counts)/len(answer_counts))

0.8
