<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2023/ex10notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2023 ex10notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo10.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2023


## 準備

以下，コードセルを上から順に実行していってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
#! pip install japanize_matplotlib
#import japanize_matplotlib
import pandas as pd
import seaborn
seaborn.set()

----
## 質的データとその分析 (2)
----

前の notebook で説明した **質的データ** の分析の方法を考えましょう．


----
### データの準備

次のセルを実行して，CSVファイルを読み込みましょう．

In [None]:
# データを読み込む
df = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex11kinokonoko.csv', header=0)
df

これは，次のような要領でアンケートを実施して得られた80件（サンプルサイズ $80$）の回答のデータです（実際にはアンケートは行っておらず，適当にでっち上げたものです）．

- **「きのこvsたけのこ」**: 「きのこの山」と「たけのこの里」の2択
- **「冬の味覚」**: 「冬の味覚といえば？」という問い．「ブリ」，「牡蠣」，「カニ」，「みかん」の4択
- **「こたつ」**: こたつ好きの度合いを 1 = （大嫌い） から 5 = （大好き） までの5段階で回答してもらう

以下では，「きのこvsたけのこ」と「冬の味覚」を取り上げて，このデータを分析する方法を考えます．



----
### 度数分布

量的データの場合，**度数分布表** を書いたり **ヒストグラム** を描いたりして，値の散らばり方を調べました．
質的データの場合，ヒストグラムは描けませんが，**度数分布表** を書くことはできます．

たとえば，「きのこvsたけのこ」の二つの値（「きのこの山」と「たけのこの里」）が出現する数を数えてみると...

In [None]:
df['きのこvsたけのこ'].value_counts()

「きのこの山」という回答が $54$ 件，「たけのこの里」という回答が $26$ 件ありました．
これを度数分布表にすると，次のようになります．

「きのこvsたけのこ」度数分布表

|きのこvsたけのこ|度数|
|:--:|--|
|**きのこの山**|54|
|**たけのこの里**|26|
|合計|80|

量的データの場合，度数の代わりに，サンプルサイズに対する度数の割合（相対度数）を用いる **相対度数分布** を考えることもありました．
質的データでも同様です．


「きのこvsたけのこ」相対度数分布表

|きのこvsたけのこ|割合[%]|
|:--:|--|
|**きのこの山**|67.5|
|**たけのこの里**|32.5|

次は，「冬の味覚」の方で考えてみましょう．
こちらの度数はこうなってます．

In [None]:
df['冬の味覚'].value_counts()

さきほどと同じように度数分布表も書けますが，ここでは棒グラフにしてみます．

In [None]:
LX = ['ブリ', '牡蠣', 'カニ', 'みかん']
LXr = ['Buri', 'Kaki', 'Kani', 'Mikan']  # グラフ中に日本語を書くと文字化けするのでローマ字で
cnt = np.zeros(len(LX), dtype=int)
for i, key in enumerate(LX):
    cnt[i] = np.sum(df.loc[:, '冬の味覚'] == key)

fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
#ax.bar(LX, cnt)
ax.bar(LXr, cnt)
plt.show()

最も多かった回答は「みかん」で，その次に多かったのは「ブリ」ですね．

他にも，相対度数を用いて，次のようなグラフの描き方をすることもできます．

In [None]:
fig, ax = plt.subplots(facecolor="white", figsize=(6, 3))
w = cnt/np.sum(cnt) * 100
left = 0
for i in range(len(cnt)):
    ax.barh(1, w, left=left, height=0.5)
    left += w[i]
ax.set_ylim(0.5,2.0)
ax.set_yticks([])
ax.legend(LXr)
plt.show()

横軸の単位は % です．各色の棒の幅が割合を表しています．

ここで問題．
このグラフから読み取れることとして，間違っているのはどれでしょう？

1. 回答が最も多かったのは「みかん」である
1. 回答が最も少なかったのは「牡蠣」である
1. 「みかん」という回答は4割近くあった
1. 「ブリ」という回答の割合は20%を上回っていた
1. 「牡蠣」という回答の割合は40%を上回っていた


答えは，以下に白字で書いてあります．
マウスで選択して表示させてみましょう．


マウスで選択してみてね → <font color="white">み〜た〜な〜</font>

上記問題の解答はこちら → <font color="white">間違っているのは 5. です．「牡蠣」の割合は 20% 弱ですね．</font>

以上，質的データの度数分布，相対度数分布，およびそれらをグラフに描く方法について述べました．
グラフに描く方法（可視化の方法）には他にもいろいろ（円グラフとか）ありますが，ここでは省略します．

----
### 分布の代表値

量的データの場合，値の大きさや散らばり方を表す代表値として，平均や標準偏差・分散，中央値などが登場しました．
しかし，質的データの場合，明らかにそのような値を求めることはできません．
これまでにこの授業で登場した様々な代表値の中では，唯一，**最頻値** のみが算出可能です．



上記のデータの場合，

- 「きのこvsたけのこ」の最頻値は 「きのこの山」
- 「冬の味覚」の最頻値は「みかん」

となります．

----
### 分割表／クロス集計表

次は，2つのデータ間の関係を調べたい場合についてです．

2つのデータがどちらも量的データの場合は，**散布図** を描きました．
しかし，2つのデータのどちらか一方，または両方とも質的データの場合，散布図は描けません．
そのような場合は，以下に示すように，表の形で表します．



上記のデータでは，回答者は「きのこvsたけのこ」と「冬の味覚」両方の設問に回答しています．
これらのデータの間の関係を見てみましょう．



In [None]:
LY = ['きのこの山', 'たけのこの里']

for i in range(len(LY)):
    print(f'#####  「きのこvsたけのこ」で {LY[i]} を選んだ回答  #####')
    idx = df.loc[:, 'きのこvsたけのこ'] == LY[i]
    s = np.sum(idx)
    for j in range(len(LX)):
        n = np.sum(df.loc[idx, '冬の味覚'] == LX[j])
        print(f'{LX[j]}: {n}件 {n/s*100:.0f}%')
    print(f'合計: {s}件 100%')
    print()

選択肢ごとに度数をカウントしてみると，上記のようになります．
これらの数は，次のような表にまとめることができます．
2つのデータの間の関係を調べるために書くこのような表は，**クロス集計表**または**分割表**と呼ばれます．

「きのこvsたけのこ」と「冬の味覚」のクロス集計表

| |ブリ|牡蠣|カニ|みかん|
|:--:|--:|--:|--:|--:|
|**きのこの山**| 16| 6 | 5| 27 |
|**たけのこの里**| 5| 7| 10 | 4 |

このクロス集計表を見ると，例えば，

> 「きのこの山」を選んだひとは，「たけのこの里」を選んだひとよりも，「みかん」を選ぶことが多い，

ということが分かります．

クロス集計表は，割合の値を用いて書かれることもあります．
上記の例で，「きのこの山」／「たけのこの里」のそれぞれを選んだ回答の中で「ブリ」，「牡蠣」，「カニ」，「みかん」を選んだ割合を求めて表にしてみると，次のようになります．

「きのこvsたけのこ」と「冬の味覚」のクロス集計表（割合，行の和が100%になるようにしたもの）

| |ブリ|牡蠣|カニ|みかん|
|:--:|--:|--:|--:|--:|
|**きのこの山**| 30%| 11% | 9%| 50% |
|**たけのこの里**| 19%| 27%| 38% | 15% |

<font size="-1">小数点以下を切り捨てて割合の値を表示しているせいで，行の和がちょうど100%になってないように見えるところがあります．</font>

ここでは行の和が100%になるように表を作りましたが，列の和が100%になるようにしたり，すべての値の和が100%になるようにしたりすることもあります．
割合で表示するかどうかも含めて，分析の目的に応じて適切なものを選びましょう．

量的データにおける **相関係数** に相当する量として，「連関係数」というものがありますが，この授業では省略します．
興味のあるひとは，ウェブや書籍で調べてみてください．