# Data について
統計解析は Data を扱い、Data から意味を見出す。
統計解析における基本的な用語や Data の分類についてみていく。

In [1]:
# Pandas の import
import pandas as pd

In [3]:
# GitHub より Sample data を Download する
! wget -O ../data/ch1_sport_test.csv https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch1_sport_test.csv

--2022-02-13 07:45:01--  https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch1_sport_test.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 227 [text/plain]
Saving to: ‘../data/ch1_sport_test.csv’


2022-02-13 07:45:01 (23.4 MB/s) - ‘../data/ch1_sport_test.csv’ saved [227/227]



In [5]:
# Download した Sample data を表示してみる
!head ../data/ch1_sport_test.csv

生徒番号,学年,握力,上体起こし,点数,順位
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8


In [6]:
# 生徒番号を Index として csv File を読み込み、変数 df に格納
df = pd.read_csv('../data/ch1_sport_test.csv', index_col='生徒番号')

# 変数 df を表示
df

Unnamed: 0_level_0,学年,握力,上体起こし,点数,順位
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


Sport test の結果の DataFrame.
Test 結果には10人分の
- 生徒番号
- 学年
- 握力
- 上体起こし
- 点数
- 順位

が確認できる

In [8]:
# 握力の Series を表示してみる
print(df['握力'])

生徒番号
1     40.2
2     34.2
3     28.8
4     39.0
5     50.9
6     36.5
7     36.6
8     49.2
9     26.0
10    47.4
Name: 握力, dtype: float64


## Data の大きさ
Data が与えられたとき、最初に確認したいことは **Data の大きさ。**
DataFrame の大きさは `shape` という Instance変数を参照することで確認できる

In [10]:
df.shape

(10, 5)

返値の１番目が「Data の数」、2番目が変数の数。
変数が５つあり、**５変数、５次元** といえる。

統計解析では、
1. １変数ずつどのような特徴を持っているかを見ていき
2. 変数間の関係性を調べていく

## 変数の種類

### 質的変数と量的変数
#### 質的変数
種類を区別するような変数のこと。
質的変数の中でも特に「男性と女性」、「喫煙習慣の有無」といった２種類の値しかとらない質的変数を **２値変数** と呼ぶことがある。
#### 量的変数
量を表現する変数のこと。
注意点として質的変数でも Data 上では０、１のように数字の Data になっていることがあり、数値の変数でも量的変数とは限らないこと。

### 尺度水準
質的変数は、
- 名義尺度
- 順序尺度

量的変数は、
- 間隔尺度
- 比例尺度

に細かく分類でき、この４つの尺度のことを **尺度水準** という

#### 名義尺度
単に分類するための変数。
目的が区別することのため、等しいかどうかのみに意味があり、大小関係、和や差、比などに意味はない。

#### 順序尺度
順序関係や大小関係に意味のある変数。
大小関係に意味はあるが、比較することや変数の数値が２倍だとしても意味的に２倍である、ということは主張できない。

#### 間隔尺度
大小関係に加え、差に意味がある変数。
変数の数値に大小関係に加えて差にも意味があるが、変数の数値の比率については意味を持たせられない。

#### 比例尺度
大小関係、差、比、すべてに意味がある変数。
変数の数値が倍であれば、倍であると考えられる。
間隔尺度と比例尺度を見分けるコツとして、０が絶対的な無を表すかどうかを考えるとよい。

| 尺度水準 | 例     | 大小比較 | 差   | 比   |
|------|-------|------|-----|-----|
| 名義尺度 | 生徒番号  | ✕    | ✕   | ✕   |
| 順序尺度 | 成績の順位 | 〇    | ✕   | ✕   |
| 間隔尺度 | 気温    | 〇    | 〇   | ✕   |
| 比例尺度 | 身長    | 〇    | 〇   | 〇   |

### 離散型変数と連続型変数
#### 離散型
とびとびの値をとり、隣り合う数字の間には値が存在しないこと。

#### 連続型
連続の値をとることができ、どんな２つの数字の間にも必ず数字が存在する。
実際に扱う Data は連続型変数でも測定精度が有限であるため、とりうる値はとぼとびになってしまうことに注意する。その場合は通常、連続型変数として取り扱う。

In [11]:
df

Unnamed: 0_level_0,学年,握力,上体起こし,点数,順位
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


### まとめ
生徒番号: 名義尺度
学年: 間隔尺度、離散型
握力：比例尺度、連続型
上体起こし: 比例尺度、離散型
点数: 比例尺度、連続型（※離散型と判断が難しいが一般的に連続型とされる）
順位: 順序尺度、離散型

Data の大きさは `Pandas` で簡単にわかるが変数の分類、性質は分析者が判断する必要がある。