In [3]:
import numpy as np
import pandas as pd

# Chapter1: データについて
## 1.1. データの大きさ 

In [5]:
np.random.random((3,3))

array([[0.71891945, 0.66576103, 0.27308015],
       [0.98426599, 0.53880266, 0.36669624],
       [0.59447337, 0.62165367, 0.36654804]])

In [7]:
df = pd.DataFrame(np.random.random((3,3)))

In [9]:
df.shape

(3, 3)

## 1.2. 変数の種類
### 1.2.1. 質的変数と量的変数

- 質的変数: 満足度などの尺度がある変数, 特に２つの変数のものは`2値変数`と言う.
- 量的変数: 身長や点数などの量を表す変数

### 1.2.2. 尺度水準

- 名義尺度:単に区別するための変数   
DBのIDみたいなもので大小関係や演算結果などは意味を持たない
- 順序尺度:順序関係や大小関係に意味のある変数  
順位の大小や順序には意味はあるが順位間の点数の差や比には関係しない
- 間隔尺度:大小関係に加え差に意味がある変数  
ex. 西暦・温度など
- 比例尺度:大小・差・比全てに意味のある変数  
ex. 長さ重さなど

### 1.2.3. 離散型変数と連続型変数

- 離散型
ex. サイコロの目
- 連続型
ex. 身長とか体重とか

### 1.3. まとめ

変数の分類は割と大事, Pandasで統計量などは取れるが変数の分類は自らやらなければならない

# Chapter2: １次元データの整理

In [1]:
# Jupyterでの小数点以下を３桁に抑える
%precision 3

'%.3f'

In [4]:
# pandas, DataFrameでの小数点以下を３桁に抑える
pd.set_option('precision',3)

In [5]:
df2_scores_em=pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')

In [6]:
df2_scores_em.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [8]:
scores=np.array(df2_scores_em['英語'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

In [10]:
scores_df=pd.DataFrame({'点数':scores},index=pd.Index(['A','B','C','D','E','F','G','H','I','J'],name='生徒'))

In [11]:
scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## 2.1. データの中心の指標
代表値とも呼ばれる. ex.平均,中央値など.
### 2.1.1. 平均値

In [12]:
sum(scores)/len(scores)

55.0

In [13]:
np.mean(scores)

55.0

In [14]:
scores_df.mean()

点数    55.0
dtype: float64

### 2.1.2. 中央値

In [16]:
sorted_scores=np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69])

In [21]:
np.median(sorted_scores)

56.5

In [22]:
scores_df['点数'].median()

56.500

### 2.1.3. 最頻値

In [25]:
scores_df['点数'].mode()

0    65
dtype: int64

## 2.2. データのバラつきの座標
分散とか標準偏差の話
### 2.2.1. 分散と標準偏差
#### 偏差:diviation
平均からどれだけ離れているか

In [26]:
mean = np.mean(scores)

In [27]:
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [31]:
another_scores=[50,60,58,54,51,56,57,53,52,59]
another_mean=np.mean(another_scores)

In [33]:
another_deviation=another_scores-another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

In [36]:
print(np.mean(deviation)) 
print(np.mean(another_deviation)) 
#偏差の平均は必ず0になる

0.0
0.0


#### 分散:variance
二乗をかける事により平均から高くても低くてもバラ付きを同じように扱いができる

In [37]:
np.mean(deviation ** 2)

86.0

In [50]:
varience=np.var(scores)

In [42]:
print(scores_df.var(ddof=0)) #標本分散
print(scores_df.var(ddof=1)) #不偏分散

点数    86.0
dtype: float64
点数    95.556
dtype: float64


In [44]:
summary_df = scores_df.copy()

In [47]:
summary_df['偏差']=deviation
summary_df['偏差二乗']=np.square(deviation)

In [49]:
summary_df.mean()

点数      55.0
偏差       0.0
偏差二乗    86.0
dtype: float64

#### 標準偏差:standard deviation
元の単位で散らばり具合を表現できる, +-何点的な

In [51]:
np.sqrt(varience)

9.273618495495704

In [53]:
sigma1=np.std(scores, ddof=0)
sigma2=2*np.std(scores, ddof=0)
sigma3=3*np.std(scores, ddof=0)

In [54]:
print(sigma1)
print(sigma2)
print(sigma3)

9.273618495495704
18.547236990991408
27.820855486487112


In [63]:
summary_df['標準偏差']=sigma1

### 2.2.2. 範囲と四分位範囲
#### 範囲:range

In [57]:
np.max(scores)-np.min(scores)

28

#### 四分位範囲:interquartile range)
- Q1:下位25%
- Q2:下位50%
- Q3:下位75%
- IQR(四分位範囲):Q3-Q1 (Q2,つまり中央値に対するバラ付き)

In [59]:
scores_Q1=np.percentile(scores,25)
scores_Q3=np.percentile(scores,75)
IQR=scores_Q3-scores_Q1

In [60]:
IQR

15.0

### 2.2.3. データの指標のまとめ
これまでの各種統計量はpandasメソッドの`describe`で確認することができる.

In [65]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64

## 2.3. データの正規化
### 2.3.1. 標準化