**整然データ**

分析がしやすくなるように整理された表形式のデータ

1. 個々の値が一つのセルをなす
2. 個々の変数が一つの列をなす
3. 個々の観測が一つの行をなす
4. 個々の観測ユニットの類型が一つの表をなす

**雑然データ**

整然データではない形式のこと


**クロス集計表**


In [26]:
import pandas as pd
import scipy as sp
%precision 3

'%.3f'

In [27]:
fish_data = pd.read_csv('3-2-1-fish_multi.csv')
fish_data

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,4
3,B,6
4,B,8
5,B,10


In [28]:
group = fish_data.groupby("species")
group.mean()

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,3
B,8


In [29]:
group.std(ddof=1)

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,1.0
B,2.0


In [30]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


In [31]:
cd sample

[Errno 2] No such file or directory: 'sample'
/work/free_jupyter/sample


In [32]:
shoes = pd.read_csv("3-2-2-shoes.csv")
shoes

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


In [33]:
cross = pd.pivot_table(
      data = shoes,
      values = "sales", 
      aggfunc = "sum", 
      index = "store",
      columns = "color")
cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15


**共分散**

二つの連続型の変数の関係性を見るときに使われる統計量

共分散>0：

片方の変数が大きい値を取れば，もう片方の大きくなる

共分散<０：

片方の変数が大きい値を取れば，もう片方は小さくなる

共分散＝０：

変数同士に関係性がみられない

$$Cov(x,y)=\frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)$$



In [34]:
cov_data = pd.read_csv("3-2-3-cov.csv")
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [35]:
x = cov_data["x"]
y = cov_data["y"]
N = len(cov_data)

mu_x = sp.mean(x)
mu_y = sp.mean(y)

In [36]:
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

6.906

In [37]:
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

7.673

**分散共分散行列**

複数の変数において，分散と共分散の一覧を式で表したもの

$$Cov(x,y) = \begin{bmatrix}
\sigma_x{^2} &  Cov(x,y) \\
Cov(x,y) & \sigma_y{^2} \\
\end{bmatrix}
$$

In [38]:
sp.cov(x, y, ddof = 0)

array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

In [39]:
sp.cov(x, y, ddof = 1)

array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

**ピアソンの積率相関係数**

いわゆる，相関係数

$$
Cov(x,y) = \frac{Cov(x,y)}{\sqrt{\sigma_x{^2}\sigma_y{^2}}}
$$

**相関行列**

複数の変数において，相関変数の一覧を式を行列で表したもの

$$Cov(x,y)= \begin{bmatrix}
1 & p{_xy} \\
p{_xy} & 1
\end{bmatrix}
$$

In [45]:
%precision 3
sigma_2_x = sp.var(x, ddof=1)
sigma_2_y = sp.var(y, ddof=1)

rho = cov /sp.sqrt(sigma_2_x * sigma_2_y)
rho

0.7592719041137088

In [46]:
sp.corrcoef(x, y)

array([[1.   , 0.759],
       [0.759, 1.   ]])