## 깔끔한 데이터

### 깔끔한 데이터(tidy data)의 특징

1. 개별 값이 하나의 셀을 이룬다.
2. 개별변수가 하나의 열을 이룬다.
3. 개별 관측이 하나의 행을 이룬다.
4. 개별 관측 유닛 유형이 하나의 표를 이룬다.

#### 깔끔한 데이터 예

![그림. 깔끔한 데이터1](tidy1.png)

![그림. 깔끔한 데이터2](tidy3.png)

#### 지저분한 데이터 예

![그림. 지저분한 데이터1](tidy2.png)

![그림. 지저분한 데이터2](tidy4.png)



[참고사이트](https://partrita.github.io/posts/tidy-data/)



```
import numpy as np
import pandas as pd

# 출력되는 소숫점 자리수 
%precision %.3e

fish_multi=pd.read_csv("fish.csv")
fish_multi
```

### 그룹별 통계량 계산하기 

```
group=fish_multi.groupby('species')
group.mean()
group.std(ddof=1)
group.describe()
```

In [2]:
import numpy as np
import pandas as pd

# 출력되는 소숫점 자리수 
%precision %.3e

fish_multi=pd.read_csv("./dataset/fish.csv")
fish_multi

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,3
3,A,4
4,A,4
5,A,4
6,A,4
7,A,5
8,A,5
9,A,6


In [3]:
group=fish_multi.groupby('species')
group.median()
group.std()
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,10.0,4.0,1.154701,2.0,3.25,4.0,4.75,6.0
B,10.0,7.0,1.154701,5.0,6.25,7.0,7.75,9.0


### 분할표, 교차분석표 만들기 

```
shoes=pd.DataFrame({
    'store' : ['Seoul','Seoul','Pusan','Pusan'],
    'color': ['blue','red','blue','red'],
    'sales': [10,15,13,9]
})

# print the dataframe

shoes

cross=pd.pivot_table({
    data=shoes,
    values='sales',
    aggfunc="sum",
    index="store",
    columns='color'
})
```

In [4]:
shoes=pd.DataFrame({
    'store' : ['Seoul','Seoul','Pusan','Pusan'],
    'color': ['blue','red','blue','red'],
    'sales': [10,15,13,9]
})

In [5]:
shoes

Unnamed: 0,store,color,sales
0,Seoul,blue,10
1,Seoul,red,15
2,Pusan,blue,13
3,Pusan,red,9


In [6]:
cross=pd.pivot_table(
    data=shoes,
    values='sales',
    aggfunc="sum",
    index="store",
    columns='color'
)

cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
Pusan,13,9
Seoul,10,15


In [7]:
fish_cross=pd.pivot_table(
    data=fish_multi,
    values='length',
    aggfunc='mean',
    columns='species'
)

fish_cross

species,A,B
length,4,7


### 공분산

$$ Cov(x,y)= \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x ) (y_i - \mu_y ) $$

![그림. 공분산](Cov.gif)

- 공분산 > 0 : 한쪽 변수가 증가하면 다른 쪽도 증가
- 공분산 ~ 0 : 한쪽 변수가 변화하는 것은 다른 쪽과 관계가 없음
- 공분산 < 0 : 한쪽 면수가 증가하면 다른 쪽은 감소

N, N-1 차이 

### 분산-공분산 행렬

$$ Cov(x,y)= \left [ \begin{array}{cc} \sigma_x^2 & Cov(x,y) \\ Cov(x,y)& \sigma_y^2  \end{array} \right ] $$

```
import scipy as sp

x=np.array([0,1,2,3,4,5,6,7,8,9])
y=np.array([2,3,4,3,5,4,6,7,4,8])

sum((x-np.mean(x))*(y-np.mean(y)))/len(x)

sp.cov(x,y)
```

In [14]:
import scipy as sp
import scipy.stats as ss

x=np.array([0,1,2,3,4,5,6,7,8,9])
y=np.array([2,3,4,3,5,4,6,7,4,8])

np.cov(x,y)

array([[9.16666667, 4.66666667],
       [4.66666667, 3.6       ]])

In [15]:
np.cov(x,y,ddof=0)

array([[8.25, 4.2 ],
       [4.2 , 3.24]])

In [10]:
sum((x-np.mean(x))*(y-np.mean(y)))/(len(x)-1)

4.666666666666667

In [11]:
sum((x-np.mean(x))*(y-np.mean(y)))

42.0

### Pearson 상관계수

```
np.corrcoef(x,y)
ss.pearsonr(x,y)

```

[Link[(https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html)

In [12]:
ss.pearsonr(x,y)

(0.8123623944599232, 0.004295014485583548)

In [13]:
np.corrcoef(x,y)

array([[1.        , 0.81236239],
       [0.81236239, 1.        ]])