#  파이썬을 이용한 기술통계 : 다변량 데이터

In [1]:
import pandas as pd
import scipy as sp

%precision 3

'%.3f'

In [3]:
fish_multi = pd.read_csv("./data/3-2-1-fish_multi.csv") # 물고기 종류별로 정리한 길이의 데이터 불러오기
fish_multi

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,4
3,B,6
4,B,8
5,B,10


In [4]:
group = fish_multi.groupby("species") # groupby 함수 이용하여 그룹화 하고 평균 구하기
group.mean()

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,3
B,8


In [5]:
group.std(ddof=1) # 표준편차 구하기(ddof=1 불편분산 사용)

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,1.0
B,2.0


In [6]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


In [7]:
shoes = pd.read_csv("./data/3-2-2-shoes.csv")

In [8]:
shoes

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


In [9]:
cross = pd.pivot_table(
data = shoes,
values = 'sales',
aggfunc='sum',
index='store',
columns='color')
cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15


# 공분산
## 공분산은 2개의 연속형 변수의 관게성을 확인하는 통계랑
### 공분산이 0보다 클 때 : 변수 한쪽이 큰 값을 갖게 되면 다른 한쪽도 커짐
### 공분산이 0보다 작을 때 : 변수 한쪽이 큰 값을 갖게 되면 다른 한쪽은 작아짐
### 공분산이 0일 때 : 변수 사이에 관계성이 없음

In [10]:
cov_data = pd.read_csv('./data/3-2-3-cov.csv')

In [11]:
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [12]:
# 데이터로 x,y로 분리하기
x = cov_data['x']
y = cov_data['y']

#표본크기
N = len(cov_data)

#평균값 계산하기
mu_x = sp.mean(x)
mu_y = sp.mean(y)

  mu_x = sp.mean(x)
  mu_y = sp.mean(y)


In [13]:
# 공분산 계산하기
cov_sample = sum((x - mu_x) * (y - mu_y)) / N

In [14]:
cov_sample

6.906

In [15]:
# 분모를 n-1로 설정하여 계산하기
cov = sum((x-mu_x) * (y-mu_y)) / (N-1)
cov

7.673

In [16]:
# scipy의 cov함수를 사용하면 공분산 쉽게 구할 수 있음

sp.cov(x, y, ddof = 0)

  sp.cov(x, y, ddof = 0)


array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

### 분산-공분산 행렬함수 sp.cov(x, y, ddof = 0)
### 1행 1열 : x의 분산 2행 2열 : y의 분산, 1행2열, 2행1열은 공분산 나옴

<br>

# 백터와 행렬

In [17]:
import numpy as np

In [18]:
x = np.array([1,2,3,4,5])
y = np.array([-1,-2,-3,-4,-5])

In [19]:
np.matmul(x.transpose(),y) #x 전치행렬

-55

In [20]:
np.matmul(x,y.transpose())

-55

In [21]:
x*y #일반 곱셈

array([ -1,  -4,  -9, -16, -25])

In [22]:
np.multiply(x,y) # 일반 곱셈

array([ -1,  -4,  -9, -16, -25])

# 전치행렬

In [23]:
A = np.matrix ([[1,2,3,],[4,5,6]])

In [24]:
A

matrix([[1, 2, 3],
        [4, 5, 6]])

In [25]:
A.transpose()

matrix([[1, 4],
        [2, 5],
        [3, 6]])

#  행렬의 덧셈, 뺄셈

In [26]:
a = np.array([[1,0],[0,1]])
b = np.array([[1,2],[3,4]])

In [27]:
a+b

array([[2, 2],
       [3, 5]])

In [28]:
a-b

array([[ 0, -2],
       [-3, -3]])

# 행렬의 곱

In [29]:
a = np.array([[1,0],[0,1]])
b = np.array([[1,2],[3,4]])

In [32]:
a*b #일반 곱셈

array([[1, 0],
       [0, 4]])

In [33]:
np.multiply(a,b) #일반 곱셈

array([[1, 0],
       [0, 4]])

In [34]:
np.matmul(a,b) #행렬 곱셈

array([[1, 2],
       [3, 4]])

In [35]:
np.dot(a,b) #행렬 곱셈

array([[1, 2],
       [3, 4]])

In [39]:
a@b

array([[1, 2],
       [3, 4]])

# 대각 행렬

In [36]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [37]:
np.eye(3).astype(int)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [38]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

# 역행렬

### 정방행렬에 대해 역행력이 존재한다
### 역행렬을 AA-1 = A-1 A=1 를 만족한다

In [40]:
a = np.array([[1,2,3],[1,3,3],[1,2,4]])
a

array([[1, 2, 3],
       [1, 3, 3],
       [1, 2, 4]])

In [41]:
inv = np.linalg.inv(a) #역행렬

In [42]:
inv

array([[ 6., -2., -3.],
       [-1.,  1.,  0.],
       [-1.,  0.,  1.]])

In [43]:
np.dot(a,inv)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#  배열만들기

In [44]:
fu = np.full((2,4),3)
fu

array([[3, 3, 3, 3],
       [3, 3, 3, 3]])

In [45]:
b = np.arange(24).reshape(4,3,2)

In [46]:
b

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15],
        [16, 17]],

       [[18, 19],
        [20, 21],
        [22, 23]]])

In [47]:
b[0, : , :] #인덱스 0번째

array([[0, 1],
       [2, 3],
       [4, 5]])

In [48]:
b[1, 1, 0]

8

In [49]:
a = np.array([[0,1,2],[3,4,5]])