# 파이썬을 이용한 기술통계 : 다변량 데이터

In [1]:
import pandas as pd
import scipy as sp

%precision 3

'%.3f'

In [2]:
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")   # 물고기 종류별로 정리한 길이의 데이터 불러오기 
print(fish_multi)

  species  length
0       A       2
1       A       3
2       A       4
3       B       6
4       B       8
5       B      10


In [3]:
group = fish_multi.groupby("species")     # groupby 함수 이용하여 그룹화 하고 평균 구하기 
print(group.mean())

         length
species        
A             3
B             8


In [24]:
print(group.std(ddof = 1))      # 표준편차 구하기 (ddof =1 불편분산 사용 )

         length
species        
A           1.0
B           2.0


In [25]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


In [6]:
shoes = pd.read_csv("3-2-2-shoes.csv")   # 구두 판매 데이터 불러오기  
print(shoes)

   store color  sales
0  tokyo  blue     10
1  tokyo   red     15
2  osaka  blue     13
3  osaka   red      9


In [7]:
cross = pd.pivot_table(
    data = shoes,        #데이터 지정    
    values = "sales",    #데이터를 모을 열 지정                   
    aggfunc = "sum",     # 데이터를 모을 함수 지정
    index = "store",     # 인덱스 지정 지정
    columns = "color"    #컬럼 지정 
)
print(cross)

color  blue  red
store           
osaka    13    9
tokyo    10   15


## 공분산 

### 공분산은 2개의 연속형 변수의 관계성을 확인하는 통계량임

##### 공분산이 0보다 클때 : 변수 한쪽이 큰 값을 갖게 되면 다른 한쪽도 커짐
##### 공분산이 0보다 작을때 : 변수 한쪽이 큰 값을 갖게 되면 다른 한쪽은 작아짐 
##### 공분산이 0일때 : 변수 사이에 관계성이 없음 

In [2]:
cov_data = pd.read_csv("3-2-3-cov.csv")    # Covariance 데이터 불러오기 
print(cov_data)

      x   y
0  18.5  34
1  18.7  39
2  19.1  41
3  19.7  38
4  21.5  45
5  21.7  41
6  21.8  52
7  22.0  44
8  23.4  44
9  23.8  49


In [63]:
# 데이터 x,y로 분리하기 
x = cov_data["x"]
y = cov_data["y"]

# 표본크기 
N = len(cov_data)

# 평균값 계산하기 
mu_x = sp.mean(x)
mu_y = sp.mean(y)

  mu_x = sp.mean(x)
  mu_y = sp.mean(y)


In [64]:
mu_x

21.020

In [65]:
mu_y

42.700

In [66]:
# 공분산 계산하기 
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

6.906

In [67]:
# 분모를 n-1로 설정하여 계산하기 
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

7.673

In [68]:
# scipy의.cov함수를 사용하면 공분산 쉽게 구할 수 있음 

sp.cov(x, y, ddof = 1)

  sp.cov(x, y, ddof = 1)


array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

#### 분산- 공분상 행렬함수 sp.cov(x, y, ddof = 0) 
####  1행 1열 :x의 분산 2행 2열 : y의 분산, 1행2열, 2행 1열은 공분산 나옴  
#### 공분산이 0보다 크기 때문에 양의 상관관계가 있다고 볼 수 있음 

In [9]:
# 분모를 n-1로 정의 할때 
sp.cov(x, y, ddof = 1)

  sp.cov(x, y, ddof = 1)


array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

### 벡터와 행렬 

In [11]:
import numpy as np

In [12]:
x = np.array([1,2,3,4,5])
y = np.array([-1,-2,-3,-4,-5])

In [13]:
x = np.array([1,2,3,4,5])
y = np.array([-1,-2,-3,-4,-5]) 
np.matmul(x.transpose(),y)     # x 전치행렬

-55

In [14]:
np.matmul(x,y.transpose()) 

-55

In [15]:
x*y    # 일반 곱셈 

array([ -1,  -4,  -9, -16, -25])

In [16]:
np.multiply(x,y)  # 일반 곱셈 

array([ -1,  -4,  -9, -16, -25])

### 전치행렬 

In [17]:
A = np.matrix ([[1,2,3],[4,5,6]])
A

matrix([[1, 2, 3],
        [4, 5, 6]])

In [18]:
A.transpose()  

matrix([[1, 4],
        [2, 5],
        [3, 6]])

In [85]:
A.T

matrix([[1, 4],
        [2, 5],
        [3, 6]])

### 행렬의 덧셈, 뺄셈

In [34]:
a = np.array([[1,0],[0,1]])
              
b = np.array([[1,2],[3,4]])
    

In [35]:
a+b

array([[2, 2],
       [3, 5]])

In [36]:
a-b

array([[ 0, -2],
       [-3, -3]])

### 행렬의 곱

In [72]:
a = np.array([[1,0],[0,1]])
              
b = np.array([[1,2],[3,4]])
    

In [73]:
a

array([[1, 0],
       [0, 1]])

In [74]:
b

array([[1, 2],
       [3, 4]])

In [75]:
a*b    #일반 곱셈

array([[1, 0],
       [0, 4]])

In [76]:
np.multiply(a,b)  #일반 곱셈

array([[1, 0],
       [0, 4]])

In [77]:
np.matmul(a,b)  #행렬 곱셈

array([[1, 2],
       [3, 4]])

In [78]:
np.dot(a,b)   #행렬 곱셈

array([[1, 2],
       [3, 4]])

In [79]:
a@b

array([[1, 2],
       [3, 4]])

### 대각행렬

In [69]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [70]:
np.eye(3).astype(int)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [46]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

### 역행렬 

#### 정방행렬에 대해 역행력이 존재한다.
##### 역행력을 A*A-1  = A-1*A = I 를 만족한다. 

In [49]:
a = np.array([[1,2,3],[1,3,3],[1,2,4]])
a

array([[1, 2, 3],
       [1, 3, 3],
       [1, 2, 4]])

In [50]:
inv = np.linalg.inv(a)  # 역행렬

In [51]:
inv

array([[ 6., -2., -3.],
       [-1.,  1.,  0.],
       [-1.,  0.,  1.]])

In [55]:
np.dot(a,inv)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 배열만들기

In [56]:
fu = np.full((2,4),3)
fu

array([[3, 3, 3, 3],
       [3, 3, 3, 3]])

In [80]:
b = np.arange(24).reshape(4,3,2)   # 3x2 행렬 4개 

In [81]:
b

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15],
        [16, 17]],

       [[18, 19],
        [20, 21],
        [22, 23]]])

In [82]:
b[0, : , :] # 인덱스 0번째 

array([[0, 1],
       [2, 3],
       [4, 5]])

In [83]:
b[1, 1 , :]

array([8, 9])

In [84]:
b[1, 1 , 0]  # 67p 오류 

8

In [86]:
A = np.arange(6).reshape([2,3])

B = np.arange(12).reshape([3,4])

In [87]:
A

array([[0, 1, 2],
       [3, 4, 5]])

In [88]:
B

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [89]:
np.matmul(A,B)

array([[20, 23, 26, 29],
       [56, 68, 80, 92]])

In [90]:
np.dot(A,B)

array([[20, 23, 26, 29],
       [56, 68, 80, 92]])

In [91]:
A@B

array([[20, 23, 26, 29],
       [56, 68, 80, 92]])

In [92]:
A = np.arange(2*2*4).reshape([2,2,4])

B = np.arange(2*2*4).reshape([2,4,2])

In [93]:
A

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [94]:
B

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [95]:
np.matmul(A,B)     # 3차원 이상의 행렬곱을 수행할 경우 dot , matmul 결과다름

array([[[ 28,  34],
        [ 76,  98]],

       [[428, 466],
        [604, 658]]])

In [96]:
np.dot(A,B)

array([[[[ 28,  34],
         [ 76,  82]],

        [[ 76,  98],
         [252, 274]]],


       [[[124, 162],
         [428, 466]],

        [[172, 226],
         [604, 658]]]])

In [99]:
A

array([[0, 1, 2],
       [3, 4, 5]])

In [100]:
A = np.arange(6).reshape([2,3])     # dot은 행렬과 상수의 곱셈 허용

np.dot(A,2)

array([[ 0,  2,  4],
       [ 6,  8, 10]])

In [101]:
np.matmul(A,2)    #matmul 은 행렬과 상수의 곱 허용하지 않음 

ValueError: matmul: Input operand 1 does not have enough dimensions (has 0, gufunc core with signature (n?,k),(k,m?)->(n?,m?) requires 1)