# 제 1 절  Tensor의 개념

## Numpy
numerical computing by Python

    파이썬에서 가장 대중적인 모듈 (Numpy, Pandas, Scipy, matplotlib..)중 하나로, 파이썬의 느린 '연산'을 보완하는 모듈이다.
    이는 C++ 모듈을 사용하여 숫자와 Matrix 연산 함으로써, 최대 25배 속도 향상을 보여준다 (그만큼 파이썬 기본연산이 느리다는 방증
    이기도 하다)

    기본적인 표 편집 및 자료수집 및 편집 연산시 Pandas 와 함께 쓰이는데, 
    Numpy 는 엑셀 셀 내부의 연산함수 ( = sum() , = if()) 기능을 담당하고
    Pandas 는 엑셀 아웃라인에서 작동하는 메뉴버튼 ('파일불러오기', '표편집', '피봇테이블') 기능을 구현하며,
    pandas 를 실행할 때에도 옵션역활로써 Numpy를 석어서 사용한다

## Pytorch
numerical computing by Python

    머신러닝 공개 모듈 중 하나로(공짜다)
    넘파이(NumPy) 정도를 제외하고는 거의 의존성이 없고, 텐서 연산을 위한 C++ 코드를 제외하고는 대부분 파이썬으로 구현이 되어 있어서,
    다른 파이썬 모듈 (자동으로 그래디언트를 계산해 주는 Autograd, NumPy/SciPy) 과의 뛰어난 호환성을 보여주고
    깔끔한 코드 로 구현이 가능하다
    
    Nural Network 의 그래프를 정의하고 실행하는 다른 머신러닝 (tensorflow 등) 모듈과 달리, 
    작업자가 코딩하는 대로 그래프가 점진적으로 만들어 나아감으로써 작업 과정 중간에도 데이터의 내용을 확인하며
    가장 적합한 머신러닝 알고리즘을 찾아가며 이를 적용하고 분석함에 용이하다.
    
    (출처 : https://tensorflow.blog/2017/01/23/pytorch-new-cool-dl-library/ )

## 01. 배열 생성
<p>Tensor (어떻게 바라보아도 그 본질이 변하지 않는 것)</p></br>
분석하고자 하는 데이터의 형태로써, 일반적인 배열(Matrix) 형태를 띈다

(1) 라이브러리 불러오기

In [1]:
import numpy as np 
import torch

<p>(2) numpy 의 ndarray 와 pytorch 의 tensor </p></br>
1) numpy : n 차원 배열

In [2]:
# numpy 생성
data = [ 1,2,3,4,5]
data = np.array(data)
print(data)
print(type(data))

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [3]:
# numpy 배열생성
data = np.arange(20)
data = data.reshape(5,4)
print(data)
print(type(data))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]
<class 'numpy.ndarray'>


2) pytorch : tensor (N차원의 매트릭스)

In [4]:
# numpy의 ndarray와 유사
# pytorch는 아래와 같이 7가지 CPU 텐서 타입과 8가지 GPU 텐서 타입을 정의내리고 있다

In [5]:
# pytorch는 디폴트 텐서를 torch.FloatTensor로 세팅한다.
# 파이썬의 리스트 또는 시퀀스(자동번호 발생기 range()) 를 활용해서 생성 가능하다.

In [6]:
# torch.FloatTensor()
torch.FloatTensor([2,3])


 2
 3
[torch.FloatTensor of size 2]

In [7]:
# torch.FloatTensor()
torch.FloatTensor([ [1,2,3], [4,5,6] ])


 1  2  3
 4  5  6
[torch.FloatTensor of size 2x3]

In [8]:
# 2 x 3 배열의 랜덤 텐서를 생성
torch.FloatTensor(2,3)


-4.6117e+27  4.5595e-41  3.3090e+12
 3.0917e-41  4.4842e-44  0.0000e+00
[torch.FloatTensor of size 2x3]

<p>(3) numpy 와 tensor 상호 변환</p></br>
1) numpy

In [9]:
#numpy 객체 생성
ar = np.arange(20).reshape(5,4)
ar

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

2) numpy --> tensor

In [10]:
# numpy --> tensor 
x = torch.from_numpy(ar)  # default 값 : LongTensor 로 치환
x


  0   1   2   3
  4   5   6   7
  8   9  10  11
 12  13  14  15
 16  17  18  19
[torch.LongTensor of size 5x4]

## 02. in-place / Out-of-place

<p>(1) 텐서의 생성</p></br>
먼저 (5X7)의 사이즈를 가지는 텐서를 생성해보자

In [11]:
import numpy as np
import torch
a = torch.FloatTensor(5,7)
a



Columns 0 to 5 
-4.6117e+27  4.5595e-41 -4.6117e+27  4.5595e-41  0.0000e+00  0.0000e+00
 0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00
 0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00
 0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  0.0000e+00  2.7045e-43
-4.6118e+27  4.5595e-41 -4.6118e+27  4.5595e-41  8.4878e+11  3.0917e-41

Columns 6 to 6 
 0.0000e+00
 0.0000e+00
 0.0000e+00
 0.0000e+00
 0.0000e+00
[torch.FloatTensor of size 5x7]

mean = 0, var = 1 인 정규분포를 갖는 랜덤추출 텐서를 생성해보자

In [12]:
a = torch.randn(5,7)
print(a)
a.size()


 0.2540  1.7587 -0.1568  0.7781 -0.1844 -0.9666  1.3026
 0.0241  0.1427 -0.6117 -1.1298  1.0834 -1.7028  0.8497
-0.1046  0.2295 -0.7851  0.4246 -0.6619  0.1709  0.8972
-0.6241 -0.9259  0.9425 -0.0918 -0.0381 -0.6116  0.2824
 0.8369 -0.4727  0.8196 -0.4545 -0.6154 -0.4111 -0.4724
[torch.FloatTensor of size 5x7]



torch.Size([5, 7])

<p>(2) In-place / Out-of-place</p></br>
Pytorch에서는 텐서에 영향을 미치는 방향에 따라 in-place 와 out-of-place의 개념이 존재한다
-  http://pytorch.org/tutorials/beginner/former_torchies/tensor_tutorial.html?highlight=narrow

    (https://stackoverflow.com/questions/35769944/manipulating-matrix-elements-in-tensorflow)
    텐서플로는 tf.scatter_update() 등으로 객체값을 변환 후 tf.initialize_all_variables() 로 초기화 명령을
    시행해야만 데이터가 갱신된다.

In [13]:
a


 0.2540  1.7587 -0.1568  0.7781 -0.1844 -0.9666  1.3026
 0.0241  0.1427 -0.6117 -1.1298  1.0834 -1.7028  0.8497
-0.1046  0.2295 -0.7851  0.4246 -0.6619  0.1709  0.8972
-0.6241 -0.9259  0.9425 -0.0918 -0.0381 -0.6116  0.2824
 0.8369 -0.4727  0.8196 -0.4545 -0.6154 -0.4111 -0.4724
[torch.FloatTensor of size 5x7]

    파이썬에서 언더스코어(_)는 다음과 같은 상황에서 사용되는데 크게 5가지의 경우가 있다.

    1.인터프리터(Interpreter)에서 마지막 값을 저장할 때
    2.값을 무시하고 싶을 때 (흔히 “I don’t care”라고 부른다.)
    3.변수나 함수명에 특별한 의미 또는 기능을 부여하고자 할 때
    4.국제화(Internationalization, i18n)/지역화(Localization, l10n) 함수로써 사용할 때
    5.숫자 리터럴값의 자릿수 구분을 위한 구분자로써 사용할 때
    (출처 : https://mingrammer.com/underscore-in-python)


In [14]:
a.fill_(3.5)  # '_' (underscore) 새로운 값으로 채운다


 3.5000  3.5000  3.5000  3.5000  3.5000  3.5000  3.5000
 3.5000  3.5000  3.5000  3.5000  3.5000  3.5000  3.5000
 3.5000  3.5000  3.5000  3.5000  3.5000  3.5000  3.5000
 3.5000  3.5000  3.5000  3.5000  3.5000  3.5000  3.5000
 3.5000  3.5000  3.5000  3.5000  3.5000  3.5000  3.5000
[torch.FloatTensor of size 5x7]

In [15]:
a.add(4.0)    # 텐서값을 추가한다


 7.5000  7.5000  7.5000  7.5000  7.5000  7.5000  7.5000
 7.5000  7.5000  7.5000  7.5000  7.5000  7.5000  7.5000
 7.5000  7.5000  7.5000  7.5000  7.5000  7.5000  7.5000
 7.5000  7.5000  7.5000  7.5000  7.5000  7.5000  7.5000
 7.5000  7.5000  7.5000  7.5000  7.5000  7.5000  7.5000
[torch.FloatTensor of size 5x7]

    언더스코어(_) 는 모든 함수에 있어서 일괄 적용되지 않는다.
    .narrow() 함수(operation)는 존재해도 .narrow_ 는 존재하지 않고,
    반대로 .fill_() 는 존재해도 .fill() 는 존재하지 않는다

## 03. 인덱싱 (indexing)

In [16]:
ar = np.arange(20).reshape(5,4)
ar

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [17]:
x = torch.from_numpy(ar)
x


  0   1   2   3
  4   5   6   7
  8   9  10  11
 12  13  14  15
 16  17  18  19
[torch.LongTensor of size 5x4]

In [18]:
# 제로 인덱싱이 가능함 ( 0 번 인덱스 값을 갖는 x의 value 들을 출력)
x[0]


 0
 1
 2
 3
[torch.LongTensor of size 4]

In [19]:
x[0,1] # index 0 , col_num 1

1

In [20]:
x[2,1] # index 2 , col_num 1

9

In [21]:
x[:,2] # index all , col_num 2


  2
  6
 10
 14
 18
[torch.LongTensor of size 5]

In [22]:
x[:, 1:3] # index all, col_num 1,2


  1   2
  5   6
  9  10
 13  14
 17  18
[torch.LongTensor of size 5x2]

## 04. index\_add\_
원본 'x 텐서'와 't 텐서'의 값을 더할 때, 별도의 인덱스값을 기준으로 더한다. (matrix합 연산이 아닌 같은 위상의 값의 합) 

In [23]:
x = torch.Tensor([ [1,1,1], [1,1,1], [1,1,1] ])
x


 1  1  1
 1  1  1
 1  1  1
[torch.FloatTensor of size 3x3]

In [24]:
t = torch.Tensor([ [1,2,3], [4,5,6], [7,8,9]])
t


 1  2  3
 4  5  6
 7  8  9
[torch.FloatTensor of size 3x3]

In [25]:
index = torch.LongTensor([0, 2, 1])
index


 0
 2
 1
[torch.LongTensor of size 3]

In [26]:
# x.index_add_( dim(int), index(LongTensor), tensor(Tensor) )
# x - 원본텐서
# dim(int) - 연산 기준이 되는 인덱스index(LongTensor) 의 차원을 정의 (0 : 인덱스 값이 1차원일 떄) (1 ,2 ,3 : 계층적 인덱스일 떄) 
# index(LongTensor) - 기준 인덱스
# tensor(Tensor) - 연산 대상 값
x.index_add_(0, index, t)


  2   3   4
  8   9  10
  5   6   7
[torch.FloatTensor of size 3x3]

## 05. 마스킹(masking)
[True, False, True, True....] 으로 구성, 'True'의 index 와 동일한 index의 value 만 연산에 활용

In [27]:
x = torch.Tensor([ [1,1,1], [1,1,1], [1,1,1] ])
x


 1  1  1
 1  1  1
 1  1  1
[torch.FloatTensor of size 3x3]

In [28]:
#numpy 객체 생성
x = np.arange(20).reshape(5,4)
x = torch.from_numpy(x)
x


  0   1   2   3
  4   5   6   7
  8   9  10  11
 12  13  14  15
 16  17  18  19
[torch.LongTensor of size 5x4]

In [29]:
mask = torch.ByteTensor([ [1,0,0,0], [0,1,0,0], [0,0,1,0], [0,0,0,1], [0,1,0,0] ])
mask


 1  0  0  0
 0  1  0  0
 0  0  1  0
 0  0  0  1
 0  1  0  0
[torch.ByteTensor of size 5x4]

In [30]:
# 원본 x 데이터 중 mask 의 1 과 동일한 인덱스의 value 들만 출력
out = torch.masked_select(x, mask)
out


  0
  5
 10
 15
 17
[torch.LongTensor of size 5]

## 06. 조이닝(Joining)

    <pandas>
    frames = [df1, df2, df3]
    result = pd.concat(frames)

In [31]:
# 텐서 생성
a = torch.FloatTensor([[2,3,4],[5,6,7]])
b = torch.FloatTensor([[-2,-3,-4],[-5,-6,-7]])
print(a, b)


 2  3  4
 5  6  7
[torch.FloatTensor of size 2x3]
 
-2 -3 -4
-5 -6 -7
[torch.FloatTensor of size 2x3]



In [32]:
# 1개의 텐서로 결합
c1 = torch.cat([a, b],dim=0)  # 0 : 컬럼을 기준으로 연결 (concatenate)
c2 = torch.cat([a, b],dim=1)  # 1 : row를 기준으로 연결 (concatenate)
print(c1,c2)


 2  3  4
 5  6  7
-2 -3 -4
-5 -6 -7
[torch.FloatTensor of size 4x3]
 
 2  3  4 -2 -3 -4
 5  6  7 -5 -6 -7
[torch.FloatTensor of size 2x6]



In [33]:
# 개별 index를 갖는 1개의 텐서로 결합
# dim = 0 : 결합갯수가 인덱스 기준
c0_stack = torch.stack( [a,a,a,a], dim=0)
c0_stack


(0 ,.,.) = 
  2  3  4
  5  6  7

(1 ,.,.) = 
  2  3  4
  5  6  7

(2 ,.,.) = 
  2  3  4
  5  6  7

(3 ,.,.) = 
  2  3  4
  5  6  7
[torch.FloatTensor of size 4x2x3]

In [34]:
len(c0_stack)

4

In [35]:
c0_stack[0]


 2  3  4
 5  6  7
[torch.FloatTensor of size 2x3]

In [36]:
# 개별 index를 갖는 1개의 텐서로 결합
# dim = 1 : 자료의 형태가 인덱스 기준
c1_stack = torch.stack( [a,a,a,a], dim=1)
c1_stack


(0 ,.,.) = 
  2  3  4
  2  3  4
  2  3  4
  2  3  4

(1 ,.,.) = 
  5  6  7
  5  6  7
  5  6  7
  5  6  7
[torch.FloatTensor of size 2x4x3]

In [37]:
len(c1_stack)

2

## 07. 슬라이싱(Slicing)

In [38]:
# 텐서 생성
a = torch.FloatTensor([[2,3,4],[5,6,7]])
b = torch.FloatTensor([[-2,-3,-4],[-5,-6,-7]])
print(a, b)


 2  3  4
 5  6  7
[torch.FloatTensor of size 2x3]
 
-2 -3 -4
-5 -6 -7
[torch.FloatTensor of size 2x3]



In [39]:
# 1개의 텐서로 결합
c1 = torch.cat([a, b],dim=0)  # 0 : 컬럼을 기준으로 연결 (concatenate)
c2 = torch.cat([a, b],dim=1)  # 1 : row를 기준으로 연결 (concatenate)
print(c1,c2)


 2  3  4
 5  6  7
-2 -3 -4
-5 -6 -7
[torch.FloatTensor of size 4x3]
 
 2  3  4 -2 -3 -4
 5  6  7 -5 -6 -7
[torch.FloatTensor of size 2x6]



#### Chunk
정확한 분할 등분, 정확히 나뉘지 않으면 오류가 발생

In [40]:
# chunk : 덩어리
# torch.chunk(원본, 덩어리 갯수, 분할기준)
# 정확히 데이터와 분할기준이 맞아야 작동
x_1, x_2 = torch.chunk(c1,2,dim=0)

In [41]:
x_1


 2  3  4
 5  6  7
[torch.FloatTensor of size 2x3]

In [42]:
# chunk : 덩어리
# torch.chunk(원본, 덩어리 갯수, 분할기준)
x_1, x_2, x_3 = torch.chunk(c1,3,dim=1)

In [43]:
x_1


 2
 5
-2
-5
[torch.FloatTensor of size 4x1]

#### Split
물리적으로 나뉜다

In [44]:
# torch.split(원본, 분할 갯수, 분할기준)
x_1, x_2 = torch.split(c1,2,dim=0)

In [45]:
x_1


 2  3  4
 5  6  7
[torch.FloatTensor of size 2x3]

In [46]:
# 물리적으로 나눈다
x_1, x_2 = torch.split(c1,2,dim=1)

In [47]:
x_1


 2  3
 5  6
-2 -3
-5 -6
[torch.FloatTensor of size 4x2]

In [48]:
x_2


 4
 7
-4
-7
[torch.FloatTensor of size 4x1]

## 08. Reshaping

In [49]:
ar = np.arange(36).reshape(3,4,3)
x1 = torch.from_numpy(ar)
x1


(0 ,.,.) = 
   0   1   2
   3   4   5
   6   7   8
   9  10  11

(1 ,.,.) = 
  12  13  14
  15  16  17
  18  19  20
  21  22  23

(2 ,.,.) = 
  24  25  26
  27  28  29
  30  31  32
  33  34  35
[torch.LongTensor of size 3x4x3]

In [50]:
x2 = x1.view(-1)
print(x2.size())
x2

torch.Size([36])



  0
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
[torch.LongTensor of size 36]

In [51]:
x2 = x1.view(3,-1)
print(x2.size())
x2

torch.Size([3, 12])



    0     1     2     3     4     5     6     7     8     9    10    11
   12    13    14    15    16    17    18    19    20    21    22    23
   24    25    26    27    28    29    30    31    32    33    34    35
[torch.LongTensor of size 3x12]

In [52]:
x2 = x1.view(6,-1)
print(x2.size())
x2

torch.Size([6, 6])



  0   1   2   3   4   5
  6   7   8   9  10  11
 12  13  14  15  16  17
 18  19  20  21  22  23
 24  25  26  27  28  29
 30  31  32  33  34  35
[torch.LongTensor of size 6x6]

In [53]:
x2 = x1.view(12,-1)
print(x2.size())
x2

torch.Size([12, 3])



    0     1     2
    3     4     5
    6     7     8
    9    10    11
   12    13    14
   15    16    17
   18    19    20
   21    22    23
   24    25    26
   27    28    29
   30    31    32
   33    34    35
[torch.LongTensor of size 12x3]

In [54]:
x2 = x1.view(3,12,-1)
print(x2.size())
x2

torch.Size([3, 12, 1])



(0 ,.,.) = 
   0
   1
   2
   3
   4
   5
   6
   7
   8
   9
  10
  11

(1 ,.,.) = 
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23

(2 ,.,.) = 
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
[torch.LongTensor of size 3x12x1]

In [55]:
a.narrow()

TypeError: narrow received an invalid combination of arguments - got (), but expected (int dimension, int start, int length)

In [None]:
a.f