<a href="https://colab.research.google.com/github/dowrave/Tensorflow_Basic/blob/main/220513_Tensor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 텐서 
- 랭크 0(=0차원) 부터 가능, 이는 스칼라와 동일
- `np.array(tensor)`로 Array로 만들 수 있음
- 기본은 직사각형이지만, 특수 유형의 텐서가 있다.

### 텐서 연산자

In [1]:
import tensorflow as tf

a = tf.constant([[1, 2,], [3, 4]])
b = tf.constant([[1, 1], [1, 1]])

print(tf.add(a, b), "\n") # a + b
print(tf.multiply(a, b), "\n") # a * b  element-wise
print(tf.matmul(a, b), "\n") # a @ b matrix multiply

tf.Tensor(
[[2 3]
 [4 5]], shape=(2, 2), dtype=int32) 

tf.Tensor(
[[1 2]
 [3 4]], shape=(2, 2), dtype=int32) 

tf.Tensor(
[[3 3]
 [7 7]], shape=(2, 2), dtype=int32) 



In [3]:
# 텐서에 적용되는 다양한 연산
c = tf.constant([[4.0, 5.], [10., 1.]])

print(tf.reduce_max(c)) # 모든 값 중 최댓값
print(tf.argmax(c)) # 각 row의 최댓값의 인덱스
print(tf.nn.softmax(c)) # 전체에 대해 softmax함수 적용

tf.Tensor(10.0, shape=(), dtype=float32)
tf.Tensor([1 0], shape=(2,), dtype=int64)
tf.Tensor(
[[2.6894143e-01 7.3105854e-01]
 [9.9987662e-01 1.2339458e-04]], shape=(2, 2), dtype=float32)


# 형상(Shape) 정보
- 형상(Shape) : 텐서의 각 차원의 길이(요소 수)
- 순위(Rank) : 텐서 축의 수(스칼라 = 0 , 벡터 = 1, 행렬 = 2)
- 축/차원(Axis, DImension) : 텐서의 특정 차원
- 크기 : 텐서의 총 항목 수

In [7]:
# 접근법은 예제를 보자
rank_4_tensor = tf.zeros([3, 2, 4, 5]) # 이런 거 볼 때는 뒤에서부터 관찰하면 편하다 / zeros 뒤의 []는 shape임!

print(rank_4_tensor.dtype)
print(rank_4_tensor.ndim) # 차원의 수 = 4
print(rank_4_tensor.shape) # 전체 차원의 크기를 보여줌
print(rank_4_tensor.shape[0])
print(rank_4_tensor.shape[-1])
print(tf.size(rank_4_tensor).numpy()) # 다 곱한 값인 듯

# 통상적으로 Shape는 Batch, Width, Height, Features 순으로 온다

<dtype: 'float32'>
4
(3, 2, 4, 5)
3
5
120


## 인덱싱
- 모르는 것만 다룸

In [8]:
rank_1_tensor = tf.constant([0, 1, 1, 2, 3, 5, 8, 13, 21, 34])
print(rank_1_tensor.numpy())

[ 0  1  1  2  3  5  8 13 21 34]


In [9]:
# 스칼라를 사용하여 인덱싱하면 축이 제거된다.
print(rank_1_tensor[0]) # 얘는 텐서 객체
print(rank_1_tensor[0].numpy()) # 얘는 배열 객체

tf.Tensor(0, shape=(), dtype=int32)
0


In [10]:
# 슬라이스 이용 - 축이 유지됨. 뭐 당연한 얘기죠? [a:b:c] = a부터 b-1까지 c 간격으로
print("Reversed : ", rank_1_tensor[::-1].numpy())

Reversed :  [34 21 13  8  5  3  2  1  1  0]


## 형상 조작하기 - tf.reshape
- 순서(축 교환)를 조작하고 싶다면 `tf.transpose`를 써야 한다.

In [11]:
var_x = tf.Variable(tf.constant([[1], [2], [3]]))
print(var_x.shape)

(3, 1)


In [12]:
# 파이썬 리스트로 : Tensor.shape.as_list()
var_x.shape.as_list()

[3, 1]

In [16]:
# 텐서를 새로운 형상으로 : tf.reshape(텐서, [바꿀 모양]) // numpy와 달리 텐서.reshape로 쓰지 않는 것에 유의하자
reshaped = tf.reshape(var_x, [1, 3])
reshaped.shape, var_x.shape # 원본 데이터는 유지된다

(TensorShape([1, 3]), TensorShape([3, 1]))

In [20]:
# 텐서 평평하게 하기 : tf.reshape에 [-1]만 전달한다.
rank_3_tensor = tf.random.normal([3,2,5])
print(rank_3_tensor)
print(tf.reshape(rank_3_tensor, [-1])) # 메모리에 저장된 순서이기도 하며, 행 중심임.

tf.Tensor(
[[[-0.44237128  1.3793768   1.0837746  -1.1151327  -0.38771653]
  [-0.69487476  1.3672839  -1.1325225  -0.57950747 -0.17905238]]

 [[ 0.14878753  2.1136944  -1.1047146   0.31051522  0.05260073]
  [ 0.4250472  -2.152948    0.38287646 -0.01542268  0.01791849]]

 [[-0.18561594 -0.6626002  -0.4041343   2.0890377  -0.28437245]
  [ 0.82391065 -1.2740731   0.44545695  1.2767645  -0.17577851]]], shape=(3, 2, 5), dtype=float32)
tf.Tensor(
[-0.44237128  1.3793768   1.0837746  -1.1151327  -0.38771653 -0.69487476
  1.3672839  -1.1325225  -0.57950747 -0.17905238  0.14878753  2.1136944
 -1.1047146   0.31051522  0.05260073  0.4250472  -2.152948    0.38287646
 -0.01542268  0.01791849 -0.18561594 -0.6626002  -0.4041343   2.0890377
 -0.28437245  0.82391065 -1.2740731   0.44545695  1.2767645  -0.17577851], shape=(30,), dtype=float32)


In [21]:
# reshape의 용도 : 인접한 축 결합 혹은 분할, 내지는 1을 제거하는 것
print(tf.reshape(rank_3_tensor, [3*2, 5]))
print(tf.reshape(rank_3_tensor, [3, -1]))

tf.Tensor(
[[-0.44237128  1.3793768   1.0837746  -1.1151327  -0.38771653]
 [-0.69487476  1.3672839  -1.1325225  -0.57950747 -0.17905238]
 [ 0.14878753  2.1136944  -1.1047146   0.31051522  0.05260073]
 [ 0.4250472  -2.152948    0.38287646 -0.01542268  0.01791849]
 [-0.18561594 -0.6626002  -0.4041343   2.0890377  -0.28437245]
 [ 0.82391065 -1.2740731   0.44545695  1.2767645  -0.17577851]], shape=(6, 5), dtype=float32)
tf.Tensor(
[[-0.44237128  1.3793768   1.0837746  -1.1151327  -0.38771653 -0.69487476
   1.3672839  -1.1325225  -0.57950747 -0.17905238]
 [ 0.14878753  2.1136944  -1.1047146   0.31051522  0.05260073  0.4250472
  -2.152948    0.38287646 -0.01542268  0.01791849]
 [-0.18561594 -0.6626002  -0.4041343   2.0890377  -0.28437245  0.82391065
  -1.2740731   0.44545695  1.2767645  -0.17577851]], shape=(3, 10), dtype=float32)


- 데이터타입 기본 : `tf.int32`, `tf.float32`
- 브로드캐스팅도 된다
- 텐서가 아닌 대부분의 Argument 들에 대해서는 자동으로 `convert_to_tensor`가 호출된다. ndarray, TensorShape, Python List, tf.Variable 등


## 비정형 텐서
- `tf.ragged.RaggedTensor`

In [22]:
ragged_list = [[0, 1, 2, 3], [4, 5,], [6, 7, 8], [9]]
try:
  tensor = tf.constant(ragged_list) # 일반적인 텐서는 직사각형 구조만 받을 수 있다
except Exception as e:
  print(f"Type(e).__name__ : {e}")

Type(e).__name__ : Can't convert non-rectangular Python sequence to Tensor.


In [23]:
# 위와 같은 경우 아래를 이용한다.
ragged_tensor = tf.ragged.constant(ragged_list)
print(ragged_tensor)

<tf.RaggedTensor [[0, 1, 2, 3], [4, 5], [6, 7, 8], [9]]>


## 문자열String 텐서
- 여기서의 String은 파이썬 String처럼 인덱싱할 수 없다.
- 문자열의 길이는 텐서의 축이 아니며 `tf.strings` 를 참조할 것
- `b'Gray Wolf'` 앞의 b는 byte string을 나타냄
  - 유니코드를 처리하는 방법은 따로 있으며 유니코드 전달 시 UTF-8로 처리된다.

In [27]:
scalar_string_tensor = tf.constant('Gray Wolf')
print(scalar_string_tensor)

tf.Tensor(b'Gray Wolf', shape=(), dtype=string)


In [29]:
# 문자열 분리하기
print(tf.strings.split(scalar_string_tensor, sep=" "))

# 문자열이 여러 개가 있다면 일단 각 문자열이 1개의 차원을 갖도록 분리됨

tf.Tensor([b'Gray' b'Wolf'], shape=(2,), dtype=string)


In [31]:
# 분리하는 건 이런 것도 된다.
text = tf.constant("1 10 100")
print(tf.strings.to_number(tf.strings.split(text, " ")))

tf.Tensor([  1.  10. 100.], shape=(3,), dtype=float32)


- tf.cast를 사용하여 문자열 텐서 -> 숫자는 불가능하지만, 바이트로 변환 후 숫자로 변환할 수는 있음

In [33]:
byte_strings = tf.strings.bytes_split(tf.constant("Duck"))
byte_ints = tf.io.decode_raw(tf.constant("Duck"), tf.uint8)
print(byte_strings, byte_ints)

tf.Tensor([b'D' b'u' b'c' b'k'], shape=(4,), dtype=string) tf.Tensor([ 68 117  99 107], shape=(4,), dtype=uint8)


- `tf.io` 모듈에는 이미지 디코딩, csv 구문 분석 등 데이터 -> 바이트, 바이트 -> 데이터 변환 함수가 포함되어 있다

## 희소 텐서(SparseTensor)
- 희소행렬 같이, 구조는 엄청 큰데 대부분의 값이 0인 텐서를 데이터 공간을 작게 잡아서 저장할 수 있다.

In [34]:
sparse_tensor = tf.sparse.SparseTensor(indices = [[0, 0], [1, 2],],
                                       values = [1, 2],
                                       dense_shape = [3, 4]) 
print(sparse_tensor, '\n') #희소 텐서는 2차원의 공간 4개를 잡아먹음

SparseTensor(indices=tf.Tensor(
[[0 0]
 [1 2]], shape=(2, 2), dtype=int64), values=tf.Tensor([1 2], shape=(2,), dtype=int32), dense_shape=tf.Tensor([3 4], shape=(2,), dtype=int64)) 



In [36]:
print(tf.sparse.to_dense(sparse_tensor)) # 이를 Dense 텐서로 바꾸면 공간 12개를 잡아먹음

tf.Tensor(
[[1 0 0 0]
 [0 0 2 0]
 [0 0 0 0]], shape=(3, 4), dtype=int32)
