# [AI 오픈 이노베이션] 기본 저녁반<a class="tocSkip">
GitHub link: <a href="https://github.com/realblack0/ai_lecture_fundamental">here</a>  
E-Mail: realblack0@gmail.com

## Numpy의 iter 관련 기능

In [1]:
import numpy as np

In [2]:
a = np.array([[1,2,3], [4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

numpy의 array는 iterable이므로, iterator로 만들 수 있다.

In [11]:
b = iter(a)

next는 첫번째 차원의 값을 하나씩 반환한다.  
고로, 2차원일 때는 행을 하나씩 반환한다.

In [4]:
next(b)

array([1, 2, 3])

### nditer
`nditer`는 numpy용 iter 기능이다.

In [12]:
c = np.nditer(a)

`nditer`도 `next`로 값을 하나씩 꺼낼 수 있다.  
`iter`와는 달리, array의 원소 단위로 하나씩 반환한다.

In [13]:
next(c)

array(1)

`nditer`는 `iter`에 편리한 기능이 추가되었다.

In [9]:
dir(c)

['__class__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'close',
 'copy',
 'debug_print',
 'dtypes',
 'enable_external_loop',
 'finished',
 'has_delayed_bufalloc',
 'has_index',
 'has_multi_index',
 'index',
 'iterationneedsapi',
 'iterindex',
 'iternext',
 'iterrange',
 'itersize',
 'itviews',
 'multi_index',
 'ndim',
 'nop',
 'operands',
 'remove_axis',
 'remove_multi_index',
 'reset',
 'shape',
 'value']

#### finished
`finished`는 `nditer` 객체가 값을 모두 반환하였는지 확인할 수 있다.

`c`는 아직 `next`를 한 번밖에 하지 않았으므로, `next`를 더 할 수 있다.

In [14]:
c.finished # nditer가 끝나지 않았으므로 False

False

`next`를 더 이상할 수 없을 때는 StopIteration Error를 발생시킨다.

In [18]:
for _ in range(6):
    next(c)

StopIteration: 

값을 모두 반환했으므로 더 이상 `next`를 할 수 없다.

In [19]:
c.finished # nditer가 끝났으므로 True

True

#### iternext
`next`를 한 번 더 할 수 있는지 알려준다.

`iternext`가 True이면 다음 `next`를 할 수 있다.

In [20]:
c = np.nditer(a)

In [21]:
c.iternext() 

True

In [22]:
list(c) # c에는 값이 남아 있으므로 next를 할 수 있음

[array(2), array(3), array(4), array(5), array(6)]

`iternext`가 False이면 다음 `next`를 할 수 없다.

In [23]:
c = np.nditer(a)

In [24]:
for _ in range(6):
    next(c)

In [25]:
c.iternext()

False

`c`는 값을 모두 반환했기 때문에 `next`하면 StopIteration Error를 발생시킨다.

In [27]:
# error
next(c)

StopIteration: 

## fashion mnist 데이터셋 살펴보기
fashion MNIST는 MNIST(손글씨 데이터셋) 다음으로 널리 사용되는 의류 이미지 데이터셋이다.

In [26]:
from tensorflow.keras.datasets import fashion_mnist

In [27]:
data = fashion_mnist.load_data()

`type`과 `len`을 이용해서 fashion_mnist 데이터는 튜플 안에 튜플 형태로 구성되어 있음을 알 수 있다.

In [31]:
(a, b), (c, d) = data # unpacking

`a`는 numpy array이므로 `dtype`과 `shape`으로 배열을 분석한다.

In [38]:
a.dtype # uint는 대개 image

dtype('uint8')

In [37]:
a.shape # 6만개, height, width 

(60000, 28, 28)

이미지 1장만 뽑아서 `shape`을 확인한다. 컬러 이미지는 보통 3차원(height, width, channel)으로 구성된다. 흑백 이미지는 색상 정보를 담는 channel 차원이 없어 2차원(height, width)으로 구성된다.

In [39]:
a[0].shape # 2차원 이미지 => 흑백이미지

(28, 28)

색상 정보를 담는 channel 차원을 임의로 추가하는 경우도 있다.  
numpy에는 차원을 추가하는 다양한 기법이 있다.

In [40]:
# reshape으로 차원 추가
aa = a[0].reshape((28,28,1)) # reshape으로 바꾼 값을 쓰려면 재할당해야 함
aa.shape

(28, 28, 1)

In [46]:
# newaxis를 이용해서 차원 추가
a[0][:,:,np.newaxis].shape

(28, 28, 1)

In [46]:
aa1 = a[0][np.newaxis, ...]   # 맨 앞에 차원을 추가하기
aa2 = a[0][np.newaxis]        # ...을 생략해도 된다.

print(aa1.shape)
print(aa2.shape)
print(np.array_equal(aa1, aa2)) # array가 같은지 비교

(1, 28, 28)
(1, 28, 28)
True


In [48]:
# 차원을 추가하는 또다른 기법
# np.newaxis 만큼이나 명확하다.
np.expand_dims(a[0], 2).shape

(28, 28, 1)

일반적으로는 색상 정보 차원이 마지막에 오지만, 라이브러리에 따라 색상 정보 차원이 앞에 오는 경우도 있으니 참고하자. (i.e. pytorch)  

In [39]:
a[0].reshape(1,28,28).shape # channel, height, width

(1, 28, 28)

## imdb 데이터셋 살펴보기
imdb는 영화 사이트 IMDB의 리뷰 데이터셋이다. 자연어 처리 튜토리얼로 널리 쓰인다.

In [47]:
from tensorflow.keras.datasets import imdb

In [48]:
x = imdb.load_data()

`type`과 `len`을 이용해서 imdb 데이터셋은 튜플 안에 튜플 형태로 구성되어 있음을 알 수 있다.

In [51]:
(i, j), (k, l) = x

`i`는 numpy array이므로 dtype과 shape으로 배열을 분석한다.

In [52]:
i.dtype # 'O'는 object를 의미
        # object dtype은 문자열, 리스트 등의 타입에 해당

dtype('O')

In [57]:
type(i[0]) # 원소가 list이기 때문에 dtype이 object

list

In [55]:
i.shape # list가 2만 5천개 

(25000,)

In [53]:
i[0]

[1,
 14,
 22,
 16,
 43,
 530,
 973,
 1622,
 1385,
 65,
 458,
 4468,
 66,
 3941,
 4,
 173,
 36,
 256,
 5,
 25,
 100,
 43,
 838,
 112,
 50,
 670,
 22665,
 9,
 35,
 480,
 284,
 5,
 150,
 4,
 172,
 112,
 167,
 21631,
 336,
 385,
 39,
 4,
 172,
 4536,
 1111,
 17,
 546,
 38,
 13,
 447,
 4,
 192,
 50,
 16,
 6,
 147,
 2025,
 19,
 14,
 22,
 4,
 1920,
 4613,
 469,
 4,
 22,
 71,
 87,
 12,
 16,
 43,
 530,
 38,
 76,
 15,
 13,
 1247,
 4,
 22,
 17,
 515,
 17,
 12,
 16,
 626,
 18,
 19193,
 5,
 62,
 386,
 12,
 8,
 316,
 8,
 106,
 5,
 4,
 2223,
 5244,
 16,
 480,
 66,
 3785,
 33,
 4,
 130,
 12,
 16,
 38,
 619,
 5,
 25,
 124,
 51,
 36,
 135,
 48,
 25,
 1415,
 33,
 6,
 22,
 12,
 215,
 28,
 77,
 52,
 5,
 14,
 407,
 16,
 82,
 10311,
 8,
 4,
 107,
 117,
 5952,
 15,
 256,
 4,
 31050,
 7,
 3766,
 5,
 723,
 36,
 71,
 43,
 530,
 476,
 26,
 400,
 317,
 46,
 7,
 4,
 12118,
 1029,
 13,
 104,
 88,
 4,
 381,
 15,
 297,
 98,
 32,
 2071,
 56,
 26,
 141,
 6,
 194,
 7486,
 18,
 4,
 226,
 22,
 21,
 134,
 476,
 26,
 480,
 5

imdb 데이터셋에는 `get_word_index`메소드가 있다. 리스트 데이터 내의 숫자는 단어를 숫자로 바꾼 것이다.(전처리)

In [61]:
imdb.get_word_index()

{'fawn': 34701,
 'tsukino': 52006,
 'nunnery': 52007,
 'sonja': 16816,
 'vani': 63951,
 'woods': 1408,
 'spiders': 16115,
 'hanging': 2345,
 'woody': 2289,
 'trawling': 52008,
 "hold's": 52009,
 'comically': 11307,
 'localized': 40830,
 'disobeying': 30568,
 "'royale": 52010,
 "harpo's": 40831,
 'canet': 52011,
 'aileen': 19313,
 'acurately': 52012,
 "diplomat's": 52013,
 'rickman': 25242,
 'arranged': 6746,
 'rumbustious': 52014,
 'familiarness': 52015,
 "spider'": 52016,
 'hahahah': 68804,
 "wood'": 52017,
 'transvestism': 40833,
 "hangin'": 34702,
 'bringing': 2338,
 'seamier': 40834,
 'wooded': 34703,
 'bravora': 52018,
 'grueling': 16817,
 'wooden': 1636,
 'wednesday': 16818,
 "'prix": 52019,
 'altagracia': 34704,
 'circuitry': 52020,
 'crotch': 11585,
 'busybody': 57766,
 "tart'n'tangy": 52021,
 'burgade': 14129,
 'thrace': 52023,
 "tom's": 11038,
 'snuggles': 52025,
 'francesco': 29114,
 'complainers': 52027,
 'templarios': 52125,
 '272': 40835,
 '273': 52028,
 'zaniacs': 52130,

리뷰 원본을 복원하면 다음과 같다.

In [106]:
index_to_word = {v + 3:k for k, v in imdb.get_word_index().items()}
index_to_word.update({0:"<pad>", 1:"<start>", 2:"<end>",3:"<OOV>"})
# 
review_0 = [index_to_word[index] for index in i[0]]
print(" ".join(review_0))

<start> this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert redford's is an amazing actor and now the same being director norman's father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for retail and would recommend it to everyone to watch and the fly fishing was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also congratulations to the two little boy's that played the part's of norman and paul they were just brilliant children are often left out of the praising list i think because the stars that play them all grown up are such a big profile for the whole film but these children are amazing and sho

In [92]:
index_to_word = {v:k for k, v in imdb.get_word_index().items()}

# 
review_0 = [index_to_word.get(index - 3, "#") for index in i[0]]
print(" ".join(review_0))

# this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert redford's is an amazing actor and now the same being director norman's father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for retail and would recommend it to everyone to watch and the fly fishing was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also congratulations to the two little boy's that played the part's of norman and paul they were just brilliant children are often left out of the praising list i think because the stars that play them all grown up are such a big profile for the whole film but these children are amazing and should be

## flatten과 ravel
array를 한 줄로 만든다.

In [108]:
a = np.array([[1,2],[3,4]])

In [109]:
for i in a.flat:
    print(i)

1
2
3
4


#### flatten
`flatten`으로 반환되는 배열은 원본의 copy이다.

In [111]:
b = a.flatten() # copy
b

array([1, 2, 3, 4])

`b`의 값을 수정하더라도 원본 `a`는 바뀌지 않는다.

In [112]:
b[0] = 100

In [113]:
a

array([[1, 2],
       [3, 4]])

#### ravel
`ravel`로 반환되는 배열은 원본의 view이다.

In [114]:
c = a.ravel() # 라벨 = 볼레로 = 뷰 (연상 기억법)
c

array([1, 2, 3, 4])

`c`의 값을 수정하면 원본 a도 바뀐다.

In [115]:
c[0] = 100

In [117]:
a

array([[100,   2],
       [  3,   4]])