### Numpy 라이브러리 정리
넘파이 배열(ndarray) : 기존 파이썬 리스트와 같이 넘파이에서 텐서 데이터를 다루는 객체
텐서(tensor) : 선형대수에서 사용하는 데이터 배열을 지칭하는 용어, 데이터 배열의 랭크에 따라 별도의 용어 존재

#### 랭크별 구분
- 0 -> 이름 -> ex.7
- 1 -> 벡터 -> ex.[10,10]
- 2 -> 행렬 -> [[10,10], [10,10]]
- 3 -> 3-차원 텐서 -> [[[10,10],[10,10]],[[10, 10],[10, 10]]]
- n -> n-차원 텐서

#### 배열의 메모리 구조
1) numpy의 <strong>>np.array</strong> 함수
- 첫 번째 매개변수 : 배열에 대한 정보
- 두 번째 매개변수 : 넘파이 배열로 표현하고자 하는 데이터 타입

In [2]:
import numpy as np  # 넘파이 라이브러리 호출
test_array = np.array([1,2,3,4], float)
            #np.array([생성할 데이터], 데이터 타입)
print(test_array)

[1. 2. 3. 4.]


파이썬 리스트 형태의 인수를 주로 사용한다. 

##### 파이썬의 리스트와 Numpy의 ndarray의 차이점
- 텐서의 구조에 따라 배열 생성<br> 
-> 기존 리스트 : 데이터를 일부 채우지 않아도 무리 없이 작동<br>
-> 모든 넘파이 배열 : 반드시 모든 구성요소에 값이 존재해야 한다. <br>

In [7]:
test_list = [[1,2,3,4],[1,2,3]] # 2x4 행렬을 구성하려했지만, 한개의 값이 비어있음
np.array(test_list, float)  # 넘파이 배열 생성 하지만 에러 발생

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

- 지원하지 않는 동적 타이핑<br>
-> 리스트 : 여러 종류의 데이터 타입을 한 리스트에 사용가능<br>
-> 모든 넘파이 배열 : 동적타이핑을 지원하지 않고, 하나의 데이터 타입만 취급

In [6]:
test_array = np.array([1,2,3,4], float)
print(test_array)
print(type(test_array[3]))

[1. 2. 3. 4.]
<class 'numpy.float64'>


<u>리스트</u> : 각 요소의 값이 메모리 상에 연속적으로 배열되는 것X<br>즉 해당 값의 메모리 주소만 연속적으로 배열함으로써 다양한 종류의 값이 순서대로 만듬<br>
<u>넘파이 배열</u> : 실제 값을 연속적으로 나열하기 때문에 값들의 <strong>메모리 크기가 동일</strong>해야 한다.

##### 배열의 생성

In [14]:
test_array = np.array([1,2,3,'4'], float)
print(test_array)

[1. 2. 3. 4.]


In [15]:
print(type(test_array[3])) # 실수형으로 자동 형변환 실시
# float64 -> 64비트, 8바이트의 실수형 데이터

<class 'numpy.float64'>


=> float로 넘파이 배열을 선언했기 때문에 실수형, 문자형을 모두 포함하고 있지만, 자동 형변환이 일어난다.

##### 데이터의 특징을 출력하는 요소
- dtype : 넘파이 배열의 데이터 타입을 반환하는 요소
- shape : 객체의 차원에 대한 구성 정보를 반환한다.

In [10]:
print(test_array.dtype) # 배열 전체의 데이터 타입 변환

float64


In [12]:
print(test_array.shape) # 배열의 구조를 반환함

(4,)


#### 배열의 구조
바로 위에 나온 (4,) 는 튜플을 의미한다.
이는 1차원 랭크를 가지면서 4개의 요소를 가지고 있는 넘파이 배열이라는 뜻

In [20]:
matrix = [[1,2,3,4],[1,2,3,4],[1,2,3,4]]
np.array(matrix, int).shape

(3, 4)

(3, 4)는 각각 행과 열을 나타낸다.<br>
즉 3개의 행과 4개의 열

#### shape 함수 rank 표현 (어려움)
- 3차원을 가진 데이터 까지는 표현이 가능하지만 그 이상은 약간 어려움
- <u>일반적으로 뒤에 있는 값일수록 낮은 랭크의 값을 의미</u>

In [23]:
tensor_rank3 = [
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]]
]
np.array(tensor_rank3, int).shape

(4, 3, 4)

3행 4열의 행렬이 깔려있다.

In [26]:
print(np.array(tensor_rank3, int).ndim)
print(np.array(tensor_rank3, int).size)

3
48


- <strong>ndim</strong>(number of dimension) : 랭크
- <strong>size</strong> : 해당 넘파이 배열에 있는 모든 데이터의 개수

In [30]:
tensor_rank4 = [
    [[[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]]],
]
np.array(tensor_rank4, int).shape

(1, 4, 3, 4)

In [31]:
tensor_rank5 = [[
    [[[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
    [[1,2,3,4],[1,2,3,4],[1,2,3,4]]],
]]
np.array(tensor_rank5, int).shape

(1, 1, 4, 3, 4)

#### dtype
넘파이 배열의 데이터 타입은 dtype으로 지정 가능하다.<br>
이때 넘파이의 배열의 매개변수로 dtype을 넘겨준다.

In [34]:
np.array([[1,2,3,4.5],[1,2,3,4.5]], dtype = int) # 타입을 int로 지정, 자동 형변환

array([[1, 2, 3, 4],
       [1, 2, 3, 4]])

In [35]:
np.array([[1,2,3,4.5],[1,2,3,4.5]], dtype = float) # 타입을 float로 지정

array([[1. , 2. , 3. , 4.5],
       [1. , 2. , 3. , 4.5]])

데이터 타입이 변하면, 변수가 사용하는 메모리 크기의 차이가 존재한다.<br>
이를 확인하는 요소로 매개변수 <strong>itemsize</strong>를 사용한다.<br>

-  itemsize : 넘파이 배열에서 사용하는 각 요소가 차지하는 바이트 의미

In [36]:
import sys
np.array([[1,2,3.4],[1,2,3.4]],dtype = np.float64).itemsize

8

In [37]:
import sys
np.array([[1,2,3.4],[1,2,3.4]],dtype = np.float32).itemsize

4

#### 배열의 구조 다루기
- <strong>reshape</strong> : 배열의 구조 변경, 랭크 조절에 사용

In [38]:
x = np.array([[1,2,3,4],[1,2,3,4]])
print(x.shape)
print(x.reshape(-1,)) # 벡터 형태로 변경

(2, 4)
[1 2 3 4 1 2 3 4]


reshape 함수로 배열의 구조인 shape를 변경할 때에는 반드시 전체 요소의 개수를 통일해야한다. <br>
그렇지 않다면 에러가 나올 것이다.

In [40]:
x = np.array(range(8))
x

array([0, 1, 2, 3, 4, 5, 6, 7])

In [41]:
x.reshape(2,2)

ValueError: cannot reshape array of size 8 into shape (2,2)

##### <strong>reshape</strong>에서 기억해야할 점<br>
#### -1을 사용한다는 점
-> 전체 요소의 개수는 고정시키고, 1개를 제외한 나머지 차원의 크기를 지정했을 때 <br>전체 요소의 개수를 고려하여 마지막 차원이 자동으로 지정하는 기법

In [46]:
x = np.array(range(8)).reshape(4,2)
x
# 4 x 2 행렬

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [43]:
x.reshape(2,-1)
# 2 x 4 행렬

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [47]:
x.reshape(2,2,-1)
# 2 x 2 x 2 의 텐서 (3차원 텐서)

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

- <strong>flatten</strong> : 데이터 그태로 1차원으로 변경

In [48]:
x.flatten()

array([0, 1, 2, 3, 4, 5, 6, 7])

#### 인덱싱과 슬라이싱
- 인덱싱 : 리스트에 있는 값을 접근하기 위해 이 값의 상대적인 주소를 사용

In [50]:
x = np.array([[1,2,3],[1,2,3]],dtype = int)
x

array([[1, 2, 3],
       [1, 2, 3]])

In [51]:
x[0][0]

1

In [52]:
x[0,2]

3

In [53]:
x[0,1] = 100
x

array([[  1, 100,   3],
       [  1,   2,   3]])

리스트와 넘파이배열의 공통 표기법 : [행][열]<br>
넘파이배열 추가적인 표기법 : [행, 열]

- 슬라이싱 :  리스트의 인덱스를 사용하여, 전체 리스트에서 일부를 잘라내어 반환

In [61]:
x = np.array([[1,2,3,4,5],[6,7,8,9,10]], dtype = int)
x

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [62]:
x[:,2:]

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [63]:
x[1,1:3]

array([7, 8])

In [64]:
x[1:3]

array([[ 6,  7,  8,  9, 10]])

리스트와 동일하게 <strong>[시작 인덱스 : 마지막 인덱스 : 증가값]</strong> 사용가능
<br>이는 요소별로 적용가능하다

In [66]:
x = np.array(range(15),int).reshape(3,-1)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [67]:
x[:,::2]

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

In [68]:
x[::2, ::3]

array([[ 0,  3],
       [10, 13]])