# NUMPY 기초
- 파이썬에서 수치해석을 하기 위한 기능을 제공
- ndarray 데이터 타입을 제공
    - 파이썬의 기본 자료형인 리스트와는 다른 형태의 자료형
- C, JAVA의 array 타입과 유사
- Verctor, Matrix 와 같은 형태를 편하게 표현
- 선형대수(행렬곱, 내적, ... )

## [참조] 라이브러리 설치 및 확인 

```
    #> pip list
    ... 
    
    #> pip install numpy
```

In [1]:
# 거의 관례수준
import numpy as np
import matplotlib.pyplot as plt

## 1차원 배열
- array()로 감싸진것 외에는 리스트와 큰 차이는 없어 보이지만, 
- 내부적으로는 큰 차이가 존재
- C, JAVA에서 사용하는 배열과 거의 동일한 특징을 갖는다. 
    - 예). 파이썬의 리스트처럼 서로 다른 타입을 원소로 갖지 않는다. 

In [18]:
array = np.array([1, 2, 3, 4, 5])
array

array([1, 2, 3, 4, 5])

In [19]:
type(array)

numpy.ndarray

## 리스트와 차이점

In [20]:
lists = [1, 2, 3, 4, 5]
2 * lists

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

In [21]:
lists = [ 2*x for x in lists]
lists

[2, 4, 6, 8, 10]

In [22]:
2 * array

array([ 2,  4,  6,  8, 10])

In [12]:
array = np.array([1, 'hello', 0.9])
array

array(['1', 'hello', '0.9'], dtype='<U21')

In [13]:
2 * array

UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U21'), dtype('<U21')) -> dtype('<U21')

## 연산자 

In [27]:
a = np.array([1,2,3])
b = np.array([4,5,6])
a_list = [1,2,3]
b_list = [4,5,6]

In [24]:
a + b

array([5, 7, 9])

In [28]:
a_list + b_list

[1, 2, 3, 4, 5, 6]

In [25]:
a == 1

array([ True, False, False])

In [29]:
a_list == b_list

False

In [26]:
b < 5

array([ True, False, False])

In [30]:
a_list < b_list

True

## 2차원 배열(행렬, Matrix)

In [37]:
# 2(행) x 3(열) array
array = np.array([[1,2,3,], [4,5,6]])
array

array([[1, 2, 3],
       [4, 5, 6]])

### 다음과 같은 행렬은 어떻게 만들까요? 

\begin{bmatrix}
1 & 4 & 2 \\
9 & 5 & 0 \\
4 & 0 & 2 \\
6 & 1 & 8 
\end{bmatrix}

- 자주 사용하는 코드와 모양이기 때문에, 익숙해져야 합니다. 

In [39]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

### Vector
- 열벡터를 `벡터`라고 표현한다. 

In [41]:
array = np.array([
    [1],
    [2],
    [3],
    [4]
])
array

array([[1],
       [2],
       [3],
       [4]])

## ndarray 객체의 속성

- ndarray(N - dimensional array)
- ndim(N - Dimension): 배열의 차원
- shape: 배열의 모양, 크기

In [42]:
array = np.array([1,2,3,4,5])

In [44]:
print(array.ndim)
print(array.shape)

1
(5,)


In [45]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

In [46]:
print(array.ndim)
print(array.shape)

2
(4, 3)


In [48]:
array = np.array([
    [1],
    [2],
    [3],
    [4]
])
array

array([[1],
       [2],
       [3],
       [4]])

In [49]:
print(array.ndim)
print(array.shape)

2
(4, 1)


## 배열의 인덱싱
- 파이썬 리스트의 인덱싱과는 달라서 익숙해져야 합니다. 
- 진짜 많이 사용하는 표현이라서, ... 

### 1D(Deimensional/차원) 배열 의 인덱싱은 리스트와 같다. 
- 어떤 언어든지 1차원은 쉬운것 같아요 ... 
- C언어만 빼고,... 얘는 1차원도 쉽지 않아요 ... 

In [57]:
array = np.array([1,2,3,4,5])

In [60]:
print(array[0]) # 인덱스는 0부터 시작
print(array[-1]) # 음수 인덱스도 사용 가능 

1
5


### n-dimensinal(다차원)
- 다차원 이라고 해봐야 2차원 까지만 다룰 꺼라서.. 
- 3차원도 사용하긴 하는데 수업에는 다루지 않아요 .. 왜냐면 되게 어려워요 ... 
- 콤마를 사용해서 인덱싱

In [69]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

In [65]:
print(array[0,0])
print(array[0,1])
print(array[-1, -1])

1
4
8


### 일반적인 파이썬 리스트에서는 콤마를 이용한 인덱싱은 지원하지 않는다. 

In [66]:
lists = [ [1,2,3,4], [5,6,7,8]]
lists

[[1, 2, 3, 4], [5, 6, 7, 8]]

In [68]:
lists[0,0]

TypeError: list indices must be integers or slices, not tuple

### 배열 슬라이싱
- 파이썬의 슬라이스(:) 기능을 이용하여 복수개의 원소를 인덱싱 할 수 있다. 
- 기본적으로 데이터 분석을 할 때, 파이썬은 기본적으로 pandas 라이브러리를 사용 
- 이 pandas는 ndarray 타입을 기본적으로 사용
- 때문에, 그 중에서도 이 배열 슬라이싱은 참 많이 쓰여요 

### 사용예
- array[ 행, 열 ]
- array[ 행(from:to), 열(from:to) ]

In [89]:
array

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

In [74]:
# 항 행 전체를 표현
print(array[0,]) 
print(array[0,:])

[1 4 2]
[1 4 2]


In [87]:
# 한 열 전체를 인덱싱 하려면 슬라이스와 함께 사용
print(array[,0])

SyntaxError: invalid syntax (<ipython-input-87-51cedcc3befa>, line 2)

In [88]:
# 한 열 전체를 표현
print(array[:,0])

[1 9 4 6]


In [102]:
# 두번째 행의 첫번째 열부터 끝까지
print(array[1,0:])

[9 5 0]


In [114]:
# 세번째 행부터 마지막 행까지
print(array[2:])

[[4 0 2]
 [6 1 8]]


In [115]:
# 첫번째 행부터 두번째 행까지 
print(array[:2])

[[1 4 2]
 [9 5 0]]


In [117]:
print(array[:2, :2])

[[1 4]
 [9 5]]


In [4]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
])
arr

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]])

In [19]:
# 값 16을 인덱싱 
print(arr[1,5]) # 두번째 행, 네번째 열의 값

16


In [18]:
# 값 29을 인덱싱 
print(arr[2,8]) # 세번째 행, 일곱번째 열의 값

29


In [21]:
# 배열 [14, 15, 16]인덱싱(슬라이스)
print(arr[1,3:6]) # 두번째 행, 네번째 열 부터(from) 여섯번째 열 까지(to)

[14 15 16]


In [22]:
# 배열 [18, 28]을 인덱싱(슬라이스)
print(arr[1:,7]) # 두번째 행 부터, 여덟번째 열 전체

[18 28]


In [26]:
# 배열 [[9,10], [19, 20]]을 인덱싱(슬라이스)
print(arr[:2, 8:10]) # 두번째 행까지(to), # 아홉번째 열부터(from) 열번째 열까지(to)

[[ 9 10]
 [19 20]]


In [27]:
# 배열 [[16,17,18], [26,27,29]]을 인덱싱(슬라이스)
print(arr[1:, 5:8])

[[16 17 18]
 [26 27 28]]


In [28]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
    [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
    [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
])
arr

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

#### [[14, 15, 16, 17], [24, 25, 26, 27], [34, 35, 36, 37]] 만 인덱싱

#### [12, 22, 32]만 인덱싱

## 배열 인덱싱(array indexing) 혹은 팬시 인덱싱(fancy indexing)
- 이것도 특히 많이 사용되는 방법
- pandas에서, 조건에 따른 검색등에 많이 사용되는 방법
- 조건에 맞는 인덱스를 생성해서 데이터에 접근 하는 방식으로 많이 쓰임

In [3]:
array = np.array([1,2,3,4,5])

# Boolean 인덱스 배열이라고 부른다. 
idx = np.array([True, False, True, True, False]) # 보통 인덱스 배열은 자동으로 생성

array[idx]

array([1, 3, 4])

In [9]:
array = np.array([1,2,3,4,5])

# 정수 인덱스 배열이라고 부른다. 
# 인덱싱 하려는 배열의 크기와 달라도 상관이 없다.
idx = np.array([1,3,1,1,1,1,1,1,1,1,1,1,2]) 

array[idx]

array([2, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3])

## 넘파이 자료형: dtype
- dtype을 지정하지 않아도 타입을 자동으로 유추

In [13]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
    [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
    [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
])
arr

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [12]:
arr.dtype

dtype('int64')

In [20]:
arr = np.array([1.2, 0.9, 10.3, 1, 2])
print(arr)
print(arr.dtype)

[ 1.2  0.9 10.3  1.   2. ]
float64


In [16]:
arr = np.array([1,2,3], dtype='f')
arr

array([1., 2., 3.], dtype=float32)

In [17]:
arr.dtype

dtype('float32')

## dtype 매개변수 지정 

- 파이썬의 타입들이 앞머리 글자를 따서 사용
- 직관적으로 되어 있기 때문에, 굳이 외울 필요는 없다.

|type | dtype ||
|:---|:---:|:---:|
| boolean | b | |
| integer | i | 부호있는 정수 |
| unsigned integer | u | 부호없는 정수 |
| float | f | 부동소수점 |
| complext float | c | 복소 부동소수점 |
| object | o | 객체 |
| string | S | 문자열 |
| unicode string | U | 유니코드 문자열 |

## inf(무한대), nan(Not a Number)

In [21]:
print(np.inf)
print(np.nan)

inf
nan


In [22]:
np.log(0)

  """Entry point for launching an IPython kernel.


-inf

In [23]:
a = np.array([0])
b = np.array([0])
print(a/b)

[nan]


  This is separate from the ipykernel package so we can avoid doing imports until


## ndarray를 생성하는 몇가지 방법

### 제로 배열 생성

In [34]:
arr = np.zeros(5)
print(arr)

arr = np.zeros((4,3))
print(arr)
print(arr.dtype)

arr = np.zeros((4,3), dtype='i')
print(arr)
print(arr.dtype)

[0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
float64
[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]
int32


### 다른 제로 배열과 같은 크기의 배열을 만들고 싶다면, ... 

In [37]:
arrCopy = np.zeros_like(arr)
print(arrCopy)

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]


### 초기화된 배열 생성 

In [30]:
arr = np.ones((4,3), dtype='i')
print(arr)

[[1 1 1]
 [1 1 1]
 [1 1 1]
 [1 1 1]]


### 다른 초기화된 배열과 같은 크기의 배열을 만들고 싶다면 ... 

In [33]:
arrCopy = np.ones_like(arr)
print(arrCopy)

[[1 1 1]
 [1 1 1]
 [1 1 1]
 [1 1 1]]


### 초기화 하지 않은 배열 생성
- 배열을 생성할 때 초기화 하지 않았기 때문에, ... (아련하다)
- 메모리의 값이 출력 되고 있는 것

In [39]:
arr = np.empty((100,50))
print(arr)

[[4.04738577e-320 2.17388884e-321 0.00000000e+000 ... 4.66871556e-310
  4.66871556e-310 1.27319747e-313]
 [1.27319747e-313 4.66871556e-310 4.66871556e-310 ...             nan
  0.00000000e+000 4.94065646e-324]
 [3.59679790e-321 4.44659081e-323 6.90086771e-310 ... 4.44659081e-323
  6.90086771e-310 4.66871520e-310]
 ...
 [6.90090822e-310 6.90086775e-310 4.94065646e-324 ... 6.90090822e-310
  0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.02217241e-319 0.00000000e+000 ... 0.00000000e+000
  0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 ... 0.00000000e+000
  0.00000000e+000 0.00000000e+000]]


### 파이썬의 range와 같은 역할

In [41]:
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


In [42]:
arr = np.linspace(0, 100)
print(arr)

[  0.           2.04081633   4.08163265   6.12244898   8.16326531
  10.20408163  12.24489796  14.28571429  16.32653061  18.36734694
  20.40816327  22.44897959  24.48979592  26.53061224  28.57142857
  30.6122449   32.65306122  34.69387755  36.73469388  38.7755102
  40.81632653  42.85714286  44.89795918  46.93877551  48.97959184
  51.02040816  53.06122449  55.10204082  57.14285714  59.18367347
  61.2244898   63.26530612  65.30612245  67.34693878  69.3877551
  71.42857143  73.46938776  75.51020408  77.55102041  79.59183673
  81.63265306  83.67346939  85.71428571  87.75510204  89.79591837
  91.83673469  93.87755102  95.91836735  97.95918367 100.        ]


In [43]:
arr = np.logspace(0, 100)
print(arr)

[1.00000000e+000 1.09854114e+002 1.20679264e+004 1.32571137e+006
 1.45634848e+008 1.59985872e+010 1.75751062e+012 1.93069773e+014
 2.12095089e+016 2.32995181e+018 2.55954792e+020 2.81176870e+022
 3.08884360e+024 3.39322177e+026 3.72759372e+028 4.09491506e+030
 4.49843267e+032 4.94171336e+034 5.42867544e+036 5.96362332e+038
 6.55128557e+040 7.19685673e+042 7.90604321e+044 8.68511374e+046
 9.54095476e+048 1.04811313e+051 1.15139540e+053 1.26485522e+055
 1.38949549e+057 1.52641797e+059 1.67683294e+061 1.84206997e+063
 2.02358965e+065 2.22299648e+067 2.44205309e+069 2.68269580e+071
 2.94705170e+073 3.23745754e+075 3.55648031e+077 3.90693994e+079
 4.29193426e+081 4.71486636e+083 5.17947468e+085 5.68986603e+087
 6.25055193e+089 6.86648845e+091 7.54312006e+093 8.28642773e+095
 9.10298178e+097 1.00000000e+100]


## Transpose(전치연산)
- 전치행렬: 행렬의 행과 열이 바뀐 행렬
- 전치행렬 표현법

$$
    \mathbb{A}^T
$$

- 벡터 표현법

$$ 
    \overrightarrow{A}, \mathbb{A}
$$

In [45]:
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

In [46]:
array.T

array([[1, 9, 4, 6],
       [4, 5, 0, 1],
       [2, 0, 2, 8]])

## reshape

In [49]:
arr = np.arange(1, 10)
print(arr)

[1 2 3 4 5 6 7 8 9]


#### 1차원을 다차원으로 변경

In [56]:
print(arr.reshape(3,3))
print(arr.reshape(3,-1))
print(arr.reshape(-1,3))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [57]:
print(arr.reshape(3,4))

ValueError: cannot reshape array of size 9 into shape (3,4)

In [59]:
print(arr.reshape(2, -1))

ValueError: cannot reshape array of size 9 into shape (2,newaxis)

#### 1차원 배열을 열벡터로 변경하는 방법

In [66]:
print(arr)
print(arr.T) # 열벡터로 바뀌지 않음
print(arr.reshape(-1,1))
print(arr.reshape(9, 1))
print(arr[:, np.newaxis ])

[1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
