# Numpy란 
- 수치해석용 python 패키지
- 다차원의 행렬 자료구조인 ndarray를 지원하여 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산

- 참고사이트(http://www.numpy.org) 

In [1]:
import numpy as np

## 1. 배열 생성하기
- array(시퀀스객채) : 시퀀스데이터를 이용해 배열을 생성
- arange(시작,끝,간격) : range를 이용해 출력되는값으로 배열생성
- linspace(시작,끝,개수) : 시작부터 끝까지 동일한 간격으로 나눠 개수만큼의 요소를 가진 배열을 생설
- ones() : 1로 가득 찬 배열을 생성
- zeros() : 0으로 가득 찬 배열을 생성
- eye(n) : n x n 의 단위행렬을 갖는 2차원 배열을 생설

In [3]:
# type 확인 : type(arr)
# shape 확인 : arr.shape
# dim(차원) 확인 : arr.ndim

In [4]:
a = np.array([[1,2,3],[4,5,6]])
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[[1 2 3]
 [4 5 6]]
(2, 3)
<class 'numpy.ndarray'>
2


In [5]:
a = np.arange(1,10,2)
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[1 3 5 7 9]
(5,)
<class 'numpy.ndarray'>
1


In [6]:
a = np.linspace(1,100,4)
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[  1.  34.  67. 100.]
(4,)
<class 'numpy.ndarray'>
1


In [7]:
a = np.ones((2,3))
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[[1. 1. 1.]
 [1. 1. 1.]]
(2, 3)
<class 'numpy.ndarray'>
2


In [8]:
a = np.zeros((2,3))
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[[0. 0. 0.]
 [0. 0. 0.]]
(2, 3)
<class 'numpy.ndarray'>
2


In [9]:
a = np.eye(3)
print(a)
print(a.shape)
print(type(a))
print(a.ndim)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
(3, 3)
<class 'numpy.ndarray'>
2


### 1.1 배열의 데이터 타입
- int : 정수
- float : 실수
- datetime : yyyy-mm-dd 
- uint : 정수

In [10]:
# 데이터타입확인:arr.dtype
# 데이터타입변환 : arr.astype(변환할타입)

In [11]:
a = np.array([[1.,2.,3],[4,5,6]])
b = np.array(['2005-05-01','2006-02-01'])
print(a.dtype, b.dtype)

float64 <U10


In [12]:
a = a.astype(int)
b = b.astype('datetime64')
print(a.dtype, b.dtype)

int32 datetime64[D]


## 2. 난수배열의 생성
- rand(size) : size크기로 [0,1)사이의 실수 난수를 생성
- randint(low,high,size) : [low,high)사이의 정수 난수를 생성 (low미지정 시 0으로)

In [13]:
np.random.rand(2,3)

array([[0.25743344, 0.06007866, 0.71113724],
       [0.37339718, 0.13304791, 0.05579528]])

In [14]:
np.random.randint(1,10,4)

array([7, 1, 6, 8])

In [15]:
np.random.randint(10,size=(2,3))

array([[8, 2, 4],
       [4, 4, 6]])

## 3.배열의 연산

### 3.1 기본연산

In [2]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[3,2,1]])

In [17]:
# 덧셈
arr1 + arr2

array([[ 8, 10, 12],
       [ 7,  7,  7]])

In [18]:
#뺄셈
arr1 - arr2

array([[-6, -6, -6],
       [ 1,  3,  5]])

In [19]:
# 곱셈 1
arr1 * arr2

array([[ 7, 16, 27],
       [12, 10,  6]])

In [20]:
# 곱셉 2
arr1 * 3

array([[ 3,  6,  9],
       [12, 15, 18]])

In [21]:
#나눗셈
arr1/arr2

array([[0.14285714, 0.25      , 0.33333333],
       [1.33333333, 2.5       , 6.        ]])

In [4]:
# array는 크기가 다르면 연산이 안됨
arr3 = np.array([[1,2],[4,5]])
arr1+arr3

ValueError: operands could not be broadcast together with shapes (2,3) (2,2) 

### 3.2 통계연산
- sum() : 합
- mean() : 평균
- std() : 표준편차
- var() : 분산
- min() : 최소값
- max() : 최대값
- cusum() : 누적합
- cuprod : 누적곱

#### 3.2.1 행과 열의 이해 
![image.png](attachment:image.png)
- 0번축 : 행 / 1번축 : 열
- 0의 연산 : 행(세로) 방향으로의 연산을 실시
- 1의 연산 : 열(가로) 방향으로의 연산을 실시

In [22]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [23]:
# sum()
print(arr.sum(),'/',arr.sum(0),'/',arr.sum(1))
# 전체중, 같은행중, 같은열중

21 / [5 7 9] / [ 6 15]


In [24]:
# mean()
print(arr.mean(),'/',arr.mean(0),'/',arr.mean(1))
# 전체중, 같은행중, 같은열중

3.5 / [2.5 3.5 4.5] / [2. 5.]


### 3.3 행렬연산
- 행렬곱 : A.dot(B) | np.dot(A,B)
- 전치행렬 : A.T | np.T(A)
- 역행렬 : np.linalg.inv(A)
- 행렬식 : np.linalg.det(A)

In [32]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8],[3,2],[1,9]])

In [35]:
arr1.dot(arr2) # A의 열과 B의 행의 크기가 같아야함

array([[16, 39],
       [49, 96]])

In [37]:
arr1.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [45]:
a = np.array([[-1.5,0.5],[1,0]])
print(np.linalg.inv(a),'\n',np.linalg.det(a))

[[-0.  1.]
 [ 2.  3.]] 
 -0.49999999999999994


## 4. 인덱싱과 슬라이싱

### 4.1 배열의 shape

In [None]:
# reshape : 배열의 shape을 변경해줌

In [61]:
a = np.array([1,2,3])
print(a, a.shape)

[1 2 3] (3,)


In [63]:
a = np.array([[1,2],[3,4]])
print(a, a.shape)

[[1 2]
 [3 4]] (2, 2)


In [67]:
a = np.array([[[1,2,3,4],[9,9,9,9],[10,10,10,10]]
              ,[[3,4,5,6],[5,6,5,6],[10,10,10,10]]])
print(a, a.shape)

[[[ 1  2  3  4]
  [ 9  9  9  9]
  [10 10 10 10]]

 [[ 3  4  5  6]
  [ 5  6  5  6]
  [10 10 10 10]]] (2, 3, 4)


In [83]:
a = np.arange(10)
b = a.reshape(2,5)
print(a,a.shape)
print(b,b.shape)

[0 1 2 3 4 5 6 7 8 9] (10,)
[[0 1 2 3 4]
 [5 6 7 8 9]] (2, 5)


### 4.2 인덱싱

In [71]:
# 3 색인
a = np.array([1,2,3,4])
a[2]

3

In [74]:
# 7 색인 
a = np.array([[1,2,3,4],[5,6,7,8]])
a[1,2]

7

In [78]:
# 5 색인
a = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
a[1,0,0]

5

### 4.3 슬라이싱

In [79]:
# [2, 3, 4, 5]
a = np.array([1,2,3,4,5,6,7])
a[1:5]

array([2, 3, 4, 5])

In [86]:
# [[4, 5],[7, 8]]
a =  np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a[1:, 0:2]

array([[4, 5],
       [7, 8]])

In [92]:
# 색인을 사용할 때와 슬라이싱을 사용할 때 차이
print(a[:2, 1], a[:2, 1].shape) # 1차원으로
print(a[:2, 1:2], a[:2, 1:2].shape) # 2차원으로 

[2 5] (2,)
[[2]
 [5]] (2, 1)


In [98]:
# [[[1,2],[3,4]],[[5,6],[7,8]]]
a = np.array([[[1,2,9],[3,4,9],[10,10,10]],[[5,6,9],[7,8,9],[10,10,10]]])
a[:,:2,:2]

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

### 4.4 불리안 색인
 - 조건에 True로 만족하는 값만 출력 

In [110]:
# 7의 배수만 출력
a = np.arange(28).reshape(7, 4)
print(a%7==0)
a[a%7==0]

[[ True False False False]
 [False False False  True]
 [False False False False]
 [False False  True False]
 [False False False False]
 [False  True False False]
 [False False False False]]


array([ 0,  7, 14, 21])

In [118]:
# Bob과 같은 위치의 값만 출력
a = np.arange(28).reshape(7, 4)
b = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
print(b == 'Bob')
print(a[b == 'Bob']) # 0,3번째만 True이므로 0,3행만 색인됨

[ True False False  True False False False]
[[ 0  1  2  3]
 [12 13 14 15]]
