# Numpy

데이터 분석에서는 단순히 값의 집합 개념을 넘어서 빠른 수학적 계산이 가능해야 하고, 대량의 데이터를 처리하는데 속도가 빨라야 한다. 그렇기 때문에 리스트가 아닌 numpy 라이브러리를 사용한다.

### Numpy

- Numerical Python의 약자로 빠른 수치 계산을 위해 C언어로 만들어진 python 라이브러리이다.
- 라이브러리를 불러 올 때 import numpy로 사용해도 무방하지만 보통 import numpy as np를 사용하여 np라는 별칭을 사용한다.
- 벡터와 행렬 연산에 매우 편리한 기능들을 제공한다.
- 데이터분석용 라이브러이인 Pandas와 Matplotlib의 기반으로 사용된다.
- Array(행렬)의 단위로 데이터를 관리 및 연산을 수행한다.








## Numpy 배열


### 사용되는 용어

- Axis : 배열의 각 축
- Rank : 축의 개수(차원을 뜻함)
- Shape : 축의 길이

### 배열 만들기

1차원 배열 만들기

- np.array(리스트) 형식으로 만들 수 있다.
- […]형태로 1차원 리스트 형태이다.
- shape 결과 (n, )의 형태
- Rank = 1

2차원 배열 만들기

- np.array[리스트, 리스트, 리스트] 형식으로 만들 수 있다.
- [ […], […] ]형식로 2차원 리스트 형태이다.
- shape 결과 (n, m)의 형태
- Rank = 2

3차원 배열 만들기

- np.array[[리스트, 리스트, 리스트], [리스트, 리스트, 리스트]] 형식으로 만들 수 있다.
- [[ […], […] ], [ […], […] ]]형식로 3차원 리스트 형태이다.
- shape 결과 (l, n, m)의 형태 → (n, m)크기의 2차원 배열이 l개
- Rank = 3

### 함수를 사용하여 특정 배열 만들기
* np.zeros( ) : 0으로 채워진 배열
* np.ones( ) : 1로 채워진 배열
* np.full( ) : 특정 값으로 채워진 배열
* np.eye( ) : 정방향 행렬
* np.random.random( ) : 랜덤 값으로 채운 배열


In [2]:
# 함수를 사용하여 특정 배열 만들기 : 0으로 채워진 배열
import numpy as np
a = np.zeros((2, 2))
print(a)

[[0. 0.]
 [0. 0.]]


In [6]:
# 함수를 사용하여 특정 배열 만들기 : 1로 채워진 배열
b = np.ones((2, 2))
print(b)

[[1. 1.]
 [1. 1.]]


In [4]:
# 함수를 사용하여 특정 배열 만들기 : 특정 값으로 채워진 배열
c = np.full((2, 2), 7.) 
print(c)

[[7. 7.]
 [7. 7.]]


In [5]:
# 함수를 사용하여 특정 배열 만들기 : 정방향 행렬 eye(n) -> n x x 단위 행렬
d = np.eye(2)
print(d)

[[1. 0.]
 [0. 1.]]


In [8]:
# 함수를 사용하여 특정 배열 만들기 : 랜덤 값으로 채운 배열
e = np.random.random((2, 2))
print(e)

[[0.46332929 0.27453086]
 [0.71413422 0.19048618]]


## 배열의 이해

### 데이터 분석 및 모델링에서 Axis 0의 의미

- 분석 단위를 구성
- 2차원 데이터 (n, m)이라면 m개의 열(변수)로 구성된 데이터 n개 → 즉 분석 대상이 n개 각 대상은 m개의 정보로 구성됨
- 3차원 데이터 (l, n, m)이라면 (n, m)크기의 2차원 데이터가 l개

## 배열 조회(인덱싱, 슬라이싱)

### 1차원 배열 조회
* 인덱싱 : arr[n]
* 슬라이싱 : arr[n:m]
* 조건

In [9]:
# 1차원 배열 생성
arr = np.array([1,2,3,4,5])

In [10]:
# 인덱싱
arr[3]

4

In [11]:
# 슬라이싱
arr[1:3]

array([2, 3])

In [25]:
# 조건
A = arr
A[A>=3]

array([3, 4, 5])

### 2차원 배열 조회
1. arr2[ 행 인덱스 , 열 인덱스 ]
2. arr2[ 행 인덱스 ][ 열 인덱스 ]
3. arr2[ 행 인덱스 ] : 특정 행 전체
4. arr2[ : , 열 인덱스 ] : 특정 열 전
5. arr2[[행 인덱스 들 ] , 열 인덱스 ]
6. arr2[[행 인덱스 들 ] ] [[ 열 인덱스 들 ]]
7. arr2[ [행 인덱스 들 ] ]
8. arr2[ : , [ 열 인덱스 들 ]]
9. arr2[n][조건]

In [20]:
# 2차원 배열 생성
arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [14]:
# 방법 1
arr2[1, 2]

7

In [16]:
# 방법 2
arr2[1][2]

7

In [17]:
# 방법 3
arr2[1]

array([5, 6, 7, 8])

In [18]:
# 방법 4
arr2[:, 2]

array([ 3,  7, 11])

In [19]:
# 방법 5
arr2[[0,1],0]

array([1, 5])

In [21]:
# 방법 6
arr2[[0, 1], [0, 1]] # arr2[[a, b], [c, d]] => a행c열, b행d열

array([1, 6])

In [22]:
# 방법 7
arr2[[0,1]]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [23]:
# 방법 8
arr2[:, [0,1]]

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [24]:
# 방법 8-1
arr2[:, :2]

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [26]:
# 방법 9
arr2[:][arr2[:] > 5]

array([ 6,  7,  8,  9, 10, 11, 12])

In [28]:
arr2[arr2 > 5]

array([ 6,  7,  8,  9, 10, 11, 12])

## 배열의 집계 함수
집계 함수는 sum, mean, std etc. 다양하다.  
사용하는 방법으로는
* 옵션 없이 사용하기 : np.sum(a) => 전체에 대한 집계 결과를 출력
* axis = 0 : np.sum(a, axis = 0) => 행 방향(세로) 집계
* axis = 1 : np.sum(a, axis = 1) => 열 방향(가로) 집계

In [30]:
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [31]:
# 전체
np.sum(arr2)

78

In [32]:
# 행
# 행방향으로 집계 결과를 출력
np.sum(arr2, axis = 0)

array([15, 18, 21, 24])

In [33]:
# 열
# 열방향으로 집계 결과를 출력
np.sum(arr2, axis = 1)

array([10, 26, 42])

### np.where()
* 삼항연산자와 비슷한 함수  
* 문법 : np.where(조건문, 참일 때 값, 거짓일 때 값)

In [36]:
np.where(arr2 > 5, 1, 0)

array([[0, 0, 0, 0],
       [0, 1, 1, 1],
       [1, 1, 1, 1]])

### np.argmax, np.argmin
* 전체 중 가장 큰 값, 가장 작은 값
* 문법 : np.argmax(array, axis = )
    * 옵션 없이 사용 : 전체 중에서 가장 큰/작은 값의 인덱스 출력
    * axis = 0 : 열 기준(행 방향) 큰 값의 인덱스
    * axis = 1 : 행 기준(열 방향) 큰 값의 인덱스

In [40]:
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [39]:
# 옵션 없이
np.argmax(arr2)

11

In [41]:
# axis = 0
np.argmax(arr2, axis = 0)

array([2, 2, 2, 2], dtype=int64)

In [42]:
# axis = 1
np.argmin(arr2, axis = 1)

array([0, 0, 0], dtype=int64)