## 10.2 Numpy Library

#### Numpy 소개
- 수학 및 과학 연산을 위한 Python 패키지로서, 수치해석, 머신 러닝을 위한 자료형인 Array와 이와 관련한 유용한 함수들을 제공한다.

<img src=https://user-images.githubusercontent.com/48711691/75416611-0ef06200-5972-11ea-97e9-23216639809d.JPG style="width:70%;">

#### Numpy 설치하기
- pip install numpy 명령어를 이용해 numpy를 설치한다.

#### import numpy
- 설치가 완료 된 후에, import 명령어를 통해 numpy 패키지를 현재 프로젝트에 추가한다.

In [2]:
import numpy as np
np.__version__     #버전 확인

'1.17.4'

#### np.array()
numpy는 배열과 유사한 자료형을 제공, 아래와 같은 방식으로 선언한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.array(list) <br>
<div style = "color : gray;">
list : array를 만들 데이터
</div></div>
- import를 통해 numpy 패키지를 호출하고 numpy.array를 통해 array 데이터를 생성한다.
- array 데이터 타입은 기존에 사용하던 리스트 데이터 타입에 여러 가지 편리한 기능들이 추가된 것이라고 생각하면 된다.

#### [array 예제]

In [2]:
import numpy as np
array = [1,2,3,4,5]
numpy_array1 = np.array(array)

#아래와 같이 작성할 수도 있다.
numpy_array2 = np.array([1,2,3,4,5])

type(numpy_array1)

numpy.ndarray

#### array의 자료형과 shape 확인
- array의 내부에 들어있는 데이터의 자료형을 array.dtype 변수를 통해 확인 할 수 있다.

#### [array의 자료형 확인하기]

In [3]:
numpy_farray = np.array([1.0, 1.1, 1.2, 1.3, 1.4])
numpy_iarray = np.array([1, 2, 3, 4, 5])
numpy_sarray = np.array(["one", "two", "three", "four", "five"])

print(numpy_farray.dtype)
print(numpy_iarray.dtype)
print(numpy_sarray.dtype)

float64
int32
<U5


#### shape
- array의 shape를 array.shape를 통해 확인할 수 있다.

#### [array의 shape 확인하기]

In [25]:
numpy_1d_array = np.array([1, 2, 3, 4, 5])
numpy_2d_array = np.array([[1, 2, 3, 4, 5],[6, 7, 8, 9, 10]])

print(numpy_1d_array.shape)
print(numpy_2d_array.shape)

(5,)
(2, 5)


#### zeros
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.zeros((a, b, … )) <br>
<div style = "color : gray;">
a, b, … : 생성할 0 array의 shape(a*b*… ) 
</div></div>

- numpy.zeros를 사용하여 array를 생성함과 동시에 모든 값을 0으로 초기화 해줄 수 있다.

#### [zeros를 이용한 배열의 초기화]

In [4]:
zero_array = np.zeros(5)
print(zero_array)

zero_2d_array = np.zeros((3,5))
print(zero_2d_array)

[0. 0. 0. 0. 0.]
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


#### ones
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.zeros((a, b, … )) <br>
<div style = "color : gray;">
a, b, … : 생성할 1 array의 shape(a*b*… ) 
</div></div>

- numpy.ones를 사용하여 array를 생성하고 모든 값을 1로 초기화 할 수 있다.

#### [ones를 이용한 배열의 생성과 초기화]

In [5]:
one_array = np.ones(5)
print(one_array)

one_2d_array = np.ones((3,5))
print(one_2d_array)

[1. 1. 1. 1. 1.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


#### arrange

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.arrange(a, b) <br>
<div style = "color : gray;">
a, b : 생성할 array의 시작과 끝 
</div></div>

- numpy.arrange(a,b)는 a부터 b – 1까지의 정수를 가지는 array를 반환한다.

#### [arrange를 이용한 배열의 반환값 확인하기]

In [6]:
zero_to_five_array = np.arange(6)
print(zero_to_five_array)

one_to_five_array = np.arange(1,6)
print(one_to_five_array)

[0 1 2 3 4 5]
[1 2 3 4 5]


#### 배열 간의 연산
- +, - 연산자를 이용하여 여러 array간의 덧셈, 뺄셈 연산이 가능하다.

#### [배열의 덧셈과 뺄셈]

In [7]:
array_1 = np.array([1,2,3,4,5])
array_2 = np.array([6,7,8,9,10])

added_array = array_1 + array_2
print(added_array)

subtracted_array = array_2 - array_1
print(subtracted_array)

[ 7  9 11 13 15]
[5 5 5 5 5]


 - , / 연산자를 이용하여 여러 array간의 곱셈, 나눗셈 연산이 가능하다.
 
 #### [배열의 곱셈 및 나눗셈]

In [10]:
array_1 = np.array([1,2,3,4,5])
array_2 = np.array([6,7,8,9,10])

#곱 연산에서는 행렬의 dot, cross 곱이 아닌 요소 간의 곱하기가 진행됩니다.
multiplied_array = array_1 * array_2
print(multiplied_array)

devided_array = array_1 / array_2
print(devided_array)

[ 6 14 24 36 50]
[0.16666667 0.28571429 0.375      0.44444444 0.5       ]


#### 배열과 스칼라의 연산
- 배열과 스칼라의 곱, 합, 거듭제곱 연산 등을 제공한다.
- 배열과 스칼라의 곱과 합의 경우, 배열에 해당 스칼라 값을 +. * 연산자를 이용해 단순 더하고 곱하는 것으로 사용한다.
- 거듭제곱 연산의 경우 ** 연산자를 이용하여 배열의 거듭제곱 승수를 취한다.

#### [배열의 스칼라 연산]

In [8]:
array = np.array([1, 2, 3, 4, 5])

added_array = array + 1
multiplied_array = array * 2
times_array = array**2

print(added_array)
print(multiplied_array)
print(times_array)

[2 3 4 5 6]
[ 2  4  6  8 10]
[ 1  4  9 16 25]


#### 인덱싱과 슬라이싱
- Python의 리스트와 마찬가지로 인덱싱과 슬라이싱을 제공한다.
- 인덱싱의 경우 [참조할 항목의 순서-1] 을 이용해 참조한다.
- 슬라이싱의 경우 [시작 인덱스 : 종료 인덱스-1] 을 이용해 슬라이싱한다. 
- 열 또는 행을 비워두면 모든 열 또는 모든 행을 참조한다.

#### [배열의 인덱싱과 슬라이싱]

In [9]:
array = np.arange(10)
print(array[3]) #indexing
print(array[1:4]) #slicing

array_2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(array_2d)

print(array_2d[2,1])#2행 1열 원소
print(array_2d[2,:])#2행의 모든 열
print(array_2d[:,2])#2열의 모든 행


3
[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
8
[7 8 9]
[3 6 9]


#### 데이터 MASKING
- 주어진 조건에 대한 부울 반환값을 나열한 Array를 Mask라고 하고 그 Mask를 생성하는 것을 Masking이라고 한다.
- 주어진 Array가 조건에 부합하는지 체크하여 마스크의 형태로 저장한 후, 기존의 Array에 해당 마스크를 씌워서 조건에 부합하는 원소들만 가져오는 행위이다. 

#### 학생들의 이름과, 각각의 [국어,영어,수학] 성적 배열이 존재할 때, masking을 통해 국어 성적이 80점 이상인 학생들을 출력해보자.

In [13]:
name_array = np.array(["Lee", "Kim", "Park", "Cho", "Kwon", "Choi"])

score_array = np.array([[100,50,60] ,
                        [90, 95, 88], 
                        [75, 30,20], 
                        [60, 70, 80], 
                        [10, 88, 39], 
                        [60, 67, 80]])

mask = (score_array[:,0]>80)#mask 생성
print(mask)

print(name_array[mask])

[ True  True False False False False]
['Lee' 'Kim']


#### abs

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.abs(array) <br>
<div style = "color : gray;">
array : 절대값을 구할 배열
</div></div>

- abs 함수를 사용하면 해당 배열의 절대값을 반환한다.

#### sign
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.sign(array) <br>
<div style = "color : gray;">
array : 부호 구할 배열
</div></div>

- sign 함수를 사용하여 해당 배열의 부호를 반환한다.

#### [abs와 sign 사용하기]

In [14]:
arr_1 = np.array([-2, -1, 0, 1, 2])
print(np.abs(arr_1))

arr_2 = np.array([-1,1,-1,0])
print(np.sign(arr_2))

[2 1 0 1 2]
[-1  1 -1  0]


#### sqrt
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.sqrt(array)<br>
<div style = "color : gray;">
array : 제곱근을 구할 배열
</div></div>
- sqrt 함수를 사용하면 해당 배열의 제곱근을 반환한다.

#### square
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.square(array) <br>
<div style = "color : gray;">
array : 제곱을 구할 배열
</div></div>

- square 함수를 사용하여 해당 배열의 제곱을 반환한다.

#### [sqrt, square의 사용]

In [15]:
arr_3 = np.array([1, 4, 9, 16, 25])
print(np.sqrt(arr_3))

arr_4 = np.array([1, 2, 3, 4, 5])
print(np.square(arr_4))

[1. 2. 3. 4. 5.]
[ 1  4  9 16 25]


#### exp
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.exp(array) <br>
<div style = "color : gray;">
array : Exponential을 구할 배열
</div></div>

- exp 함수를 사용하면 해당 배열의 Exponential 값을 반환한다.

#### log
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.log n(array)
<br>
<div style = "color : gray;">
n :  Log의 밑 <br>
array : Log 연산 결과를 구할 배열
</div></div>

- log 함수를 사용하여 해당 배열의 Log 연산 결과를 반환한다.

#### [exp, log의 사용]

In [16]:
arr_5 = np.array([1, 2, 3, 4, 5])
print(np.exp(arr_5))

arr_6 = np.array([1, 2, 3, 4, 5])
print(np.log2(arr_6))

[  2.71828183   7.3890561   20.08553692  54.59815003 148.4131591 ]
[0.         1.         1.5849625  2.         2.32192809]


#### 각종 삼각함수
- sin(), cos(), tan() : 해당 array의 삼각함수 값을 구한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.sin(array) #numpy.cos(array) #numpy.tan(array) <br>
<div style = "color : gray;">
array : 각 삼각함수를 구할 array
</div></div>

- 인자값은 라디안 기준이다.

#### [삼각함수 사용하기]

In [10]:
arr_7 = np.array([3.14, 1.57, 0, -3.14])
print(np.cos(arr_7))

[-9.99998732e-01  7.96326711e-04  1.00000000e+00 -9.99998732e-01]


#### sum

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.sum(array, axis) <br>
<div style = "color : gray;">
array : 합을 구할 배열 <br>
axis : 합을 구하는 기준 <br>
</div></div>
- sum 함수를 사용하여 배열의 합을 반환한다.
-  이 때 axis 값이 0이면 각 열의 합을, 1이면 각 행의 합을 반환한다.

#### [sum의 사용]

In [11]:
array = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(array)

print("\nsum func")
print(np.sum(array))
print(np.sum(array,axis=0)) #[1+4+7, 2+5+8, 3+6+9] 
print(np.sum(array,axis=1)) #[1+2+3, 4+5+6, 7+8+9]

[[1 2 3]
 [4 5 6]
 [7 8 9]]

sum func
45
[12 15 18]
[ 6 15 24]


#### mean
- mean 함수를 사용하여 배열의 평균을 반환한다.
- 이 때 axis 값이 0이면 각 열의 평균을, 1이면 각 행의 평균을 반환한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.mean(array, axis) <br>
<div style = "color : gray;">
array : 평균을 구할 배열 <br>
    axis : 평균을 구하는 기준
</div></div>

#### [mean을 이용하녀 평균 구하기]

In [19]:
array = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(array)

print("\nmean func")
print(np.mean(array))
print(np.mean(array,axis=0))
print(np.mean(array,axis=1))

[[1 2 3]
 [4 5 6]
 [7 8 9]]

mean func
5.0
[4. 5. 6.]
[2. 5. 8.]


#### std
- 해당 array의 표준편차를 구한다.
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.std(array) <br>
<div style = "color : gray;">
array : 표준편차를 구할 배열
</div></div>

#### var
- 해당 array의 분산을 구한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.var(array) <br>
<div style = "color : gray;">
array : 분산을 구할 배열
</div></div>

#### [std, var를 이용하여 표준편차 및 분산 값 구하기]

In [20]:
array = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(array)
print("\n std, var func")
print(np.std(array))#표준편차
print(np.var(array))#분산

[[1 2 3]
 [4 5 6]
 [7 8 9]]

 std, var func
2.581988897471611
6.666666666666667


#### min
- 배열의 최솟값을 반환한다.
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.max(array) <br>
<div style = "color : gray;">
array : 최대값을 구할 배열
</div></div>

#### max
- 배열의 최댓값을 반환한다.
<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.min(array) <br>
<div style = "color : gray;">
array : 최소값을 구할 배열
</div></div>

#### [min, max를 이용한 최댓값과 최솟값 구하기]

In [21]:
array = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(array)
print("\nmin,max func")
print(np.min(array))
print(np.max(array))

[[1 2 3]
 [4 5 6]
 [7 8 9]]

min,max func
1
9


#### argmin
- argmax 함수를 사용하여 배열의 최대값의 index를 반환한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.argmax(array) <br>
<div style = "color : gray;">
array : 최대값을 구할 배열
</div></div>

#### argmax
- argmin 함수를 사용하여 배열의 최소값의 index를 반환한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#numpy.argmin(array) <br>
<div style = "color : gray;">
array : 최소값을 구할 배열
</div></div>

#### [argmin, argmax를 이용한 인덱스 구하기]

In [12]:
array = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(array)
print("\nargmin,argmax func")
print(np.argmin(array))#return index
print(np.argmax(array))#return index


[[1 2 3]
 [4 5 6]
 [7 8 9]]

argmin,argmax func
0
8


- 위 예제의 경우, 최소값인 1의 인덱스는 0이고, 최대값인 9의 인덱스는 8이기에 위와 같은 실행 결과를 보인다.

#### 행렬에서의 활용
- Numpy는 np.array를 행렬과 같이 인식하여 행렬의 합, 차, dot product, cross product, transpose 등의 연산을 지원한다.

#### [armin, argmax를 이용한 행렬간의 연산]

In [13]:
matrix_1 = np.array([[1,2,3],[4,5,6],[7,8,9]])
matrix_2 = np.array([[-1,0,0],[0,1,0],[0,0,-1]])
print(matrix_1)
print()
print(np.transpose(matrix_1))#전치 행렬
print()
print(matrix_1*matrix_2)#원소 간 곱
print()
print(np.dot(matrix_1,matrix_2))#행렬의 dot곱 연산

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[1 4 7]
 [2 5 8]
 [3 6 9]]

[[-1  0  0]
 [ 0  5  0]
 [ 0  0 -9]]

[[-1  2 -3]
 [-4  5 -6]
 [-7  8 -9]]


## 연습문제

### 1. 다음과 같은 데이터셋에서 연습문제를 풀어 보자.

In [24]:
name_array = np.array(["Lee", "Kim", "Park", "Cho", "Kwon", "Choi"])

score_array = np.array([[100,50,60] ,
                        [90, 95, 88], 
                        [75, 30,20], 
                        [60, 70, 80], 
                        [10, 88, 39], 
                        [60, 67, 80]])

print(score_array)

[[100  50  60]
 [ 90  95  88]
 [ 75  30  20]
 [ 60  70  80]
 [ 10  88  39]
 [ 60  67  80]]


- (1) 위의 각 사람 별 점수의 평균 값을 출력해 보자.

- (2) 위에서 배운 Masking을 활용하여 평균 점수가 70점 이상인지를 판별하는 Mask를 생성해 보자.

- (3) 3. 2. 에서 생성한 Mask를 활용해 평균 점수가 70점 이상인 사람의 이름을 출력해 보자. 