# Numpy 활용

## #01. 준비과정

### [1] 패키지 참조

In [17]:
import numpy as np

## #02. 연산기능

### [1] 연산자를 사용한 배열간의 연산

위치가 동일한 각 원소끼리 수행된다.

In [18]:
arr1 = np.array([10,15,20,25,30])
arr2 = np.array([2,3,4,5,6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [19]:
a = arr1 + arr2
a

array([12, 18, 24, 30, 36])

In [20]:
b = arr1 - arr2
b

array([ 8, 12, 16, 20, 24])

In [21]:
c = arr1 * arr2
c

array([ 20,  45,  80, 125, 180])

In [22]:
d = arr1 / arr2
d

array([5., 5., 5., 5., 5.])

### [2] Numpy 패키지의 함수 사용

In [23]:
arr1 = np.array([10,15,20,25,30])
arr2 = np.array([2,3,4,5,6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [24]:
a = np.add(arr1, arr2)
a

array([12, 18, 24, 30, 36])

In [25]:
b = np.subtract(arr1, arr2)
b

array([ 8, 12, 16, 20, 24])

In [26]:
c = np.multiply(arr1, arr2)
c

array([ 20,  45,  80, 125, 180])

In [27]:
d = np.divide(arr1, arr2)
d

array([5., 5., 5., 5., 5.])

## #03. 기초 통계량 산출(최대, 최소, 합계, 평균 등)

### [1] 1차원 데이터의 경우

#### (1) 샘플 데이터

In [28]:
myarr = np.array([98, 72, 80, 64])
myarr

array([98, 72, 80, 64])

#### (2) 최대, 최소, 합계, 평균값

In [29]:
print("최대값:", np.max(myarr))
print("최소값:", np.min(myarr))
print("합계:", np.sum(myarr))
print("평균:", np.average(myarr))

최대값: 98
최소값: 64
합계: 314
평균: 78.5


#### (3) 분산, 표준편차

##### 편차($d$)

관측값($y$)(=실제값,조사된 값)에서 관측값의 평균($\bar{y}$)을 뺀 값

$d = y - \bar{y}$

관측치가 평균과 얼만큼의 차이가 있는지 알아보기 위한 값이다.

편차의 총 합은 항상 `0`이다.

##### 분산

편차 제곱의 평균

$\sigma^2 = \bar{d^2}$

각 데이터가 평균에서 얼마나 멀리 떨어져 있는가를 측정하는 값.

편차는 총 합이 0이기 때문에 평균을 낼 경우 큰 의미가 없다. 또한 분산은 관측치가 평균으로부터 얼마나 멀리 떨어져 있는가를 의미하는 값이기 때문에 양수인가 음수인가는 그다지 중요하지 않다. 

따라서 편차의 합이 0이 되는 문제를 해결하기 위하여 편차의 음의 부호를 제거하는 방법이 필요한데 그 대표적인 값이 절대값과 제곱이다.

일반적으로 절대값은 기호 사용의 불편함과 함께 식의 계산 또는 변형이 어려워 식이 가지는 성질을 찾아내기가 어렵기 때문에 잘 사용하지 않고 제곱을 사용하여 $편차^2$의 총 합을 변량의 개수로 나눈 값을 구한다.

In [30]:
print("분산:", np.var(myarr))

분산: 158.75


##### 표준편차

분산만으로도 데이터의 산포도를 확인할 수 있지만 제곱을 했기 때문에 관측치보다 매우 큰 값이 된다. 그러므로 관측치와 단위를 같게 하기 위해 다시 제곱근을 구할 필요가 있는데 이 값이 표준편차 이다.

$\sigma = \sqrt{\sigma^2}$

In [31]:
print("표준편차:", np.std(myarr))

표준편차: 12.599603168354152


## #04. 조건에 맞는 값 추출하기

### [1] 원하는 위치의 값 추출

In [34]:
# 철수의 1학년~4학년까지의 평균 점수
grade = np.array([82, 77, 91, 88])
grade

array([82, 77, 91, 88])

In [33]:
# -> 추출하고자 하는 원본과 같은 사이즈의 배열을 생성한다.
# -> 추출할 값은 True, 그렇지 않으면 False
bool_array = np.array([True, False, True, False])
bool_array

array([ True, False,  True, False])

In [35]:
# -> 조건에 맞는 항목만 1차 배열로 추출
result1 = grade[bool_array]
result1

array([82, 91])

### [2] 조건에 맞는 원소 추출

#### 80점 이상인 원소를 추출

조건을 명시하기 위해 배열의 이름이 조건식에 명시된다.

In [38]:
result2 = grade[grade >= 80]
result2

array([82, 91, 88])

#### 80점 이상이고 90점 이하인 데이터만 추려냄

In [39]:
result3 = grade[np.logical_and(grade >= 80, grade <= 90)]
result3

array([82, 88])

#### 80점 미만이거나 90점 초과인 데이터만 추려냄

In [40]:
result4 = grade[np.logical_or(grade < 80, grade > 90)]
result4

array([77, 91])