## 수치계산 및 n차원 배열을 다루기 위한 Numpy
- import numpy as np : 넘파이 모듈 임포트 통상적으로 np라는 별칭을 사용하여 import 하며 conda 설치시 기본으로 설치되어 별도의 설치가 필요 없음
- 넘파이는 주로 array - 1차도 포함되지만 2차 이상의 배열에 대하여 연산을 쉽게 할 수 있도록 하는 모듈
- 넘파이의 장점 loop연산과 속도가 빠르다<sup>****</sup>

In [1]:
# numpy 모듈 import
import numpy as np

## ndarray 구조 
- ndarray는 데이터 자체를 나타냄
- data-type은 array의 단일 고정 크기 요소의 레이아웃 정보
- array scalar는 배령의 요소에 엑세스 될 때 반환되는 배열
- array는 모든 원소가 동일한 데이터 타입을 갖음
- numpy 모듈의 array함수를 사용하여 생성

In [4]:
# 1,2,3의 원소를 갖는 1차원 배열 array생성
a = np.array([1,2,3])
a

array([1, 2, 3])

## ndarray 차원
- ndarray의 1차원은 배열의 특징을 가지며 차원, 타입, 요소를 갖고 있음
- 2차원은 여러 1차원의 배열로 구성되며, matrix와 동일한 구조(구조만 같고 matrix 객체는 아님)
- 3차원은 여러 2차원 행렬로 구성됨
- n차원은 여러 n-1차원의 array로 구성
- ndarray객체의 차원을 조회하기 위해서는 ndim 객체속성 사용

In [13]:
# 1,2,3 원소를 사용하여 1차원 배열 생성
a_1 = np.array([1,2,3])
# 1,2,3,4,5,6 원소를 사용하여 2차원 행렬 생성
a_2 = np.array([[1,2,3],[4,5,6]])
# a_2객체를 사용하여 3차원 array생성
a_3 = np.array([a_2,a_2])
# a_3의 객체속성 확인
print(a_3.ndim)
# a_3객체를 사용하여 a_4라는 4차원 array생성

3


## ndarray의 데이터타입
- numpy array는 동일한 데이터 타입을 가져야 하므로 데이터 타입에 대한 이해가 중요
- 데이터 분석에서 분석 알고리즘마다 지원하는 데이터 타입을 잘 맞춰줘야 하기 때문에 분석의 재료가 되는 데이터 타입에 대하여 이해할 필요가 있음
- 데이터 타입의 종류
    - np.int32 : 32비트 정수 타입
    - np.float64 : 64비트 부동 소수 타입
    - np.float32 : 32비트 부동 소수 타입
    - np.int8 : 8비트 정수 타입
    - np.int16 : 16비트 정수 타입
    - np.object : 파이썬 객체 타입
- 데이터 타입 확인은 ndarray_obj.dtype을 사용 - 속성
- 데이터 타입 변환은 ndarray_obj.astype('int32') - 메소드

In [19]:
## range 함수를 사용하여 0~9까지의 정수로 구성된 1차원 배열을 만들고
## 데이터 타입을 확인한 후 
## 데이터 타입을 float32로 바꾼다
a_1 = np.array(range(10))
print(a_1.dtype)
a_1 = a_1.astype('float32')
print(a_1.dtype)

int32
float32


## 객체의 속성이란
- 속성은 객체가 가지고 있는 특성이며 객체는 속성으로 이루어져 있음
- 객체의 속성을 알아보기 위해서는 python에서는 obj.property_name 형식으로 확인 할 수 있음

## ndarray 주요 속성
- dtype : 객체의 원소 타입
- size : 객체의 원소의 개수
- ndim : 객체의 차원
- shape : 객체의 형태
- T : 객체의 전치된 형태

In [41]:
## numpy array 생성 함수 ndarray를 사용하여 (5,3,2) array생성
## 주요 속성 확인
arr = np.ndarray((5,3,2))
arr.dtype
arr.size
arr.ndim
arr.shape
arr.T

array([[[1.32655197e-311, 2.57707022e-057, 1.77296565e+160,
         7.50189709e+247, 7.63253730e+169],
        [0.00000000e+000, 7.11874978e-067, 2.16696491e+184,
         2.22176728e+180, 8.37170571e-144],
        [0.00000000e+000, 8.37170074e-144, 5.49419094e-143,
         1.31285322e-071, 5.60230216e-067]],

       [[9.58487353e-322, 6.36791070e-062, 4.46728262e-090,
         1.35617292e+248, 5.04621361e+180],
        [0.00000000e+000, 5.01163173e+217, 5.01163193e+217,
         4.29228306e-038, 9.30350598e+199],
        [1.16097020e-028, 1.96786718e+160, 9.80058441e+252,
         8.59667625e-067, 2.65532969e-312]]])

## ndarray 생성 방법
- array : array 값을 직접입력
    - np.array([원소])
- ndarray : shape을 입력하면 random normal 값으로 shape에 맞게 생성
    - np.ndarray(shape) shape=(5,3,2)
- ones : shape을 입력하면 1로 채워 shape에 맞게 생성
    - np.ones(shape) 
- zeros : shape을 입력하면 0으로 채워 shape에 맞게 생성
    - np.zeros(shape)
- empty : 비어 있는 ndarray 생성
    - np.empty(shape)
- identity : 대각선이 1인 정방행렬 생성
    - np.identity(n) n = 행수(rows)
- eye : 대각선이 1인 정방행렬, k값에 따라 1이되는 열의 위치가 달라짐
    - np.eye(n,k) k(default=0)

In [48]:
## array 함수를 이용하여 [1,2,3,4,5] 원소로 구성된 1차원 배열을 생성
a1 = np.array([1,2,3,4,5])
## ndarray 함수를 이용하여 2X2로 구성된 2차원 행열을 생성
a2 = np.ndarray((2,2))
## zeros 함수를 이용하여 3X3X3 으로 구성된 3차원 array를 생성
a3 = np.zeros((3,3,3))
## ones함수를 이용하여 3X2로 구성된 2차원 행열을 생성
a4 = np.ones((2,2,2))
## eye를 사용하여 3X3 대각행렬 생성

## 프로그래밍을 위한 1차원배열 생성 
- linspace : start 부터 stop까지 num에 정의된 값만큼의 배열을 균일한 간격으로 생성
    - np.linspace(start,stop,num)
- arange : range 함수와 비슷하게 사용되며, ndarray를 반환 하게 됨
    - np.arange([start,]stop[,step])

In [52]:
## linspace를 사용하여 0~60까지의 10개의 구간을 배열로 생성
np.linspace(0,60,10)
## arange를 사용하여 0,60까지 2칸씩 띄어지는 배열을 생성

array([ 0.        ,  6.66666667, 13.33333333, 20.        , 26.66666667,
       33.33333333, 40.        , 46.66666667, 53.33333333, 60.        ])

## numpy의 난수 발생 모듈
- random 모듈과 사용 함수
    - random 모듈 사용 : np.random.함수명  
    - random 모듈의 함수확인 dir(np.random)
- random 모듈에서 많이 사용하는 함수의 기능 
    - seed : np.random.seed(num) seed의 num을 통한 난수생성(동일한난수발생)
    - randint : np.random.randint([start,]stop[,num]) 균일분포의 정수 난수 생성
    - rand : np.random.rand(shape) 0부터 1사이의 균일분포에서 난수 matrix array 생성
    - randn : np.random.randn(shape) 표준 정규 분포에서 난수 matrix array 생성
    - shuffle : np.random.shuffle(obj) obj 데이터의 순서바꾸기

In [71]:
# randint의 default 는 복원 추출 비복원 하려면 replace = False로 설정
np.random.seed(10)
np.random.randint(1,10,20) 
np.random.rand(3,3,2)
np.random.randn(2,2)
np.random.choice([1,2,3,4],4,replace=False)
obj = [1,2,3,4]
np.random.shuffle(obj)
obj
# random module의 choice 함수를 사용하여 1~100까지의 정수로 구성된 
# 100개의 원소의 랜덤 배열을 1차원으로 구성

[2, 3, 1, 4]

## Numpy Loop 계산<sup>**</sup>
- loop 문을 사용하지 않더라도 내부에 있는 모든 원소들에 대해 계산됨
- ndarray는 array원소 만큼 자동으로 순환 계산해서 ndarray로 반환

In [73]:
# 1차원 배열의 loop 계산
loop_ex = np.array([1,2,3])
loop_ex_result = loop_ex + 1
print(loop_ex_result)
# 2차원 행렬의 loop 계산
loop_ex = np.array([[1,2,3],[4,5,6]])
loop_ex_result = loop_ex + 1
print(loop_ex_result)
# 3차원 array에 4를 곱하고 1을 더하는 연산 수행

[2 3 4]
[[2 3 4]
 [5 6 7]]


## ndarray 접근<sup>**</sup>
- 배열명[행범위, 열범위]로 접근
    - 행으로만 접근할 경우 열범위는 생략 가능하지만 열범위로 접근할 경우 행은 생략 불가
- 배열명[행슬라이스, 열슬라이스]로 접근
- 값 변경을 위해서는 접근한 배열에 값을 입력
    - 배열명[행범위,열범위] = 값

In [96]:
# 2차원 배열을 만들고 행범위, 열범위로 접근
np.random.seed(10)
arr = np.ndarray((3,3))
print(arr)
print('행범위,열범위로 접근')
print(arr[[0,2],[2,1]])
# 2차원 배열을 만들고 행슬라이스, 열슬라이스로 접근
print('행슬라이스,열슬라이스로 접근')
print(arr[0:2,0:1])
# 3차원 배열을 만들고 행슬라이스, 열슬라이스로 접근
arr = np.ndarray((3,3,2))
print(arr)
print(arr[1:3,1:3,1:3])
# ndarray 함수를 사용하여 5by5 행렬을 만들고 0~2행과 1,3열에 접근

[[0.37744066 0.74758197 0.14057578]
 [0.38804945 0.86649164 0.95685333]
 [0.48655367 0.10593306 0.34003729]]
행범위,열범위로 접근
[0.14057578 0.10593306]
행슬라이스,열슬라이스로 접근
[[0.37744066]
 [0.38804945]]
[[[0.54088093 0.13145815]
  [0.41366737 0.77872881]
  [0.58390137 0.18263144]]

 [[0.82608225 0.10540183]
  [0.28357668 0.06556327]
  [0.05644419 0.76545582]]

 [[0.01178803 0.61194334]
  [0.33188226 0.55964837]
  [0.33549965 0.41118255]]]
[[[0.06556327]
  [0.76545582]]

 [[0.55964837]
  [0.41118255]]]


## ndarray 조건으로 조회<sup>***</sup>
- ndarray에 비교연산자 사용
    - 각 원소에 대해 boolean(True/False) type으로 구성된 ndarray반환
    - 반환된 ndarray를 활용하여 True인 것만 조회가능
    - 조건에 따른 원소 변경 가능
- boolean배열로 조회
    - 배열명[boolean]

In [97]:
# 1~99까지 랜덤하게 10개의 원소를 뽑아 1차원 배열을 생성하고
arr = np.random.randint(1,99,10)
# 50보다 큰 값을 True로 하는 boolean값의 배열을 만들고
arr > 50
# boolean배열을 사용하여 조회
arr[arr>50]

array([65, 90, 94, 74])

## Numpy axis<sup>***</sup>
- axis는 배열의 축으로 0은 행을 나타내고, 1은 열을 나타냄
- numpy에서 함수 사용시 axis지정으로 각 axis만 계산 가능
    - np.array([[1,2],[3,4]])의 각 행과 열의 합계를 축지정으로 행의 합과 열의합을 구할 수 있음 np.sum(ndarray,axis=0)

In [102]:
# ndarray 함수로 5by3 행렬을 만든 후 각 행의 합과, 열의 합을 구하면
np.random.seed(1)
arr = np.ndarray((5,3))
print(arr)
print('행의합',np.sum(arr,axis=0))
print('열의합',np.sum(arr,axis=1))
# ndarray 함수로 5by3 행렬을 만든 후 각 행의 평균과, 열의 평균을 구하면

[[7.81250000e-03 3.20000076e+01 2.04800049e+03]
 [3.27680079e+04 2.62144063e+05 1.04857625e+06]
 [4.19430502e+06 1.67772201e+07 5.03316562e+07]
 [1.00663312e+08 2.01326625e+08 4.02653250e+08]
 [8.05306500e+08 1.61061300e+09 3.22122600e+09]]
행의합 [9.10196885e+08 1.82897902e+09 3.67526153e+09]
열의합 [2.08000831e+03 1.34348833e+06 7.13031813e+07 7.04643187e+08
 5.63714550e+09]


## Numpy 함수
- square() : 거듭제곱
- sqrt() : 제곱근
- power(a,b) : 두배열의 거듭제곱
- hypot(a,b) : a와 b의 거리 $\sqrt{a^2+b^2}$
- ceil : 각 원소보다 같거나 큰 정수 반환
- floor : 각 원소보다 같거나 작은 정수 반환
- rint : 각 원소의 소수점 반올림

In [110]:
# random module의 randint를 사용하여 10개의 정수 배열 두개를 생성
a = np.random.randint(1,100,10)
b = np.random.randint(1,100,10)
# a배열의 거듭제곱 구하기
np.square(a)
# a배열의 제곱근 구하기
np.sqrt(a)
# a와 b의 거리 구하기
np.hypot(a,b)
# a,b 배열의 거리의 반올림값과, 올림값, 내림값을 각각 구하기

array([ 90.52071586, 109.22453937, 118.71394189,  72.0624729 ,
       105.11898021, 113.25193155,  19.41648784,  55.32630477,
        98.65596789,  93.47726996])

## 조건 if문을 위한 where 함수<sup>****</sup>
- np.where(조건식,참일때값,거짓일때값)
- np.where(조건식) 조건식만 있을때는 조건에 맞는 원소 위치 반환

## Unique한 원소만 추출 하는 unique함수
- np.unique(ndarray)

In [113]:
# -10 ~ 10 까지의 값중 10개를 랜덤으로 추출하여
arr = np.random.randint(-10,10,10)
# 랜덤원소가 음수일 경우 -1, 양수일 경우 1로 값이 할당된 배열을 만들면
print(arr)
signed_arr = np.where(arr>0,1,-1)
print(signed_arr)
# unique한 것을 출력(-1,1)을 출력
np.unique(signed_arr)
#위의 식에서 0이 나왔을 경우 0으로 할당하도록 코드 작성

[-3 -5 -6 -5 -2  3  7  7  5  3]
[-1 -1 -1 -1 -1  1  1  1  1  1]


array([-1,  1])

## Numpy 중요 메소드
- reshape<sup>*****</sup> : 배열의 모양을 변경
    - 전체 원소 수가 변경하려는 shape의 수와 같아야 한다
    - shape이 ${2x2x3}=12$ 이라면 변경하려는 shape의 곱이 변경전 shape의 곱과 같아야 함, 즉 변경 후 shape의 곱이 12가 되야 함
- array_obj.reshape(변경할shape)
- flatten : 1차원 배열로 변환

In [121]:
# ndarray함수를 사용하여 (3,90) array생성
arr = np.ndarray((3,90))
# ndarray를 3,30으로 reshape
arr_trans = arr.reshape(3,3,30) 
# arr_trans를 1차원 배열로 변환
arr_1d = arr_trans.flatten()

## Numpy Shape속성 및 shape 이해<sup>*****</sup>
- ndarray.shape
   - 1차원 배열 : 값의 연속
   - 2차원 배열 : 행(데이터)과 열(변수)로 구성
   - 3차원 배열 : 행(데이터)과 matrix(변수)로 구성

In [122]:
print('1차원배열',arr_1d.shape)
print('2차원배열',arr.shape)
print('3차원배열',arr_trans.shape)

1차원배열 (270,)
2차원배열 (3, 90)
3차원배열 (3, 3, 30)


## Numpy object 연결함수(concatenate)를 통한 loop 연산이해
- concatenate : array를 연결하는 함수로 여러 array를 한번에 연결
- axis 옵션을 통해 row, column기준으로 연결 가능

In [125]:
# 1~4, 5~8, 9~10 까지의 ndarray 1차원 배열 생성
c1 = np.arange(1,5)
c2 = np.arange(5,9)
c3 = np.arange(9,11)
# 배열 생성 함수 array를 통해 새로운 ndarray 생성
c4 = np.array((c1,c2,c3))
print(c1)
print(c2)
print(c3)
print(c4)
# concatenate 연결함수 사용
c5 = np.concatenate((c1,c2,c3))
print(c5)
c6 = np.concatenate(c4)
print(c6)

[1 2 3 4]
[5 6 7 8]
[ 9 10]
[array([1, 2, 3, 4]) array([5, 6, 7, 8]) array([ 9, 10])]
[ 1  2  3  4  5  6  7  8  9 10]
[ 1  2  3  4  5  6  7  8  9 10]


  c4 = np.array((c1,c2,c3))
