# Numpy

## 배열 만들기

In [1]:
# 초기화할 값 지정하여 배열 생성
import numpy as np
np.array([1, 2, 3, 4, 5, 6])

array([1, 2, 3, 4, 5, 6])

In [3]:
# 값을 0으로 초기화하여 배열 생성
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [4]:
# 값을 1로 초기화하여 배열 생성
np.ones(5)

array([1., 1., 1., 1., 1.])

In [5]:
# 데이터 초기화 없이, 쓰레기 값으로 채워진 배열 생성
np.empty(5)

array([1., 1., 1., 1., 1.])

In [8]:
# 연속된 숫자를 채워 배열 생성
# 내장함수 range()와 유사하게
# 종료 지점에서 -1 까지만 생성됨
np.arange(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [41]:
# 인자를 여러 개 사용할 경우,
# 1번 째 인자는 시작 지점
# 2번 째 인자는 종료 지점
# 3번 째 인자는 Step
np.arange(20, 30, 2)

array([20, 22, 24, 26, 28])

In [45]:
# 지정한 구간에 원하는 요소 개수만큼 배열 생성
# 1번 째 인자는 시작 지점
# 2번 째 인자는 종료 지점
# 3번 째 인자는 생성하고자 하는 요소 개수
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [46]:
# dtype= 값으로 np.dtype을 줘서 데이터 형식을 지정할 수 있음
np.linspace(0, 10, num=5, dtype=np.int64)

array([ 0,  2,  5,  7, 10], dtype=int64)

In [47]:
# 난수 생성기 시드값(시작값) 설정
np.random.seed(1)
# 시드값을 기준으로 난수가 생성된 이후,
# 그 생성된 값을 기준으로 다음 난수가 생성되는 방식의 알고리즘..

# 랜덤값으로 배열 생성
randArray = np.random.randn(3, 3)
randArray

array([[ 1.5827523 , -1.04514683,  0.25759352],
       [-1.9593946 , -1.50780766, -0.31529207],
       [ 0.85817886,  0.07134299, -2.29230928]])

## 사용 설명 보기

In [44]:
# 메서드 사용 설명 보는 법
np.dtype?

[1;31mInit signature:[0m [0mnp[0m[1;33m.[0m[0mdtype[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
dtype(dtype, align=False, copy=False)

Create a data type object.

A numpy array is homogeneous, and contains elements described by a
dtype object. A dtype object can be constructed from different
combinations of fundamental numeric types.

Parameters
----------
dtype
    Object to be converted to a data type object.
align : bool, optional
    Add padding to the fields to match what a C compiler would output
    for a similar C-struct. Can be ``True`` only if `obj` is a dictionary
    or a comma-separated string. If a struct dtype is being created,
    this also sets a sticky alignment flag ``isalignedstruct``.
copy : bool, optional
    Make a new copy of the data-type object. If ``False``, the result
    may just be a reference to a bu

## 변형

In [26]:
# 배열의 차원 변형
oneDArray = np.arange(16)

In [27]:
oneDArray.reshape(4, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [31]:
# 다시 배열을 확인해보면,
# 원본이 바뀌지는 않은 걸 확인할 수 있음
oneDArray

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [32]:
# reshape는 차원이 변형된 결과만 반환하고,
# 원본을 바꾸지는 않으므로,
# 새로운 원본을 만들어 저장할 필요가 있는 경우
# copy() 메서드를 사용하여 따로 저장해준다.

copiedOneDArray = oneDArray.reshape(4, 4).copy()
copiedOneDArray

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

## 배열 속성 확인

In [49]:
# 배열 형태 확인할 때는 shape 사용,
# pandas와 동일.
copiedOneDArray.shape

(4, 4)

In [54]:
# 데이터타입 확인
copiedOneDArray.dtype

# 확인결과 int32 
# --> (4, 4) 배열로 부동소수점이 아닌 정수형 데이터임을 확인

dtype('int32')

In [60]:
# float으로 데이터타입 형변환
# astype() 메서드 또한 원본에 적용되는 것이 아니라,
# float으로 변환된 배열을 반환하므로
# 형변환이 이루어진 값을 새로운 변수에 저장해서 사용할 필요가 있음.
copiedOneDArray.astype(float)

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [61]:
# astype() 메서드 또한 원본에 적용되는 것이 아니라,
# float으로 변환된 배열을 반환하므로
# 형변환이 이루어진 값을 새로운 변수에 저장해서 사용할 필요가 있음.

astypeFloatArray = copiedOneDArray.astype(float)
astypeFloatArray.dtype

dtype('float64')

## 인덱싱 / 슬라이싱

In [64]:
arr1 = np.arange(16).reshape(4, 4)
arr1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [63]:
arr1[2]

array([ 8,  9, 10, 11])

In [66]:
arr1[1:-1]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [67]:
arr1[0:3]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [68]:
arr1[3][2:4]

array([14, 15])

In [69]:
arr1[3][2]

14

In [70]:
# 배열의 10 이상 요소 값 선택해서 변경하기
arr1[arr1 >= 10] = arr1[arr1 >= 10] * 10
arr1

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9, 100, 110],
       [120, 130, 140, 150]])

In [73]:
# dtype=int로 지정, 생성된 2차원 배열의 모든 값에 100 곱하기
arr2 = np.linspace(0, 2, num=20, dtype=int).reshape(4, 5)
arr2 = arr2 * 100
arr2

array([[  0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0],
       [100, 100, 100, 100, 100],
       [100, 100, 100, 100, 200]])

In [99]:
# dtype=float로 지정, 생성된 2차원 배열의 모든 값에 22 곱하기
arr3 = np.linspace(0, 6.6, num=25, dtype=float).reshape(5, 5)
print(f'before \n{arr3}')
print('='*40)
arr3 = arr3 * 22
print(f'after \n{arr3}')

before 
[[0.    0.275 0.55  0.825 1.1  ]
 [1.375 1.65  1.925 2.2   2.475]
 [2.75  3.025 3.3   3.575 3.85 ]
 [4.125 4.4   4.675 4.95  5.225]
 [5.5   5.775 6.05  6.325 6.6  ]]
after 
[[  0.     6.05  12.1   18.15  24.2 ]
 [ 30.25  36.3   42.35  48.4   54.45]
 [ 60.5   66.55  72.6   78.65  84.7 ]
 [ 90.75  96.8  102.85 108.9  114.95]
 [121.   127.05 133.1  139.15 145.2 ]]


In [104]:
# astype으로 형변환 전후 dtype 비교
arr4 = np.arange(16).reshape(4, 4)
print(f' arr4\'s dtype is...\n {arr4.dtype}, {arr4.shape}')
print('='*40)
arr4 = arr4.astype(float)
print(f' arr4\'s dtype is...\n {arr4.dtype}, {arr4.shape}')

 arr4's dtype is...
 int32, (4, 4)
 arr4's dtype is...
 float64, (4, 4)
