# NumPy

* 다차원 배열 객체, 이로부터 유도한 마스크된 배열 및 행렬 등과 같은 객체, 논리, 배열 형태 조작, 정렬, 선택, I/O를 비롯한 배열에 대한 빠른 작업을 위한 다양한 루틴을 제공한다. 
* 이산 푸리에 변환, 기본 선형 대수학, 기본 통계 연산, 무작위 시뮬레이션 등등 다양한 기능을 가지고 있다.

* https://numpy.org/
* https://numpy.org/doc/
* http://taewan.kim/post/numpy_cheat_sheet/

## 1. ndarray

* ndarray는 fixed-size homogeneous multidimensional array 정도로 이해할 수 있으며, 기본적으로 vectorization과 broadcasting을 지원한다.
* Python에서 제공하는 list, tuple 등의 시퀀스 자료형은 서로 다른 데이터타입을 저장할 수 있고(heterogeneous sequence), 크기가 자동으로 커질 수 있다. 
* 반면에, ndarray는 성능향상을 위해 같은 데이터 타입만을 요소로 가질 수 있고, 크기 역시 고정되어 있다. 만약 크기를 변경하면 새로 메모리에 할당되고 이전 값은 삭제된다.


![image.png](attachment:6fec7471-85b1-4c24-8e44-9153e718c658.png)

ndarray의 중요 속성을 정리하면 다음과 같다.

* shape : 배열의 형태
* dtype : 요소의 데이터 타입, int32, float32 등등
* ndim : 차원수. x.ndim = 1, y.ndim=2 등이며 len(x.shape) 와 동일
* size : 요소의 개수. shape의 모든 값의 곱. x.size = 3, y.size=6 등
* itemsize : 요소 데이터 타입의 크기(byte 단위), x.itemsize=8 등
* data : 실제 데이터. 직접 사용자가 접근할 필요는 없음

리스트와 차이점
* 모든 원소가 같은 자료형.
* 원소의 수 변경 불가능
* 리스트보다 적은 메모리사용. 빠른 처리
* 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원
* 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용

## 2. 배열 생성

In [23]:
import numpy

arr = numpy.array([1, 2, 3, 4, 5])

print(arr)

[1 2 3 4 5]


In [21]:
import numpy as np

arr = np.array([])

for i in range(3):
    arr = np.append(arr,[1,2,3])
    print(i)

0
1
2


In [22]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr)
print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [12]:
import numpy as np

arr = np.array((1, 2, 3, 4, 5))

print(arr)
print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [27]:
import numpy as np

arr = np.zeros((3, 4)) # np.zeros(shape, dtype=float, order='C'), 지정된 shape의 배열을 생성하고, 모든 요소를 0으로 초기화
print(arr)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [30]:
import numpy as np

arr = np.ones((2,3,4),dtype=np.int16) # np.ones(shape, dtype=None, order='C'), 지정된 shape의 배열을 생성하고, 모든 요소를 1로 초기화
print(arr)

[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [32]:
import numpy as np

arr = np.full((2,2),7) # np.full(shape, fill_value, dtype=None, order='C'), 지정된 shape의 배열을 생성하고, 모든 요소를 지정한 "fill_value"로 초기화
print(arr)

[[7 7]
 [7 7]]


In [1]:
import numpy as np

arr = np.linspace(0, 1, 5) # numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None), start부터 stop의 범위에서 num개를 균일한 간격으로 데이터를 생성하고 배열을 만드는 함수
print(arr)

[0.   0.25 0.5  0.75 1.  ]


## 3. 배열 차원과 형태
* ndim 속성은 배열의 차원, shape 속성은 배열의 형태를 반환, size 속성은 배열의 갯수를 반환

In [19]:
import numpy as np

## 0차원
arr = np.array(42)

print(arr)
print(arr.ndim)
print(arr.shape)
print(arr.size)

42
0
()
1


In [20]:
import numpy as np

## 1차원
arr = np.array([1, 2, 3, 4, 5])

print(arr)
print(arr.ndim)
print(arr.shape)
print(arr.size)

[1 2 3 4 5]
1
(5,)
5


In [6]:
import numpy as np

## 2차원
arr = np.array([[1, 2, 3], [4, 5, 6]])

print(arr)
print(arr.ndim)
print(arr.shape)

[[1 2 3]
 [4 5 6]]
2
(2, 3)


In [7]:
import numpy as np

## 3차원
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

print(arr)
print(arr.ndim)
print(arr.shape)

[[[1 2 3]
  [4 5 6]]

 [[1 2 3]
  [4 5 6]]]
3
(2, 2, 3)


In [10]:
import numpy as np

a = np.array(42)
b = np.array([1, 2, 3, 4, 5])
c = np.array([[1, 2, 3], [4, 5, 6]])
d = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

# 차원 확인
print(a.ndim)
print(b.ndim)
print(c.ndim)
print(d.ndim)

# 크기 확인
print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)

0
1
2
3
()
(5,)
(2, 3)
(3, 2, 3)


In [1]:
import numpy as np

arr = np.array([1, 2, 3, 4], ndmin=6)

print(arr)
print('number of dimensions :', arr.ndim)

[[[[[[1 2 3 4]]]]]]
number of dimensions : 6


## 4. 배열의 인덱싱

In [11]:
import numpy as np

arr = np.array([0, 1, 2, 3, 4])
print(arr[0], arr[-1] )         # 첫번째 , 마지막번째

0 4


In [12]:
import numpy as np

arr = np.array([[0, 1, 2], [3, 4, 5]])
print(arr[0, 0] )    # 첫번째 행의 첫번째 열
print(arr[-1, -1] )  # 마지막 행의 마지막 열

0
5


In [48]:
import numpy as np

arr = np.array([1, 2, 3])

for x in arr:
    print(x)

1
2
3


In [50]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr:
    for y in x:
        print(y)

1
2
3
4
5
6


In [51]:
import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

for x in arr:
    print(x)

[[1 2 3]
 [4 5 6]]
[[ 7  8  9]
 [10 11 12]]


In [52]:
import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

for x in arr:
    for y in x:
        for z in y:
            print(z)

1
2
3
4
5
6
7
8
9
10
11
12


## 5. 배열의 슬라이싱

In [13]:
arr = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])

print(arr[0, :] ) # 0 행 모든열
print(arr[: , 0] ) # 모든행 0 열
print(arr[0:2, :-1] ) #0 행~1 행, 처음부터 마지막열까지

[0 1 2 3]
[0 4]
[[0 1 2]
 [4 5 6]]


In [14]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[1:5:2]) # 1~5사이에 2단계씩

[2 4]


## 6. 데이터 타입

* i - integer
* b - boolean
* u - unsigned integer
* f - float
* c - complex float
* m - timedelta
* M - datetime
* O - object
* S - string
* U - unicode string
* V - fixed chunk of memory for other type ( void )

In [15]:
import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr.dtype)

int64


In [36]:
import numpy as np

arr = np.array([1,2,3], dtype='float64')

print(arr.dtype)

float64


## 7. 배열의 복사
* ndarray와 대입연산자 =를 사용하면 shallow copy가 되며, 실제 복사(deep copy)하려면 object.copy()를 사용해야 한다.

In [41]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
x = arr
arr[0] = 42

print(arr)
print(x)

[42  2  3  4  5]
[42  2  3  4  5]


In [38]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
x = arr.copy()
arr[0] = 42

print(arr)
print(x)

[42  2  3  4  5]
[1 2 3 4 5]


In [39]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
x = arr.view()
arr[0] = 42

print(arr)
print(x)

[42  2  3  4  5]
[42  2  3  4  5]


In [40]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

x = arr.copy()
y = arr.view()

print(x.base)
print(y.base)

None
[1 2 3 4 5]


## 8. 배열의 전치

In [29]:
import numpy as np

arr = np.arange(15).reshape(3, 5)

print(arr)
print(arr.T) # 배열 전치

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]
[[125 140 155 170 185]
 [140 158 176 194 212]
 [155 176 197 218 239]
 [170 194 218 242 266]
 [185 212 239 266 293]]


## 9. 배열의 산술 연산

In [22]:
import numpy as np

a = np.random.randint(1, 10, (2, 3))
b = np.random.randint(1, 10, (2, 3))

print(a)
print(b)
print('-' * 10)

print(a+b)
print(a-b)
print(a*b)
print(a/b)
print(a * 5)
print('-' * 10)

print(a > b)

[[8 3 2]
 [4 4 5]]
[[2 1 2]
 [3 6 1]]
----------
[[10  4  4]
 [ 7 10  6]]
[[ 6  2  0]
 [ 1 -2  4]]
[[16  3  4]
 [12 24  5]]
[[4.         3.         1.        ]
 [1.33333333 0.66666667 5.        ]]
[[40 15 10]
 [20 20 25]]
----------
[[ True  True False]
 [ True False  True]]


## 10. 브로드 캐스팅
* 모양이 다른 배열들 간의 연산이 어떤 조건을 만족했을 때 가능해지도록 배열을 자동적으로 변환하는 것
* 브로드캐스팅이 일어날 수 있는 조건은 다음과 같다.
    * 차원의 크기가 1일때 가능하다. 두 배열 간의 연산에서 최소한 하나의 배열의 차원이 1이라면(0번 축이든 1번 축이든; 1행이든 1열이든) 가능하다.
    * 차원의 짝이 맞을 때 가능하다. 차원에 대해 축의 길이가 동일하면 브로드캐스팅이 가능하다.

In [43]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

newarr = arr.reshape(4, 3) # 배열의 형태 변경 : 1차원 -> 2차원

print(newarr)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [44]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

newarr = arr.reshape(2, 3, 2) # 배열의 형태 변경 : 1차원 -> 3차원

print(newarr)

[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]]


In [47]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8])

newarr = arr.reshape(2, 2, 2)

print(newarr)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


## 11. 배열의 정렬

In [53]:
import numpy as np

arr = np.array([3, 2, 0, 1])

print(np.sort(arr))

[0 1 2 3]


In [54]:
import numpy as np

arr = np.array(['banana', 'cherry', 'apple'])

print(np.sort(arr))

['apple' 'banana' 'cherry']


In [56]:
import numpy as np

arr = np.array([[3, 2, 4], [5, 0, 1]])

print(np.sort(arr))

[[2 3 4]
 [0 1 5]]


## 12. 배열의 아이템 찾기

In [6]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 4, 4])

x = np.where(arr == 4) # 값이 4의 인덱스

print(x, type(x))

(array([3, 5, 6]),) <class 'tuple'>


In [5]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 10])

x = np.where(arr%2 == 0) # 값이 짝수인 경우의 인덱스

print(x, type(x))

(array([1, 3, 5, 7, 8]),) <class 'tuple'>


In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 10])

x = np.where(arr%2 == 0, 0, 1) # 값이 짝수인 경우의 인덱스의 값은 0으로, 나머지는 1로

print(x)

[1 0 1 0 1 0 1 0 0]


## 13. 배열의 합치기, 나누기

In [62]:
import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.concatenate((arr1, arr2))

print(arr)

[1 2 3 4 5 6]


In [63]:
import numpy as np

arr1 = np.array([[1, 2], [3, 4]])

arr2 = np.array([[5, 6], [7, 8]])

arr = np.concatenate((arr1, arr2), axis=1)

print(arr)

[[1 2 5 6]
 [3 4 7 8]]


In [11]:
import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.stack((arr1, arr2), axis = 1)  # axis = 0 : x축부터 연결, axis = 1 : y 축부터 연결

print(arr)

[[1 4]
 [2 5]
 [3 6]]


![image.png](attachment:411816af-a99a-4e61-9ff9-8e2b6605bd63.png)

In [65]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

newarr = np.array_split(arr, 3) # 3개 배열로 나누기

print(newarr)

[array([1, 2]), array([3, 4]), array([5, 6])]


In [66]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

newarr = np.array_split(arr, 4) # 4개 배열로 나누기

print(newarr)

[array([1, 2]), array([3, 4]), array([5]), array([6])]


In [67]:
import numpy as np

arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12]])

newarr = np.array_split(arr, 3)

print(newarr)

[array([[1, 2],
       [3, 4]]), array([[5, 6],
       [7, 8]]), array([[ 9, 10],
       [11, 12]])]


In [68]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, 14, 15], [16, 17, 18]])

newarr = np.array_split(arr, 3)

print(newarr)

[array([[1, 2, 3],
       [4, 5, 6]]), array([[ 7,  8,  9],
       [10, 11, 12]]), array([[13, 14, 15],
       [16, 17, 18]])]


## 14. 통계 메소드

In [44]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, 14, 15], [16, 17, 18]])

print(arr.mean())
print(arr.sum())
print(arr.std())
print(arr.var())
print(arr.min())
print(arr.max())

9.5
171
5.188127472091127
26.916666666666668
1
18


## 15. 집합 관련 메소드

In [47]:
import numpy as np

names = np.array(['Kim', 'Lee', 'Kim', 'Han', 'Park', 'Song'])

print(np.unique(names)) # 중복 원소 제거, 남은 원소로 정렬

['Han' 'Kim' 'Lee' 'Park' 'Song']


## 16. 유니버설 함수(ufunc)
* 배열의 각 원소를 빠르게 처리하는 함수

In [1]:
import numpy as np

arr = np.arange(10)

print(np.sqrt(arr))  # 제곱근
print(np.exp(arr))   # log값

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]
[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]


In [40]:
import numpy as np

x = np.random.randn(10)
y = np.random.randn(10)


print(x)
print(y)

print(np.maximum(x, y))
print(np.minimum(x, y))

[ 0.23655183  1.88591236 -0.48189539  1.16944067  0.0769219  -0.69729606
 -0.85748164  0.59366761 -0.39961581  0.07790137]
[-0.68991976  0.71605405 -0.83340714 -0.59196777  0.08524582  0.81660141
  0.09702201 -0.00761681 -0.27316119 -1.60156956]
[ 0.23655183  1.88591236 -0.48189539  1.16944067  0.08524582  0.81660141
  0.09702201  0.59366761 -0.27316119  0.07790137]
[-0.68991976  0.71605405 -0.83340714 -0.59196777  0.0769219  -0.69729606
 -0.85748164 -0.00761681 -0.39961581 -1.60156956]


## 15. 파일 입출력

In [4]:
import numpy as np

a = np.random.randint(0, 10, (2, 3))
b = np.random.randint(0, 10, (2, 3))

print(a)
print(b)

[[7 6 2]
 [8 7 1]]
[[5 8 7]
 [7 5 0]]


In [5]:
# a배열 파일에 저장
np.save("./my_array1", a) # np.save: 1개 배열 저장, 확장자: npy

In [6]:
# a, b 두 개 배열을 파일에 저장
np.savez("my_array2", a, b) # np.savez: 복수 배열을 1개의 파일에 저장, 확장자: npz

In [7]:
# 1개 배열 로딩
np.load("./my_array1.npy")

array([[7, 6, 2],
       [8, 7, 1]])

In [9]:
# 복수 파일 로딩
npzfiles = np.load("./my_array2.npz")
print(npzfiles.files)

['arr_0', 'arr_1']


In [10]:
print(npzfiles['arr_0'])
print(npzfiles['arr_1'])

[[7 6 2]
 [8 7 1]]
[[5 8 7]
 [7 5 0]]


In [16]:
# 데이터 파일 내용
!cat ./data/students.csv

english,math,class
100,999,1
90,90,1
80,80,1
70,20,1
20,90,2
90,100,2
80,80,2
90,99,A


In [19]:
#기본 데이터 타입은 float을 설정됩니다. 
#파일 데이터 배열로 로딩
a = np.random.randint(0, 10, (2, 3))
print(a)
np.savetxt("./data/score.csv", a)

[[9 2 8]
 [2 0 2]]


In [26]:
b = np.loadtxt('./data/score.csv', np.int32)
print(b)

[[9 2 8]
 [2 0 2]]


In [42]:
#기본 데이터 타입은 float을 설정됩니다. 

arr = np.asarray([ [10,62,30], [14,25,56], [73,84,95] ])

print(arr)

np.savetxt("./data/score.csv", arr, fmt='%d', delimiter=',')

[[10 62 30]
 [14 25 56]
 [73 84 95]]


In [48]:
arr = np.loadtxt('./data/score.csv', np.int32, delimiter=',')

for a in arr :
    for b in a :
        print(b)

10
62
30
14
25
56
73
84
95
