우선, NumPy를 사용하기 위해선, ndarray 객체를 만들어야 합니다.   
ndarray 객체를 이용하면 파이썬에서 사용하는 대규모 데이터 집합을 n차원 배열로 담을 수 있습니다.   
ndarray를 그냥 array라고 부르기도 합니다.

## 1) ndarray만들기  
arange()  
array([])


In [1]:
import numpy as np

# 아래 A와 B는 결과적으로 같은 ndarray 객체를 생성합니다. 
A = np.arange(5)
B = np.array([0,1,2,3,4])  # 파이썬 리스트를 numpy ndarray로 변환

# 하지만 C는 좀 다를 것입니다. 
C = np.array([0,1,2,3,'4'])

# D도 A, B와 같은 결과를 내겠지만, B의 방법을 권합니다. 
D = np.ndarray((5,), np.int64, np.array([0,1,2,3,4]))

print(A)
print(type(A))
print(B)
print(type(B))
print(C)
print(type(C))
print(D)
print(type(D))

[0 1 2 3 4]
<class 'numpy.ndarray'>
[0 1 2 3 4]
<class 'numpy.ndarray'>
['0' '1' '2' '3' '4']
<class 'numpy.ndarray'>
[0 1 2 3 4]
<class 'numpy.ndarray'>


위에서 C의 경우 놀랍게도 '4'가 하나 들어갔을 뿐인데 0, 1, 2, 3이 모두 문자열로 바뀌었습니다. 왜일까요?  
numpy.ndarray도 역시 array입니다. 모든 element의 type이 동일해야 합니다. 여기서 파이썬의 유연함이 드러납니다.  
문자열을 모두 숫자로 바꿀 수는 없지만 숫자는 모두 문자열로 바꿔 줄 수 있습니다.  
그렇다면 C의 모든 숫자를 문자열로 해석해서 array의 요건을 맞춰줍니다.   
그러나 우리의 의도가 이런 게 아니었다면 오히려 예상치 못할 부작용이 생길 수 있으니 유의해야겠지요?

## 2) 크기 (size, shape, ndim)  
ndarray.size   
ndarray.shape   
ndarray.ndim   
reshape()

size, shape, ndim는 각각 행렬 내 원소의 개수, 행렬의 모양, 행렬의 축(axis)의 개수를 의미합니다.  
reshape() 메소드는 행렬의 모양를 바꿔줍니다. 모양을 바꾸기 전후 행렬의 총 원소 개수(size)가 맞아야 해요.

In [2]:
A = np.arange(10).reshape(2,5)   # 길이 10의 1차원 행렬을 2X5 2차원 행렬로 바꿔봅니다.

print(A.shape)
print(A.ndim)
print(A.size)

(2, 5)
2
10


원소 10개의 ndarray를 2 X 5행렬로 reshape 해주었습니다.

1 X 10 행렬은 원소 10개와 행렬의 모양이 맞지만, 3 X 3으로 resahpe하면 모양과 원소의 개수가 맞지 않죠? 그래서 아래 코드는 에러가 납니다.

In [3]:
A = np.arange(10)
print('A: ', A)
B = np.arange(10).reshape(2,5)
print('B: ', B)
C = np.arange(10).reshape(3,3)  # 이 줄에서 에러가 날 것입니다.
print('C: ', C)

A:  [0 1 2 3 4 5 6 7 8 9]
B:  [[0 1 2 3 4]
 [5 6 7 8 9]]


ValueError: cannot reshape array of size 10 into shape (3,3)

## 3) type  
NumPy 라이브러리 내부의 자료형들은 파이썬 내장함수와 동일합니다.  
그러나 살짝 헷갈리는 기능이 있을 수 있어요.  
바로 내장함수 type()과 dtype()메소드입니다.

NumPy: numpy.array.dtype  
파이썬: type()

In [6]:
A= np.arange(6).reshape(2,3)
print(A)
print(A.dtype)
print(type(A))

[[0 1 2]
 [3 4 5]]
int64
<class 'numpy.ndarray'>


In [7]:
B = np.array([0,1,2,3,4,5])  
print(B)
print(B.dtype)
print(type(B))

[0 1 2 3 4 5]
int64
<class 'numpy.ndarray'>


In [8]:
C = np.array([0,1,2,3,'4',5])
print(C)
print(C.dtype)
print(type(C))

['0' '1' '2' '3' '4' '5']
<U21
<class 'numpy.ndarray'>


In [9]:
D = np.array([0,1,2,3,[4,5],6])  # 이런 ndarray도 만들어질까요?
print(D)
print(D.dtype)
print(type(D))

[0 1 2 3 list([4, 5]) 6]
object
<class 'numpy.ndarray'>


차이가 느껴지시나요? NumPy의 원소는 꼭 동일한 데이터 type이어야 합니다.  
NumPy의 메소드인 dtype은 NumPy ndarray의 "원소"의 데이터타입을 반환해요.  
반면에 파이썬 내장함수인type(A)을 이용하면 행렬 A의 자료형이 반환됩니다.

여기서 재미있는 것은 D의 경우입니다. 이번에는 원소 하나를 list 객체로 바꿔 보았습니다.   
위의 설명대로라면 NumPy의 원소는 꼭 동일한 데이터 type이어야 하므로 이번만큼은 에러가 날줄 알았는데,  
떡하니 정상적으로 ndarray가 만들어집니다. 대신 D.dtype은 object를 리턴했습니다.  
파이썬의 최상위 클래스는 바로 object입니다.  
그러므로 Numpy는 dtype을 object로 지정해서라도 행렬 내 dtype을 일치시킬 수 있게 됩니다.

In [10]:
C = np.array([0,1,2,3,'4',5])
print(C[0])
print(type(C[0]))
print(C[4])
print(type(C[4]))

0
<class 'numpy.str_'>
4
<class 'numpy.str_'>


In [11]:
D = np.array([0,1,2,3,[4,5],6])
print(D[0])
print(type(D[0]))
print(D[4])
print(type(D[4]))

0
<class 'int'>
[4, 5]
<class 'list'>


Numpy가 행렬 내부의 원소의 type을 실제로 변경할까요?  
위 C와 D의 예로 다시 돌아가서 살펴보았습니다. 그랬더니 흥미로운 결과가 나왔습니다.  
C[0]에 해당하는 숫자 0은 행렬 안에 문자열 '0'으로 들어가 있었습니다.   
그러나 D[0]에 해당하는 숫자 0은 여전히 행렬 안에 정수 0으로 들어가 있습니다.  

Numpy라는 것이 만만치 않음을 알 수 있습니다. Numpy는 매우 스마트합니다.   
어떤 경우라도 Array 답게 연산속도를 최적화하도록 원소들을 관리하지만,  
필요에 따라 가장 효율적인 방법으로 type을 변화시켜 관리하고 있습니다.

## 4) 특수행렬
NumPy는 수학적으로 의미가 있는 행렬들을 함수로 제공하고 있습니다. 다음은 그 예시입니다.  

단위행렬  
0행렬  
1행렬  
위 1)에서 설명했던 np.arange()나 np.array() 이외에도 이 함수들을 이용해서도 numpy ndarray 객체를 생성 가능합니다.  
각각 어떤 형태의 행렬인지 예제를 살펴볼까요?

In [12]:
# 단위행렬
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
# 0행렬
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [14]:
# 1행렬
np.ones([3,3])

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 5) 브로드캐스트  
NumPy의 강력한 연산 기능중 하나인 브로드캐스트(broadcast) 연산이에요.  
ndarray 객체에 상수 연산을 하면 각각의 원소에 어떻게 연산이 적용되는지 확인해 보세요.  

직관적으로 이해하기 어려우신 분들을 위해서 NumPy.org에서 제공하는 시각적인 설명자료를 추천합니다.  

In [16]:
A = np.arange(9).reshape(3,3)
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [17]:
# ndarray A에 2를 상수배 했을 때,
A * 2

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [18]:
# ndarray A에 2를 더했을 때,
A + 2

array([[ 2,  3,  4],
       [ 5,  6,  7],
       [ 8,  9, 10]])

In [19]:
# 3 X 3 행렬에 1 X 3 행렬을 더했을 때
A = np.arange(9).reshape(3,3)
B = np.array([1, 2, 3])
print(A)
print(B)
A+B

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[1 2 3]


array([[ 1,  3,  5],
       [ 4,  6,  8],
       [ 7,  9, 11]])

In [20]:
# 3 X 3 행렬에 3 X 1 행렬을 더했을 때
A = np.arange(9).reshape(3,3)
C = np.array([[1], [2], [3]])
print(A)
print(C)
A+C

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[1]
 [2]
 [3]]


array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

In [21]:
# 3 X 3 행렬에 1 X 2 행렬을 더하는 것은 허용되지 않습니다. 
A = np.arange(9).reshape(3,3)
D = np.array([1, 2])
print(A)
print(D)
A+D

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[1 2]


ValueError: operands could not be broadcast together with shapes (3,3) (2,) 

이렇게 ndarray와 상수, 또는 서로 크기가 다른 ndarray끼리 산술연산이 가능한 기능을 브로드캐스팅이라고 합니다.  
Numpy가 파이썬 내장 리스트와 구별되는 큰 특징 중의 하나입니다. 둘 사이에 어떤 차이가 나는지 다음 코드를 통해 비교해 보시기 바랍니다.

In [22]:
print([1,2]+[3,4])
print([1,2]+3)

[1, 2, 3, 4]


TypeError: can only concatenate list (not "int") to list

In [23]:
import numpy as np
print(np.array([1,2])+np.array([3,4]))
print(np.array([1,2])+3)

[4 6]
[4 5]


## 6) 슬라이스와 인덱싱
NumPy도 파이썬 내장 리스트와 비슷한 슬라이스와 인덱싱 연산을 제공합니다. 몇 가지 예제를 통해 연습해 볼게요.

In [24]:
# 3 X 3 행렬의 첫번째 행을 구해 봅시다. 
A = np.arange(9).reshape(3,3)
print(A)
B = A[0]
print(B)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]


In [25]:
# 0, 1을 인덱싱 하면 A의 첫번째 행에서 두번째 값을 참조합니다.
# 아래 두 결과는 정확히 같습니다.
print(A[0, 1])
print(B[1])

1
1


In [26]:
# 슬라이싱도 비슷합니다.
A[:-1]

array([[0, 1, 2],
       [3, 4, 5]])

아래 그림은 NumPy 기본 인덱싱 배열입니다. 배열은 리스트와 기본적으로 비슷합니다.

자, 그러면 이 배열에서 맨 오른쪽 열을 슬라이싱 하고 싶을 땐 어떻게 해야 할까요?

In [27]:
# 이 슬라이싱의 결과는 
print(A[:,2:])
print(A[:,1:])
print(A[:,:])



[[2]
 [5]
 [8]]
[[1 2]
 [4 5]
 [7 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [28]:
# 이 슬라이싱의 결과와 동일합니다.
print(A[:,-1:])
print(A[:,-2:])
print(A[:,-3:])

[[2]
 [5]
 [8]]
[[1 2]
 [4 5]
 [7 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


몇 가지 더 연습해보고 마무리 하겠습니다. 슬라이싱 개념이 다소 혼란스러울 수 있으니,  
아래 코드 이외에도 슬라이싱 인덱스를 자유롭게 바꿔가며 확인해 보세요.

In [29]:
A[1,:2]

array([3, 4])

In [31]:
A[:2, 1:]

array([[1, 2],
       [4, 5]])

In [33]:
A[:,-1]

[2 5 8]


In [34]:
# ????
print(A[:,-1:])  #  3 X 1
print(A[:,-1])   #  1 X 3

[[2]
 [5]
 [8]]
[2 5 8]


## 7) random
NumPy에서도 다양한 의사 난수를 지원합니다.  
앞으로 많이 쓰일 기능이니 익혀두세요. 아래는 주로 많이 쓰이는 것들이지만,  
np.random 패키지 안에는 이보다 훨씬 많은 기능이 내장되어 있습니다.

np.random.randint()  
np.random.choice()  
np.random.permutation()  
np.random.normal()  
np.random.uniform()  

In [36]:
# 의사 난수를 생성하는 예제입니다. 여러번 실행해 보세요.

print(np.random.random())   # 0에서 1사이의 실수형 난수 하나를 생성합니다. 

print(np.random.randint(0,10))   # 0~9 사이 1개 정수형 난수 하나를 생성합니다. 

print(np.random.choice([0,1,2,3,4,5,6,7,8,9]))   # 리스트에 주어진 값 중 하나를 랜덤하게 골라줍니다.

0.8986778527153872
5
4


In [37]:
# 아래 2가지는 기능면에서 동일합니다. 원소의 순서를 임의로 뒤바꾸어 줍니다. 

print(np.random.permutation(10))   
print(np.random.permutation([0,1,2,3,4,5,6,7,8,9]))

[0 9 5 4 3 8 6 2 7 1]
[1 0 2 5 7 3 4 9 6 8]


In [39]:
# 아래 기능들은 어떤 분포를 따르는 변수를 임의로 표본추출해 줍니다. 

# 이것은 정규분포를 따릅니다.
print(np.random.normal(loc=0, scale=1, size=5))    # 평균(loc), 표준편차(scale), 추출개수(size)를 조절해 보세요.

# 이것은 균등분포를 따릅니다. 
print(np.random.uniform(low=-1, high=1, size=5))  # 최소(low), 최대(high), 추출개수(size)를 조절해 보세요.

[-0.10727931  0.5635915   0.28390923  0.05392523  0.19826788]
[ 0.45158895 -0.44552398 -0.34332095  0.2348329  -0.85651358]


## 8) 전치행렬
행렬의 행과 열을 맞바꾸기, 행렬의 축을 서로 바꾸기 등에 사용되는 꼭 알아야 할 기능으로 아래와 같은 것들이 있습니다.

arr.T  
np.transpose

In [40]:
A = np.arange(24).reshape(2,3,4)
print(A)               # A는 (2,3,4)의 shape를 가진 행렬입니다. 
print(A.T)            # 이것은 A의 전치행렬입니다. 
print(A.T.shape) # A의 전치행렬은 (4,3,2)의 shape를 가진 행렬입니다.

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]]
(4, 3, 2)


In [42]:
print(A) 

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [43]:
print(A.T)

[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]]


In [41]:
# np.transpose는 행렬의 축을 어떻게 변환해 줄지 임의로 지정해 줄 수 있는 일반적인 행렬 전치 함수입니다. 
# np.transpose(A, (2,1,0)) 은 A.T와 정확히 같습니다.

B = np.transpose(A, (2,0,1))
print(A)             # A는 (2,3,4)의 shape를 가진 행렬입니다. 
print(B)             # B는 A의 3, 1, 2번째 축을 자신의 1, 2, 3번째 축으로 가진 행렬입니다.
print(B.shape)  # B는 (4,2,3)의 shape를 가진 행렬입니다.

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
[[[ 0  4  8]
  [12 16 20]]

 [[ 1  5  9]
  [13 17 21]]

 [[ 2  6 10]
  [14 18 22]]

 [[ 3  7 11]
  [15 19 23]]]
(4, 2, 3)


자 그럼 이제 이어서 NumPy의 주요 기능 중 하나인 통계 데이터 계산 기능을 이용해 보도록 하겠습니다.

NumPy에서는 많은 통계 관련 수식을 함수로 제공해줍니다.  
NumPy에서 제공하는 함수들을 이용해서 위에서 계산한 평균값, 표준편차값, 중앙값을 계산하면 아래와 같이 나타낼 수 있어요.

In [44]:
import numpy as np

# 6-3 스텝에서 사용하였던 함수입니다. 
def numbers():
    X = []
    number = input("Enter a number (<Enter key> to quit)") 
    # 하지만 2개 이상의 숫자를 받아야 한다는 제약조건을 제외하였습니다.
    while number != "":
        try:
            x = float(number)
            X.append(x)
        except ValueError:
            print('>>> NOT a number! Ignored..')
        number = input("Enter a number (<Enter key> to quit)")
    return X

def main():
    nums = numbers()       # 이것은 파이썬 리스트입니다. 
    num = np.array(nums)   # 리스트를 Numpy ndarray로 변환합니다.
    print("합", num.sum())
    print("평균값",num.mean())
    print("표준편차",num.std())
    print("중앙값",np.median(num))   # num.median() 이 아님에 유의해 주세요.

main()

Enter a number (<Enter key> to quit)1
Enter a number (<Enter key> to quit)2
Enter a number (<Enter key> to quit)3
Enter a number (<Enter key> to quit)4
Enter a number (<Enter key> to quit)5
Enter a number (<Enter key> to quit)
합 15.0
평균값 3.0
표준편차 1.4142135623730951
중앙값 3.0
