<a href="https://colab.research.google.com/github/min-hee-Lee/python_workdemo/blob/master/p200_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Numpy
- NumpPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 필수 패키지중 하나이다.
- 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.
- 효율적인 다차원 배열인 ndarray(n dimensional array)는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다.
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수이다.
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구이다.
- 선형대수, 난수 생성기등에 사용된다.
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API가 제공된다.

공식문서 https://numpy.org/doc/stable/

numpy 100 문제 https://github.com/rougier/numpy-100

###1. 데이터 생성

In [1]:
#!pip install numpy
import numpy as np

In [2]:
a = np.zeros(3)  #3개의 0값을 갖는 배열 생성
                  #1차원 배열 - 벡터

In [3]:
a

array([0., 0., 0.])

In [4]:
# 처음 객체들은 type(), dir()을 해본다.
print(type(a))
print(dir(a))

<class 'numpy.ndarray'>
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__r

In [6]:
# 1차원 배열 = 벡터
a = np.array([1,2,3])   #리스트로 배열 생성
a

array([1, 2, 3])

In [7]:
print(type(a))
print(dir(a))
print(len(dir(a)))

<class 'numpy.ndarray'>
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__r

In [8]:
#2차원 배열 = 행렬
b = np.array([[1,2], [3,4]])
b

array([[1, 2],
       [3, 4]])

In [11]:
#3차원 배열 이상 = 텐서(tensor)
c = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
c

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [12]:
# 문자 데이터가 하나라도 있으면 전체가 문자로 바뀐다.
# numpy는 homogeneous이다.
a = np.array([1,'2',3])
print(a)
print(type(a))
print(type(a[0]))

['1' '2' '3']
<class 'numpy.ndarray'>
<class 'numpy.str_'>


In [13]:
b = np.array(['a',1,True])  #전체 문자열 취급
print(b)
print(type(b))
b

['a' '1' 'True']
<class 'numpy.ndarray'>


array(['a', '1', 'True'], dtype='<U21')

In [14]:
c = np.array([1, True, 2, False])  #숫자와 논리값이 같이 나오면 숫자로 취급
print(c)
print(type(c))
c
print(type(c[0]))

[1 1 2 0]
<class 'numpy.ndarray'>
<class 'numpy.int64'>


### np.zeros
- tuple로 인자를 넣으면 그대로 모양을 만든다.
- (2,3) : 2행 3열 행렬을 만든다.
- zeros는 기본값으로 0.(실수값)으로 값을 모두 채운다.  
a = np.zeros([2,3])  -> 일반적으로 이렇게 사용  
a = np.zeros((2,3))

In [15]:
a = np.zeros([2,3])  #실수값 0으로 배열 생성
a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [16]:
a = np.zeros([2,3,4])  #[depth, 행, 렬]
a

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

### np.eye
- eye는 단위 행렬
- 숫자만 사용할 수 있다.


In [17]:
# 인자값이 1개이면 행과 열이 같다.
# 3행 3열 행렬을 생성한다.
a = np.eye(3)  #1과 0으로 채워짐
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [18]:
#eye는 행과 열의 크기를 지정할 수 있다.
# 3행 2열 행렬생성
a = np.eye(3,2)
a

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [19]:
# k=1 : 크기(1)이 시작되는 위치를 지정할 수 있다 (1인덱스부터 시작)
c = np.eye(3,4, k=1) 
c

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### np.identity
- 수학에서 단위행렬은 영어로 identity matrix이다.
- 크기 한 개만 지정해서 생성할 수 있다.

In [31]:
a = np.identity(3)
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [21]:
# TypeError
# 인자 하나만 지정할 수 있다.
#a = np.identity(3,2) 
# a

TypeError: ignored

### np.full
- 지정한 크기의 배열을 생성하고 채울 값을 지정할 수 있다.
- 2행 2열의 배열 생성 후 1로 채워준다.  
  np.full((2,2),1)

In [23]:
a = np.full((2,2),1)
a

array([[1, 1],
       [1, 1]])

In [24]:
b = np.full(3,4)  #1행 3열을 4로 채운다
b

array([4, 4, 4])

In [28]:
c = np.full((2,2),[1,2]) #2행 2열에 배열이 반복돼 들어간다
c

array([[1, 2],
       [1, 2]])

In [27]:
d = np.full((2,2),[[1,2],[3,4]]) #2행 2열에 각각의 배열을 넣어준다
d

array([[1, 2],
       [3, 4]])

### np.empty
- 배열을 생성하고 초기화를 지정하지 않는다.
- 메모리에 있는 값이나 이전에 사용했던 값들로 채워진다.

In [32]:
a = np.empty(3)
a

array([1., 1., 1.])

In [33]:
k = np.zeros((2,3))
k

array([[0., 0., 0.],
       [0., 0., 0.]])

In [34]:
# zeros해서 생성한 배열이 있으면 배열의 값을 0으로 채워준다
b = np.empty((2,3))  #위에서 (이전에)사용했던 값으로 채워짐
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [36]:
c = np.empty((2,5))
c

array([[2.55356050e-316, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000, 0.00000000e+000],
       [6.45510839e+170, 2.14339046e+184, 6.20490842e-091,
        2.95773940e-032, 1.37137143e+241]])

### np.ones
- 배열의 모든 값을 1로 채운다

In [37]:
# 1행 3열의 배열 생성 후 모든 값을 1로 채운다.
a = np.ones(3)
a

array([1., 1., 1.])

In [38]:
# b = np.ones([2,3]) 리스트 형태도 가능
b = np.ones((2,3))
b

array([[1., 1., 1.],
       [1., 1., 1.]])

### _like
- _like가 붙으면 shape가 같게 만들어진다.
- 연산하기 위해서 shape를 맞춰야 하는 경우가 있다.

In [39]:
a = np.array([[1,2,3],[4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [40]:
a.shape #배열의 구조 확인(2행 3열)

(2, 3)

In [41]:
b = np.empty_like(a)
b

array([[4607182418800017408, 4607182418800017408, 4607182418800017408],
       [4607182418800017408, 4607182418800017408, 4607182418800017408]])

In [42]:
c = np.eye(2)
c

array([[1., 0.],
       [0., 1.]])

In [43]:
c.shape

(2, 2)

In [44]:
d = np.eye(3)
d

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [45]:
d.shape

(3, 3)

In [47]:
# ValueError 
#c + d   #2행2열과 3행 3열은 합칠 수 없음

ValueError: ignored

### linspace
- 동등한 간격으로 값을 생성한다.
  - 0부터 49까지 50개가 생성된다면 세 번째 num인자 값이 생략되어 있으므로 start와 end를 계산해서 default 50이 생성된다.
  - linspace(start, end, num)
  - linspace(0,49) #num=50

In [48]:
a = np.linspace(0, 49)
a

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49.])

In [49]:
b = np.linspace(0,20)
b

array([ 0.        ,  0.40816327,  0.81632653,  1.2244898 ,  1.63265306,
        2.04081633,  2.44897959,  2.85714286,  3.26530612,  3.67346939,
        4.08163265,  4.48979592,  4.89795918,  5.30612245,  5.71428571,
        6.12244898,  6.53061224,  6.93877551,  7.34693878,  7.75510204,
        8.16326531,  8.57142857,  8.97959184,  9.3877551 ,  9.79591837,
       10.20408163, 10.6122449 , 11.02040816, 11.42857143, 11.83673469,
       12.24489796, 12.65306122, 13.06122449, 13.46938776, 13.87755102,
       14.28571429, 14.69387755, 15.10204082, 15.51020408, 15.91836735,
       16.32653061, 16.73469388, 17.14285714, 17.55102041, 17.95918367,
       18.36734694, 18.7755102 , 19.18367347, 19.59183673, 20.        ])

In [50]:
len(b)

50

In [52]:
# 1부터 10까지 3개의 요소를 생성한다.
# 기본은 endpoint=True 로 설정되어 있기 때문에 10이 포함된다.
np.linspace(1,10,3)

array([ 1. ,  5.5, 10. ])

In [53]:
# 1부터 10미만 사이에서 3개의 요소를 생성한다.
# endpoint=False로 설정되어 있으므로 10이 포함 안된다.
np.linspace(1,10,3, endpoint=False)

array([1., 4., 7.])

### logspace
- linspace 와 비슷하다.
- log scale을 사용하는 차이가 있다.
- 1부터 50까지 사이의 10개의 요소를 생성한다.
- np.logspace(1,50,10)

In [54]:
a = np.logspace(1,50,10)
a

array([1.00000000e+01, 2.78255940e+06, 7.74263683e+11, 2.15443469e+17,
       5.99484250e+22, 1.66810054e+28, 4.64158883e+33, 1.29154967e+39,
       3.59381366e+44, 1.00000000e+50])

### dtype
- numpy는 c언어를 기반으로 해서 만들었기 때문에 c의 데이터 타입을 차용할 수 있다.

In [55]:
a = np.array([1,2,3])
a

array([1, 2, 3])

In [56]:
print(type(a))
print(a.dtype)

<class 'numpy.ndarray'>
int64


In [57]:
b = np.array([1,2,3],dtype=np.int8)  #numpy데이터타입으로 지정할 수 있다.(np.int8)8은 비트
b

array([1, 2, 3], dtype=int8)

In [58]:
#np.int8은 -128 ~ 127 사이의 값을 지정할 수 있다.
c = np.array([-127, -128,17, 2, 3, -127, -128, 127], dtype=np.int8)
c

array([-127, -128,   17,    2,    3, -127, -128,  127], dtype=int8)

In [59]:
# int는 python의 int를 사용한다.
d = np.array([127, 2, 3, -127, -128], dtype=int)   #int내부는 64비트로 처리된다
d

array([ 127,    2,    3, -127, -128])

In [60]:
type(d[0])

numpy.int64

### python 도움말

In [61]:
?sum

In [62]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



### numpy 도움말

In [63]:
np.lookfor('sum')

Search results for 'sum'
------------------------
numpy.sum
    Sum of array elements over a given axis.
numpy.cumsum
    Return the cumulative sum of the elements along a given axis.
numpy.einsum
    einsum(subscripts, *operands, out=None, dtype=None, order='K',
numpy.nansum
    Return the sum of array elements over a given axis treating Not a
numpy.nancumsum
    Return the cumulative sum of array elements over a given axis treating Not a
numpy.einsum_path
    Evaluates the lowest cost contraction order for an einsum expression by
numpy.trace
    Return the sum along diagonals of the array.
numpy.ma.sum
    Return the sum of the array elements over the given axis.
numpy.Bytes0.sum
    Scalar method identical to the corresponding array attribute.
numpy.polyadd
    Find the sum of two polynomials.
numpy.ma.cumsum
    Return the cumulative sum of the array elements over the given axis.
numpy.logaddexp
    Logarithm of the sum of exponentiations of the inputs.
numpy.Bytes0.cumsum
    Scal

In [64]:
a = np.array([[1,2,3], [4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:
a.shape   #2행3열

(2, 3)

In [66]:
# array가 몇 차원인지 알려준다(2행=2차원)
# shape로도 알 수 있다
a.ndim 

2

In [67]:
# 데이터 타입을 알려준다.
a.dtype

dtype('int64')

In [68]:
# 요소 전체의 개수를 알려준다
# shape로도 알 수 있다 (2행 x 3열 = 6개)
a.size

6

In [69]:
# 요소당 byte수를 알려준다.
a.itemsize

8

### numpy와 python의 속도 차이(정도만 알기)

In [70]:
np.arange(10)    #range와 같은 역할

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
# numpy를 이용한 계산
%time np.sum(np.arange(1000000000))

CPU times: user 1.78 s, sys: 4.16 s, total: 5.94 s
Wall time: 5.96 s


499999999500000000

In [72]:
# python을 이용한 계산
%time sum(range(1000000000))

CPU times: user 18.4 s, sys: 0 ns, total: 18.4 s
Wall time: 18.4 s


499999999500000000

같은 np.sum()을 사용하더라도 값을 생성하는 방법에 따라 속도가 달라진다.

In [None]:
# 오래걸림(포기)
# %time np.sum(range(1000000000))

### copy
※ 대입문 6가지    
  a = 1  
  a = b = 1  
  a, b = 1, 2  
  a, *b = 1, 2, 3  
  a += 1  
  global, nonlocal


### python copy

In [1]:
a = [1,2,3] #sequence, mutable, heterogeneous

In [2]:
b = a

In [3]:
b

[1, 2, 3]

In [5]:
a is b    #메모리 주소 비교

True

In [6]:
# a와 b가 메모리 주소를 공유
# b값을 변경하면 a도 같이 변경 된다.
b[0] = 7

In [7]:
b

[7, 2, 3]

In [8]:
a

[7, 2, 3]

list copy()

In [9]:
a = [1,2,3]

In [24]:
# copy()는 똑같은 값만 가지고 메모리는 공유하지 않는다.
b = a.copy()

In [25]:
a is b   #메모리 주소 비교

False

In [26]:
id(a)  #주소값 확인


140565965022272

In [27]:
id(b)

140565964069760

In [28]:
b[0] =8

In [29]:
b

[8]

In [30]:
a

[[1, 2, 3]]

In [18]:
print(a is b)
print(a == b)

False
False


list가 2차원일 때 

In [19]:
a = [[1,2,3]]

In [20]:
type(a)

list

In [21]:
# shallow copy
b = a.copy()

In [22]:
print(a is b)
print(a ==b)

False
True


In [23]:
print(a[0] is b[0])
print(a[0] == b[0])

True
True


list deepcopy()

In [31]:
import copy

In [32]:
a = [[1,2,3]]
b = copy.deepcopy(a)

In [33]:
print(a)
print(b)

[[1, 2, 3]]
[[1, 2, 3]]


In [35]:
print(a is b)
print(a == b)
print(a[0] is b[0]) # deep copy가 됨
print(a[0] == b[0])

False
True
False
True


[:]는 전체라는 뜻이다.
- 슬라이싱 방식으로 1차 리스트일 때는 재할당하면 deepcopy가 된다.
- 슬라이싱 2차 리스트 이상인 경우 shallow copy가 발생한다.

In [37]:
#1차원 배열일 때
a = [1,2,3]
b = a[:]
print(a is b) #주소값
print (a ==b) #요소값
b[0] = 7
print(a is b)
print (a==b)

False
True
False
False


In [36]:
#2차원 배열일 때
a = [[1,2,3]]
# 슬라이싱 2차 이상인 경우 shallow copy가 된다.
b = a[:]
print(a is b)
print (a ==b)
b[0][0] = 7
print(a is b)
print (a==b)  #a값도 b와 같이 바뀜

False
True
False
True


※python의 copy는 기본적으로 2차원부터 shallow copy를 한다.

### numpy의 copy

In [38]:
import numpy as np
a = b = np.array([1,2,3])

In [39]:
print(a is b)
print(a==b)

True
[ True  True  True]


array는 sequence타입으로 인덱싱과 슬라이싱이 가능하다.

In [40]:
a[0]  #indexing

1

In [41]:
a[:]  #slicing

array([1, 2, 3])

In [42]:
# array는 mutable이다.
# 예외가 몇 가지 있지만 mutable에 가깝다.
a[0] = 100
print(a)
print(b)

[100   2   3]
[100   2   3]


array는 homogeneous, sequence, mutable이다.

array deepcopy

In [43]:
a = np.array([[1,2,3]])
# numpy는 기본적으로 deepcopy이다.
b = a.copy()

In [44]:
print(a is b)

False


### as 계열
다른 데이터 타입을 가져와서 바꿔서 사용할 때는 as라는 이름이 보통 붙는다.

In [47]:
# python의 list 데이터 타입을 int ndarry로 변환
a = [1,2,3]  #python의 list
print(type(a))
print(type(a[0]))

b = np.array(a)   #numpy의 array
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'int'>
<class 'numpy.ndarray'>
<class 'numpy.int64'>


In [48]:
# python의 list 데이터 타입을 int ndarry로 변환(asarray())
a = [1,2,3]  #python의 list
print(type(a))
print(type(a[0]))

b = np.asarray(a)   #numpy의 array
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'int'>
<class 'numpy.ndarray'>
<class 'numpy.int64'>


In [49]:
# python의 list 데이터 타입을 int ndarry로 변환(asarray())
a = [1,2,3]  #python의 list
print(type(a))
print(type(a[0]))

b = np.asfarray(a)   #numpy의 array (asfarrayy하면 float으로 바꿈)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'int'>
<class 'numpy.ndarray'>
<class 'numpy.float64'>


In [50]:
# python의 list 데이터 타입을 int ndarry로 변환(asarray())
a = [1.,2.,3.]  #python의 list  (1. 숫자뒤에 .점붙이면 실수타입)
print(type(a))
print(type(a[0]))

b = np.asarray(a)   #numpy의 array (위의 python타입을 그대로 가져옴)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'float'>
<class 'numpy.ndarray'>
<class 'numpy.float64'>


### 배열의 값 가져오기

#### (1) comma로 값 가져오기

In [51]:
a = [[1,2,3], [4,5,6]]  #python
b = np.array([[1,2,3], [4,5,6]]) #array

In [52]:
a[0]

[1, 2, 3]

In [53]:
# a[0,1]  # 이렇게는 못가져온다

TypeError: ignored

In [54]:
a[0][1]   #인덱스를 이용해 값을 가져올 때는 행,렬을 입력해줘야함

2

In [55]:
a[slice(0,1)]

[[1, 2, 3]]

In [56]:
b[0]

array([1, 2, 3])

In [57]:
b[0, 1]

2

### (2) boolean indexing

In [58]:
a = [[1,2,3,4]]   # python list

In [59]:
# TypeError
# a > 3

TypeError: ignored

In [60]:
b = np.array([1,2,3,4])
b

array([1, 2, 3, 4])

In [61]:
b > 3

array([False, False, False,  True])

array를 scalar와 연산하면 elementwise로 계산한다.  
(elementwise : 원소별로 각각 계산이 된다.)

In [62]:
b[b>3]   #True인 값만 가져온다.

array([4])

numpy에서 boolean indexing 조건
- array만 가능하다.
- numpy True,False로만 가능하다.
- shape가 맞아야 한다.(개수가 맞을 때만 사용할 수 있다)

####(3) fancy indexing

In [64]:
b = np.arange(100).reshape([20,5])  #reshape(행, 열) 배열의 구조 변경
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54],
       [55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64],
       [65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74],
       [75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84],
       [85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94],
       [95, 96, 97, 98, 99]])

In [71]:
b[:]    #b 전체를 복사해서 가져와라 =b[:,:]와 같다
print(b[1])
print(b[1,2]) # 1행에 2번 인덱스값 가져와라
print(b[1:3])  #1행에서부터 3행 미만의 수를 가져와라
print(b[1:3, 2:4]) # 2번째 행에부터 4행 미만

print(b[[1,3,5]])  #1행 3행 5행 출력

print(b[[1,3,5], [0,2,4]]) #1,3,5행에서 0,2,4열에 해당되는 것만 출력

print(b[:,[0,2,4]])  #전체 행에서 0,2,4열에 해당되는 것만 출력

[5 6 7 8 9]
7
[[ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 7  8]
 [12 13]]
[[ 5  6  7  8  9]
 [15 16 17 18 19]
 [25 26 27 28 29]]
[ 5 17 29]
[[ 0  2  4]
 [ 5  7  9]
 [10 12 14]
 [15 17 19]
 [20 22 24]
 [25 27 29]
 [30 32 34]
 [35 37 39]
 [40 42 44]
 [45 47 49]
 [50 52 54]
 [55 57 59]
 [60 62 64]
 [65 67 69]
 [70 72 74]
 [75 77 79]
 [80 82 84]
 [85 87 89]
 [90 92 94]
 [95 97 99]]


In [72]:
# fancying indexing은 인덱싱 기법만 사용할 수 있다.
# ":" (콜론)은 슬라이싱 기법이므로 지원하지 않는다.
#b[[2:5]]

SyntaxError: ignored

fancy indexing 은 (행,열의) 개수가 같게 지정되어야 한다.

In [73]:
b[[1,3,4],[0,2,1]]  #1행 0열, 3행 2열, 4행 1열 출력
                    # 정상처리됨

array([ 5, 17, 21])

In [74]:
#IndexError
#b[[1,3,5],[0,2]]

IndexError: ignored

### 3차원 이상에서 차원 구분법

In [75]:
b = np.arange(24).reshape(2,3,4)
b

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [76]:
print(b)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [77]:
b[0]   #0번째 깊이에 있는것(단락)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [78]:
b[1]

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [79]:
b[0,1]

array([4, 5, 6, 7])

In [80]:
b[0,1,3]  # 0깊이 1인덱스행 3인덱스

7

### fancy indexing과 indexing 차이
  - indexing은 원래 차원에서 하나 감소해서 가져오고 fancy indexing은 원래 차원 그대로 가져온다.

In [81]:
b[0]  #indexing은 차원이 하나 감소해서 가져온다(3차원 -> 2차원으로)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [82]:
b[[0]]   #fancy indexing은 원래 3차원 그대로 가져온다

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]])

In [88]:
#b[0]  #인덱싱 2차원 가져옴
#b[0,:,:]  #인덱싱 2차원 가져옴
b[[0],:,:] #팬시 인덱싱 3차원 가져옴

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]])

### Ellipsis

In [89]:
b[0,:,:]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [90]:
b[0,...]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [91]:
type(...)

ellipsis

In [92]:
b[0]   #생략기법(인덱싱 기법)
b[0,:,:] #슬라이싱 기법
b[0,...] #Elipse기법

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [93]:
b

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [95]:
# 숫자 1,5,9만 가져온다.
b[0,:,1]   #0번째 깊이에서 1열만 가져오면 됨

array([1, 5, 9])

In [96]:
#숫자 1,5,9,3,7,11가져오기
b[0,:,[1,3]]

array([[ 1,  5,  9],
       [ 3,  7, 11]])

In [97]:
#숫자 4,  5,  6,  7, 16, 17, 18, 19 가져오기
# 각 깊이의 1행만 가져오기
b[:,1,:]


array([[ 4,  5,  6,  7],
       [16, 17, 18, 19]])

In [98]:
b[:,1:2, :]   #원래 차원수 3차원 그대로 가져옴
#배열을 할 때는 차원수 고려해서 출력해야함.

array([[[ 4,  5,  6,  7]],

       [[16, 17, 18, 19]]])

In [99]:
# 숫자 3,7,11,15,19,23가져오기
b[:,:,3]

array([[ 3,  7, 11],
       [15, 19, 23]])

In [100]:
# 숫자 3,7,11,15,19,23 원래 크기 그대로 가져오기(3차원)
b[:,:,[3]]

array([[[ 3],
        [ 7],
        [11]],

       [[15],
        [19],
        [23]]])

### 줄임표현(...)
출력해야 할 데이터 수가 매우 클 때 보이는 ...은 Elipsis와 다르다.

In [101]:
# out(출력)에 나오는 ...은 단순히 줄임표현이다.
np.arange(100000)

array([    0,     1,     2, ..., 99997, 99998, 99999])

In [102]:
np.set_printoptions(edgeitems=6)   #줄임표 양쪽에 6개씩 출력되게 지정

In [103]:
np.arange(100000)

array([    0,     1,     2,     3,     4,     5, ..., 99994, 99995, 99996,
       99997, 99998, 99999])

### 연산
numpy 연산의 기본은 두 개의 shape가 같아야 한다.

In [104]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [105]:
a.shape

(3, 4)

In [106]:
b = np.arange(1,13).reshape(3,4)  #np.arange(1,13)시작값 1 끝값 13 지정
b

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [107]:
b.shape

(3, 4)

numpy는 elementwise로 vectorize 연산을 한다.  
vectorize는 데이터의 연산을 일괄적으로 처리하는 기능이다.

In [108]:
# 같은 위치의 요소끼리 더해준다.(elementwise(리스트에서는 안됨))
a+b    #a와 b의 shape이 같으므로 각각 같은자리 데이터끼리 연산돼서 출력

array([[ 1,  3,  5,  7],
       [ 9, 11, 13, 15],
       [17, 19, 21, 23]])

In [109]:
[1,2,3] + [4,5,6]   #python list

[1, 2, 3, 4, 5, 6]

numpy는 python함수도 ventorize 시키는 기능을 지원한다.

In [110]:
#list도 같은 위치 요소끼리 연산하고 싶을 경우
@np.vectorize
def plus(a,b):
  return a+b

plus([1,2,3], [4,5,6])

array([5, 7, 9])

In [111]:
a * b

array([[  0,   2,   6,  12],
       [ 20,  30,  42,  56],
       [ 72,  90, 110, 132]])

In [112]:
#[1,2,3] * [4,5,6]
#list는 안됨

TypeError: ignored

In [114]:
c = np.matrix([[1,2],[3,4]])
c

matrix([[1, 2],
        [3, 4]])

In [115]:
type(c)

numpy.matrix

In [116]:
# matrix * matrix = 행렬곱
# 1*1+2*3  1*2+2*4
# 3*1+4*3  3*2+4*4
c * c

matrix([[ 7, 10],
        [15, 22]])