# Numpy
- NumPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 필수 패키지중 하나이다.
- 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.
- 효율적인 다차원 배열인 ndarray(n dimensional array)는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다.
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수이다.
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구이다.
- 선형대수, 난수 생성기등에 사용된다.
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API가 제공된다.


공식문서 https://numpy.org/doc/stable/  
numpy 100 문제 https://github.com/rougier/numpy-100


### 1. 데이터 생성

In [51]:
import numpy as np

In [2]:
a = np.zeros(3)  # 1차원 배열 = 벡터

In [3]:
a

array([0., 0., 0.])

In [4]:
print(a)

[0. 0. 0.]


처음 객제들은 type(), dir()을 해본다.

In [5]:
type(a)

numpy.ndarray

In [6]:
print(dir(a))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift_

In [7]:
# list 생성
b = [1, 2, 3]

In [8]:
type(b)

list

In [9]:
print(dir(b))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


### numpy 값 만들기

In [12]:
# 1차원 배열 = 벡터
a = np.array([1,2,3,4])

In [11]:
a

array([1, 2, 3, 4])

In [14]:
# 2차원 배열 = 행렬
b = np.array([[1,2],[3,4]])

In [15]:
b

array([[1, 2],
       [3, 4]])

In [16]:
type(b)

numpy.ndarray

In [17]:
print(dir(b))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift_

In [22]:
# 3차원 배열 이상 = 텐서(tensor)
c = np.array([[[1,2],[3,4],[5,6]]])

In [23]:
c

array([[[1, 2],
        [3, 4],
        [5, 6]]])

In [24]:
type(c)

numpy.ndarray

In [25]:
print(dir(c))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift_

In [26]:
# 문자 데이터가 하나라도 있으면 전체가 문자로 바뀐다.
a = np.array([1,'2',3])

In [27]:
# numpy는 homogeneous 이다
a

array(['1', '2', '3'], dtype='<U11')

In [28]:
b = np.array(['a', 1, True])

In [29]:
b

array(['a', '1', 'True'], dtype='<U11')

In [32]:
# tuple로 인자를 넣으면 그대로 모양을 만든다.
# (2,3) : 2행 3열 행렬을 만든다.
# zeros는 0으로 값을 모두 채운다.
a = np.zeros((2,3))

In [33]:
a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [34]:
# tuple대신 int로 넣으면 벡터로 모양을 만든다
b = np.zeros(2)

In [35]:
b

array([0., 0.])

np.eye

In [37]:
# eye는 단위 행렬
# 숫자만 사용할 수 있다.
a = np.eye(3)

In [38]:
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [39]:
# eye는 행과 열의 크기를 지정할 수 있다.
b = np.eye(3,2)

In [40]:
b

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [42]:
# 크기(1)가 시작되는 위치를 지정해줄 수 있다.
c = np.eye(3, 4, k=1)

In [43]:
c

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

mp.identity

In [48]:
# 수학에서 단위행렬은 영어로 identity matrix
# 크기한개만 지정해서 생성할 수 있다.
a = np.identity(3)

In [49]:
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [50]:
# TypeError
# 인자 하나만 지정할 수 있다.
b = np.identity(3,2)

TypeError: Cannot interpret '2' as a data type

np.full

In [52]:
# 지정한 크기의 배열을 생성하고 채울값을 지정한다.
# 2행 2열의 배열 생성한 후 1로 채워준다.
a = np.full((2,2), 1)

In [53]:
a

array([[1, 1],
       [1, 1]])

In [54]:
# int로 크기를 지정하면 1행 n열의 배열을 생성한다.
# 1행 3열의 배열 생성한 후 4로 채워준다.
b = np.full(3,4)

In [55]:
b

array([4, 4, 4])

In [57]:
c = np.full((1,2),[1,2])

In [58]:
c

array([[1, 2]])

In [60]:
d = np.full((2,2), [1,2])

In [61]:
d

array([[1, 2],
       [1, 2]])

In [62]:
e = np.full((1,3),[1,2,3])

In [64]:
e

array([[1, 2, 3]])

In [65]:
f = np.full((2,3),[1,2,3])

In [66]:
f

array([[1, 2, 3],
       [1, 2, 3]])

np.empty

In [71]:
# random 값으로 1행 3열의 배열을 생성된다.
a = np.empty(3)

In [72]:
a

array([8.77855876e-312, 0.00000000e+000, 4.94065646e-324])

In [73]:
# zeros해서 생성한 배열이 있으면 배열의 값을 0으로 채워버린다.
b = np.empty((2,3))

In [74]:
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [75]:
c= np.empty([2,3])

In [76]:
c

array([[0., 0., 0.],
       [0., 0., 0.]])

In [77]:
d = np.empty((2,5))

In [78]:
d

array([[ 8.77865840e-312,  2.32210854e-322,  0.00000000e+000,
         0.00000000e+000, -3.81152633e-032],
       [ 1.16095484e-028,  5.28595592e-085,  3.18650134e-110,
         2.91237123e+257,  4.71294503e+257]])

In [79]:
m = np.zeros((3,4))

In [80]:
m

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [81]:
n = np.empty((3,4))

In [82]:
n

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [83]:
k = np.empty((4,5))

In [84]:
k

array([[8.77865500e-312, 6.27463370e-322, 0.00000000e+000,
        0.00000000e+000, 1.89146896e-307],
       [5.30276956e+180, 1.02941932e-071, 6.97665885e-076,
        5.06479213e-086, 3.35760519e-143],
       [6.01433264e+175, 6.93885958e+218, 5.56218858e+180,
        3.94356143e+180, 2.76886598e-057],
       [2.12746673e+160, 7.39875369e-038, 1.08694577e-071,
        4.45785774e-143, 1.50008929e+248]])

In [85]:
p = np.zeros((4,5))

In [86]:
p

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [91]:
k = np.empty((4,5))

In [92]:
k

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [93]:
z = np.empty(6)

In [94]:
z

array([1., 0., 0., 1., 0., 0.])

In [97]:
s = np.empty(16)

In [98]:
s

array([4.67296746e-307, 1.69121096e-306, 1.69119873e-306, 8.34441742e-308,
       1.78022342e-306, 6.23058028e-307, 9.79107872e-307, 6.89807188e-307,
       7.56594375e-307, 6.23060065e-307, 1.78021527e-306, 8.34454050e-308,
       1.11261027e-306, 1.15706896e-306, 1.33512173e-306, 1.33504432e-306])

In [99]:
p = np.zeros((4,4))

In [100]:
p

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [101]:
k = np.empty(16)

In [102]:
k

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

np.ones

In [103]:
# 1행 3열 배열 생성 한 후 모든 값을 1로 채운다.
a = np.ones(3)

In [104]:
a

array([1., 1., 1.])

In [105]:
# 3행4열 배열 생성한 후 모든 값을 1로 채운다.
b = np.ones((3,4))

In [106]:
b

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [107]:
c = np.ones([3,4])

In [108]:
c

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [110]:
# ones로 생성한 값을 그대로 사용을 한다.
# 즉, empty의 앞에서 생성한 크기가 있으면 그대로 값을 사용한다.
d = np.empty((3,4))

In [111]:
d

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [116]:
e = np.eye(3,4)

In [117]:
e

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

In [118]:
f = np.empty((3,4))

In [119]:
f

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

In [120]:
k = np.identity(3)

In [121]:
k

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [124]:
r = np.empty((3,3))

In [125]:
r

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [126]:
u = np.full((3,4), 0) # 0과 1로 되어있더라도 값을 지정하는 것들은 가져오지 않음.

In [127]:
u

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [128]:
t = np.empty((3,4))

In [129]:
t

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

_like

In [61]:
a = np.array([[1,2,3],[4,5,6]])

In [62]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [63]:
a.shape

(2, 3)

In [64]:
# _like가 붙으면 shape이 같게 만들어진다.
# 연산하기 위해서 shape을 맞춰야하는 경우가 있다.
b = np.empty_like(a)

In [65]:
b

array([[1914582736,        733,          0],
       [         0,     131075,    7929968]])

In [66]:
np.__version__

'1.20.1'

In [67]:
a = np.eye(2)

In [68]:
b = np.eye(3)

In [69]:
a.shape

(2, 2)

In [70]:
b.shape

(3, 3)

In [71]:
# ValueError
a+b

ValueError: operands could not be broadcast together with shapes (2,2) (3,3) 

In [74]:
a= np.linspace(0,49) # num = 50

In [75]:
a

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49.])

In [76]:
len(a)

50

In [77]:
# 1부터 10까지 3개의 요소를 생성
# 기본은 endpoint=True로 설정되어 있기 때문에 10이 포함이 된다.
np.linspace(1,10,3)

array([ 1. ,  5.5, 10. ])

In [78]:
# 1부터 10미만 사이에서 3개의 요소를생성한다.
# endpoint = False로 설정되어 있으므로 10이 포함이 안된다.
np.linspace(1, 10, 3, endpoint=False)

array([1., 4., 7.])

In [79]:
np.linspace(1, 10, 4, endpoint=False)

array([1.  , 3.25, 5.5 , 7.75])

In [94]:
# linspace와 비슷하다.
# 1부터 50까지 10개의 로그스케일 요소를 생성
a = np.logspace(1, 50, 10)

In [95]:
a

array([1.00000000e+01, 2.78255940e+06, 7.74263683e+11, 2.15443469e+17,
       5.99484250e+22, 1.66810054e+28, 4.64158883e+33, 1.29154967e+39,
       3.59381366e+44, 1.00000000e+50])

dtype

numpy는 c를 기반으로 해서 만들었기 때문에 C의  데이터 타입을 차용할 수 있다.

In [83]:
a = np.array([1,2,3], dtype = np.int8)

In [84]:
a

array([1, 2, 3], dtype=int8)

In [85]:
type(a)

numpy.ndarray

In [86]:
type(a[0])

numpy.int8

In [92]:
# np.int8은 -128 ~ 127 사이의 값을 저장할 수 있다. (2^8 = 256개)
b = np.array([129, 128, 127, 2, 3, -127, -128, -129], dtype=np.int8)  

In [93]:
b

array([-127, -128,  127,    2,    3, -127, -128,  127], dtype=int8)

In [89]:
type(b[0])

numpy.int32

In [96]:
c = np.array([127, 2, 3, -127, -128], dtype=int)

In [97]:
c

array([ 127,    2,    3, -127, -128])

In [98]:
type(c[0])

numpy.int32

In [99]:
# 문자열 표현으로 쓸 수 있다.
d = np.array([267, 8, 4], dtype='i8')

In [100]:
d

array([267,   8,   4], dtype=int64)

In [101]:
type(d[0])

numpy.int64

python의 도움말

In [102]:
?sum

In [103]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In [104]:
# jupyter도움말 : shift + tab
sum

<function sum(iterable, /, start=0)>

In [106]:
np.lookfor('sum')

Search results for 'sum'
------------------------
numpy.sum
    Sum of array elements over a given axis.
numpy.cumsum
    Return the cumulative sum of the elements along a given axis.
numpy.einsum
    einsum(subscripts, *operands, out=None, dtype=None, order='K',
numpy.nansum
    Return the sum of array elements over a given axis treating Not a
numpy.nancumsum
    Return the cumulative sum of array elements over a given axis treating Not a
numpy.einsum_path
    Evaluates the lowest cost contraction order for an einsum expression by
numpy.trace
    Return the sum along diagonals of the array.
numpy.ma.sum
    Return the sum of the array elements over the given axis.
numpy.Bytes0.sum
    Scalar method identical to the corresponding array attribute.
numpy.polyadd
    Find the sum of two polynomials.
numpy.ma.cumsum
    Return the cumulative sum of the array elements over the given axis.
numpy.logaddexp
    Logarithm of the sum of exponentiations of the inputs.
numpy.Bytes0.cumsum
    Scal

In [107]:
a = np.array([[1,2,3],[4,5,6]])

In [109]:
# array의 shape을 알려준다.
a.shape

(2, 3)

In [110]:
# 몇 차원인지 알려준다.
# shape로도 알 수 있다.
a.ndim

2

In [112]:
# 데이터 타입을 알려준다.
a.dtype

dtype('int32')

In [114]:
# 요소의 개수를 알려준다.
# shape만 있으면 알 수 있다.
a.size

6

In [115]:
# 요소당 byte 수를 알려준다.
# dtype을 8ㄹ 나누면 itemsize가 된다. dtype만 있으면 알 수 있다.
a.itemsize # 1byte=8bit ( 4bytes = 32bit)

4

### numpy와 python의 속도차이

In [116]:
np.arange(10) # range

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [117]:
# numpy를 이용한 계산
%time np.sum(np.arange(100000000))

Wall time: 576 ms


887459712

In [119]:
# python을 이용한 계산
%time sum(range(100000000))

Wall time: 7.83 s


4999999950000000

같은 np.sum()사용하더라도 값을 생성하는 방법에 따라 속도가 달라진다.

In [120]:
%time np.sum(np.arange(100000000))

Wall time: 432 ms


887459712

In [None]:
%time np.sum(range(100000000))

### copy

In [None]:
※ 대입문 6가지  
a = 1  
a = b = 1   # a = b = [1,2,3]
a,b = 1,2  
a, *b = 1,2,3
a += 1  # a = a +1 
global, nonlocal


python에서 copy

In [3]:
a = [1, 2, 3] # heterogeneous, sequence, mutable

In [4]:
b = a

In [5]:
b

[1, 2, 3]

In [6]:
a is b #메모리 주소 비교

True

In [7]:
# a와 b가 메모리 주소를 공유
# b 값을 변경하면 a도 같이 변경이 된다.
b[0] = 7

In [8]:
b

[7, 2, 3]

In [9]:
a

[7, 2, 3]

copy

In [10]:
a = [1, 2, 3]

In [11]:
# copy()는 똑같은 값만 가지고 메모리는 공유하지 않는다.
b = a.copy()

In [12]:
a is b

False

In [13]:
id(a)

1737592780224

In [14]:
id(b)

1737591579968

In [15]:
a == b

True

In [16]:
b[0] = 7

In [17]:
# a는 안바뀐다.
print(a)
print(b)

[1, 2, 3]
[7, 2, 3]


shallow copy

In [23]:
a = [[1,2,3]]

In [24]:
type(a)

list

In [28]:
# shallow copy(2차원 이상이면)
b = a.copy()

In [29]:
a is b

False

In [30]:
print(a)
print(b)

[[1, 2, 3]]
[[1, 2, 3]]


In [31]:
b[0][0] = 7

In [32]:
print(a)
print(b)

[[7, 2, 3]]
[[7, 2, 3]]


In [33]:
a[0] is b[0]

True

deepcopy

In [34]:
import copy

In [35]:
a = [[1,2,3]]

In [36]:
b = copy.deepcopy(a)

In [37]:
print(a)
print(b)

[[1, 2, 3]]
[[1, 2, 3]]


In [38]:
a is b

False

In [39]:
# deep copy가 됨 : 밑바닥까지 그대로 data값을 복사해와서 다른 메모리에 생성
a[0] is b[0]

False

[:]는 전체라는 뜻이다.
슬라이싱 방식으로 1차 리스트일때는 재할당하면 deepcopy가 된다. 슬라이싱도 2차 리스트 이상인 경우 shallow copy가 된다.

In [40]:
a = [1,2,3]

In [41]:
b = a[:]

In [42]:
print(a)
print(b)

[1, 2, 3]
[1, 2, 3]


In [43]:
b[0]=7

In [44]:
print(a)
print(b)

[1, 2, 3]
[7, 2, 3]


In [45]:
a = [[1,2,3]]

In [46]:
# 슬라이싱도 2차원 이상인 경우  shallow copy가 된다.
b = a[:]

In [47]:
print(a)
print(b)

[[1, 2, 3]]
[[1, 2, 3]]


In [48]:
a is b

False

In [49]:
a[0] is b[0]

True

python의 copy는 기본적으로 shallow이다.

### numpy의 copy

In [52]:
a = b = np.array([1,2,3])

In [53]:
a is b

True

array는 sequence타입으로 인덱싱과 슬라이싱이 가능하다.

In [54]:
a[0] # indexing

1

In [55]:
a[:] # slicing

array([1, 2, 3])

array는 mutable이다.  
예외가 몇가지 있지만 mutable에 가깝다.

In [56]:
a[0] = 100

In [57]:
a

array([100,   2,   3])

In [63]:
print(a)
print(b)

[100   2   3]
[100   2   3]


array는 homogeneous이다.

In [58]:
c = np.array([1, 'a', True])

In [59]:
c

array(['1', 'a', 'True'], dtype='<U11')

In [60]:
type(c[0])

numpy.str_

array는 homogeneous, sequence, mutable 이다.

deepcopy

In [70]:
a = np.array([[1,2,3]])

In [71]:
# numpy는 기본적으로 deepcopy이다.
b = a.copy()

In [72]:
a is b

False

In [73]:
b[0]

array([1, 2, 3])

In [74]:
print(a)
print(b)

[[1 2 3]]
[[1 2 3]]


### 다른 데이터 타입에서 데이터 가져오기

#### as 계열

다른 데이터 타입을 가져와서 바꿔서 사용할 때는 as라는 이름이 보통 붙는다.

In [81]:
# python의 list 데이터 타입을 int ndarray로 변환
a = [1,2,3]
print(type(a))
print(type(a[0]))
b = np.array(a)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'int'>
<class 'numpy.ndarray'>
<class 'numpy.int32'>


In [84]:
# python의 list 데이터 타입을 int ndarray로 변환
a = [1,2,3]
print(type(a))
print(type(a[0]))
b = np.asarray(a)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'int'>
<class 'numpy.ndarray'>
<class 'numpy.int32'>


In [90]:
# python의 list 데이터 타입을 float ndarray로 변환
a = [1.,2.,3.]
print(type(a))
print(type(a[0]))
b = np.asfarray(a)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'float'>
<class 'numpy.ndarray'>
<class 'numpy.float64'>


In [91]:
# python의 list 데이터 타입 float이면 float ndarray로 변환
# python의 list 데이터 타입 int이면 int ndarray로 변환
a = [1.,2.,3.]
print(type(a))
print(type(a[0]))
b = np.asarray(a)
print(type(b))
print(type(b[0]))

<class 'list'>
<class 'float'>
<class 'numpy.ndarray'>
<class 'numpy.float64'>


numpy의 as계열과 from계열은 약간 비체계적인 면이 있기 때문에 tensorflow에서는 조금 다르게 사용한다.

----------------
※ numpy에서 데이터 만드는 방법 정리  
- 생성  
    - factory method계열  
      zeros, ones, arrange, eye, identity, empty  
- 기반  
    - array, as계열, from계열, _like계열  
- load  
    - 파일로부터 값을 가져오는 방법  

In [92]:
### 값 가져오기

comma로 값 가져오기

In [93]:
a = [ [1,2,3], [4,5,6] ] #python
b = np.array([[1,2,3,],[4,5,6]]) #numpy

In [98]:
a[0]

[1, 2, 3]

In [96]:
a[0, -1]

TypeError: list indices must be integers or slices, not tuple

슬라이스 객체를 이용해서 comma를 사용하는 방법은 가능하다.

In [102]:
# 2차원 리스트로 가져온다.
a[slice(0,1)] # 0행에서부터 1행 미만의 데이터를 가져온다.

[[1, 2, 3]]

In [107]:
a[slice(0,2)] # 0행에서부터 2행 미만의 데이터를 가져온다.

[[1, 2, 3], [4, 5, 6]]

numpy는 기본적으로 인덱싱/슬라이싱할 때 comma를 사용할 수 있다.

In [108]:
# numpy
# b[행, 열]
print( b[0, 2] )
print( b[0,-1] )

3
3


In [110]:
# python
# a[행][열]
print( a[0][2] )
print( a[0][-1] )

3
3


### 2. boolean indexing

In [116]:
a = [[1,2,3,4]]

In [117]:
a>2

TypeError: '>' not supported between instances of 'list' and 'int'

In [111]:
b = np.array([[1,2,3,4]])

In [114]:
b

array([[1, 2, 3, 4]])

array를 scalar와 연산하면 elementwise로 계산한다.  
(elementwise: 원소별로 각각 계산이 된다.)

In [119]:
# 원소별로 비교해서 True/False로 계산한다.
# 1>2, 2>2, 3>2, 4>2
# numpy에서는 가능하고 python에서는 안된다.
b>2

array([[False, False,  True,  True]])

numpy는 indexing, slicing자리에 조건도 쓸 수 있다.  
True에 해당되는 값만 가져온다.

In [132]:
# boolean indexing
b[np.array([[False,False,True,True]])] #b[[1,2,3,4]]

array([3, 4])

In [130]:
b[b>2]

array([3, 4])

numpy에서 boolean indexing 조건
- array만 된다.  
- numpy True, False로만 구성되어야 한다.  
- shape이 맞아야 한다. (개수가 맞을 때만 사용할 수 있다.)

In [133]:
# python에서는 지원 안한다.
a = [[1,2,3,4]]
a[[[True, True, False, True]]]

TypeError: list indices must be integers or slices, not list

In [134]:
np.array([[True, False, True, False]]).dtype

dtype('bool')

In [135]:
# numpy는 숫자를 위한 라이브러리이다.
np.array([['a','b']]).dtype

dtype('<U1')

In [140]:
b = np.array([[1,2,3],[4,5,6]])

In [141]:
print( type(b) )
print( b.__class__ )

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [142]:
b.shape

(2, 3)

In [146]:
b.__getitem__(0) # 0행의 데이터를 가져온다.

array([1, 2, 3])

In [145]:
b[0]

array([1, 2, 3])

In [143]:
b.__getitem__(1) # 1행의 데이터를 가져온다.

array([4, 5, 6])

In [147]:
b[1]

array([4, 5, 6])

In [144]:
b.__getitem__((0,1)) # 0행 1열의 데이터를 가져온다.

2

In [148]:
b[0,1]

2

3. fancy indexing

In [168]:
b = np.arange(100).reshape(20,5) # reshape(행,열): 배열의 구조 변경
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54],
       [55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64],
       [65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74],
       [75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84],
       [85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94],
       [95, 96, 97, 98, 99]])

인덱싱, 슬라이싱 자리에 괄호를 하나 더 넣으면 fancy indexing할 수 있다.  
여러 개를 한 번에 인덱싱 할 수 있다.

In [170]:
b[:] # 전체를 가져온다. b[:,:]와 같다.
#b[행, 열]
b[1:3]  # 1행부터 3행 미만의 데이터를 가져온다.
b[1:3,2:4] # 1행부터 3행 미만이고, 2열에서부터 4열 미만의 데이터를 가져온다.
b[[1,3,5]] # 1행, 3행, 5행의 데이터를 가져온다.
b[[1,3,5],[0,2,4]] # 1행 0열, 3행 2열, 5행 4열의 데이터를 가져온다.

array([ 5, 17, 29])

fancying indexing은 인덱싱 기법만 사용할 수 있다.
':"(콜론)은 슬라이싱 기법이므로 지원하지 않는다.

In [171]:
#Error
b[[2:5]]

SyntaxError: invalid syntax (<ipython-input-171-0d3840d4ea39>, line 2)

In [172]:
b[:,[0,2,4]] # 모든 행에서 0열, 2열, 4열의 데이터를 가져온다.

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14],
       [15, 17, 19],
       [20, 22, 24],
       [25, 27, 29],
       [30, 32, 34],
       [35, 37, 39],
       [40, 42, 44],
       [45, 47, 49],
       [50, 52, 54],
       [55, 57, 59],
       [60, 62, 64],
       [65, 67, 69],
       [70, 72, 74],
       [75, 77, 79],
       [80, 82, 84],
       [85, 87, 89],
       [90, 92, 94],
       [95, 97, 99]])

In [175]:
# 개수가 같게 지정해야 한다.
#b[[1,3,4],[0,2,1]]
b[[1,3,4],[0,2]]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (3,) (2,) 

fancy indexing은 내부적으로 copy해주는 방식이다.

In [179]:
c = b[[1,3,5]] # fancy indexing으로 가져옴

In [180]:
c

array([[ 5,  6,  7,  8,  9],
       [15, 16, 17, 18, 19],
       [25, 26, 27, 28, 29]])

In [181]:
c[0][0] = 120

In [182]:
c

array([[120,   6,   7,   8,   9],
       [ 15,  16,  17,  18,  19],
       [ 25,  26,  27,  28,  29]])

In [183]:
b # b는 그대로 유지하고 있다.

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54],
       [55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64],
       [65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74],
       [75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84],
       [85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94],
       [95, 96, 97, 98, 99]])

In [184]:
b is c

False