### 넘파이(NumPy) : 배열(ndarray, n dimension array)
* 리스트(list) : Linked List구조(불연속), 동작 속도가 느리다, comma로 요소구별, 서로 다른 자료형 사용가능 
* 배열(ndarray) : 연속된 메모리 구조, 동작 속도가 빠르다, comma를 사용하지 않고 공백으로 요소 구별,오직 한 가지 타입만 갖을 수 있다 

 https://scipy.org/

In [1]:
import numpy as np
# ! pip install numpy

# list 
list1 = [0,1,2,3,4,5,'hello']
print(list1)
print(type(list1))

a = np.array([0,1,2,3,4,5])
print(a)
print(type(a)) # ndarray
print(a.dtype) # 요소의 자료형

[0, 1, 2, 3, 4, 5, 'hello']
<class 'list'>
[0 1 2 3 4 5]
<class 'numpy.ndarray'>
int32


In [2]:
# numpy 의 dtype 객체의 종류: 대소문자 모두 사용가능
np.sctypeDict.keys()

dict_keys(['?', 0, 'byte', 'b', 1, 'ubyte', 'B', 2, 'short', 'h', 3, 'ushort', 'H', 4, 'i', 5, 'uint', 'I', 6, 'intp', 'p', 9, 'uintp', 'P', 10, 'long', 'l', 7, 'L', 8, 'longlong', 'q', 'ulonglong', 'Q', 'half', 'e', 23, 'f', 11, 'double', 'd', 12, 'longdouble', 'g', 13, 'cfloat', 'F', 14, 'cdouble', 'D', 15, 'clongdouble', 'G', 16, 'O', 17, 'S', 18, 'unicode', 'U', 19, 'void', 'V', 20, 'M', 21, 'm', 22, 'bool8', 'Bool', 'b1', 'int64', 'Int64', 'i8', 'uint64', 'Uint64', 'u8', 'float16', 'Float16', 'f2', 'float32', 'Float32', 'f4', 'float64', 'Float64', 'f8', 'complex64', 'Complex32', 'c8', 'complex128', 'Complex64', 'c16', 'object0', 'Object0', 'bytes0', 'Bytes0', 'str0', 'Str0', 'void0', 'Void0', 'datetime64', 'Datetime64', 'M8', 'timedelta64', 'Timedelta64', 'm8', 'int32', 'Int32', 'i4', 'uint32', 'UInt32', 'u4', 'UInt64', 'int16', 'Int16', 'i2', 'uint16', 'UInt16', 'u2', 'int8', 'Int8', 'i1', 'uint8', 'UInt8', 'u1', 'complex_', 'int0', 'uint0', 'single', 'csingle', 'singlecomplex', 

In [3]:
# int 와 float  ---> float
a = np.array([0,1,2.,3,4,5])
print(a)
print(type(a))
print(a.dtype)  # float64

[0. 1. 2. 3. 4. 5.]
<class 'numpy.ndarray'>
float64


In [4]:
# int 와 float 와 str ---> Unicode string
a = np.array([0,1,2.,3,4,5,'hello'])
print(a)
print(type(a))
print(a.dtype)   # <U32
# <U32 ,  < : 리틀엔디언, U:유니코드  , 32:최대문자 32 byte

# 유니코드 인코딩 방식
# (1) EUC-KR,CP949(MS949) : 완성형, 한글 2 바이트, 영문은 1 바이트, Windows
# (2) UTF-8 : 조합형, 한글 3 바이트, 영문은 1 바이트, Linux 

['0' '1' '2.0' '3' '4' '5' 'hello']
<class 'numpy.ndarray'>
<U32


In [5]:
# 배열의 데이터 타입 변환 : astype()
a1 = np.array(['1.234','3.123','4.4356','5','7'])
print(a1,a1.dtype)       # <U6 : 리틀엔디언, 유니코드, 최대 문자 6 byte

a2 = a1.astype('float32')
print(a2,a2.dtype)

a3 = a2.astype('int32')
print(a3,a3.dtype)

['1.234' '3.123' '4.4356' '5' '7'] <U6
[1.234  3.123  4.4356 5.     7.    ] float32
[1 3 4 5 7] int32


### 차원(dimension, Rank) 과 Shape
* 차원(Dimension, Rank) : 1,2,3 차원 , n 차원, 첫 데이터까지의 대괄호의 갯수
* Shape : 차원의 요소의 수, 튜플 형식
#### 1차원 Shape : (x,)
#### 2차원 Shape : (x,y)  , 행렬(matrix)
#### 3차원 Shape : (x,y,z) , (면,행,열)
...
#### n차원 Shape : (x,y,z,....)

In [6]:
# 1차원의 배열의 Shape
# np.arange(start,end+1,step))
a = np.arange(12)
print(a,type(a),a.dtype)
print(a.shape)  # (12,)
t = a.shape
print(type(t))  # tuple
print(a.shape[0])  # 12

a2 = np.arange(2,10)
print(a2,type(a2))
print(a2.shape)  # (8,)

a3 = np.arange(0,16,2)
print(a3,type(a3))
print(a3.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11] <class 'numpy.ndarray'> int32
(12,)
<class 'tuple'>
12
[2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>
(8,)
[ 0  2  4  6  8 10 12 14] <class 'numpy.ndarray'>
(8,)


In [7]:
# 2차원 배열의 Shape : 행(row,가로,수직,axis = 0) 과 열(column,세로,수평,axis =1)  ==> 필수 암기
# m = np.array([np.arange(3),np.arange(3)])
m = np.array([[0,1,2],
              [0,1,2]])
print(m)
print(m.shape)
print(m.shape[0],m.shape[1])             


[[0 1 2]
 [0 1 2]]
(2, 3)
2 3


In [8]:
# 3차원 배열의 Shape : (면,행,열)
m = np.array([[[0,1,2],
               [3,4,5]],
              [[0,1,2],
               [3,4,5]]])
print(m)
print(m.shape)  # (2,2,3)
print(m.shape[0],m.shape[1],m.shape[2])

[[[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]]
(2, 2, 3)
2 2 3


### 배열의 shape 바꾸기 : reshape() 함수

In [9]:
m1 = np.arange(12)
print(m1)
print(m1.shape)

m2 = m1.reshape(3,4)
print(m2)
print(m2.shape)

m2 = m1.reshape(4,3)
print(m2)
print(m2.shape)

m2 = m1.reshape(2,6)
print(m2)
print(m2.shape)

m2 = m1.reshape(12,1)
print(m2)
print(m2.shape)

m3 = m1.reshape(2,2,3)
print(m3)
print(m3.shape)

m4 = m1.reshape(3,2,1,2)
print(m4)
print(m4.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
(12,)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(3, 4)
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
(4, 3)
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
(2, 6)
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]]
(12, 1)
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
(2, 2, 3)
[[[[ 0  1]]

  [[ 2  3]]]


 [[[ 4  5]]

  [[ 6  7]]]


 [[[ 8  9]]

  [[10 11]]]]
(3, 2, 1, 2)


In [10]:
# -1 을 사용한 reshape : 요소수를 자동으로 계산
m1 = np.arange(12)
print(m1,m1.shape)

m2 = m1.reshape(-1,6)  # 행의 요소수를 자동으로 계산, 2
print(m2,m2.shape)     # (2,6)

m2 = m1.reshape(4,-1)  # 열의 요소수를 자동으로 계산, 3
print(m2,m2.shape)     # (4,3)

m2 = m1.reshape(-1,1)  # 행의 요소수를 자동으로 계산, 12
print(m2,m2.shape)     # (12,1)

[ 0  1  2  3  4  5  6  7  8  9 10 11] (12,)
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]] (2, 6)
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] (4, 3)
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]] (12, 1)


### 배열의 인덱싱과 슬라이싱

In [11]:
# 1차원 배열의 인덱싱과 슬라이싱 : list 와 동일한 방법
d = np.arange(12)
print(d,d.shape)
print(d[0],d[1],d[2],d[3],d[11],d[-1])
print(d[2:8],d[:],d[:-1])
print(d[::2],d[::-1])

d[0] = 10  # list 처럼 요소 변경이 가능
print(d)

[ 0  1  2  3  4  5  6  7  8  9 10 11] (12,)
0 1 2 3 11 11
[2 3 4 5 6 7] [ 0  1  2  3  4  5  6  7  8  9 10 11] [ 0  1  2  3  4  5  6  7  8  9 10]
[ 0  2  4  6  8 10] [11 10  9  8  7  6  5  4  3  2  1  0]
[10  1  2  3  4  5  6  7  8  9 10 11]


In [29]:
# 2차원 배열의 인덱싱과 슬라이싱
# data[행,열]
d = np.arange(12).reshape(3,4)
print(d,d.shape)

# 인덱싱
print(d[0][0])  # 0
print(d[0,0])   # 0
print(d[2,1])   # 9

# 슬라이싱
print(d[0])     # [0 1 2 3]
print(d[0,:])   # [0 1 2 3]

print(d[:,:-1])   # (3,3), 마지막 열을 제외
print(d[::2,::2]) # (2,2)

d[0] = 20        # 0번 행의 모든 요소를 20으로 변경 ,d[0,0] = 20, d[0,1] = 20, d[0,2] = 20, d[0,2] = 20
print(d)

d[::2,::2] = 30  # 슬라이싱 된 요소 전체를 한번에 변경할 수 있다
print(d[::2,::2] )
print(d)

d[:,:] = -1      # 전체 요소를 한번에 변경할 수 있다
print(d)   

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] (3, 4)
0
0
9
[0 1 2 3]
[0 1 2 3]
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]]
[[ 0  2]
 [ 8 10]]
[[20 20 20 20]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[30 30]
 [30 30]]
[[30 20 30 20]
 [ 4  5  6  7]
 [30  9 30 11]]
[[-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]]


In [52]:
# 3차원 배열의 인덱싱과 슬라이싱
# data[면,행,열]
d = np.arange(12).reshape(2,2,3)
print(d,d.shape)

# 인덱싱
print(d[0][0][0])  # old style
print(d[0,0,0])    # 0
print(d[0,1,2])    # 5

# 슬라이싱
print(d[:,:-1,:-1]) # (2,1,2)
print(d[:,1:,1:])   # (2,1,2)
print(d[:,:,-1])    # (2,2)
print(d[:,-1,-1])   # (2,)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]] (2, 2, 3)
0
0
5
[[[0 1]]

 [[6 7]]]
[[[ 4  5]]

 [[10 11]]]
[[0 3]
 [6 9]]
[ 5 11]


### 불린 인덱싱: 조건식을 사용한 인덱싱, 조건 검색 필터를 사용한 추출(매우 중요)

In [77]:
a = np.array([1,2,3,4,5,6])
print(a)

print(a > 2)
print(a[a > 2])   # 배열 a에서 2보다 큰 요소들을 추출
print(a[[False, False,  True,  True,  True, True]])

boolean_index = np.array([True,False,True,False,True,False])
print(boolean_index)
print(a[boolean_index])

print(a[a != 3])
print(a[(a > 2) & (a < 6)])
print(a[(a % 2) == 0])
print(a[ a < a.mean()])  # 배열 a에서 평균보다 작은 값만 추출

[1 2 3 4 5 6]
[False False  True  True  True  True]
[3 4 5 6]
[3 4 5 6]
[ True False  True False  True False]
[1 3 5]
[1 2 4 5 6]
[3 4 5]
[2 4 6]
[4 5 6]


#### fancy 인덱싱 : 리스트나 배열로 임의의 집합을 지정하여 인덱싱,(멋대로 내키는 대로 인덱싱)

In [83]:
# 1 차원 배열의 fancy 인덱싱
a = np.arange(1,7)
print(a,a.shape)

print(a[[1,3,5,2,3,1]])
print(a[[0,-1,-3,-2]])

[1 2 3 4 5 6] (6,)
[2 4 6 3 4 2]
[1 6 4 5]


In [87]:
# 2차원 배열의 fancy 인덱싱
a = np.arange(10,100,10).reshape(3,3)
print(a,a.shape)

print(a[[0,2],[0,1]])  # 행과 열이 서로 match :  [a[0,0],a[2,1]] --> [10,80]
print(a[[0,2],:2])

print(a[0,0],a[2,1])

[[10 20 30]
 [40 50 60]
 [70 80 90]] (3, 3)
[10 80]
[[10 20]
 [70 80]]
10 80


In [90]:
# 배열의 형상 다루기 : reshape(), 편평화(flatten()), 전치(transpose())
# flatten() : 다차원 배열을 1 차원으로 만든다
d = np.arange(12).reshape(3,4)
print(d)

f = d.flatten()   # (3,4) --> (12,)   , d.reshape(12,)
print(f)


# transpose() : 전치 행렬, 행과 열을 서로 맞바꾸는 함수

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
