# 1. Numpy

## 1.1 NumPy란

- Numerical Python의 줄임 말
- 행렬 연산이나 대규모 다차원 배열을 편리하게 처리할 수 있도록 지원하는 파이썬 라이브러리
- NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공

### 1.1.1 NumPy 특징

- N 차원 배열 객체
- 기본적으로  array 단위로 데이터 관리
- 큰 규모의 데이터 연산을 빠르게 수행 (반복문 없이 배열에 대한 처리 지원)
- 정교한 브로드캐스팅(Broadcast) 기능

### 1.1.2 ndarray 클래스

- Numpy의 핵심인 다차원 행렬 자료 구조를 지원하는 클래스

In [1]:
import numpy as np

In [2]:
data = np.array([1,2,3,4,5])
print(data)

[1 2 3 4 5]


- 밑의 두 가지 코드를 보면, 동일한 결과지만, numpy를 쓰면, 보기 좋게 형태를 바꿔준다는 것을 알 수 있다.

In [3]:
print([[1,2],
       [3,4]])


[[1, 2], [3, 4]]


In [4]:
data = np.array([[1,2],[3,4]])
print(data)

[[1 2]
 [3 4]]


In [5]:
print(type(data))
print(dir(data))

<class 'numpy.ndarray'>
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_namespace__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__class_getitem__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__dlpack__', '__dlpack_device__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__r

In [6]:
data = np.array([[1,2],[3,4]])
print("data : \n", data)

dataT = data.T # 전치행렬
print("dataT : \n", dataT)

data : 
 [[1 2]
 [3 4]]
dataT : 
 [[1 3]
 [2 4]]


### 1.1.3 NumPy 산술 연산

In [7]:
data1 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
data2 = [[1, 1, 1], [2, 2, 2], [3, 3, 3]]

In [8]:
# 각 원소의 data를 2배하고 싶어..
data1 * 2  # 이건 안 됨..

[[1, 2, 3], [4, 5, 6], [7, 8, 9], [1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [9]:
# 행렬과 스칼라의 곱
for i in range(len(data1)):
    for j in range(len(data1[i])):
        data1[i][j] *= 2

print(data1)        

[[2, 4, 6], [8, 10, 12], [14, 16, 18]]


In [10]:
# 행렬과 스칼라의 합
for i in range(len(data2)):
    for j in range(len(data2[i])):
        data2[i][j] += 10

print(data2)        

[[11, 11, 11], [12, 12, 12], [13, 13, 13]]


In [11]:
data2 = np.array(data2)

print(data2 * 2)
print(data2 + 10)

[[22 22 22]
 [24 24 24]
 [26 26 26]]
[[21 21 21]
 [22 22 22]
 [23 23 23]]


In [12]:
data1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
data2 = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])

np.dot(data1, data2)  # 행렬곱 표현1
data1 @ data2  # 행렬곱 표현2

array([[14, 14, 14],
       [32, 32, 32],
       [50, 50, 50]])

### 행렬의 곱(연습문제)

* 손으로 풀어보세요.

```
 [[2, 1],  X  [[7, 1],
  [5, 1]]      [3, 4]]
```

In [13]:
[[2*7 + 1*3, 2*1 + 1*4],
 [5*7 + 1*3, 5*1 + 1*4]]

[[17, 6], [38, 9]]

In [14]:
data1 = np.array([[2, 1], [5, 1]])
data2 = np.array([[7, 1], [3, 4]])

data1 @ data2

array([[17,  6],
       [38,  9]])

* [단위행렬](https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%9C%84%ED%96%89%EB%A0%AC)
* [역행렬](https://ko.wikipedia.org/wiki/%EA%B0%80%EC%97%AD%ED%96%89%EB%A0%AC)

### 1.1.4 데이터 타입의 종류
0. python의 타입 : int, float, complex, string, bool, list, tuple, dict, set
1. int(8bit, 16bit, 32bit, 64bit) i1, i2, i4, i8
    - 부호가 있음
    - 비트수 만큼 크기를 가지는 정수형
    - 저장할 수 있는 값의 범위
        - int8 : 8 비트 부호있는 정수
        - int16 : 16 비트 부호있는 정수
        - int32 : 32 비트 부호있는 정수
        - int64 : 64 비트 부호있는 정수
    

 2. uint(8bit, 16bit, 32bit, 64bit) u1, u2, u4, u8

    - 부호가 없음
    - 비트수 만큼 크기를 가지는 정수형
    - 저장할 수 있는 값의 범위
        - uint8 : 8비트 부호없는 정수
        - uint16 :  16비트 부호없는 정수
        - uint32 :  32비트 부호없는 정수
        - uint64 :  64비트 부호없는 정수

 3. float(16bit, 32bit, 64bit, 128bit) f2, f4, f8, f16

    - 부호가 있음
    - 비트수 만큼 크기를 가지는 실수형

 4. 복소수형

    - complex64 : 두개의 32비트 부동 소수점으로 표시되는 복소수 c8
    - complex128 : 두개의 64비트 부동소수점으로 표시되는 복소수 c16

 5. unicode

    - 고정 길이 문자열 unicode

 6. bool

    - True, False

### 1.1.5 데이터 형 변환

방법. 1

- variable(변수) = np.astype(data)
- astype : 변환하고자 하는 데이터 타입 지정
- data : 변환하고자 하는 array 지정

방법. 2

- variable(변수) =  ndarray.astype(dtype)
- ndarray : 변환하고자 하는 array 지정
- dtype : 변환하고자 하는 데이터 타입 지정

In [15]:
data = [1,1,2,3]
data = np.array(data, dtype=np.float32)

print(data.dtype)

float32


In [16]:
data = [1,1,2,3]
data = np.array(data, dtype=np.int32)

print(data.dtype)

int32


In [17]:
data = [1,1,2,3]
data = np.array(data, dtype='i4')

print(data.dtype)

int32


In [18]:
# dtype이 처리할 수 없는 크기의 data가 있느 경우, err발생
data = [129, 256, 512]
data = np.array(data, dtype='i1') 

print(data)
print(data.dtype)

OverflowError: Python integer 129 out of bounds for int8

In [19]:
# 형 변환

data = [1,1,2,3]
# data = np.int32(data)   # 이거나 밑의 방식이나 동일 표현
data = np.array(data, dtype=np.int32)

print(data.dtype)

int32


In [20]:
data = data.astype(np.float32)
print(data.dtype)

float32


In [21]:
data = [1,1,2,3]
data = np.array(data, dtype=np.int32)
# data = np.int32(data)
data = data.astype(np.str_)

# print(data)
data

array(['1', '1', '2', '3'], dtype='<U11')

In [22]:
data.tolist()

['1', '1', '2', '3']

In [23]:
data = [1,2,3,4,5]
data = np.array(data, dtype=np.float64)
# data = np.float32(data)

print(data)  
print("data type : " , type(data))  

print("np.array를 python의 list형태로 출력하려면 tolist() 사용!")
print(data.tolist())

data = data.astype(np.str_)

data_list = data.tolist()
data.tolist()[0]
print(type(data.tolist()[0]))

byte_string = data_list[0].encode('utf-8')  # str을 bytes로 변환
print(byte_string)   # 앞의 b는 byte 표현임!
print(type(byte_string))

decoded_string = byte_string.decode('utf-8')  # bytes를 str로 변환
print(decoded_string)
print(type(decoded_string))

[1. 2. 3. 4. 5.]
data type :  <class 'numpy.ndarray'>
np.array를 python의 list형태로 출력하려면 tolist() 사용!
[1.0, 2.0, 3.0, 4.0, 5.0]
<class 'str'>
b'1.0'
<class 'bytes'>
1.0
<class 'str'>


In [24]:
data = np.uint16(0)
print(data.dtype)
print(data)

data = data - 1  # uXXX에 음수 처리 하려하면 OverflowError!
print(data.dtype)
print(data)
print(2**16)  # 16 bit의 max값 - 1

# data = np.uint16(-1)  # error
# print(data)


uint16
0
uint16
65535
65536


  data = data - 1  # uXXX에 음수 처리 하려하면 OverflowError!


## 1.2 NumPy 차원

- Scalar : 0차원 하나의 데이터 값으로만 존재하는 것
- Vector : 1차원 배열 (1D array, 행(rows) 또는 열(columns)만 존재)
- Matrix : 2차원 배열 (2D array)
- Tensor : 3차원 이상의 다차원 배열

In [25]:
# 0차원 (scalar)

a = np.array(1)
print(a)
print(a.shape)
print(a.ndim)

1
()
0


In [26]:
# 1차원 (vector)

a = np.array([1, 2, 3])
print(a)
print(a.shape)
print(a.ndim)

[1 2 3]
(3,)
1


In [27]:
# 2차원 (matrix)

a = np.array([[1, 2, 3], [1, 2, 3]])
print(a)
print(a.shape)
print(a.ndim)

[[1 2 3]
 [1 2 3]]
(2, 3)
2


In [28]:
# 3차원 (tensor)

a = np.array([[[1, 2, 3], [1, 2, 3]], [[1, 2, 3], [1, 2, 3]]])
print(a)
print(a.shape)  # 2 * 3 가 2 있다.
print(a.ndim)

print(a.tolist())  # python화!

[[[1 2 3]
  [1 2 3]]

 [[1 2 3]
  [1 2 3]]]
(2, 2, 3)
3
[[[1, 2, 3], [1, 2, 3]], [[1, 2, 3], [1, 2, 3]]]


### 1.2.1 Ndarray(다차원 array)의 활용

- 이 챕터에서 살펴볼 내용 : arange, indexing, slicing

In [29]:
print(range(0,10))
print(list(range(0,10)))

range(0, 10)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [30]:
print(np.array(range(0,10)))

# 위의 방법으로 생성 가능하지만, 밑의 방식이 일반적인 방법임.
print(np.arange(0, 10, 2))  # np.array(range(~~)) => np.arange (array + range)
print(np.arange(0, 10, .5))
print(np.arange(0, 10, 3.5))   # np.arange(start, end, step)

print(np.linspace(0, 10, 4))   # np.linspace(start, end, count(개수))

[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5]
[0.  3.5 7. ]
[ 0.          3.33333333  6.66666667 10.        ]


In [31]:
a = np.arange(2, 11, .5)
print(a)
print(a.shape)  
print(a.ndim)

print("\n----------------")
print("-----다차원-----")
print("----------------\n")

# 다차원 만들기
print("np.arange(10) : \n" , np.arange(10) , "\n")
print("np.arange(10).reshape(5,2) : \n" , np.arange(10).reshape(5,2), "\n")
# print("np.arange(10).reshape(3,4) : \n" , np.arange(10).reshape(3,4), "\n")  -> reshape 시, 요소 갯수 다르면, 에러

[ 2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.   7.5  8.   8.5
  9.   9.5 10.  10.5]
(18,)
1

----------------
-----다차원-----
----------------

np.arange(10) : 
 [0 1 2 3 4 5 6 7 8 9] 

np.arange(10).reshape(5,2) : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] 



In [32]:
a = np.arange(20).reshape(2,2,5)
print(a)
print(a.shape)  
print(a.ndim)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]
(2, 2, 5)
3


In [33]:
a = np.arange(20).reshape(1,1,2,2,5)
print(a)
print(a.shape)  
print(a.ndim)  # 괄호 개수가 차원!

[[[[[ 0  1  2  3  4]
    [ 5  6  7  8  9]]

   [[10 11 12 13 14]
    [15 16 17 18 19]]]]]
(1, 1, 2, 2, 5)
5


In [34]:
# indexing
print(a[0][0][0])
print(a[0][0][0][0])
print(a[0][0][0][0][2])

[[0 1 2 3 4]
 [5 6 7 8 9]]
[0 1 2 3 4]
2


In [35]:
a = np.arange(20).reshape(2,2,5)

a[0][1][0]
a[0, 1, 0]  # numpy 문법!

a[a>15]  # boolean inexing (a의 모든 element에 대해서..)

array([16, 17, 18, 19])

In [36]:
 a[(a > 7) & (a % 2 == 0)] # 이게 boolean을 사용해서 indexing 하는 것! 

array([ 8, 10, 12, 14, 16, 18])

* slicing

    - 연속된 객체에서 범위를 지정하고 선택한 객체를 가져옴
    - 1차원 → [start : end : step]
    - 2차원 배열은 행과 열을 콤마로 구분 → [ : ,  :]
    - 3차원 배열 → [ :, :, :]

In [37]:
# data[start:end:step]
data = np.arange(20)

print(data[0:11:2])
print(data[10:0:-2])
print(data[::-1])
print(data[::2])

[ 0  2  4  6  8 10]
[10  8  6  4  2]
[19 18 17 16 15 14 13 12 11 10  9  8  7  6  5  4  3  2  1  0]
[ 0  2  4  6  8 10 12 14 16 18]


In [38]:
# 2차원 배열로..
data = np.arange(20)
data = data.reshape(4,5)
print(data, "\n")

# data[row, coloumn]

print(data[:,1], "\n")
print(data[1,:], "\n")
print(data[1:3,:], "\n")
print(data[1:3,2:4], "\n")
print(data[1:4,1:4], "\n")

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]] 

[ 1  6 11 16] 

[5 6 7 8 9] 

[[ 5  6  7  8  9]
 [10 11 12 13 14]] 

[[ 7  8]
 [12 13]] 

[[ 6  7  8]
 [11 12 13]
 [16 17 18]] 



In [39]:
data = np.arange(40)
data = data.reshape(2,4,5)
print(data, "\n")

# 위 아래로 있는게, 실제로는 z축으로 뒤에 있는 느낌임.
# 그래서 0~19 까지가 0번째 channel 20~39까지가 1번째 channel
# channel 먼저 고르고, 다음 row, column
print(data[1, 0:2, 1:4]) 
print(data[0, 1:3, 3:5])

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]
  [30 31 32 33 34]
  [35 36 37 38 39]]] 

[[21 22 23]
 [26 27 28]]
[[ 8  9]
 [13 14]]


## 1.3 NumPy 배열

### 1.3.1 배열의 연결과 분할

1. 연결 
    - hstack : 열 추가
    - vstack : 행 추가
    - concatenate ([a, b], axis = ) : axis=0 → 행 추가, axis=1 →  열추가
2. 분할
    - vsplit : 수직축으로 분할, 행 분할
    - hsplit : 수평축으로 분할, 열 분할

In [40]:
a = [1, 2, 3]
b = [4, 5, 6]

a = np.array(a)
b = np.array(b)

a+b  # 연결을 하고 싶은데, 더해지는 상황.. --> concatenate 사용하면 해결 가능!

array([5, 7, 9])

In [41]:
print(type(np.concatenate([a,b])))
np.concatenate([a,b])


<class 'numpy.ndarray'>


array([1, 2, 3, 4, 5, 6])

In [42]:
# 다차원
a = np.arange(10).reshape(2,5)
b = np.arange(10,20).reshape(2,5)

print("a : \n", a)
print("b : \n", b)


a : 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
b : 
 [[10 11 12 13 14]
 [15 16 17 18 19]]


In [43]:
np.concatenate([a,b])

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [45]:
# 축 설정 가능! (axis)
print(np.concatenate([a,b], axis=0))   # 행에 추가 
print(np.concatenate([a,b], axis=1))   # 열에 추가 (1이니까, 세로(열)!!)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[[ 0  1  2  3  4 10 11 12 13 14]
 [ 5  6  7  8  9 15 16 17 18 19]]


In [44]:
print("np.vstack([a,b]) : \n", np.vstack([a,b]))  # axis = 0과 동일
print("np.hstack([a,b]) : \n", np.hstack([a,b]))  # axis = 1과 동일

np.vstack([a,b]) : 
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
np.hstack([a,b]) : 
 [[ 0  1  2  3  4 10 11 12 13 14]
 [ 5  6  7  8  9 15 16 17 18 19]]


In [47]:
a = np.arange(12)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [48]:
print("np.split(a,2) : \n" , np.split(a,2))  # a를 2개로 split해라
print("np.split(a,4) : \n" , np.split(a,4))  # a를 4개로 split해라

np.split(a,2) : 
 [array([0, 1, 2, 3, 4, 5]), array([ 6,  7,  8,  9, 10, 11])]
np.split(a,4) : 
 [array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8]), array([ 9, 10, 11])]


In [49]:
a = np.arange(10,121,10)

print("a : ",a)
print("here : " , np.split(a,2))
np.split(a, [6, 12]) # 6번째 직전까지, 12번째 직전지
np.split(a, [3,5,9,10]) # 3전, 5전, 9전, 10전, 나머지

a :  [ 10  20  30  40  50  60  70  80  90 100 110 120]
here :  [array([10, 20, 30, 40, 50, 60]), array([ 70,  80,  90, 100, 110, 120])]


[array([10, 20, 30]),
 array([40, 50]),
 array([60, 70, 80, 90]),
 array([100]),
 array([110, 120])]

In [50]:
a = np.arange(10,121,10).reshape(3,4)
print(a)

np.vsplit(a,3) # 3개로 잘라내라(row 기준)   :: VR

[[ 10  20  30  40]
 [ 50  60  70  80]
 [ 90 100 110 120]]


[array([[10, 20, 30, 40]]),
 array([[50, 60, 70, 80]]),
 array([[ 90, 100, 110, 120]])]

In [51]:
a = np.arange(10,161,10).reshape(4,4)
print(a)

np.hsplit(a,4) # 4개로 잘라내라. (column 기준)  :: HC

[[ 10  20  30  40]
 [ 50  60  70  80]
 [ 90 100 110 120]
 [130 140 150 160]]


[array([[ 10],
        [ 50],
        [ 90],
        [130]]),
 array([[ 20],
        [ 60],
        [100],
        [140]]),
 array([[ 30],
        [ 70],
        [110],
        [150]]),
 array([[ 40],
        [ 80],
        [120],
        [160]])]

### 1.3.2 다양한 Matrix 만들기

- zeros : 0으로 초기화된 배열 생성
- ones  : 1로 초기화 된 배열 생성
- eye : 주대각선의 원소가 모두 1이고 나머지 원소는 0인 정사각행렬 (단위행렬)
- empty : 초기화 하지 않고 배열만 생성, 기존에 메모리에 저장되어 있는 값으로 나타남
- linspace(시작, 끝, 개수, endpoint = ) : 지정한 구간에서 개수만큼 분할
    - endpoint = True or False : 마지막 값을 포함시킬지 시키지 않을지 선택
- logspace(시작, 끝, 개수, endpoint = ) : 지정한 구간에서 개수만큼 로그를 이용하여 분할
- ravel : 다차원 배열을 1차원 배열로 변환

In [52]:
# 초기화
print(np.zeros(10))
print(np.zeros([3,4]))
print(np.ones(10))
print(np.ones([3,4]))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [53]:
print(np.eye(4))  # 항등행렬(I)인데,, 단위행렬이기도 함.. -> 다차원은 error남
# print(np.eye([3,4])) # ::> 에러!

a = np.arange(16).reshape(4,4)
b = np.eye(4)
a @ b # array에 어떤 것을 곱해서 자기 자신이 나오도록 하는 것 :: 단위 행렬! 

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [54]:
print(np.empty(100))  # 기존에 있던 dummy data가 그대로 출력됨.
np.full((2,3),1000)  # 특정 수로 채워서 초기화 full((row, col), want_num)

[4.67051217e-310 0.00000000e+000 0.00000000e+000 4.67106935e-310
 4.64421707e-322 6.91074805e-310 6.91074805e-310 6.91074801e-310
 6.91074801e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074807e-310 6.91074805e-310
 6.91074802e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074806e-310 6.91074805e-310 6.91074806e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.91074805e-310 6.91074805e-310 6.91074805e-310
 6.91074805e-310 6.910748

array([[1000, 1000, 1000],
       [1000, 1000, 1000]])

In [55]:
# 이건 많이 사용됨!
# linspace(시작, 끝, 개수, endpoint = ) : 지정한 구간에서 개수만큼 분할
# endpoint = True or False : 마지막 값을 포함시킬지 시키지 않을지 선택

In [56]:
print("마지막값 포함 X : \n", np.linspace(1, 101, 100, endpoint=True))
print("마지막값 포함 O : \n", np.linspace(1, 101, 100, endpoint=False))

마지막값 포함 X : 
 [  1.           2.01010101   3.02020202   4.03030303   5.04040404
   6.05050505   7.06060606   8.07070707   9.08080808  10.09090909
  11.1010101   12.11111111  13.12121212  14.13131313  15.14141414
  16.15151515  17.16161616  18.17171717  19.18181818  20.19191919
  21.2020202   22.21212121  23.22222222  24.23232323  25.24242424
  26.25252525  27.26262626  28.27272727  29.28282828  30.29292929
  31.3030303   32.31313131  33.32323232  34.33333333  35.34343434
  36.35353535  37.36363636  38.37373737  39.38383838  40.39393939
  41.4040404   42.41414141  43.42424242  44.43434343  45.44444444
  46.45454545  47.46464646  48.47474747  49.48484848  50.49494949
  51.50505051  52.51515152  53.52525253  54.53535354  55.54545455
  56.55555556  57.56565657  58.57575758  59.58585859  60.5959596
  61.60606061  62.61616162  63.62626263  64.63636364  65.64646465
  66.65656566  67.66666667  68.67676768  69.68686869  70.6969697
  71.70707071  72.71717172  73.72727273  74.73737374  75.7474747

In [59]:
a = np.arange(20).reshape(4,5)
print(a)

# 1차원 array로 만들어준다.
a = a.ravel()
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [67]:
a = np.arange(20).reshape(4,5)
print(a)

# 1차원 array로 만들어준다. (row 기준)
print(a.ravel(order = 'C'))

# 1차원 array로 만들어준다. (column 기준)
print(a.ravel(order = 'F'))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[ 0  5 10 15  1  6 11 16  2  7 12 17  3  8 13 18  4  9 14 19]


## 1.4 NumPy 함수

### 1.4.1 범용함수 (universal function)

- 배열의 값에 반복된 연산을 빠르게 수행하는 함수
- 원소 단위로 연산합니다.
- 파이썬의 루프는 느립니다. 범용 함수를 사용하세요!

In [13]:
data = np.array([-1, -1, 1, 1.2, 1.3, 1.7, 2.5, 5, 10])
print(data)

[-1.  -1.   1.   1.2  1.3  1.7  2.5  5.  10. ]


In [14]:
# 절댓값을 씌워줘야해 
for i in data:
    print(abs(i))

# 위 방식의 문제점 : 너무 느려    

1.0
1.0
1.0
1.2
1.3
1.7
2.5
5.0
10.0


In [15]:
# 범용함수 사용!
print(np.abs(data));

[ 1.   1.   1.   1.2  1.3  1.7  2.5  5.  10. ]


In [16]:
np.ceil(data)

array([-1., -1.,  1.,  2.,  2.,  2.,  3.,  5., 10.])

In [17]:
np.floor(data)

array([-1., -1.,  1.,  1.,  1.,  1.,  2.,  5., 10.])

In [18]:
%%timeit # 셀 코드의 실행시간을 측정하는 IPython 매직 명령

for _ in range(10):
    max(range(1000))

225 μs ± 22.9 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [5]:
%%timeit # 셀 코드의 실행시간을 측정하는 IPython 매직 명령

for _ in range(10):
    np.max(np.arange(1000))

47.9 μs ± 3.79 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [19]:
max([[1,2,3],[4,5,6],[7,8,9],[2,10,220]])  # [x][0]에 해당하는 숫자만 비교함. (min도 동일)

[7, 8, 9]

In [23]:
np.max([[1,2,3],[4,5,6],[7,8,9],[2,10,220]])  # 전부 쭉 펴서, 가장 큰 수만 출력함. (np.min도 동일)

np.int64(220)

In [25]:
data = np.array([[1,2,3],[4,5,6],[7,8,9],[2,10,220]])
data

array([[  1,   2,   3],
       [  4,   5,   6],
       [  7,   8,   9],
       [  2,  10, 220]])

In [29]:
print(np.max(data, axis=0))  
print(np.min(data, axis=0))  
# 여기선 신기하게 axis=0이면, 세로로 가네? 
# 원래 axis=0은 행(row) 추가니까, 가로 관련인데.. 신기.
# axis=0은 행 개수 유지잖아? 그러니까, 3개 유지하려면 열을 가지고 놀아줘야지.

[  7  10 220]
[1 2 3]


In [31]:
print(np.max(data, axis=1))  
print(np.min(data, axis=1))  
# 여기선 신기하게 axis=1이면, 가로로 가네?
# 원래 axis=1은 열(col)추가니까, 세로 관련인데.. 신기..
# 아, 확인. axis=1이잖아 -> 열 개수 유지니까, 4개여야하는구나. 그래서 가로로 교교

[  3   6   9 220]
[1 4 7 2]


In [33]:
data

array([[  1,   2,   3],
       [  4,   5,   6],
       [  7,   8,   9],
       [  2,  10, 220]])

In [35]:
# sum([[1,2,3],[4,5,6],[7,8,0],[2,10,200]])  # error

In [37]:
data.sum()

np.int64(277)

In [39]:
data.sum(axis = 1)  # 1이니까, col개수 유지를 위해 row들을 sum해서 보여주는 것

array([  6,  15,  24, 232])

In [40]:
data.sum(axis = 0)  # 0이니까, row 개수 유지를 위해 col들을 sum해서 보여주는 

array([ 14,  25, 238])

### 1.4.2 집계 함수

- mean : 평균 구하는 함수
- median : 중앙값 구하는 함수
- std : 표준편차 구하는 함수
- var : 분산 구하는 함수
- sum : 합계 구하는 함수
- cusum :  누적값 구하는 함수
- argmin : 최소값에 해당하는 index 값 찾는 함수
- any : 배열에서 1개 이상의 원소가 참인지 평가하는 함수
- all : 배열의 모든 원소가 참인지 평가하는 함수
- nansum : NaN을 0으로 간주하고 더는 함수
- where(조건, 조건에 맞을 때 값, 조건과 다를 때 값)

In [43]:
np.arange(1,11).reshape(2,5)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [46]:
data = np.arange(1,11).reshape(2,5)
data

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [48]:
data.mean()

np.float64(5.5)

In [50]:
data.sum()

np.int64(55)

In [52]:
np.median(data)  # 중앙값. (짝수면 중앙 두 값 평균)

np.float64(5.5)

In [53]:
data

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [54]:
data.mean(axis=1)  # 이렇게 축 설정 가능!

array([3., 8.])

* [표준편차](https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%ED%8E%B8%EC%B0%A8)
* [분산](https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0)
---
* [유튜브 영상 추천](https://youtu.be/trFS6ug4_T4)
* [칸아카데미 영상 추천](https://ko.khanacademy.org/math/statistics-probability/analysis-of-variance-anova-library)

In [56]:
np.std(data) # 표준편차

np.float64(2.8722813232690143)

In [57]:
data

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [59]:
np.var(data)

np.float64(8.25)

In [61]:
np.cumsum(data)

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55])

In [65]:
# any는 OR 기능!
np.any([False,False,False])
np.any([False,False,False])

np.False_

In [68]:
# all은 AND 기능!
np.any([False,False,False])
np.any([False,False,False])

np.False_

In [71]:
np.nansum(data)

np.int64(55)

In [75]:
# np.nan : 값이 비어있다.
np.nansum([1,2,3,4,np.nan,np.nan])

np.float64(10.0)

In [77]:
# np.sum : 더하려는 값에 nan 하나라도 있으면 nan 반환 
np.sum([1,2,3,4,np.nan,np.nan])

np.float64(nan)

In [82]:
# 결측치 개수 알고 싶을 때, 사용하면 됨!
np.isnan([1,2,3,4,np.nan,np.nan]).sum()

np.int64(2)

In [85]:
np.all(data>5)  # data 구성요소 전부가 5보다 큰가?

np.False_

In [87]:
np.where(data>5)
# 읽는 법 : (1,0) (1,1), (1,2), ...

(array([1, 1, 1, 1, 1]), array([0, 1, 2, 3, 4]))

In [89]:
data[1][1]  # 5보다 큼!

np.int64(7)

In [92]:
np.where(data > 3, data, -100)  # 느낌이 삼향연산자!
# data > 3 ? data : -100 넣어줘라. 

array([[-100, -100, -100,    4,    5],
       [   6,    7,    8,    9,   10]])

## 1.5 Boolean Indexing

- 조건에 만족 여부를 따져 논리값(True, False)을 출력
- 단, 행 값을 활용한 조건만 선택이 가능

In [95]:
# numpy에는 array에서 true인 것만 출력해주는 기능이 있다.
# 이 특징을 이용한 게 boolean indexing!

data = np.array([10, 20, 30, 40, 50])
print(data)

data[[True, True, False, False, False]]

[10 20 30 40 50]


array([10, 20])

In [104]:
data = np.arange(12).reshape(3,4)

# 밑의 두 방식 중 편한 거 사용면 됨.
boolean = data > 6
data[boolean]

data[data > 6]


array([ 7,  8,  9, 10, 11])

## 1.6 Broadcast

- 크기가 다른 배열 간의 연산 함수를 적용한는 규칙 집합

In [106]:
np.array([1, 2, 3]) + 1

array([2, 3, 4])

In [109]:
# 밑과 같이 program 자체 내에서 연산해주는 것. 이 규칙을 broadcast라고 한다.
np.arange(20).reshape(4,5) + np.array([10,20,30,40,50])

array([[10, 21, 32, 43, 54],
       [15, 26, 37, 48, 59],
       [20, 31, 42, 53, 64],
       [25, 36, 47, 58, 69]])

## 1.7 random

- seed : 시작 숫자를 정해 정해진 난수 알고리즘으로 난수 생성
- shuffle : 데이터의 순서를 바꿔줌
- choice : 데이터에서 일부를 무작위로 선택
- rand : 0부터 1까지 균일 분포로 난수 생성
- randn : 가우시안 표준 정규 분포로 난수 생성

In [111]:
import random as r

In [113]:
r.randint(1,10)  # 1 <= .. <= 10

10

In [115]:
r.random()  # 0 < .. < 1

0.3206120252327589

In [118]:
r.uniform(1, 10) # 1 <= .. <= 10 만족하는 복소수 출력)

6.367869491896686

In [120]:
r.randrange(1,10,2)  # range에 해당하는 수 중 1개 출력

1

In [122]:
l = [i for i in range(20)]
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [130]:
r.shuffle(l)
l

[16, 14, 8, 6, 15, 12, 5, 1, 9, 3, 19, 0, 4, 17, 13, 7, 10, 18, 11, 2]

In [133]:
r.choice(l)

4

In [135]:
r.sample(l, 5)  # choice 반복문 개념 정도로 생각하면 됨!

[2, 6, 10, 16, 3]

In [143]:
# seed를 주면, random값이 바뀌지 않음. (처음 시작을 제공해줘서, 값이 변하지 않는 걸로 생각하면 편할 듯.)
r.seed(7)
r.randint(1,10)

6

In [176]:
print(np.random.randint(1,10))
print(np.random.normal(1,10,size=(10))) # 정규 분포로 임의 샘플

print(np.random.uniform(1, 10, size=(3,4)))  # 3*4 matrix에 1<= <=10 만족하는 복소수 random 배치

6
[  4.29665362  -7.35615018  20.17569345  -3.37583748   4.29596773
 -19.90498972 -13.09179158   5.9286856   -9.85222948   6.924266  ]
[[5.69716715 8.28139084 3.54384606 4.19537556]
 [1.66256697 8.18943341 1.29156313 8.44347655]
 [8.33121459 4.92570929 8.74180033 8.89899169]]
