# Numpy

In [1]:
import numpy as np
np.__version__

'1.21.6'

### (0) Array정의, list, pandas와의 차이 

#### Array vs list

공통점  
- 아이템들의 컬렉션이다.
- 아이템들의 순서가 있다.

차이점  
- 리스트는 여러가지 자료형 허용, 내부 배열에서 원소 개수 달라도 ok
- 배열은 한 가지 자료형만 허용, 내부 배열 내 원소 개수가 모두 같아야 함
- 리스트는 덧셈 시 항목을 이어 붙이는 concatenate를 수행
- 배열은 덧셈 시 항목 간 덧셈을 수행
- 자료형 종류가 다르기 때문에 자료형에서 지원하는 메소드의 종류에도 차이 존재  
(ex. 리스트에서는 mean, argmax, round 등 어레이 메소드를 지원하지 않고, 배열에서는 append, remove, extend 등 리스트 메소드를 지원하지 않음.)
- 배열이 연산이 더 빠름

In [2]:
l1 = [1, 3, 5, 'a', 'b'] # 1, 3, 5는 숫자형, 'a', 'b'는 문자열
a1 = np.array([1, 3, 5, 'a', 'b']) # '1', '3', '5', 'a', 'b'의 문자열로 전환
print(a1.dtype)

<U21


In [3]:
l1 = [[1], [3, 5], [2, 4, 6]] # 문제 X
a1 = np.array([[1], [3, 5], [2, 4, 6]]) # 개수가 달라서 array 선언 불가능
# array([list([1]), list([3, 5]), list([2, 4, 6])], dtype=object)
print(l1)
print(a1)

[[1], [3, 5], [2, 4, 6]]
[list([1]) list([3, 5]) list([2, 4, 6])]


  


In [4]:
# 리스트 연산
l1 = [1, 3, 5]
l2 = [2, 4, 6]

print(l1 + l2) 
print(l1 * 3) 

[1, 3, 5, 2, 4, 6]
[1, 3, 5, 1, 3, 5, 1, 3, 5]


In [5]:
# 넘파이 어레이 연산
a1 = np.array([1, 3, 5])
a2 = np.array([2, 4, 6])

print(a1 + a2 )
print(a1 * a2 )
print(a1 + 2)
print(a1 * 3 )

[ 3  7 11]
[ 2 12 30]
[3 5 7]
[ 3  9 15]


In [6]:
import time

# 리스트 연산 속도
a = list(range(10 ** 8))

start = time.time()
for i in range(10 ** 8):
    a[i] *= 2
end = time.time()
print(end - start) # 약 18.41초

# 어레이 연산 속도
a = np.array(range(10 ** 8))

start = time.time()
a = a * 2
end = time.time()
print(end - start) # 약 1.14초

18.414382934570312
1.1420695781707764


#### Array vs pandas

- Pandas는 여러 복합적인 데이터를 보고(시각화) 분석할때 도움
- Numpy는 values들을 연산을 통해 다룰 때

### (1) Array 

#### 배열 생성

In [7]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1)) #nd = n dimensional n차원
print(a1.shape) # 5개의 element 존재하는 1차원 배열
print(a1[0], a1[1], a1[2]) # list와 같이 인덱스로 접근 가능
a1[0] = 4
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3
[4 2 3 4 5]


In [8]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape) # 3 by 3의 array
print(a2[0,0], a2[0,1]) # 인덱스로 접근 가능

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 2


In [9]:
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
              [[1,2,3],[4,5,6],[7,8,9]],
              [[1,2,3],[4,5,6],[7,8,9]]])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


- `ndim()`, `shape()`
    - ndim: 배열의 차원 수
    - shape: 배열의 차원을 튜플로 표시

In [104]:
print(a1.ndim)
print(a1.shape)

1
(10,)


In [10]:
print(a2.ndim)
print(a2.shape)

2
(3, 3)


In [103]:
print(a3.ndim)
print(a3.shape)

3
(3, 3, 3)


#### 배열 생성 및 초기화 함수

* `zeros()`: 모든 요소를 0으로 초기화

In [11]:
# np.zeros(10)
np.zeros([2,2])

array([[0., 0.],
       [0., 0.]])

In [105]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [12]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [13]:
np.full((3,3), 1.5)

array([[1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [14]:
np.eye(3)
# 정사각행렬이므로 size만 지정

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [15]:
np.empty(10) # 이미 메모리에서 차지하고 있던 값이 들어가 있는 것 (어떤 값이 올지 모름)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [16]:
print(a1)
np.zeros_like(a1) #a1과 같은 shape의 배열 생성

[4 2 3 4 5]


array([0, 0, 0, 0, 0])

In [17]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [18]:
print(a3)
np.full_like(a3, 10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

* `arange()`: 정수 범위로 배열 생성

In [19]:
np.arange(0,30,2)
#np.arange(0,30,2).reshape(3,5)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [20]:
np.linspace(0,1,5) # 0부터 1까지 균등하게 5개로 나눠줘

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [21]:
np.logspace(0.1,1,20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

#### 랜덤값 이용하는 배열 생성 함수

* `random.random()`: 랜덤한 수의 배열 생성

In [22]:
np.random.random((3,3)) # 실수값 반환

array([[0.04732586, 0.83772451, 0.22877097],
       [0.15577746, 0.95388896, 0.6658491 ],
       [0.3898443 , 0.98612763, 0.53938792]])

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

In [23]:
np.random.randint(0,10,(3,3))

array([[7, 9, 1],
       [3, 5, 4],
       [1, 8, 0]])

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [24]:
np.random.normal(0,1, size = (3,3))

array([[-0.21487574, -0.4839892 ,  1.38124562],
       [ 1.14280215, -1.30456212,  0.31445083],
       [-0.6503469 , -1.07499843, -0.02582802]])

#### 날짜/시간 배열 생성

In [25]:
date = np.array('2020-01-01', dtype = np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [26]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [27]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

### (2) 연산 (산술연산, 논리연산) 

#### 브로드캐스팅(Broadcasting)
* 모양이 다른 배열들 간의 연산이 어떤 조건을 만족했을 때 가능해지도록 배열 자동 변환

In [28]:
a1 = np.array([1,2,3])
print(a1)
print(a1+5)

a2 = np.arange(1,10).reshape(3,3)
print(a2)
print(a1+a2)

[1 2 3]
[6 7 8]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 2  4  6]
 [ 5  7  9]
 [ 8 10 12]]


In [29]:
b2 = np.array([1,2,3]).reshape(3,1)
print(b2)
print(a1+b2)

[[1]
 [2]
 [3]]
[[2 3 4]
 [3 4 5]
 [4 5 6]]


#### 산술 연산(Arithmetic Operators)

In [30]:
a1 = np.arange(1,10)
print(a1)
print(a1+1)
print(np.add(a1,1)) # 연산자와 동일한 역할을 하는 범용 함수 존재
print(a1-2)
print(np.subtract(a1,2))
print(-a1)
print(np.negative(a1))
print(a1 * 2)
print(np.multiply(a1,2))
print(a1 / 2)
print(np.divide(a1, 2))
print(a1 // 2)
print(np.floor_divide(a1, 2))
print(a1 ** 2)
print(np.power(a1, 2))
print(a1 % 2)
print(np.mod(a1, 2))

[1 2 3 4 5 6 7 8 9]
[ 2  3  4  5  6  7  8  9 10]
[ 2  3  4  5  6  7  8  9 10]
[-1  0  1  2  3  4  5  6  7]
[-1  0  1  2  3  4  5  6  7]
[-1 -2 -3 -4 -5 -6 -7 -8 -9]
[-1 -2 -3 -4 -5 -6 -7 -8 -9]
[ 2  4  6  8 10 12 14 16 18]
[ 2  4  6  8 10 12 14 16 18]
[0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]
[0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]
[0 1 1 2 2 3 3 4 4]
[0 1 1 2 2 3 3 4 4]
[ 1  4  9 16 25 36 49 64 81]
[ 1  4  9 16 25 36 49 64 81]
[1 0 1 0 1 0 1 0 1]
[1 0 1 0 1 0 1 0 1]


In [31]:
a1 = np.arange(1,10)
print(a1)
b1 = np.random.randint(1,10, size = 9)
print(b1)
print(a1+b1)
print(a1-b1)
print(a1 * b1)
print(a1 / b1)
print(a1 // b1)
print(a1 % b1)

[1 2 3 4 5 6 7 8 9]
[7 9 4 9 3 5 5 7 4]
[ 8 11  7 13  8 11 12 15 13]
[-6 -7 -1 -5  2  1  2  1  5]
[ 7 18 12 36 15 30 35 56 36]
[0.14285714 0.22222222 0.75       0.44444444 1.66666667 1.2
 1.4        1.14285714 2.25      ]
[0 0 0 0 1 1 1 1 2]
[1 2 3 4 2 1 2 1 1]


In [108]:
a2 = np.arange(1, 10).reshape(3,3)
print(a2)
b2 = np.random.randint(1,10, size = (3,3))
print(b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[4 5 8]
 [5 6 2]
 [5 2 8]]


In [106]:
a2 = np.arange(1, 10).reshape(3,3)
print(a2)
b2 = np.random.randint(1,10, size = (3,3))
print(b2)
print(a2+b2)
print(a2-b2)
print(a2 * b2)
print(a2 / b2)
print(a2 // b2)
print(a2 % b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[9 6 6]
 [4 8 1]
 [8 1 9]]
[[10  8  9]
 [ 8 13  7]
 [15  9 18]]
[[-8 -4 -3]
 [ 0 -3  5]
 [-1  7  0]]
[[ 9 12 18]
 [16 40  6]
 [56  8 81]]
[[0.11111111 0.33333333 0.5       ]
 [1.         0.625      6.        ]
 [0.875      8.         1.        ]]
[[0 0 0]
 [1 0 6]
 [0 8 1]]
[[1 2 3]
 [0 5 0]
 [7 0 0]]


##### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

In [33]:
a1 = np.random.randint(-10, 10, size = 5)
print(a1)
print(np.abs(a1))

[ 9 -8 -3  0  7]
[9 8 3 0 7]


##### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

In [109]:
a1 = np.array([1,4,9,16,25])
print(a1)
print(np.square(a1))
print(np.sqrt(a1))

[ 1  4  9 16 25]
[  1  16  81 256 625]
[1. 2. 3. 4. 5.]


##### 지수와 로그 함수 (Exponential and Log Function)

In [111]:
a1 = np.random.randint(1, 10, size = 5)
print(a1)
print(np.exp(a1))
print(np.power(a1,2))

[3 7 3 8 3]
[  20.08553692 1096.63315843   20.08553692 2980.95798704   20.08553692]
[ 9 49  9 64  9]


In [110]:
print(a1)
print(np.log(a1))
print(np.log2(a1))

[ 1  4  9 16 25]
[0.         1.38629436 2.19722458 2.77258872 3.21887582]
[0.         2.         3.169925   4.         4.64385619]


##### 삼각 함수(Trigonometrical Function)

In [37]:
t = np.linspace(0, np.pi, 3)
print(t)
print(np.sin(t))
print(np.cos(t))
print(np.tan(t))

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [38]:
x = [-1, 0, 1]
print(x)
print(np.arcsin(x))
print(np.arccos(x))
print(np.arctan(x))

[-1, 0, 1]
[-1.57079633  0.          1.57079633]
[3.14159265 1.57079633 0.        ]
[-0.78539816  0.          0.78539816]


#### 집계 함수(Aggregate Functions)  
* sum(): 합 계산
* cumsum(): 누적합 계산

In [39]:
a2 = np.random.randint(1,10,size = (3,3))
print(a2)
print(a2.sum())
print(a2.sum(axis = 0), np.sum(a2, axis = 0))
print(a2.sum(axis = 1), np.sum(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
53
[21 23  9] [21 23  9]
[22 15 16] [22 15 16]


In [40]:
print(a2)
print(np.cumsum(a2))
print(np.cumsum(a2, axis = 0))
print(np.cumsum(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[ 9 18 22 28 35 37 43 50 53]
[[ 9  9  4]
 [15 16  6]
 [21 23  9]]
[[ 9 18 22]
 [ 6 13 15]
 [ 6 13 16]]


* diff(): 차분 계산

In [41]:
print(a2)
print(np.diff(a2))
print(np.diff(a2, axis = 0))
print(np.diff(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[[ 0 -5]
 [ 1 -5]
 [ 1 -4]]
[[-3 -2 -2]
 [ 0  0  1]]
[[ 0 -5]
 [ 1 -5]
 [ 1 -4]]


* prod(): 곱 계산
* cumprod(): 누적곱 계산
* dot()/matmul(): 점곱/행렬곱 계산
* tensordot(): 텐서곱 계산
* cross(): 벡터곱

In [42]:
# prod
print(a2)
print(np.prod(a2))
print(np.prod(a2, axis = 0))
print(np.prod(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
3429216
[324 441  24]
[324  84 126]


In [43]:
# cumprod
print(a2)
print(np.cumprod(a2))
print(np.cumprod(a2, axis = 0))
print(np.cumprod(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[      9      81     324    1944   13608   27216  163296 1143072 3429216]
[[  9   9   4]
 [ 54  63   8]
 [324 441  24]]
[[  9  81 324]
 [  6  42  84]
 [  6  42 126]]


In [44]:
# dot, matmul
print(a2)
b2 = np.ones_like(a2)
print(b2)
print(np.dot(a2, b2))
print(np.matmul(a2, b2))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[22 22 22]
 [15 15 15]
 [16 16 16]]
[[22 22 22]
 [15 15 15]
 [16 16 16]]


In [45]:
# tensordot
print(a2)
print(b2)
print(np.tensordot(a2, b2))
print(np.tensordot(a2, b2, axes = 0))
print(np.tensordot(a2, b2, axes = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
53
[[[[9 9 9]
   [9 9 9]
   [9 9 9]]

  [[9 9 9]
   [9 9 9]
   [9 9 9]]

  [[4 4 4]
   [4 4 4]
   [4 4 4]]]


 [[[6 6 6]
   [6 6 6]
   [6 6 6]]

  [[7 7 7]
   [7 7 7]
   [7 7 7]]

  [[2 2 2]
   [2 2 2]
   [2 2 2]]]


 [[[6 6 6]
   [6 6 6]
   [6 6 6]]

  [[7 7 7]
   [7 7 7]
   [7 7 7]]

  [[3 3 3]
   [3 3 3]
   [3 3 3]]]]
[[22 22 22]
 [15 15 15]
 [16 16 16]]


In [46]:
# cross
x = [1,2,3]
y = [4,5,6]
print(np.cross(x,y))

[-3  6 -3]


* inner()/outer(): 내적/외적

In [47]:
print(a2)
print(b2)
print(np.inner(a2,b2))
print(np.outer(a2,b2))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[22 22 22]
 [15 15 15]
 [16 16 16]]
[[9 9 9 9 9 9 9 9 9]
 [9 9 9 9 9 9 9 9 9]
 [4 4 4 4 4 4 4 4 4]
 [6 6 6 6 6 6 6 6 6]
 [7 7 7 7 7 7 7 7 7]
 [2 2 2 2 2 2 2 2 2]
 [6 6 6 6 6 6 6 6 6]
 [7 7 7 7 7 7 7 7 7]
 [3 3 3 3 3 3 3 3 3]]


* mean(): 평균 계산
* var(): 분산 계산
* std(): 표준 편차 계산

In [48]:
print(a2)
print(np.mean(a2))
print(np.mean(a2, axis = 0))
print(np.mean(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
5.888888888888889
[7.         7.66666667 3.        ]
[7.33333333 5.         5.33333333]


In [49]:
print(a2)
print(np.var(a2))
print(np.var(a2, axis = 0))
print(np.var(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
5.432098765432098
[2.         0.88888889 0.66666667]
[5.55555556 4.66666667 2.88888889]


In [50]:
print(a2)
print(np.std(a2))
print(np.std(a2, axis = 0))
print(np.std(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
2.3306863292670035
[1.41421356 0.94280904 0.81649658]
[2.3570226  2.1602469  1.69967317]


* min(): 최소값
* max(): 최대값
* argmin(): 최소값 인덱스
* argmax(): 최대값 인덱스


In [51]:
# min
print(a2)
print(np.min(a2))
print(np.min(a2, axis = 0))
print(np.min(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
2
[6 7 2]
[4 2 3]


In [52]:
# max
print(a2)
print(np.max(a2))
print(np.max(a2, axis = 0))
print(np.max(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
9
[9 9 4]
[9 7 7]


In [53]:
# argmin
print(a2)
print(np.argmin(a2))
print(np.argmin(a2, axis = 0))
print(np.argmin(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
5
[1 1 1]
[2 2 2]


In [54]:
# argmax
print(a2)
print(np.argmax(a2))
print(np.argmax(a2, axis = 0))
print(np.argmax(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
0
[0 0 0]
[0 1 1]


* median(): 중앙값

In [55]:
print(a2)
print(np.median(a2))
print(np.median(a2, axis = 0))
print(np.median(a2, axis = 1))

[[9 9 4]
 [6 7 2]
 [6 7 3]]
6.0
[6. 7. 3.]
[9. 6. 6.]


* percentile(): 백분위 수

In [56]:
a1 = np.array([0,1,2,3,])
print(a1)
print(np.percentile(a1, [0,20,40,60,80,100], interpolation='linear'))
print(np.percentile(a1, [0,20,40,60,80,100], interpolation='higher'))
print(np.percentile(a1, [0,20,40,60,80,100], interpolation='lower'))
print(np.percentile(a1, [0,20,40,60,80,100], interpolation='nearest'))
print(np.percentile(a1, [0,20,40,60,80,100], interpolation='midpoint'))

[0 1 2 3]
[0.  0.6 1.2 1.8 2.4 3. ]
[0 1 2 2 3 3]
[0 0 1 1 2 3]
[0 1 1 2 2 3]
[0.  0.5 1.5 1.5 2.5 3. ]


* any(): 하나라도 True이면 True
* all(): 하나라도 False이면 False

In [57]:
# any
a2 = np.array([[False, False, False],
               [False, True, True],
               [False, True, True]])
print(a2)
print(np.any(a2))
print(np.any(a2, axis=0))
print(np.any(a2, axis=1))

[[False False False]
 [False  True  True]
 [False  True  True]]
True
[False  True  True]
[False  True  True]


In [58]:
# all
a2 = np.array([[False, False, True],
               [False, True, True],
               [False, True, True]])
print(a2)
print(np.all(a2))
print(np.all(a2, axis=0))
print(np.all(a2, axis=1))

[[False False  True]
 [False  True  True]
 [False  True  True]]
False
[False False  True]
[False False False]


#### 비교 연산(Comparison Operators)

In [59]:
a1 = np.arange(1,10)
print(a1)
print(a1 == 5)
print(a1 != 5)
print(a1 < 5)
print(a1 <= 5)
print(a1 > 5)
print(a1 >= 5)

[1 2 3 4 5 6 7 8 9]
[False False False False  True False False False False]
[ True  True  True  True False  True  True  True  True]
[ True  True  True  True False False False False False]
[ True  True  True  True  True False False False False]
[False False False False False  True  True  True  True]
[False False False False  True  True  True  True  True]


In [60]:
a2 = np.arange(1, 10).reshape(3,3)
print(a2)
print(np.sum(a2))
print(np.count_nonzero(a2 > 5))
print(np.sum(a2 > 5))
print(np.sum(a2 > 5, axis = 0))
print(np.sum(a2 > 5, axis = 1))
print(np.any(a2>5))
print(np.any(a2>5, axis = 0))
print(np.any(a2>5, axis = 1))
print(np.all(a2>5))
print(np.any(a2>5, axis = 0))
print(np.all(a2>5, axis = 1))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
45
4
4
[1 1 2]
[0 1 3]
True
[ True  True  True]
[False  True  True]
False
[ True  True  True]
[False False  True]


In [61]:
# isclose()
a1 = np.array([1,2,3,4,5])
print(a1)
b1 = np.array([1,2,3,3,4])
print(b1)
print(np.isclose(a1, b1))

[1 2 3 4 5]
[1 2 3 3 4]
[ True  True  True False False]


In [62]:
# inf, nan, NINF
a1 = np.array([np.nan, 2, np.inf, 4, np.NINF])
print(a1)
print(np.isnan(a1))
print(np.isinf(a1))
print(np.isfinite(a1))

[ nan   2.  inf   4. -inf]
[ True False False False False]
[False False  True False  True]
[False  True False  True False]


* 불리언 연산자(Boolean Operators)

In [63]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)

print((a2 > 5)&( a2 < 8))
print(a2[(a2 > 5)&( a2 < 8)])

print((a2 > 5) | ( a2 < 8))
print(a2[(a2 > 5) | ( a2 < 8)])

print((a2 > 5)^( a2 < 8))
print(a2[(a2 > 5)^( a2 < 8)])

print(~(a2 > 5))
print(a2[~(a2 > 5)])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False False]
 [False False  True]
 [ True False False]]
[6 7]
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]
[1 2 3 4 5 6 7 8 9]
[[ True  True  True]
 [ True  True False]
 [False  True  True]]
[1 2 3 4 5 8 9]
[[ True  True  True]
 [ True  True False]
 [False False False]]
[1 2 3 4 5]


### (3) Slicing & Indexing 

#### 인덱싱(Indexing)

In [64]:
print(a1)
print(a1[0])
print(a1[-1])

[ nan   2.  inf   4. -inf]
nan
-inf


In [65]:
print(a2)
print(a2[0, 0])
print(a2[0, 2])
print(a2[-1, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
9


In [66]:
print(a3)
print(a3[0, 0, 0])
print(a3[1, 0, 2])
print(a3[-1, -1, -1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
3
9


#### 슬라이싱(Slicing)  
* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

In [67]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1]) # 0부터 1 전까지
print(a1[::2])
print(a1[::-1]) # 역으로 접근

[ nan   2.  inf   4. -inf]
[nan  2.]
[ nan   2.  inf   4. -inf]
[nan]
[ nan  inf -inf]
[-inf   4.  inf   2.  nan]


In [68]:
print(a2)
print(a2[1]) # 1행 출력
print(a2[1, :]) # 1행 출력
print(a2[:2, :2]) # 0,1 출력
print(a2[1:, ::-1])
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[4 5 6]
[[1 2]
 [4 5]]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


#### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [69]:
print(a1)
bi = [False, False, True, False, True]
print(a1[bi])

[ nan   2.  inf   4. -inf]
[ inf -inf]


In [70]:
print(a2)
bi = np.random.randint(0,2,(3,3), dtype = bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ True False  True]
 [False  True  True]
 [False False False]]
[1 3 5 6]


#### 팬시 인덱싱(Fancy Indedxing)

In [71]:
print(a1)
print([a1[0], a1[2]])
ind = [0,2]
print(a1[ind])
ind = np.array([[0,1],
               [2,0]])
print(a1[ind])

[ nan   2.  inf   4. -inf]
[nan, inf]
[nan inf]
[[nan  2.]
 [inf nan]]


In [72]:
print(a2)
row = np.array([0,2])
col = np.array([1,2])
print(a2[row,col])
print(a2[row,:])
print(a2[:, col])
print(a2[row,1:])
print(a2[1:, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[[2 3]
 [8 9]]
[[5 6]
 [8 9]]


#### 배열 값 수정  
* 배열의 인덱싱으로 접근하여 값 수정

In [73]:
print(a1)
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)
a1[:1] = 9
print(a1)
i = np.array([1,3,4])
a1[i] = 0
print(a1)
a1[i] += 4
print(a1)

[ nan   2.  inf   4. -inf]
[  1.   2.   3.   4. -inf]
[  9.   2.   3.   4. -inf]
[9. 0. 3. 0. 0.]
[9. 4. 3. 4. 4.]


In [74]:
print(a2)
a2[0,0] = 1
a2[0] = 1
print(a2)
a2[1:,2] = 9
print(a2)
row = np.array([0,2])
col = np.array([0,1])
a2[row, col] = 0
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 5 9]
 [7 8 9]]
[[0 1 1]
 [4 5 9]
 [7 0 9]]


### (4) 함수 

#### 배열 값 삽입  
* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [75]:
print(a1)
b1 = np.insert(a1, 0, 10)
print(b1)
print(a1)
c1 = np.insert(a1, 2, 10)
print(c1)

[9. 4. 3. 4. 4.]
[10.  9.  4.  3.  4.  4.]
[9. 4. 3. 4. 4.]
[ 9.  4. 10.  3.  4.  4.]


In [76]:
print(a2)
b2 = np.insert(a2, 1, 10, axis = 0)
print(b2)
c2 = np.insert(a2, 1, [1,2,10], axis = 1)
print(c2)

[[0 1 1]
 [4 5 9]
 [7 0 9]]
[[ 0  1  1]
 [10 10 10]
 [ 4  5  9]
 [ 7  0  9]]
[[ 0  1  1  1]
 [ 4  2  5  9]
 [ 7 10  0  9]]


#### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [77]:
print(a1)
b1 = np.delete(a1,1)
print(b1)
print(a1)

[9. 4. 3. 4. 4.]
[9. 3. 4. 4.]
[9. 4. 3. 4. 4.]


In [78]:
print(a2)
b2 = np.delete(a2, 1, axis = 0)
print(b2)
c2 = np.delete(a2, 1, axis = 1)
print(c2)
# 원본 배열 변경 없음 -> 속도 면에서 장점

[[0 1 1]
 [4 5 9]
 [7 0 9]]
[[0 1 1]
 [7 0 9]]
[[0 1]
 [4 9]
 [7 9]]


#### 배열 복사

* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사

In [79]:
print(a2)
print(a2[:2, :2])
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[:, 1] = 0 
# 받아온 배열도 원본 배열에 영향을 줌 -> 동일한 메모리 위치 사용
# 영향 안주고 싶으면 copy해야 함
print(a2_sub)
print(a2)

[[0 1 1]
 [4 5 9]
 [7 0 9]]
[[0 1]
 [4 5]]
[[0 1]
 [4 5]]
[[0 0]
 [4 0]]
[[0 0 1]
 [4 0 9]
 [7 0 9]]


In [80]:
print(a2)
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
a2_sub_copy[:, 1] = 1
print(a2_sub_copy)
print(a2)

[[0 0 1]
 [4 0 9]
 [7 0 9]]
[[0 0]
 [4 0]]
[[0 1]
 [4 1]]
[[0 0 1]
 [4 0 9]
 [7 0 9]]


#### 배열 재구조화  
* `reshape()`: 배열의 형상을 변경

In [190]:
n1 = np.arange(1,10)
print(n1)
print(n1.reshape(3,3))

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


* `newaxis()`: 새로운 축 추가

In [191]:
print(n1)
print(n1[np.newaxis, :5]) 
print(n1[:5, np.newaxis]) 

[1 2 3 4 5 6 7 8 9]
[[1 2 3 4 5]]
[[1]
 [2]
 [3]
 [4]
 [5]]


In [192]:
print(n1[np.newaxis, :5].shape) 
print(n1[:5, np.newaxis].shape) 

(1, 5)
(5, 1)


#### 배열 크기 변경  
* `resize()`: 배열의 크기를 변경

In [83]:
n2 = np.random.randint(0,10, (2,5))
print(n2)
n2.resize((5,2))
print(n2)

[[0 6 7 8 0]
 [1 0 0 2 2]]
[[0 6]
 [7 8]
 [0 1]
 [0 0]
 [2 2]]


In [84]:
n2.resize((5,5),refcheck=False)
print(n2)
# 남은 공간 0으로 채워짐

[[0 6 7 8 0]
 [1 0 0 2 2]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


In [85]:
n2.resize((3,3),refcheck=False)
print(n2)
# 포함되지 않은 값은 삭제됨

[[0 6 7]
 [8 0 1]
 [0 0 2]]


#### 배열 추가  
* `append()`: 배열의 끝에 값 추가

In [86]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2 = np.arange(10,19).reshape(3,3)
print(b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]


In [87]:
c2 = np.append(a2, b2)
print(c2)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]


In [88]:
# axis = 0으로 지정
c2 = np.append(a2, b2, axis = 0)
print(c2)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]]


In [89]:
# axis = 1로 지정
c2 = np.append(a2, b2, axis = 1)
print(c2)

[[ 1  2  3 10 11 12]
 [ 4  5  6 13 14 15]
 [ 7  8  9 16 17 18]]


#### 배열 값 확인
* `np.where()`: 조건 만족 인덱스 반환 
* `np.unique()`: 주어진 배열에서 모든 고유 값을 검색하고 이러한 고유 값을 정렬

In [182]:
a1 = np.arange(5, 15) 
print(a1)
print(np.where(a > 10)) 

[ 5  6  7  8  9 10 11 12 13 14]
(array([6, 7, 8, 9]),)


In [185]:
a2 = np.array([[2,3,4],
              [5,4,7],
              [4,2,3]])
unique_array=np.unique(a2, return_counts=True)
print(unique_array)

(array([2, 3, 4, 5, 7]), array([2, 2, 3, 1, 1]))


### (5) 병합 & 분할 (stack, split) 

#### 배열 병합  
* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

In [90]:
a1 = np.array([1,3,5])
b1 = np.array([2,4,6])
np.concatenate([a1, b1])

array([1, 3, 5, 2, 4, 6])

In [91]:
c1 = np.array([7,8,9])
np.concatenate([a1,b1,c1])

array([1, 3, 5, 2, 4, 6, 7, 8, 9])

In [92]:
a2 = np.array([[1,2,3],
               [4,5,6]])
np.concatenate([a2,a2])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [93]:
a2 = np.array([[1,2,3],
               [4,5,6]])
np.concatenate([a2,a2], axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

* `vstack()`: 수직 스택(vertical stack)

In [94]:
np.vstack([a2,a2])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [194]:
np.vstack([a2,a2]).shape

(6, 3)

* `hstack()`: 수평 스택(horizontal stack)

In [95]:
np.hstack([a2,a2])

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

* `dstack()`: 깊이 스택(depth stack)

In [96]:
np.dstack([a2,a2])

array([[[1, 1],
        [2, 2],
        [3, 3]],

       [[4, 4],
        [5, 5],
        [6, 6]]])

* `stack()`: 새로운 차원으로 연결

In [97]:
np.stack([a2,a2])

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

#### 배열 분할  
* `split()`: 배열 분할

In [98]:
a1 = np.arange(0,10)
print(a1)
b1, c1 = np.split(a1, [5]) # 인덱스 5 기준으로 split
print(b1, c1)
b1, c1, d1, e1, f1 = np.split(a1, [2,4,6,8])
print(b1, c1, d1, e1, f1)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4] [5 6 7 8 9]
[0 1] [2 3] [4 5] [6 7] [8 9]


* `vsplit()`: 수직 분할

In [99]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2, c2 = np.vsplit(a2, [2])
print(b2)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]]
[[7 8 9]]


* `hsplit()`: 수평 분할

In [100]:
a2 = np.arange(1,10).reshape(3,3)
print(a2)
b2, c2 = np.hsplit(a2, [2])
print(b2)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2]
 [4 5]
 [7 8]]
[[3]
 [6]
 [9]]


* `dsplit()`: 깊이 분할

In [101]:
a3 = np.arange(1,28).reshape(3,3,3)
print(a3)
b3, c3 = np.hsplit(a3, [2])
print(b3)
print(c3)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[10 11 12]
  [13 14 15]]

 [[19 20 21]
  [22 23 24]]]
[[[ 7  8  9]]

 [[16 17 18]]

 [[25 26 27]]]


### (6) QUIZ

In [102]:
# (1)에 포함

In [113]:
q1 = np.arange(10,31)
print(q1)

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]


In [117]:
q2 = np.random.random(5)
print(q2)
q2[q2.argmax()] = 0
print(q2)

[0.74477615 0.29900594 0.39137998 0.91495816 0.35923376]
[0.74477615 0.29900594 0.39137998 0.         0.35923376]


In [120]:
q3 = np.random.randint(0,5,(3,3))
print(q3)
# solution 1
E = np.all(q3[:,1:] == q3[:,:-1], axis =1)
print(E)
U = q3[~E]
print(U)
# solution 2
U = q3[q3.max(axis=1) != q3.min(axis=1), :]
print(U)

[[3 4 3]
 [3 2 1]
 [4 4 4]]
[False False  True]
[[3 4 3]
 [3 2 1]]
[[3 4 3]
 [3 2 1]]


### (7) 과제 설명

In [None]:
/content/drive/MyDrive/문서/archive (12)/users.csv

In [121]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt # plotting
import seaborn as sns # more plotting

In [127]:
# flights.csv
dfFlight = pd.read_csv('/content/drive/MyDrive/문서/archive (12)/flights.csv', delimiter=',')
dfFlight.dataframeName = 'flights.csv'
nRow, nCol = dfFlight.shape
print(f'There are {nRow} rows and {nCol} columns')
# hotels.csv
dfHotel = pd.read_csv('/content/drive/MyDrive/문서/archive (12)/hotels.csv', delimiter=',')
dfHotel.dataframeName = 'hotels.csv'
nRow, nCol = dfHotel.shape
print(f'There are {nRow} rows and {nCol} columns')
# user.csv
dfUser = pd.read_csv('/content/drive/MyDrive/문서/archive (12)/users.csv', delimiter=',')
dfUser.dataframeName = 'users.csv'
nRow, nCol = dfUser.shape
print(f'There are {nRow} rows and {nCol} columns')

There are 271888 rows and 10 columns
There are 40552 rows and 8 columns
There are 1340 rows and 5 columns


In [129]:
# Viewing the first 3 rows
dfFlight.head(3)

Unnamed: 0,travelCode,userCode,from,to,flightType,price,time,distance,agency,date
0,0,0,Recife (PE),Florianopolis (SC),firstClass,1434.38,1.76,676.53,FlyingDrops,09/26/2019
1,0,0,Florianopolis (SC),Recife (PE),firstClass,1292.29,1.76,676.53,FlyingDrops,09/30/2019
2,1,0,Brasilia (DF),Florianopolis (SC),firstClass,1487.52,1.66,637.56,CloudFy,10/03/2019


In [126]:
# Viewing the first 3 rows
dfHotel.head(3)

Unnamed: 0,travelCode,userCode,name,place,days,price,total,date
0,0,0,Hotel A,Florianopolis (SC),4,313.02,1252.08,09/26/2019
1,2,0,Hotel K,Salvador (BH),2,263.41,526.82,10/10/2019
2,7,0,Hotel K,Salvador (BH),3,263.41,790.23,11/14/2019


In [123]:
# Viewing the first 3 rows
dfUser.head(3)

Unnamed: 0,code,company,name,gender,age
0,0,4You,Roy Braun,male,21
1,1,4You,Joseph Holsten,male,37
2,2,4You,Wilma Mcinnis,female,48


In [137]:
print(dfFlight["date"].to_numpy())
print(dfFlight["distance"].to_numpy())
print(dfHotel["days"].to_numpy())
print(dfHotel["price"].to_numpy())
print(dfUser["age"].to_numpy())

['09/26/2019' '09/30/2019' '10/03/2019' ... '07/20/2020' '07/23/2020'
 '07/26/2020']
[676.53 676.53 637.56 ... 709.37 466.3  466.3 ]
[4 2 3 ... 3 3 4]
[313.02 263.41 263.41 ...  60.39  60.39 242.88]
[21 37 48 ... 28 52 35]


In [148]:
date = dfFlight["date"].to_numpy()
distance = dfFlight["distance"].to_numpy()
days = dfHotel["days"].to_numpy()
price = dfHotel["price"].to_numpy()
name = dfHotel["name"].to_numpy()
place = dfHotel["place"].to_numpy()
age = dfUser["age"].to_numpy()

In [139]:
# np.min & np.max
print("The dataset ranges from ",np.min(date),"to", np.max(date))

The dataset ranges from  01/01/2021 to 12/31/2022


In [140]:
# np.mean
print("The average age of travelers" , np.mean(age))

The average age of travelers 42.742537313432834


In [154]:
print("The most expensive hotel is", name[np.argmax(price)] ,"and the price is", price[np.argmax(price)])
print("The cheapest hotel is", name[np.argmin(price)] ,"and the price is", price[np.argmin(price)])

The most expensive hotel is Hotel A and the price is 313.02
The cheapest hotel is Hotel BW and the price is 60.39


In [152]:
# np.unique
unique, counts = np.unique(name, return_counts=True)
dict(zip(unique, counts))

{'Hotel A': 3330,
 'Hotel AF': 4828,
 'Hotel AU': 4467,
 'Hotel BD': 4829,
 'Hotel BP': 4437,
 'Hotel BW': 4333,
 'Hotel CB': 5029,
 'Hotel K': 5094,
 'Hotel Z': 4205}

In [159]:
# np.where
idx_A = np.where(name == 'Hotel A')
idx_BW = np.where(name == 'Hotel BW')

In [165]:
#fancy indexing
print(np.mean(days[idx_A]))
print(np.mean(days[idx_BW]))

2.483183183183183
2.4954996538195244


In [172]:
print("The most visited hotel is the", unique[np.argmax(counts)])

The most visited hotel is the Hotel K


In [173]:
# np.where
idx_K = np.where(name == 'Hotel K')

In [178]:
print(np.max(price[idx_K]))
print(np.mean(days[idx_K]))

263.41
2.516489988221437
