## NumPy 배열의 분할
* vsplit()
* hsplit()

In [3]:
# vsplit() ==> axis=0 (2차원 배열에서 수직, 행) 축을 따라 가면서 분할

import numpy as np
grid = np.arange(16).reshape(4, 4)
upper, lower = np.vsplit(grid, [1])
print(upper)
print(lower)

print(upper.ndim) # 2차원
print(np.array([1,2,3]).ndim) # 1차원

[[0 1 2 3]]
[[ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
2
1


In [4]:
# hsplit() ==> axis=1 (2차원 배열에서 수평, 열) 축을 따라 가면서 분할

left, right = np.hsplit(grid, [1])
print(left)
print(right)

[[ 0]
 [ 4]
 [ 8]
 [12]]
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]
 [13 14 15]]


## 유니버셜 함수 (UFuncs)
* 벡터화 연산 : 배열의 각 요소에 연산을 수행

In [6]:
# (실습 예제) 화씨 온도 자료들을 섭씨로 바꾸기 ==> 파이썬 list & 인덱스 접근 방식...

arr = [100, 80, 70, 90, 110]

for i in range(len(arr)):
    arr[i] = (arr[i] - 32) * 5 // 9  # 몫 연산자
    
print(arr)

[37, 26, 21, 32, 43]


In [8]:
# (실습 예제)

arr = [100, 80, 70, 90, 110]

narr = np.array(arr)
print((narr - 32) * 5 / 9)

[37.77777778 26.66666667 21.11111111 32.22222222 43.33333333]


## 배열의 산술 연산 & 브로드캐스팅
* 두 연산 대상인 **두 배열**들의 차원이 같으면 **각 요소 단위로** 연산 수행
* 두 연산 대상 중 **하나가 스칼라** 값인 경우, 배열로 확장 혹은 복제 후 처리

In [9]:
a = np.array([0, 1, 2])
b = np.array([0, 1, 2])
print(a + b)

a = np.array([0, 1, 2])
b = 5
print(a + b)

[0 2 4]
[5 6 7]


In [10]:
noise = np.eye(4) + 0.01 * np.ones(4, ) # 2단계 브로드캐스팅
print(np.eye(4))
print()
print(np.ones(4, )) # 1. 행은 1개고 열만 4개로 채워진 배열 ==> (1, 4)로 브로드캐스팅
print()
print(noise) # 2. (1, 4)가 (4, 4) 꼴로 브로드캐스팅

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

[1. 1. 1. 1.]

[[1.01 0.01 0.01 0.01]
 [0.01 1.01 0.01 0.01]
 [0.01 0.01 1.01 0.01]
 [0.01 0.01 0.01 1.01]]


In [11]:
print(np.arange(3).reshape(3, 1) + np.arange(3))
# [[0, 0, 0], [1, 1, 1], [2, 2, 2]] + [[0, 1, 2], [0, 1, 2], [0, 1, 2]]

[[0 1 2]
 [1 2 3]
 [2 3 4]]


In [17]:
# 브로드캐스팅이 되지 않는 경우

M = np.ones((3, 2)) # np.ones(tuple shape)
a = np.arange(3)
print(M)
print()
print(a)
print()
print(M.shape)
print(a.shape)

# (3, 2)와 (3, 3)은 브로드캐스팅이 되지 않아서 연산할 수 없음!

[[1. 1.]
 [1. 1.]
 [1. 1.]]

[0 1 2]

(3, 2)
(3,)


## 기타 유니버셜 함수들
* 절댓값 함수 : abs(), np.absolute()
* 사칙연산 : add(), multiply(), negative(), exp(), log(), sqrt()
* 삼각함수 : sin(), cos(), hypot()
* 비트 단위 : bitwise_and(), left_shift()
* 기타 : maximum(), minimum()

In [18]:
# abs() ==> 절댓값 함수 (파이썬 내장 함수)

a = np.array([0, -1, 2])
print(abs(a))

[0 1 2]


In [19]:
# np.absolute() ==> NumPy 모듈의 함수 (복소수도 연산 가능, 절대값 == 크기 return)

print(np.absolute(a))

[0 1 2]


## 배열의 집계 함수
* 원소 전체의 합계 구하기 : sum() ==> python 내장 함수와는 차이 존재!
* 최솟값과 최댓값 : min(), max()
* 평균, 표준편차, 분산, 중앙값, 백분위수 : mean(), std(), var(), median(), ...

In [20]:
# (실습) 배열의 모든 요소의 평균 구하기

grid = np.array([[1, 2, 3], [4, 6, 2]])
print(np.mean(grid))

3.0


In [24]:
# (실습) 배열의 각 행 or 각 열의 평균 구하기 ==> axis 지정

print(grid)
print()
print(np.mean(grid, axis = 0)) # 0번 축 : 행 방향 (↓)으로 진행하며 평균 구하기
print()
print(np.mean(grid, axis = 1)) # 1번 축 : 열 방향 (→)으로 진행하며 평균 구하기

[[1 2 3]
 [4 6 2]]

[2.5 4.  2.5]

[2. 4.]


## Boolean 배열
* <, >, <=, >=, ==, !=
* NumPy 배열의 각 요소에 대해서 참/거짓 판단 후 True/False 값 각각 배열로 return

In [25]:
x = np.array([1, 2, 3, 4, 5])
print(x < 3)
print(x >= 3)
print(x == 3)
print(x != 3)

[ True  True False False False]
[False False  True  True  True]
[False False  True False False]
[ True  True False  True  True]


In [29]:
# 2차원 배열에도 적용 가능

rng = np.random.RandomState(0) # seed값을 0으로 고정 ==> 실행할 때마다 같은 난수 발생
print(rng)
print()
x = rng.randint(10, size=(3, 4))
print(x)
print()
print(x < 6)

<mtrand.RandomState object at 0x000001B14033D7E0>

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]

[[ True  True  True  True]
 [False False  True  True]
 [ True  True False False]]


In [33]:
# 난수 seed 설정하지 않았을 떄 ==> 실행할 때마다 다른 난수 배열 생성

print(np.random.randint(10, size=(3, 4)))

[[3 4 0 9]
 [6 5 1 1]
 [9 0 6 8]]


## NumPy 함수의 활용
* np.count_nonzero(조건문) : True의 개수 파악
* np.sum() : **True인 값들만 다 더함**
* np.any() : 값 중 하나라도 참이 있는지 확인
* np.all() : 모든 값이 참인지 확인


In [36]:
# (실습) Boolean 배열의 활용 ==> 6보다 작은 값이 몇 개인지 찾기 (count_nonzero() 이용)

print(x)
print()
print(np.count_nonzero(x < 6)) # True의 숫자 파악

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]

8


In [37]:
# (실습) 동일한 원리로 sum() 함수 활용 가능 ==> True들의 합계 == 6보다 작은 값들의 수

print(x < 6) # Boolean 배열로 return
print() 
print(np.sum(x < 6)) # 위의 Boolean 배열의 각 요소들의 총 합 (True == 1의 개수)

[[ True  True  True  True]
 [False False  True  True]
 [ True  True False False]]

8


In [38]:
# (실습) 각 행 별로 6보다 작은 값은 몇 개가 있는지 구해보기

rng = np.random.RandomState(0)
x = rng.randint(10, size = (3, 4))
print(x)
print()
print(np.sum(x < 6, axis = 1)) # axis = 1 : 열 방향으로 나아가며 각 행별로 sum 구함

# 0행 : 6보다 작은 요소 개수 4개 ==> np.sum() : 4
# 1행 : 6보다 작은 요소 개수 2개 ==> np.sum() : 2

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]

[4 2 2]


In [39]:
# (실습) np.any() & np.all()

print(x)
print()
print(np.any(x > 8)) # x의 모든 값들 중 하나라도 참이 있는지 확인
print()
print(np.all(x < 6, axis = 1)) # 열 방향으로 나아가며 각 행별로 np.all() 확인

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]

True

[ True False False]


## Boolean 배열과 bool 연산자
* & (bitwise and)
* | (bitwise or)
* ^ (bitwise xor)
* ~ (bitwise not)

In [40]:
# (실습) 3이상 and 6미만인 값이 몇 개인지 찾기

print(x)
print()
print(np.sum((x >= 3) & (x < 6)))

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]

6


In [41]:
# ***주의*** : np.sum(조건문) 시, 
# 요소들의 value들을 더하는 것이 아닌, True(1)들을 더하는 것!
# 즉, 조건에 맞는 요소의 개수들을 return!

print(np.sum(x > 3)) # 조건에 맞는 요소 개수가 총 7개

7


## Boolean 배열과 마스킹 연산

In [42]:
# 조건에 맞는 값들로 채워진 1차원 배열 도출 ==> ***이러면 True 개수 세는 거 X!***

print(x[x < 5])

[0 3 3 3 2 4]


In [44]:
print(x)
print(x[False])

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]
[]


## 구조화된 NumPy 배열 생성
* 서로 관련된 이종 데이터를 구조화하여 저장 가능
* (step 1) 저장할 공간 생성 -> (step 2) 생성 공간에 데이터 대입

In [45]:
# step1 : 저장 공간 생성

name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]
data = np.zeros(4, dtype={'names' : ('name', 'age', 'weight'), 'formats': ('U10', 'i4', 'f8')})

print(data) # 'U10' : 10글자 들어가는 char / 'i4' : 4개 int / 'f8' : 8개 float

[('', 0, 0.) ('', 0, 0.) ('', 0, 0.) ('', 0, 0.)]


In [46]:
# step2 : 데이터 대입 

data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

# 위에서 공간 할당 시 dtype의 'names'에 ('name', 'age', 'weight') 지정해놨으므로
# 각각의 위치에 데이터(각각의 파이썬 리스트 3개) 저장됨 (자동 매칭)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


In [56]:
print(data['name'])
print(data[0])
print(data[-1]['name'])

['Alice' 'Bob' 'Cathy' 'Doug']
('Alice', 25, 55.)
Doug


In [55]:
print(type(data)) # 구조화된 numpy 배열!
print(type(data[0]))

<class 'numpy.ndarray'>
<class 'numpy.void'>


In [57]:
# 구조화된 NumPy 배열의 활용 (2) ==> Boolean 배열을 같이 활용 가능

print(data[data['age'] < 30]['name'])
print(data[data['age'] < 30])
print(len(data[data['age'] < 30]))

['Alice' 'Doug']
[('Alice', 25, 55. ) ('Doug', 19, 61.5)]
2


In [61]:
# (실습) 구조화된 NumPY 배열
# 나이가 30보다 많고, 체중이 80보다 많은 사람의 이름 출력

print(data[(data['age'] > 30) & (data['weight'] > 80)]['name']) 
# bitwise and (&)로 써줘야함!!! 그리고 두 조건 이을 때 괄호!! () & ()

['Bob']


In [64]:
# 그냥 and는 오류!

print(data[(data['age'] > 30) and (data['weight'] > 80)]['name']) 

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [62]:
print(True and False) # and

False


In [63]:
print(True & False) # bitwise and

False
