## <strong> 7. NumPy 고급 기능 </strong>
+ 브로드캐스팅 (broadcasting)
+ 마스킹 (masking)
+ 팬시 인덱싱 (fancy indexing)

In [None]:
import numpy as np

### <strong> 브로드캐스팅 연산 </strong>
+ ```np.ones()```: 1로 이루어진 NumPy 배열 생성

In [None]:
# 1D + 스칼라
a = np.array([0, 1, 2])
print(a + 5)

In [None]:
# 1D + 2D 배열
a = ...      # [+] 1로 이루어진 (3, 3)의 배열 생성
print(a, '\n')

b = ...  # [+] [0, 1, 2]로 이루어진 정수 배열 생성
print(b, '\n')

print(a+b)

In [None]:
# 두 배열 모두 브로드캐스팅이 적용되는 경우
a = np.arange(3)
a = ...   # [+] 차원 추가: (3,) -> (3, 1)
print(a, '\n')

b = np.arange(3)
print(b, '\n')

print(a + b)

### <strong> 브로드캐스팅 규칙 </strong>

In [None]:
# 예제: 1D + 2D
a = np.ones((2, 3))
b = np.arange(3)

a+b

In [None]:
# 예제: 두 배열 모두 브로드캐스팅이 적용되는 경우
a = np.arange(3)
a = a.reshape((3, 1))
b = np.arange(3)

a+b

In [None]:
# 예제: 브로드캐스팅이 불가능한 경우
a = np.ones((3, 2))
print(a, '\n')

b = np.arange(3)
print(b, '\n')

print(a + b)

### <strong> 비교 연산, 마스크, 불리언 연산 </strong>

In [None]:
# 배열의 비교 연산(마스킹)
x = np.array([1, 2, 3, 4, 5])

print(x < 3)
print(x >= 3)
print(x != 3)
print(x == 3)

#### **예제: 시애틀 2014년 강수량**

In [None]:
import pandas as pd  # 데이터 조작을 위한 라이브러리

df = pd.read_csv('data/seattle2014.csv')
prcp = df['PRCP'].values   # PRCP: Precipitation (강수량)
prcp = prcp / 254.0  # 인치(inch) 단위로 변환
prcp[:10]

In [None]:
# [+] 비가 온 날은 며칠일까?
...

In [None]:
# [+] 비가 온 날의 평균 강수량은?
...

In [None]:
# [+] 0.5인치 이상 비가 온 날은 며칠?
...

#### **시각화 라이브러리 (seaborn) 설치**

In [None]:
!pip install seaborn

In [None]:
# 시각화 설정 코드
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set() 
%config InlineBackend.figure_format = 'svg'

In [None]:
# 강수량 히스토그램 시각화
plt.hist(prcp, 40);

In [None]:
# 다차원 배열의 비교 연산
np.random.seed(0)
x = np.random.randint(10, size=(3, 4))
print(x, '\n')

print(x < 6)

In [None]:
# Boolean 배열 연산
print(np.count_nonzero(x < 6))  # [+] 6보다 작은가? np.count_nonzero()
print(np.sum(x < 6))            # [+] 6보다 작은가? np.sum()
print(np.any(x > 8))            # [+] 8보다 큰 값이 있는가?
print(np.all(x > 1))            # [+] 모든 값이 1보다 큰가? 

In [None]:
# Boolean 배열을 이용한 데이터 선택
print(x, '\n')
print(x < 5, '\n')

print(x[x < 5])

### <strong> 팬시 인덱싱(fancy indexing) </strong>

In [None]:
# 난수 배열 생성
np.random.seed(1)
x = np.random.randint(100, size=10)
x

In [None]:
# 기본 문법: 2, 4, 6번 원소 선택하기
a = x[2]
b = x[4]
c = x[6]

print([a, b, c])

In [None]:
# 팬시 인덱싱: 2, 4, 6번 원소 선택하기
ind = ...  # [+] 인덱스 배열 생성
...        # [+] 인덱스 배열을 이용한 값 선택

In [None]:
# 팬시 인덱싱: 다차원 배열
np.random.seed(2)
x = np.random.randint(10, size=(3, 5))
print(x, '\n')

row = [0, 1, 2]
col = [2, 1, 4]

print(x[row, col])

In [None]:
# 팬시 인덱싱: 다차원 배열 + 브로드캐스팅
row = np.array([0, 1, 2])
col = np.array([2, 1, 4])

x[row[:, np.newaxis], col]

In [None]:
# 결합 인덱싱
x = np.arange(1, 13).reshape(3, 4)
print(x, '\n')

ind = [2, 0, 1]

print(x[2, ind], '\n')
print(x[1:, [2, 0, 1]])

#### **예제: 팬시 인덱싱을 이용한 임의의 점 집합 선택하기**
+ ```np.random.seed()```: 난수 생성을 위한 초기상태(seed)를 관리 (전역적 상태)
+ ```np.random.RandomState()```: seed를 별도 객체에서 관리 (지역적 상태) ${\rightarrow}$ 독립적인 난수 생성기를 여러 개 생성 가능

In [None]:
mean = [0, 0]     # 평균
cov = [[1, 2],    # 공분산
      [2, 5]]

rand = np.random.RandomState(1)  # RandomState: 시드를 별도 객체에서 관리
x = rand.multivariate_normal(mean, cov, 100)  # 정규분포 다변량 데이터 생성
print(x[:10])
print(x.shape)

In [None]:
# 산포도 출력: scatter(x, y)
plt.scatter(x[:, 0], x[:, 1]);

In [None]:
# 20개의 점을 무작위 추출(random sampling) -> 인덱스 값을 리턴
ind = np.random.choice(x.shape[0], 20, replace=False)
print(ind)

In [None]:
# 선택된 점 집합 출력
selected = x[ind]      # 팬시 인덱싱
print(selected)
print(selected.shape)

In [None]:
# 선택된 점 집합 시각화
plt.scatter(x[:, 0], x[:, 1], alpha=0.3)    # 원본 점 집합
plt.scatter(selected[:, 0], selected[:, 1], # 선택된 점 집합
            facecolor='red', s=50);