<a href="https://colab.research.google.com/github/Bigdata92/Python_For_DA/blob/master/ch04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4. NumPy Basics: Arrays and Vectorized Computation

In [0]:
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

In [0]:
import numpy as np # 성능 차이 확인
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [0]:
%time for _ in range(10): my_arr2 = my_arr * 2 # 걸리는 시간 비교
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

## 4.1 The NumPy ndarray: A Multidimensional Array Object
#### ndarray : N차원의 배열 객체, 대규모 데이터 집합 담는 빠르고 유연

In [0]:
import numpy as np
# Generate some random data
data = np.random.randn(2, 3)
data

In [0]:
data * 10
data + data

In [0]:
data.shape
data.dtype

### 4.1.1 Creating ndarrays

In [0]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1) # 배열 생성 : array() 사용
arr1

In [0]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

In [0]:
arr2.ndim
arr2.shape

In [0]:
arr1.dtype
arr2.dtype

In [0]:
np.zeros(10) 
np.zeros((3, 6)) # 각각 0 들어있음
np.empty((2, 3, 2))

In [0]:
np.arange(15)

array : 입력data ndarray 변환
asarray : 입력data ndarray 변환
arange : ndarray 반환
ones : 1 초기화
zeros : 0 초기화
empty : 메모리 할당하여 새로운 배열 생성
full : 인자로 받은 dtype과 배열을 생성하고 인자로 받은 값으로 배열 채움
eye : N X N 크기 단위행렬 생성

### 4.1.2 Data Types for ndarrays
#### dtype : metadata(data를 해석하기 위해 필요 정보) 담고 있음

In [0]:
arr1 = np.array([1, 2, 3], dtype=np.float64) # float, int : 자료형의 이름과 하나의 원소가 차지하는 비트 수
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

In [0]:
arr = np.array([1, 2, 3, 4, 5]) # astype : dtype을 명시적으로 반환(casting)
arr.dtype
float_arr = arr.astype(np.float64)
float_arr.dtype

In [0]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr
arr.astype(np.int32)

In [0]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float) # 형변환 실패시 ValueError 예외 

In [0]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

In [0]:
empty_uint32 = np.empty(8, dtype='u4') #u4 : 축약코드
empty_uint32

### 4.1.3 Arithmetic with NumPy Arrays
#### 벡터화 : for문 작성하지X data 일괄 처리

In [0]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr
arr * arr
arr - arr

In [0]:
1 / arr
arr ** 0.5

In [0]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2
arr2 > arr

### 4.1.4 Basic Indexing and Slicing

In [0]:
arr = np.arange(10)
arr
arr[5]
arr[5:8]
arr[5:8] = 12 # 배열 조각(=뷰) : data 복사X, 뷰에 대한 변경 원본 배열에 반영
arr

In [0]:
arr_slice = arr[5:8]
arr_slice

In [0]:
arr_slice[1] = 12345
arr

In [0]:
arr_slice[:] = 64 # ndarray 슬라이스의 복사본 얻는 방법 : arr[5:8].copy()
arr

In [0]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 2차원 배열에서 각 색인에 해당하는 요소 : 1차원 배열
arr2d[2]

In [0]:
arr2d[0][2] # 위 아래 두 표현 모두 동일
arr2d[0, 2]

In [0]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [0]:
arr3d[0] # 스칼라, 배열 모두 대입 가능

In [0]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d

In [0]:
arr3d[1, 0]

In [0]:
x = arr3d[1]
x
x[0]

#### Indexing with slices

In [0]:
arr
arr[1:6]

In [0]:
arr2d
arr2d[:2]

In [0]:
arr2d[:2, 1:] # 같은 차원의 배열에 대한 뷰 얻게 됨, 정수 색인 + 슬라이스 함께 사용시 한 차원 낮은 슬라이스 얻음

In [0]:
arr2d[1, :2]

In [0]:
arr2d[:2, 2]

In [0]:
arr2d[:, :1]

In [0]:
arr2d[:2, 1:] = 0
arr2d

### 4.1.5 Boolean Indexing

In [0]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names
data

In [0]:
names == 'Bob'

In [0]:
data[names == 'Bob'] # Boolean 배열 배열의 색인 사용 가능

In [0]:
data[names == 'Bob', 2:] # names == 'Bob' row 2: column 선택
data[names == 'Bob', 3]

In [0]:
names != 'Bob' # 'Bob'아닌 요소 선택시 !=, ~ 사용
data[~(names == 'Bob')]

In [0]:
cond = names == 'Bob'
data[~cond]

In [0]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

In [0]:
data[data < 0] = 0
data

In [0]:
data[names != 'Joe'] = 7
data

### 4.1.6 Fancy Indexing : 정수 배열 사용한 색인 설명 목적

In [0]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

In [0]:
arr[[4, 3, 0, 6]]

In [0]:
arr[[-3, -5, -7]]

In [0]:
arr = np.arange(32).reshape((8, 4))
arr
arr[[1, 5, 7, 2], [0, 3, 1, 2]] # Fancy Indexing 결과 항상 1차원

In [0]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # 선택된 data 새로운 배열로 복사

### 4.1.7 Transposing Arrays and Swapping Axes

In [0]:
arr = np.arange(15).reshape((3, 5))
arr
arr.T

In [0]:
arr = np.random.randn(6, 3)
arr
np.dot(arr.T, arr) # 행렬내적 : np.dot()

In [0]:
arr = np.arange(16).reshape((2, 2, 4))
arr
arr.transpose((1, 0, 2))

In [0]:
arr
arr.swapaxes(1, 2) # swapaxes() : 배열 뒤바꿈

## 4.2 Universal Functions: Fast Element-Wise Array Functions

In [0]:
arr = np.arange(10) # 유니버설 함수 : 하나 이상의 스칼라값을 받아 하나 이상의 스칼라 결괏값을 반환하는 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수
arr
np.sqrt(arr)
np.exp(arr) # 단항 유니버설 함수 : 1개 인자를 취해 단일 배열 반환

In [0]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y) #np.maximum : 원소별로 가장 큰 값 계산

In [0]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr) # modf() : 분수를 받아서 몫과 나머지 함께 반환
remainder
whole_part

In [0]:
arr #유니버설 함수는 선택적으로 out 인자를 취해 계산 결과를 따로 저장 가능
np.sqrt(arr)
np.sqrt(arr, arr)
arr

# 단항,이항 유니버설 함수 https://m.blog.naver.com/PostView.nhn?blogId=wpdls6012&logNo=220788184462&proxyReferer=https%3A%2F%2Fwww.google.com%2F

## 4.3 Array-Oriented Programming with Arrays

In [0]:
points = np.arange(-5, 5, 0.01) # 1000 equally spaced points, 벡터화: 배열 연산을 사용, 반복문을 명시적 제거
xs, ys = np.meshgrid(points, points) # np.meshgrid: 두개의 1차원 배열을 받아 가능한 모든 (x, y)짝 2차원 배열 2개 반환
ys

In [0]:
z = np.sqrt(xs ** 2 + ys ** 2) # 그리드 상의 두 포인트로 간단하게 계산 적용
z

In [0]:
import matplotlib.pyplot as plt # matplotlib 이용하여 2차원 배열 시각화
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

In [0]:
plt.draw()

In [0]:
plt.close('all')

### 4.3.1 Expressing Conditional Logic as Array Operations

In [0]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [0]:
result = [(x if c else y) # list comprehension문제점 : 큰 배열 빠르게 처리 X, 다차원 배열 사용 X
          for x, y, c in zip(xarr, yarr, cond)]
result

In [0]:
result = np.where(cond, xarr, yarr) # numpy.where : 삼항식의 벡터화(x if 조건 else y), np.where의 2,3 번째 인자 배열 X 상관 X
result                              # where : 다른 배열에 기반한 새로운 배열 생성

In [0]:
arr = np.random.randn(4, 4)
arr
arr > 0
np.where(arr > 0, 2, -2)

In [0]:
np.where(arr > 0, 2, arr) # set only positive values to 2

### 4.3.2 Mathematical and Statistical Methods 
#### 수학함수 : 배열 메서드 사용가능

In [0]:
arr = np.random.randn(5, 4) # 임의의 정규 분포 데이터 생성 및 집계
arr
arr.mean()
np.mean(arr)
arr.sum()

In [0]:
arr.mean(axis=1) # mean, sum : 선택적 axis인자 받아서 axis 통계 계산 및 한 차수 낮은 배열 반환
arr.sum(axis=0)

In [0]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7]) # cumsum : 누적함수
arr.cumsum()

In [0]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1) # cumprod : 누적곱 함수

### 4.3.3 Methods for Boolean Arrays

In [0]:
arr = np.random.randn(100)
(arr > 0).sum() # Number of positive values

In [0]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

### 4.3.4 Sorting

In [0]:
arr = np.random.randn(6)
arr
arr.sort()
arr

In [0]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

In [0]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

### 4.3.5 Unique and Other Set Logic

In [0]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names) # np.unique : 배열 내 중복된 원소 제거 및 남은 원소 정렬 형태로 반환
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [0]:
sorted(set(names))

In [0]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6]) # np.in1d : 두 개의 배열 인자로 받아, 첫 번째 배열의 원소가 두 번째 배열의 원소를 포함하는지 나타내는 불리언 배열

#### unique(x) : 중복 원소 제거 후 반환
#### intersect1d(x, y) : 공통 원소 반환
#### union1d(x, y) : 합집합 반환
#### in1d(x, y) : x의 원소가 y의 원소에 포함되는지 불리언 반환
#### setdiff1d(x, y) : x와y의 차집합 반환
#### setxor1d(x, y) : 대칭차집합 반환

## 4.4 File Input and Output with Arrays

### Numpy : text, binary load, save 가능
### np.save, np.load : matrix data save, load 가능, .npy파일로 저장

In [0]:
arr = np.arange(10)
np.save('some_array', arr)



In [0]:
np.load('some_array.npy')

In [0]:
np.savez('array_archive.npz', a=arr, b=arr) # np.savez : 여러 개의 배열 압축 형식으로 저장

In [0]:
arch = np.load('array_archive.npz') # npz파일 불러올 때는 '사전 형식의 객체'에 저장
arch['b']

In [0]:
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr) # 압축이 잘되는 data : numpy.savez_compressed 이용.

In [0]:
!rm some_array.npy
!rm array_archive.npz
!rm arrays_compressed.npz

## 4.5 Linear Algebra

In [0]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x
y
x.dot(y) # 행렬곱 dot함수 이용

In [0]:
np.dot(x, y) # x.dot(y) = np.dot(x,y)

In [0]:
np.dot(x, np.ones(3))

In [0]:
x @ np.ones(3) # @ : 행렬 곱셈 연산자

In [0]:
from numpy.linalg import inv, qr # numpy.linalg : 행렬의 분할, 역행렬, 행렬식 포함
X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

### p173 맨 밑에서 X.T -> X 로 오타 수정 

### diag : 단위행렬 반환
### dot : 행렬 곱
### trace : 대각원소 합
### det : 행렬식
### eig : 고유값, 고유벡터 계산
### inv : 역행렬 계산
### pinv : 무어-펜로즈 유사역원 역행렬 구함
### qr : qr분해 계산
### svd : 특잇값 분해(SVD)계산
### solve : Ax = b 만족하는 x 구함 
### lstsq : Ax = b 만족하는 최소제곱해 구함

## 4.6 Pseudorandom Number Generation

In [0]:
samples = np.random.normal(size=(4, 4)) # numpy.random : 매우 큰 표본 생성시 사용
samples

In [0]:
from random import normalvariate # 유사난수 생성 : 겉보기에는 난수 같지만 사실은 법칙이 정해져 있음
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

In [0]:
np.random.seed(1234) # 시드값 조절

In [0]:
rng = np.random.RandomState(1234) # 격리된 난수 생성기
rng.randn(10)

## numpy.random 함수 일부 

1.   seed : 시드 지정
2.   permutation : 순서를 임의로 바꾸거나 임의의 순열 반환
3.   shuffle : list or array 순서 뒤섞음
4.   rand : 균등분포에서 표본 추출
5.   randint : 주어진 범위에서 임의의 난수 추출
6.   randn : 정규분포에서 표본 추출 
7.   binomial : 이항분포에서 표본 추출 
8.   normal : 정규분포에서 표본 추출 
9.   beta : 베타분포에서 표본 추출 
10.  chisquare : 카이제곱분포에서 표본 추출 
11.  gamma : 감마 분포에서 표본 추출 
12.  uniform : 균등 분포에서 표본 추추 



## 4.7 Example: Random Walks

In [0]:
import random # 순수 python으로 내장 random module 사용
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [0]:
plt.figure()

In [0]:
plt.plot(walk[:100]) # 처음 100회의 계단 오르내리기 그래프로 그림

In [0]:
np.random.seed(12345)

In [0]:
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

In [0]:
walk.min()
walk.max()

In [0]:
(np.abs(walk) >= 10).argmax() # 'np.abs(walk) >= 10' : boolean 반환 -> argmax : boolean array에서 최댓값의 처음 색인 반환

### 4.7.1 Simulating Many Random Walks at Once

In [0]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 or 1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

In [0]:
walks.max()
walks.min()

In [0]:
hits30 = (np.abs(walks) >= 30).any(1) # 모든 경우가 30에 도달 하지 않는 경우떄문에 any() 사용 : True 1개라도 있으면 True return
hits30
hits30.sum() # Number that hit 30 or -30

In [0]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1) # 축 1의 argmax : 30칸 이상 멀어지는 최소 횟수 
crossing_times.mean()

In [0]:
steps = np.random.normal(loc=0, scale=0.25,
                         size=(nwalks, nsteps))

## Conclusion