# NumPy: 파이썬 벡터 연산 패키지

NumPy 는 파이썬에서의 수학 연산의 기본 패키지:
	
- gives the ability to create multi-dimensional array objects
- performs faster mathematical operations
- it is base of most of Python's Data Science ecosystem

추가 고급기능:

- sophisticated (broadcasting) functions
- tools for integrating C/C++ and Fortran code
- useful linear algebra, Fourier transform, and random number capabilities

## 파이썬 기본 리스트의 한계(?)

In [None]:
distances = [10, 15, 17, 26, 20]
times = [0.3, 0.47, 0.55, 1.20, 1.0]

In [None]:
# 기본 파이썬으로 속도 계산 (거리 / 시간)
speeds = []
for i in range(len(distances)):
    speeds.append(distances[i]/times[i])

speeds

In [None]:
# 기본 파이썬으로 속도 계산 (거리 / 시간) : zip 함수 이용
speeds = []
for d,t in zip(distances, times):
    speeds.append(d/t)
    
speeds

In [None]:
product_quantities = [13, 5, 6, 10, 11]
prices = [1.2, 6.5, 1.0, 4.8, 5.0]

total = sum([q*p for q,p in zip(product_quantities, prices)])
# total = (product_quantities*prices).sum()
total

# NumPy arrays: 생성, 메서드와 속성들

## NumPy array 란 무엇인가?

NumPy 객체는 같은 타입의 데이터로 구성된 배열(혹은 다차원 배열) 이다. 주로 같은 타입의 숫자로 구성되고 인덱스를 가진다. NumPy 의 차원을 axes 라고도 한다. axes 의 갯수를 *rank* 또는 *dimension* 이라고 한다.

In [None]:
import numpy as np

## 배열 만들기: 리스트로 부터 numpy 배열 만들기

In [None]:
# 리스트에서 numpy 배열 만들기
distances = [10, 15, 17, 26, 20]
times = [0.3, 0.47, 0.55, 1.20, 1.0]
distances = np.array(distances)
times = np.array(times)

In [None]:
product_quantities = [13, 5, 6, 10, 11]
prices = [1.2, 6.5, 1.0, 4.8, 5.0]
product_quantities = np.array(product_quantities)
prices = np.array(prices)

In [None]:
distances

In [None]:
type(distances)

np.array() 함수에 리스트를 넣으면 2차원 배열이 생성되고, list of list 를 넣으면 3차원 배열이 생성된다. 그리고 그 3차원 이상도 동일하다.

In [None]:
A = np.array([[1, 2], [3, 4]])
A

In [None]:
# 정수타입 10개의 0으로 구성된 numpy 배열 생성
np.zeros(10, dtype=int)

In [None]:
# 1로 채워진 3x5 실수 배열 생성
np.ones(shape=(3, 5), dtype=float)

In [None]:
# 0부터 20까지 2씩 증가하는 수열이 생성됨
np.arange(start=0, stop=20, step=2)

In [None]:
# 0과 1사이의 균일 값이 20개 생성됨
np.linspace(0, 1, 20)

## 몇 가지 numpy 배열 속성

In [None]:
A = np.ones(shape=(3, 4), dtype=float)
A

In [None]:
A.ndim

In [None]:
A.shape

In [None]:
A.size

## 기본 배열 연산

distances = [10, 15, 17, 26, 20]

times = [0.3, 0.47, 0.55, 1.20, 1.0]

In [None]:
speeds = distances/times
speeds

product_quantities = [13, 5, 6, 10, 11]

prices = [1.2, 6.5, 1.0, 4.8, 5.0]

In [None]:
values = product_quantities*prices
total = values.sum()
print(values)
total

In [None]:
x = np.arange(start=0, stop=20, step=2)
x

In [None]:
x + 1

In [None]:
x * 2

In [None]:
x/2

In [None]:
# Universal functions
np.sin(x)

In [None]:
np.exp(x)

In [None]:
np.log(x+1)

In [None]:
np.sqrt(x)

## 배열 다루기 기본 연산: indexing, slicing and reshaping

### Indexing, 인덱싱

In [None]:
one_dim = np.linspace(-0.5, 0.6, 12)
one_dim

In [None]:
one_dim[5]

In [None]:
one_dim[0] = 1
one_dim

In [None]:
two_dim = np.array([[3, 5, 2, 4], [7, 6, 5, 5], [1, 6, -1, -1]])
two_dim

In [None]:
two_dim[0,3]

In [None]:
two_dim[0,0] = -1
two_dim

### Slicing, 슬라이싱

In [None]:
one_dim

In [None]:
print(one_dim[2:5])
print(one_dim[:5])
print(one_dim[-5:])

In [None]:
two_dim

In [None]:
two_dim[:2,:2]

In [None]:
two_dim[:,1:3]

### Reshaping: 배열 모양 바꾸기

In [None]:
one_dim

In [None]:
one_dim.reshape(2,6)

In [None]:
two_dim

In [None]:
two_dim.flatten()

# 예제: 시뮬레이션 수행하기

## 동전 던지기

In [None]:
# 동전 1회 던지기: 0 뒷면, 1 앞면
np.random.randint(low=0, high=2, size=1)

In [None]:
# 동전 10회 던지기: 0 뒷면, 1 앞면
experiment = np.random.randint(0,2, size=10)
print(experiment)
print(experiment.sum())

In [None]:
# 10번 던지기를 1만번 반복 수행
coin_matrix = np.random.randint(0,2,size=(10000,10)) 
coin_matrix[:5, :]

In [None]:
counts = coin_matrix.sum(axis=1)
print(counts[:25])
print(counts.mean())
print(np.median(counts))
print(counts.min(), counts.max())
print(counts.std())

In [None]:
np.bincount(counts)

In [None]:
unique_numbers = np.arange(0,11) # The numbers that where observed in the counts vector
observed_times = np.bincount(counts) # Check out the documentation for the np.bincount function
print("===============\n")
for n, count in zip(unique_numbers, observed_times):
    print("{} heads observed {} times ({:0.1f}%)".format(n, count, 100*count/2000))