# NumPy Basics: Arrays and Vectorized Computation
## 1. numpy는 수치 데이터를 다루기 위한 라이브러리
## 2. 다차원 배열 자료구조인 ndarray를 지원
## 3. pip install numpy #통해 라이브러리 설치 필요

In [None]:
import numpy as np       # numpy lib. import


In [None]:
my_arr = np.arange(1000000)          # numpy ndarray 객체 생성
my_list = list(range(1000000))       # list 객체 생성

In [None]:
%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]
# %time은 CPU & Wall time 시간 측정
# %time은 line command
# %%time은 cell / block command

## The NumPy ndarray: A Multidimensional Array Object

행렬의 성분별 연산을하는데 유용함


In [None]:
import numpy as np
# Generate some random data
np.random.seed(12345)    # 램덤 함수를 이용한 seed값 설정
                         # seed 사용 목적은 동일한 랜덤 값을 만들기 위함
data = np.random.randn(2, 3) # 2*3 행렬 생성
data

In [None]:
data * 10


In [None]:
data + data

In [None]:
print(data.shape)
print(data.dtype) # print 없이 찍으면 덮어쓰기 됨.

### Creating ndarrays
numpy 배열을 만다는 가장 쉬운 방법은 numpy.array 메소드를 이용하는 것
array 메소드는 반복 가능한 객체를 인자로 받을 수 있음

In [None]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
print(arr1)
print(arr1.dtype)

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
print(arr2)
print(arr2.dtype)

In [None]:
print(arr2.ndim)     # 배열의 차원
print(arr2.shape)    # 배열의 모양? 형태

numpy 객체 초기화 방법

In [None]:
np.zeros(10)               # 1차원 0으로 초기화      
np.ones((2, 3))            # 2차원 1으로 초기화
np.empty((2, 3, 2))        # 3차원 랜덤값 초기화, zeros 3차원으로 만들면 0 으로 초기화 가능

In [None]:
np.arange(15)                # range와 동일 0~ 15전까지....

### Data Types for ndarrays

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)    # 데이터 타입 지정 가능
arr2 = np.array([1.1, 2.3, 3.6], dtype=np.int32)    # float to int 예시
print(arr1.dtype)
print(arr2.dtype)

In [None]:
arr = np.array([1, 2, 3, 4, 5])
print(arr.dtype)
float_arr = arr.astype(np.float64)    # 실행 중 데이터  타입 변경 예시
print(float_arr.dtype)

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
int_arr = arr.astype(np.int32)       # 실행 중 데이터 타입 변경 예시
print(int_arr)


float to string, string to float

In [None]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print(numeric_strings)
print(numeric_strings.astype(float))

특정 변수 객체의 타입과 동일하게 빠꾸기


In [None]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
print(int_array.astype(calibers.dtype))   

In [None]:
empty_uint32 = np.empty(8, dtype='u4')
print(empty_uint32)

![image.png](attachment:image.png)

### Arithmetic with NumPy Arrays
행렬 연산과 동일하게 동작

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr
arr * arr
arr - arr

In [None]:
1 / arr
arr ** 0.5

두 배열/행렬간 비교 연산도 가능, 각 원소별로 비교하여 T/F retuen

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2
arr2 > arr

### Basic Indexing and Slicing

In [None]:
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])
arr[5:8] = 12
print(arr)

list와 다른 점은 numpy 객체 slice는 새로운 객체를 만드는 것이 아닌 원래 배열에 대한 view(얕은 복사)임 즉, 선택 부분의 값을 변경하면 원래 배열의 같은 위치의 값도 변경됨.

In [None]:
arr_slice = arr[5:8]
arr_slice
print(arr_slice)
arr_slice[0] = 50
print(arr)



In [None]:
arr_slice[:] = 64    #[:]는 시작과 끝을 지정하지 않아 모든 원소를 나타냄
arr

배열의 일부분에 대한 복사본을 사용하려면 cop 메소드를 사용해야 함

In [None]:
arr_copy = arr[5:8].copy()
print(arr_copy)                
arr_copy[:] = -100            # arr_copy의 값이 변경되었지만 원본은 변경되지 않음
print(arr_copy)       
print(arr)


다차원 배열 다루기

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

In [None]:
print(arr2d[0][2])   # 개별 원소 접근 시 대괄호를 반복적으로 사용하여 접근할 수도 있고
print(arr2d[0, 2])   # 쉼표를 이용해 접근할 수도 있음.

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])   

arr3d.shape

In [None]:
print(arr3d[0])
print(arr3d[0,1])
print(arr3d[0,1,2])

#### Indexing with slices
파이썬 리스트에 사용했던 슬라이싱을 넘파이 배열에서도 마찬가지로 사용할 수 있다
![image.png](attachment:image.png)

In [None]:
print(arr)
print(arr[1:6])

In [None]:
print(arr2d)
print(arr2d[:2])

In [None]:
arr2d[:2, 1:]            # 다차원 행렬에서 원하는 영역 부분은 slicing 가능

In [None]:
arr2d[1, :2]

In [None]:
arr2d[:2, 2]

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0            # slicing 사용하여 해당 원소 값 변경 가능
arr2d

### Boolean Indexing

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(names)
print(data)

Bob에 해당하는 숫자들의 행만 선택하기를 원한다. 비교 연산자 ==를 이용하면 벡터화된 논리 배열을 얻을 수 있다.

In [None]:
names == 'Bob'  

이 논리배열은 다른 배열의 인덱스로 사용될 수 있다. 인덱스로 사용될 논리 배열의 크기와 인덱스를 사용할 배열의 크기가 같아야 한다.

In [None]:
data[names == 'Bob'] 

In [None]:
print(data[names == 'Bob', 2:]) # 다중 인덱스 및 slicing 사용 가능
print(data[names == 'Bob', 3])         # 특정 원소 접근 가능

In [None]:
names != 'Bob'                   #Bob을 제외한 모든 자료를 선택하려면 !=를 사용하면 된다.
data[~(names == 'Bob')]          #또는 부정 연산자 ~를 사용해도 된다.

In [None]:
cond = names == 'Bob'
data[~cond]

여러 개의 조건을 결합하려면 &(and) 또는 |(or) 연산자를 사용하면 된다.
주의해야 할 것은 넘파이 논리 연산자로 파이썬 논리 연산자 and와 or를 사용할 수 없다. 반드시 &와 |만 사용해야 한다.

In [None]:
mask = (names == 'Bob') | (names == 'Will')
print(mask)
print(data[mask])

In [None]:
print(data < 0)
data[data < 0] = 0       # 비교 연산자 사용하여 해당 하는 값 변경 가능
print(data)

In [None]:
data[names != 'Joe'] = 7
data

### Fancy Indexing
정수 배열을 이용해서 인덱싱을 자유롭게 할 수 있다

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

In [None]:
arr[[4, 3, 0, 6]]

In [None]:
arr[[-3, -5, -7]]

In [None]:
arr = np.arange(32).reshape((8, 4))      
arr
arr[[1, 5, 7, 2], [0, 3, 1, 2]]              # 8*4 matrix에서 row 1, 5, 7, 2 항목 중 각 row에서 의 0,3,1,2 원소 추출

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]          # 8*4 matrix에서 row 1, 5, 7, 2 항목 전체 row에 대하여 0,3,1,2 index 순서로 변환하여 반환

### Transposing Arrays and Swapping Axes

In [None]:
arr = np.arange(15).reshape((3, 5))
print(arr)
print(arr.T)

In [None]:
arr = np.random.randn(6, 3)
print(arr)
np.dot(arr.T, arr)

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print(arr.transpose((1, 0, 2)))

In [None]:
arr
arr.swapaxes(1, 2)

## Universal Functions: Fast Element-Wise Array Functions

In [None]:
arr = np.arange(10)
arr
np.sqrt(arr)
np.exp(arr)

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y)

In [None]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

In [None]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

### Mathematical and Statistical Methods

In [None]:
arr = np.random.randn(5, 4)
arr
arr.mean()
np.mean(arr)
arr.sum()

In [None]:
arr.mean(axis=1)
arr.sum(axis=0)

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

### Sorting

In [None]:
arr = np.random.randn(6)
arr
arr.sort()
arr

In [None]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

In [None]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

## Conclusion