### ndarray
Remark
- 행 == `row`
- 열 == `col` (column)
- 차원 == `dim` (dimension)

ndarray 정보 확인
- 행렬 크기: `.shape`
- 원소 데이터타입: `.dtype`
- 행렬 차원: `.ndim`

In [None]:
import numpy as np

"""
    create ndarray
"""
lst = [[1, 2, 3, 4, 5], [5, 4, 3, 2, 1]]
d1 = np.array(lst)      # create with a primitive list
d2 = np.zeros((2, 3))     # create (row, col, dim) sized matrix with 0-initialization
d3 = np.empty((2, 3, 3))  # create (row, col, dim) sized empty matrix

"""
    info of ndarray
"""
data = np.random.randn(2, 3)

In [None]:
print(
    f"""
ex1:
{d1}
ex2:
{d2}
ex3:
{d3} 
    """
)
print(
    f"""
ndarray:
{data}
matrix size: {data.shape}
matrix elements dtype: {data.dtype}
matrix dimension: {data.ndim}
    """
    )

---
### Indexing and Slicing
주의사항
- [a:b]는 a부터 b-1까지임!
- memory cost를 낮추기 위해 view라는 형태의 reference를 pointing하는 식으로 슬라이싱이 일어나는데, 이러한 특징 때문에 슬라이싱 파트를 수정하면 원본에도 변화가 반영됨!

Boolean indexing
- 조건에 대해 `True`인 경우만 인덱싱
- 조건은 여러 개가 될 수 있음!

Fancy indexing
- double square brackets `[[]]`로 명시
- 원하는 순서로 행을 인덱싱하고 싶을 때
- 원하는 위치의 원소들을 인덱싱하고 싶을 때

In [None]:
import numpy as np

"""
    Slicing
"""
arr1 = np.array([[1, 2, 3, 4, 5], [5, 4, 3, 2, 1]])
print(arr1[0][1:3])
arr1[0][1:3] = 0
print(arr1)

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

print(names == 'Bob')
print(data)
print(data[names == 'Bob'])
print(data[names == 'Bob', 2:])

print(data > 0)
data[data > 0] = 0
print(data)

In [None]:
"""
    Fancy 1
"""
arr1 = np.empty((8, 4))
for i in range(8):
    arr1[i] = i
print(arr1)
print(arr1[[7,1,3]])    # with double []
print(arr1[[-1, -2, -3]])

In [None]:
"""
    Fancy 2
"""
arr2 = np.arange(32).reshape((8,4))
print(arr2)
print(arr2[[1, 3, 5, 7], [0, 1, 2, 3]])
# [행 좌표 i], [열 좌표 j] => a_{ij}

---
### Conditional logic
Vectorization 방식을 활용한 빠른 속도의 조건 연산
- Vectorization: 한 번에 여러 개의 데이터를 처리
- `where` 키워드 사용

In [None]:
import numpy as np

"""
    where 키워드
"""
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, False, True, False])

res1 = np.where(cond, yarr, xarr)
# cond True  => select an element of yarr
# cond False => select an element of xarr
print(res1)

"""
    where를 활용한 broadcasting
"""
arr = np.random.randn(4, 4)
print(arr)
res2 = np.where(arr > 0, 1, -1)
print(res2)

---
### Mathematical and Statistical Methods

`axis` 키워드
- `axis=0`: column
- `aixs=1`: row
- "`axis=`" 생략 후, 숫자만 적어도 됨
- `axis` 미설정 시, array 전체에 대해 연산 수행

Boolean array 활용
- `False`는 `0`, `True`는 `1`임을 활용
- 조건이 `True`인 항목 컨트롤

In [None]:
import numpy as np

"""
    some statistical methods
"""
arr1 = np.random.randn(5, 4)
print(arr1)
print(arr1.sum(), arr1.mean(), arr1.max(), arr1.std())

In [None]:
"""
    axis examples
"""
print(arr1.sum(axis=0), arr1.sum(axis=1))

In [None]:
"""
    for boolean arrays
"""
print((arr > 0).sum())  # 조건 True인 항목 개수 카운트

---
### Sorting
`axis` 키워드 사용 가능
- 인덱싱을 활용하면 좀 더 특정적으로 sorting 가능

백분율에 따른 특정 데이터도 수집 가능
- sorting과 인덱싱 활용

In [None]:
import numpy as np

"""
    sorting basic
"""
arr1 = np.random.randn(5, 3)
arr1.sort()
print(arr1)
arr1.sort(axis=0)
print(arr1)
arr1.sort(axis=1)
print(arr1)

arr2 = np.random.randn(5, 3)
arr2[:, 1].sort()   # 모든 행, 1번 열 정렬
print(arr2)

In [None]:
"""
    백분율
"""
arr = np.random.randn(1000)
arr.sort()
hightest_5p = arr[int(len(arr)*0.05)]   # 상위 5퍼센트의 마지막은 누구?
print(hightest_5p)