# Module

파이썬에서 모듈은 코드를 불리하고 공유하는 역할  
표준 모듈: 파이썬에 기본적으로 내장된 모듈  
외부 모듈: 다른 사람들이 만들어서 공개한 모듈

모듈을 불러올때 일반적으로 다음의 형식으로 호출
```python
import module
```

In [1]:
import datetime

In [2]:
datetime.datetime.now()

datetime.datetime(2022, 3, 19, 19, 21, 40, 524091)

위와같이 모듈명이 길고 반복적으로 사용해야하는 경우 alias(별명,가명)  
를 다음과 같이 as를 통해서 선언하여 호출 및 지정
```python
import module as alias
```

In [3]:
import datetime as dt

In [4]:
dt.datetime.now()

datetime.datetime(2022, 3, 19, 19, 21, 40, 811292)

한편 위의 datetime 모듈을 자세히 관찰하면 Datetime 모듈 하위에  
datetime이라는 서브모듈이 존재하고 그 하위에 now라는 함수가 존재
특정 서브 모듈만 불러오려는 경우 다음과 같이 호출
```python
from module import submodule
````
다만 위의 방식의 경우 모듈의 종류에 따라 매우 불편하거나 충돌 발생가능  
따라서 각 모듈의 documentation에서 권장하는 호출 방식 및 alias 사용 권장

In [5]:
from datetime import datetime

In [6]:
datetime.now()

datetime.datetime(2022, 3, 19, 19, 21, 41, 46979)

module.submodule의 형식이 아닌 submodule만을 모두 불러오기 위해서는  
와일드카드 *를 사용하여 다음과 같이 모듈의 모든 서브모듈을 호출  
```python
from module import *
```

In [7]:
##help()

In [8]:
from datetime import *

In [9]:
date.today()

datetime.date(2022, 3, 19)

한편 module 또는 submodule을 호출하지 않고 직접 사용하는 것은 불가능

In [10]:
now()

NameError: name 'now' is not defined

외부 패키지 설치의 경우 cmd/콘솔에서 다음과 같이 진행하는 방법이 있고
```
pip install packagename
```
주피터노트북에서 콘솔 명령어를 입력할때는 앞에 느낌표(!)를 입력하면 된다

In [None]:
#!pip install pykrx

# Numpy

Numpy는 파이썬에서 행렬 및 대규모 다차원 배열을 처리하는 외부 패키지

In [11]:
import numpy as np

배열 생성: array()
NumPy 형식으로 배열을 생성  
list형을 np.array에 넣으면 numpy.ndarray 형식으로 바뀐 것을 확인  
리스트 또는 튜플을 np.array를 통해 numpy에서 처리 가능한 행렬로 변환

In [12]:
a0 = [2, 3, 4]
a1 = np.array(a0) # == np.array([2, 3, 4])
print(type(a1))
a1

<class 'numpy.ndarray'>


array([2, 3, 4])

numpy 배열은 배열 안의 모든 원소가 동일한 type로 구성  
자료형이 다른 경우 자동적으로 자료형 변환을 시도하며  
다음의 사례에서 a1과 a2에 들어가는 리스트의 0번째 원소의 자료형이  
정수 2와 실수 2. 이라는 것을 제외하면 동일한 리스트이지만  
array로 변환을 하면 a2의 경우 다른 정수형 원소 모두 float로 변환

In [13]:
a1 = np.array([2,3,4])
a2 = np.array([2.,3,4])
print(type(a1[2]))
print(type(a2[2]))
a2

<class 'numpy.int32'>
<class 'numpy.float64'>


array([2., 3., 4.])

배열의 속성(attribute)를 알기 위해서는 다음의 메소드를 활용

In [14]:
b = np.array([(1, 2, 3), (4, 5, 6)])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [15]:
print(b.shape) # 2x3 배열
print(b.ndim) # 2차원 배열
print(b.size) # 원소가 6개
print(type(b))

(2, 3)
2
6
<class 'numpy.ndarray'>


In [16]:
c = np.array([[[1],[2]],[[3],[4]]])
c

array([[[1],
        [2]],

       [[3],
        [4]]])

In [17]:
print(c.shape)
print(c.ndim)
print(c.size)
print(type(c))

(2, 2, 1)
3
4
<class 'numpy.ndarray'>


위에서 확인했듯이 배열의 원소는 모두 같은 자료형으로 구성  
따라서 배열의 자료형을 확인하면 배열의 모든 자료형을 확인 가능
dtype 메소드를 통해서 데이터 타입을 확인

In [18]:
x1 = np.array([0, 1, 2, 3])
print(x1.dtype)
x2 = np.array([0.0, 1, 2, 3])
print(x2.dtype)

int32
float64


dtype은 desired data-type for the array로  
array를 정의할때 dtype 매개변수로 자료형 설정하는 것이 가능

In [19]:
y1 = np.array([0, 1, 2, 3])
print(y1.dtype)
y2 = np.array([0, 1, 2, 3], dtype='float64')
print(y2.dtype)

int32
float64


np.zeros: 주어진 shape의 영행렬  
np.ones: 주어진 shape의 원소가 모두 1인 행렬  
np.eye: 주어진 shape의 단위행렬 (대각선은 모두 1 나머지는 0, 곱셈항등원)  
np.full: 주어진 shape의 주어진 값으로 원소가 채워진 행렬

In [20]:
np.zeros((2,2))

array([[0., 0.],
       [0., 0.]])

In [21]:
np.ones((4,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [22]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [23]:
np.full((3,5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

numpy를 이용한 수열 생성  
arange(시작점, 끝점, 간격)  
linspace(시작점, 끝점, 원소개수)

In [24]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

파이썬의 기본 함수인 range와 마찬가지로 끝점은 포함되지 않음을 확인

In [25]:
list(range(10, 30, 5))

[10, 15, 20, 25]

참고로 이러한 관습은 컴퓨터과학자들의  
1. half-open interval
1. zero-based numbering  
을 따른것이다

이때 기본함수 range(시작점, 끝점)과 같이 간격을 생략 가능  
간격을 생략하는 경우 기본값은 1로 설정되어 있음

In [26]:
np.arange(1, 5)

array([1, 2, 3, 4])

In [27]:
list(range(1, 5))

[1, 2, 3, 4]

이때 기본함수의 range(시작점)과 같이 시작점도 생략 가능  
시작점을 생략하는 경우 기본값은 0으로 설정되어 있음

In [28]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

linspace의 경우 arange와 다르게 끝점을 포함하며  
원소의 개수 만큼 시작점과 끝점 사이의 간격을 나눠 수열 생성  
이때 간격과 원소 개수와 무관하게 강제로 실수형으로 변환

In [30]:
print(np.linspace(1, 5, 3).size)
np.linspace(1, 5, 3)

3


array([1., 3., 5.])

numpy 에서도 난수를 생성하는 기능이 서브모듈 random에 있음  
그러나 이 난수는 엄격한 의미에서의 난수는 아니며,  
seed라고 하는 특정 숫자를 시작점으로 알고리즘에 따라  
난수처럼 보이는 배열을 생성하여 반환

np.random.seed(숫자)로 seed를 고정한 후 (생략가능) 난수 생성  
np.random.rand(shape)의 경우 shape 튜플 크기의 난수 행렬 반환

In [31]:
np.random.seed(123)
np.random.rand(3,2)

array([[0.69646919, 0.28613933],
       [0.22685145, 0.55131477],
       [0.71946897, 0.42310646]])

이때 np.random.rand의 각 원소는 파이썬 표준 모듈 random의  
random.random()에서 값을 추철한것과 같이 0과 1사이의 값을 가짐

In [32]:
import random

In [33]:
random.seed(123)
random.random()

0.052363598850944326

np.random.randn는 표준정규분포에서 지정된 수만큼 난수 추출  
np.random.randint는 지정한 반열린 구간 사이에서 복원추출

In [34]:
np.random.randn(5)

array([-2.42667924, -0.42891263,  1.26593626, -0.8667404 , -0.67888615])

In [35]:
np.random.randint(0, 5, (2, 3))

array([[0, 0, 4],
       [1, 3, 2]])

표준정규분포가 아닌 일반화된 정규분포에서 추출하기 위해서는  
np.random.normal을 사용하며 정규분포의 매개변수(모수)인  
평균과 표준편차와 추출할 표본의 개수를 설정

In [36]:
np.random.normal(0, 2, 10) # remind X~N(mean, sigma^2)

array([-0.18941794,  0.47269376, -0.92671655, -3.46394611, -1.23567202,
        3.4208752 , -0.11268164, -2.1205991 , -3.64415674, -2.4223529 ])

마찬가지로 이항분포에서 표본을 임의로 추출하여 배열 생성 가능  
np.random.binomial의 매개변수는 시행횟수와 확률

In [37]:
np.random.binomial(7, 0.3, 5) # remind X~B(n,p)

array([1, 5, 3, 3, 0])

### 배열의 접근 및 변경
- Indexing
- Slicing
- Numerical indexing
- Logical indexing

In [38]:
m = np.array([[0,1,2,3],
              [10,11,12,13],
              [30,31,32,33],
              [40,41,42,43]])
n=np.array([1.,2.,4.,3.,7.,6.,8.,4.])

print(m, n, sep='\n\n')

[[ 0  1  2  3]
 [10 11 12 13]
 [30 31 32 33]
 [40 41 42 43]]

[1. 2. 4. 3. 7. 6. 8. 4.]


- Indexing
1차원 array의 경우 indexing 방법은 list와 동일
array([x1, x2, x3, x4, x5, x6])에서 각 원소의 인덱스는 아래와 같음
인덱스/원소:  0(-6)/x1, 1(-5)/x2, 2(-4)/x3, 3(-3)/x4, 4(-2)/x5, 5(-1)/x6

In [39]:
print(n[0])

1.0


다차원 배열의 경우에도 유사하게 적용됨
array([(x1, x2),
       (x3, x4)])에서 각 원소의 인덱스는 아래와 같음

인덱스/원소:  (0,0)/x1, (0,1)/x2, (1,0)/x3, (1,1)/x4

In [40]:
print(m[-1,-2])

42


- Slicing

Indexing이 원소의 접근이라면 slicing은 '부분'배열의 접근  
list의 슬라이싱과 유사

In [41]:
n[0:6:2] #[시작:끝(포함X):간격(생략가능)]

array([1., 4., 7.])

In [42]:
n[:5]

array([1., 2., 4., 3., 7.])

In [43]:
n[0:5:1] # 위와 결과 동일

array([1., 2., 4., 3., 7.])

In [44]:
n[2::1]

array([4., 3., 7., 6., 8., 4.])

In [45]:
y = np.arange(1,11,1)
y

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [46]:
y[::-1]

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

In [47]:
y[8:1:-2]

array([9, 7, 5, 3])

2차원 배열 m에서,

m[(indexing),(indexing)] -> 0차원으로 축소

m[(slicing),(indexing)] -> 1차원으로 축소

m[(slicing),(slicing)] -> 2차원으로 유지

In [48]:
m

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [49]:
m[:3]

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [30, 31, 32, 33]])

In [50]:
m[:3, ::2]

array([[ 0,  2],
       [10, 12],
       [30, 32]])

In [51]:
m[::-1, ::-1]

array([[43, 42, 41, 40],
       [33, 32, 31, 30],
       [13, 12, 11, 10],
       [ 3,  2,  1,  0]])

In [52]:
m[1:3,:]

array([[10, 11, 12, 13],
       [30, 31, 32, 33]])

In [53]:
m[3, -3:]

array([41, 42, 43])

In [54]:
m[:,1]

array([ 1, 11, 31, 41])

In [55]:
m[0,2]

2

특정 원소에 값을 치환하기 위해서는 인덱싱 또는 슬라이싱 후  
해당 부분에 대응하는 크기의 값 또는 배열을 대응시켜줘야함

In [56]:
x = np.array([1.0,2,3,4,5])
print(x[0])
x[0] = 5
x

1.0


array([5., 2., 3., 4., 5.])

특히나 부분이 값이 아닌 배열인 경우 shape를 반드시 확인 후 일치

In [57]:
x = np.zeros((3,3))
x[0,:] = np.array([1,2,3])
print(np.array([1,2,3]).shape)
print(x[0,:].shape)
x

(3,)
(3,)


array([[1., 2., 3.],
       [0., 0., 0.],
       [0., 0., 0.]])

이러한 배열의 수정법의 문제점은 numpy가 벡터 형으로 작성되어  
b가 a에서 파생된 배열이라면 b를 수정할시 a가 수정됨

In [58]:
a = np.arange(10)
b = a[::2]
print("b:",b)

b: [0 2 4 6 8]


In [59]:
b[0] = 12
print(a)
print(b)

[12  1  2  3  4  5  6  7  8  9]
[12  2  4  6  8]


이러한 문제를 해결하기 위해서는 copy를 이용  
다만 너무 큰 행렬의 copy를 많이 사용하는 경우 메모리 부담 존재

In [60]:
a = np.arange(10)
c = a[::2].copy()
print("c:",c)

c: [0 2 4 6 8]


In [61]:
c[0] = 12
print(a)
print(c)

[0 1 2 3 4 5 6 7 8 9]
[12  2  4  6  8]


# Basic Operation (연산자)

In [62]:
x = np.arange(4)
x

array([0, 1, 2, 3])

numpy는 행렬 기반의 연산을 지원하며 전체 원소에 대한  
기본적인 연산을 한번에 수행하는 것이 가능

In [63]:
x + 2 # 원소의 덧셈

array([2, 3, 4, 5])

In [64]:
np.add(x, 2) # 덧셈 방법2 실제로 대부분의 연산은 함수형이 존재

array([2, 3, 4, 5])

In [65]:
x / 2 # 원소의 나눗셈

array([0. , 0.5, 1. , 1.5])

In [66]:
x % 2 # 원소의 나머지, dtype이 int32로 바뀐 것에 주목

array([0, 1, 0, 1], dtype=int32)

In [67]:
x ** 2 # 원소의 거듭제곱

array([0, 1, 4, 9])

논리 연산자도 각 원소에 대해서 적용하는 것이 가능

In [68]:
x > 1

array([False, False,  True,  True])

In [69]:
x == 0 # =는 할당(오른쪽에서왼쪽으로) ==는같다라는 논리연산자

array([ True, False, False, False])

In [70]:
(x > 1) & (x == 0) # and

array([False, False, False, False])

In [71]:
(x > 1) | (x == 0) # or

array([ True, False,  True,  True])

행렬간 곱셈에 있어 * 는 원소끼리의 (같은 위치) 곱셈이며  
@는 행렬곱을 수행하게 됨 (행렬곱 조건 주의 lxm @ mxn)

In [72]:
A = np.array([[1,1],[0,1]])
B = np.array([[2,0],[3,4]])
print(A * B, A @ B, sep="\n\n")

[[2 0]
 [0 4]]

[[5 4]
 [3 4]]


행렬의 전치(transpose)는 세가지 방법으로 가능  
행렬 자체의 T라는 attribute를 호출하거나  
np.traspose로 함수형으로 전치를 시키거나  
np.swapaxes를 통해서 지정된 두 축의 위치를 바꿀 수 있음  
이때 사용되는 convention은 0:index(행) 1: column(열)

In [73]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [74]:
a.T

array([[1, 3],
       [2, 4]])

In [75]:
np.transpose(a)

array([[1, 3],
       [2, 4]])

In [76]:
np.swapaxes(a, 0, 1)

array([[1, 3],
       [2, 4]])

# Universal Function

위의 기본 연산자와 같이 각 원소에 적용되는 함수

In [77]:
x = np.array([-2, -1, 0, 1, 2])
np.abs(x) #absolute

array([2, 1, 0, 1, 2])

In [78]:
x = [1,2,4,10]
print(np.log(x), np.log10(x), np.sqrt(x), sep="\n")

[0.         0.69314718 1.38629436 2.30258509]
[0.         0.30103    0.60205999 1.        ]
[1.         1.41421356 2.         3.16227766]


In [79]:
np.pi

3.141592653589793

In [80]:
theta = np.linspace(0, np.pi, 3) #<- array([0, pi/2, pi])
print(theta, np.sin(theta), np.cos(theta), np.tan(theta), sep="\n")

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


# Broadcasting (어려움)

위의 universal function은 같은 위치의 원소에 적용되기에  
shape이 다른 경우 작은 배열을 확장에 큰 배열과 shape를 일치시켜  
적용할 수 있으며 이러한 형태의 연산 전에 처리되는 것이 broadcasting

규칙 1: 차원이 불일치할 경우, 더 낮은 차원의 배열의 shape을 차원이 일치할 때까지 확장해주는데, 이때 확장된 차원의 부분은 1로 대체해줍니다.  
규칙 2: 두 배열의 차원은 동일하지만 shape이 불일치할 경우, shape에 1로 할당된 요소가 있다면 상대 배열의 shape의 더 높은 숫자로 할당된 요소로 대체시킵니다.  
규칙 3: 두 배열의 차원과 사이즈가 불일치하고 shape에 할당된 요소 중에 1이 없을 때는 error

In [81]:
np.array([1,2,3]) + np.array([100,101,102])

array([101, 103, 105])

In [82]:
M = np.ones((2,3))
a = np.arange(3)
print(M,a, sep="\n\n")

[[1. 1. 1.]
 [1. 1. 1.]]

[0 1 2]


In [83]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.]])

In [84]:
a = np.array([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14]])
b = 5
print(a, a+b, a+b-a, sep="\n\n")

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]

[[5 5 5 5 5]
 [5 5 5 5 5]
 [5 5 5 5 5]]


In [85]:
c = np.arange(5)
print(c,a+c, a+c-a, sep="\n\n")

[0 1 2 3 4]

[[ 0  2  4  6  8]
 [ 5  7  9 11 13]
 [10 12 14 16 18]]

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


In [86]:
d = np.arange(3)
a+d

ValueError: operands could not be broadcast together with shapes (3,5) (3,) 

# Aggregations

합계를 구하는 경우 attribute를 호출하는 .sum과 함수형 np.sum()

In [87]:
L = np.arange(1, 101)
print(np.sum(L)) #np.add는 입력받은 매개변수"들"의합(+)
print(L.sum()) #n*(n+1)/2

5050
5050


In [88]:
big_array = np.random.rand(1000000)
print(np.min(big_array), np.max(big_array),
      np.mean(big_array), np.median(big_array), sep="\n")

3.843748020981863e-07
0.9999985895535524
0.5005725213186375
0.5008792085800373


In [89]:
print(np.percentile(big_array, 30))
np.percentile(big_array, q=[30,70])

0.3010072469743242


array([0.30100725, 0.70070077])

In [90]:
np.var(big_array)

0.08328984029669517

In [91]:
np.any(big_array < 0)

False

배열의 속성으로도 최대 최소 등의 기초통계량 계산 가능

In [92]:
big_array.min()

3.843748020981863e-07

# Numerical Indexing

단순한 인덱싱과 슬라이싱이 아닌 지정된 순서로 접근하는 법

In [93]:
x = np.array([47, 83, 38, 53, 76, 24, 15, 49, 23, 26])
x

array([47, 83, 38, 53, 76, 24, 15, 49, 23, 26])

위에서 53(3), 49(7), 76(4)를 인덱싱으로 한번에 접근

In [94]:
ind = np.array([3,7,4])
x[ind]

array([53, 49, 76])

Numerical indexing의 특징 1: 원래 배열에 영향을 주지 않음

In [95]:
a = np.arange(10)
b = a[::2]
b[0] = 99

In [96]:
print(a)
print(b)

[99  1  2  3  4  5  6  7  8  9]
[99  2  4  6  8]


In [97]:
a = np.arange(10)
c = a[np.arange(0,10,2)]
c[0] = 99

In [98]:
print(a)
print(c)

[0 1 2 3 4 5 6 7 8 9]
[99  2  4  6  8]


Numerical indexing의 특징 2: 원하는 shape로 인덱싱된 배열 생성
Numerical indexing의 특징 3: 반복 (및 순서무관한) 접근 가능

In [99]:
ind2 = np.array([[3,7,1],
                 [4,5,1]])
x[ind2]

array([[53, 49, 83],
       [76, 24, 83]])

2차원 배열의 numerical indexing

In [100]:
x = np.array([[0,1,2,3],
              [4,5,6,7],
              [8,9,10,11]]) # 2, 5, 11 뽑기

In [101]:
row = np.array([0,1,2]) #1d (3,)
col = np.array([2,1,3])
x[row, col]

array([ 2,  5, 11])

2d numerical indexing에도 broadcasting 적용 가능  
np.newaxis: 차원을 올려줌 (0: 차원 1: 행 2: 열)  
np.newaxis로 1d array를 열벡터 또는 행벡터로 변환

In [102]:
row[:,np.newaxis] # 2d (3,1)

array([[0],
       [1],
       [2]])

In [103]:
x[row[:, np.newaxis],col]

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

In [104]:
sel = np.array([0,1])
x[sel,sel+1]

array([1, 6])

In [105]:
sel_row = np.array([[0,0], 
                   [1,1]])
sel_col = np.array([[0,1], 
                   [0,1]])
x[sel_row, sel_col]

array([[0, 1],
       [4, 5]])

In [106]:
sel_row = np.array([[0], 
                   [1]])
sel_col = np.array([[0,1]])
x[sel_row, sel_col]

array([[0, 1],
       [4, 5]])

In [107]:
sel_row = np.array([0,1])
sel_col = np.array([1,2,3])
x[sel_row, sel_col]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (2,) (3,) 