# 데이터 사이언스를 위한 라이브러리

## 1. Numpy

<hr/>
Numpy란 "Numerical Python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공하는 라이브러리이다. 파이썬의 list를 개선한 형태인 Numpy의 ndarray 객체는 더 많은 데이터를 더 빠르게 처리할 수 있도록 도와준다.

넘파이는 N차원 배열 객체, 선형대수학, 푸리에 변환 및 난수 기능, 범용적 데이터 처리를 위한 다차원 컨테이너 등의 기능을 제공한다. Numpy를 사용하기 위해 아래와 같이 선언해주면 된다.

In [2]:
import numpy as np
np.__version__

'1.20.3'

Tip! 만약 모든 출력을 보고 싶다면 아래와 같이 적어주면 된다.

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"


### 1-1. Numpy 배열

<hr/>

Numpy 배열인 ndarray객체는 array메소드를 통해 생성할 수 있는데, 파라미터로 파이썬의 list형의 데이터를 넣어주면 된다. Numpy Array와 List와 가장 큰 차이점은 "Dynamic typing not supported", 즉 동적 타이핑을 지원하지 않는다는 의미인데, 배열에 하나의 데이터 타입만 배열에 넣을 수 있다는 의미와 상통한다.

In [4]:
arr = np.array([1,2,3])
arr

array([1, 2, 3])

In [5]:
arr = np.array([1,4,5,7], float)
arr

array([1., 4., 5., 7.])

In [6]:
arr = np.array([1,2,3], dtype="float64")
arr

array([1., 2., 3.])


### 1-2. Numpy 메소드를 통해 배열 만들기

<hr/>

In [25]:
# 0으로 채운 길이 10의 정수 배열
np.zeros(10, dtype=int)

# 1로 채운 3x5 부동 소수점 배열
np.ones((3, 5), dtype=float)

# 3.14로 채운 3x5 배열
np.full((3, 5), 3.14)

# 3x3 단위행렬(곱했을 때 1과 같은 역할을 하는 행렬)
print("단위행렬")
np.eye(3)
np.identity(3)

# 대긱선이 1인 행렬
print("eye")
np.eye(N=3, M=5, dtype=np.int8)
np.eye(N=3, M=5, k=2) # k -> start index

np.empty(3)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

단위행렬


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

eye


array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

array([1., 1., 1.])

- 난수를 통한 배열 생성

np.random을 이용한 배열 생성으로 random, normal, randint, randn, rand 등이 있다.

Tip! np.random.seed(임의의 숫자)를 이용하면 같은 값의 난수 입력을 받을 수 있어 비교하기가 편하다.

In [25]:
# 0과 1사이의 난수
np.random.random((3, 3))

# 정규 분포(평균=0, 표준 편차=1)의 난수로 채운 3x3 배열 만들기
np.random.normal(0, 1, (3, 3))

# [0, 10] 사이의 정수 난수
np.random.randint(0, 10, (3, 3))

array([[0.51929269, 0.87042204, 0.34542374],
       [0.61417534, 0.14085319, 0.35836425],
       [0.08454166, 0.1238812 , 0.48541826]])

array([[-0.32989793,  0.88326328, -1.2605663 ],
       [ 1.771476  , -1.11999977, -1.30756471],
       [ 0.48020197,  0.92547754,  0.12026089]])

array([[4, 4, 8],
       [3, 8, 0],
       [5, 3, 8]])

- numpy.linspace

numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) <br/>
start부터 stop까지의 범위에서 데이터를 생성

<br/>

- numpy.arange

numpy.arange([start,] stop[, step,], dtype=None) <br/>
start부터 stop미만까지의 범위에서 step 간격의 데이터를 생성한다.

<br/>

- numpy.logspace

numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None) <br/>
로그 스케일의 linspace함수

In [21]:
np.arange(0, 20, 2)
np.arange(0, 3, 0.5)  # 일반 파이썬 리스트는 step에서는 float 사용 불가

np.linspace(0, 1, 5)

np.logspace(0, 1, 5, endpoint=True)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

array([0. , 0.5, 1. , 1.5, 2. , 2.5])

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

array([ 1.        ,  1.77827941,  3.16227766,  5.62341325, 10.        ])

In [20]:
# arange와 reshape를 함께 사용한다.
np.arange(30).reshape(-1, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])


### 1-3. Numpy 데이터 타입

<hr/>

![image.png](attachment:image.png)


### 1-4. Numpy 배열 접근

<hr/>

- ndarray의 정보 알아내기

```python
ndarray.ndim            # 배열의 차원 (ex- 1차원배열, 3차원배열)
ndarray.shape           # 배열의 형상 (ex- 3차원이면, (x축, y축, z축) 반환)
ndarray.size            # 배열의 요소 수
ndarray.dtype           # 배열의 데이터타입
ndarray.itemsize        # 배열 요소의 바이트크기
ndarray.nbytes          # 배열 전체 메모리 크기 (바이트 단위)
```

<br/>

- ndarray가 2차원 배열일 때, 행 또는 열 정보만 뽑아내기

```python
ndarray[0, :]  # 첫 번째 행만 반환

ndarray[:,1]   # 두 번째 열만 반환
```

<br/>

- Numpy Indexing

In [13]:
a = np.array([[1,2,3], [4.5,5,6]], int)
print(a)

# a[0, 0] = a[0][0]
print(a[0,0])
print(a[0][0])

[[1 2 3]
 [4 5 6]]
1
1


<br/>

- Numpy Slicing

List와 달리 행과 열 부분을 나눠서 slicing이 가능하다. Matrix의 부분 집합을 추출할 때 아주 유용하다.

In [19]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
a[:,2:] # 전체 row의 2열 이상
a[1, 1:3] # 두번째 row의 1~2열
a[0:2] # row0 ~ row1
a[1:3] # row1 ~ row2

array([[ 3,  4,  5],
       [ 8,  9, 10]])

array([7, 8])

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

array([[ 6,  7,  8,  9, 10]])


### 1-5. Numpy 배열 재구조화

<hr/>
<br/>

- Numpy.ndarray.reshape(shape, order='C')

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

x = np.array([1, 2, 3])
x.reshape((3, 1))       # 열벡터로 변경
x.reshape((1, 3))       # 행백터로 변경

In [9]:
matrix = [[1,2,3,4], [1,2,5,8]]
np.array(matrix).shape

# -1: size를 기반으로 row 개수 선정
np.array(matrix).reshape(-1, 2)
np.array(matrix).reshape(-1, 2).shape
np.array(matrix).reshape(-1, 1).shape

(2, 4)

array([[1, 2],
       [3, 4],
       [1, 2],
       [5, 8]])

(4, 2)

(8, 1)

In [6]:
matrix = [[1,2,3,4], [1,2,5,8]]
np.array(matrix).shape

# 3차원 배열로 변환
np.array(matrix).reshape(2,2,2)

(2, 4)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

<br/>

- Numpy.flatten

다차원 array를 1차원 array로 변환

In [11]:
# 3차원 배열
matrix = [[[1,2,3,4], [1,2,5,8]], [[4,5,6,7],[10,11,12,13]]]

# 1차원으로 변환
np.array(matrix).flatten()

array([ 1,  2,  3,  4,  1,  2,  5,  8,  4,  5,  6,  7, 10, 11, 12, 13])

<br/>

- Numpy.newaxis

In [9]:
x[:, np.newaxis]        # 열벡터로 변경
x[np.newaxis, :]        # 행백터로 변경

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1],
       [2],
       [3]])

array([[1, 2, 3]])

array([[1],
       [2],
       [3]])

array([[1, 2, 3]])

<br/>

#### 접합하기 

- Numpy.concatenate

배열을 접합시킴

![image-2.png](attachment:image-2.png)
(사진 출처:  네이버 부스트캠프 - 인공지능(AI) 기초 다지기)

<br/>

- Numpy.vstack

배열을 수직으로 쌓는 방식

- Numpy.hstack

배열을 수평으로 쌓는 방식

![image.png](attachment:image.png)
(사진 출처:  네이버 부스트캠프 - 인공지능(AI) 기초 다지기)

In [19]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

z = [99, 99, 99]
print(np.concatenate([x, y, z]))

grid = np.array([[1,2,3], [4,5,6]])
# 수직으로 연결
np.concatenate([grid, grid])

# 수평으로 연결
np.concatenate([grid, grid], axis=1)

np.vstack([x, grid])

y = np.array([[10], [10]])
np.hstack([grid, y])

array([1, 2, 3, 3, 2, 1])

[ 1  2  3  3  2  1 99 99 99]


array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

array([[ 1,  2,  3, 10],
       [ 4,  5,  6, 10]])

<br/>

#### 분할하기 

- Numpy.split(ary, indices_or_sections, axis=0)

indices_or_sections에 적힌 인덱스에 따라 슬라이싱해서 나눔

- Numpy.vsplit

인덱스에 맞게 수평으로 분할

- Numpy.hsplit

인덱스에 맞게 수직으로 분할

In [43]:
x = [0, 1, 2,3,4,5,6,7,8,9]
x1, x2, x3 = np.split(x, (3, 5))
print(x1, x2, x3)

x1, x2, x3, x4, x5 = np.split(x, (3, 5, 6, 9))
print(x1, x2, x3, x4, x5)

grid = np.arange(16).reshape((4,4))
grid

upper, lower = np.vsplit(grid, [2])
upper
lower

left, right = np.hsplit(grid, [2])
left
right

[0 1 2] [3 4] [5 6 7 8 9]
[0 1 2] [3 4] [5] [6 7 8] [9]


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])


### 1-6. Numpy 메소드

<hr/>

| Operator | Method| Description |
|:---------------: | :---------------: | :---------------: |
| `+` | `Numpy.add` | 더하기 |
| `-` | `Numpy.subtract` | 빼기 |
| `-` | `Numpy.negative` | unary negation(단항 부정) |
| `*` | `Numpy.multiply` | 곱하기 |
| `/` | `Numpy.divide` | 나누기 |
| `//` | `Numpy.floor_divide` | 정수만 취하는 나누기 |
| `**` | `Numpy.power` | 제곱 |
| `%` | `Numpy.mod` | 나머지 연산 |
| `ㅣ변수ㅣ` | `Numpy.abs` | 절대값 연산 |
| `sin` | `Numpy.sin` | sin 연산 |
| `cos` | `Numpy.cos` | cos 연산 |
| `tan` | `Numpy.tan` | tan 연산 |
| `e^x` | `Numpy.exp` | e의 제곱 |
| `ln` | `Numpy.log` | 자연로그 |
| `log2` | `Numpy.log2` | log2(x) |
| `log10` | `Numpy.log10` | 상용로그 |


In [46]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)
np.absolute(x)
np.abs(x)

array([2, 1, 0, 1, 2])

array([2, 1, 0, 1, 2])

array([2, 1, 0, 1, 2])

In [47]:
theta = np.linspace(0, np.pi, 3)

print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta      =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [48]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

x         =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [3.14159265 1.57079633 0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


In [49]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

x     = [1, 2, 3]
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2. 4. 8.]
3^x   = [ 3  9 27]


In [51]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


In [57]:
x = [0, 0.001, 0.01, 0.1]
# e^x - 1 값
print("exp(x) - 1 =", np.expm1(x))

# log(1+x) 값
print("log(1 + x) =", np.log1p(x))


x = [np.e-1, 10, 100]
# e^x - 1 값
print("exp(x) - 1 =", np.expm1(x))

# log(1+x) 값
print("log(1 + x) =", np.log1p(x))

exp(x) - 1 = [0.         0.0010005  0.01005017 0.10517092]
log(1 + x) = [0.         0.0009995  0.00995033 0.09531018]
exp(x) - 1 = [4.57494152e+00 2.20254658e+04 2.68811714e+43]
log(1 + x) = [1.         2.39789527 4.61512052]


<br/>

- Numpy.diag(matrix)

대각 행렬의 값을 추출함

In [27]:
matrix = np.arange(9).reshape(3,3)
np.diag(matrix)
np.diag(matrix, k=1)

array([0, 4, 8])

array([1, 5])

<br/>

#### Random sampling

데이터 분포에 따른 sampling으로 array 생성

- Numpy.random.uniform() 

균등분포

<br/>

- Numpy.random.normal()  

정규분포


In [28]:
np.random.uniform(0, 1, 10).reshape(2, 5)

np.random.normal(0, 1, 10).reshape(2, 5)

array([[0.88645533, 0.29599522, 0.35205851, 0.85438936, 0.37230946],
       [0.28675907, 0.64360478, 0.55437872, 0.36470141, 0.73829531]])

array([[ 0.41940936, -0.33312359,  0.05734714,  0.88671375,  1.06595846],
       [ 0.10248245,  0.66702261,  0.66250498, -1.57996077, -2.871547  ]])

### 1-7. ndarray 메소드

<hr/>

- ndarray.sum()

- ndarray.sum(axis=x)

![image.png](attachment:image.png)

(사진 출처: 네이버 부스트캠프 - 인공지능(AI) 기초 다지기)

<br/>

- ndarray.mean()

- ndarray.mean(axis=x)

ndarray의 element 간의 평균을 반환

<br/>

- ndarray.std()

- ndarray.std(axis=x)

ndarray의 element 간의 표준편차를 반환

<br/><br/>

### 1-8. ndarray의 사칙연산

<hr/>

덧셈, 뺄셈, 행렬 원소끼리의 곱, 행렬 곱 등의 연산을 지원한다.

In [29]:
# 행렬 덧셈
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [30]:
# 행렬 뺄셈
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr - arr

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [31]:
# 행렬 원소끼리의 곱
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [32]:
# 행렬곱
arr1 = np.arange(1,7).reshape(2,3)
arr2 = np.arange(7,13).reshape(3,2)
arr1.dot(arr2)

array([[ 58,  64],
       [139, 154]])

In [35]:
# 전치행렬
arr1 = np.arange(1,7).reshape(2,3)
arr1.T
arr1.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

array([[1, 4],
       [2, 5],
       [3, 6]])

In [42]:
# Broadcasting

arr = np.array([[1,2,3],[4,5,6]], float)
scalar = 3
arr + scalar  # 스칼라 덧셈
arr * scalar  # 스칼라 곱셈

array([[4., 5., 6.],
       [7., 8., 9.]])

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

<br/>

timeit을 이용해 코드의 퍼포먼스를 체크할 수 있다.

In [43]:
def sclar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

iternation_max = 1000

vector = list(range(iternation_max))
scalar = 2

%timeit sclar_vector_product(scalar, vector) # for loop을 이용한 성능
%timeit [scalar * value for value in range(iternation_max)] # list comprehension을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능

72.9 µs ± 1.67 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
62.1 µs ± 3.82 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
2.69 µs ± 236 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


<br/>

### 1-9. Comparisons

<hr/>

#### All & Any

- Numpy.any(matrix조건)
- Numpy.all(matrix조건)

In [47]:
a = np.arange(10)
a

a > 5

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [48]:
# any
np.any(a>5), np.any(a<0)

(True, False)

In [49]:
# all
np.all(a>5), np.all(a<10)

(False, True)

<br/>

#### Numpy Index

- Numpy.where

조건을 만족하는 인덱스값을 반환한다.

In [51]:
a = np.array([1,3,0])

np.where(a > 0, 3, 2)
np.where(a > 0)

array([3, 3, 2])

(array([0, 1], dtype=int64),)

<br/>

- Numpy.argmax(matrix)
- Numpy.argmin(matrix)

array 내에 있는 최대값 또는 최소값의 index를 반환한다.

In [52]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

In [53]:
a = np.array([[1,2,4,7], [9,88,6,45], [9,76,3,4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

<br/>

#### boolean index

numpy는 배열의 특정 조건에 따른 값을 배열 형태로 추출할 수 있다. 추천시스템에서 많이 사용한다.

In [56]:
arr = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
arr > 3

# boolean index
condition = arr > 3
arr[condition]

array([False,  True, False, False, False,  True,  True,  True])

array([4., 8., 9., 7.])

<br/>

#### fancy index

array를 index value로 사용해서 값을 추출할 수 있다. 추천시스템에서 많이 사용한다.

In [57]:
a = np.array([2,4,6,8], float)
b = np.array([0, 0, 1, 3, 2, 1], int) # 반드시 integer로 선언
a[b]

array([2., 2., 4., 8., 6., 4.])

In [58]:
a.take(b)

array([2., 2., 4., 8., 6., 4.])

In [59]:
a = np.array([[1,4], [9,16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b, c]  # b를 row 인덱스, c를 column 인덱스로 변환하여 표시

array([ 1.,  4., 16., 16.,  4.])