# **Chapter 02. 파이썬을 활용한 데이터 전처리**
> 파이썬을 활용한 데이터 전처리를 위해 Numpy, Pandas의 전반적인 내용을 살펴볼 것이다.

---
**< 목차 >**
> 2-0. 라이브러리(Libarary)란?<br>
2-1. Numpy 란?<br>
2-2. 배열(array) 슬라이싱과 정렬<br>
2-3. 행렬(martix) 연산과 성능

## 2-0. 라이브러리(Library)란?
> - 라이브러리는 쉽게 말하면 미리 만들어진 함수와 메소드로 이루어진 모듈들의 집합이다.<br>
- 자주 사용하는 기능들은 코드를 직접 작성할 필요 없이 만들어진 라이브러리를 불러와서 사용하면 편리하게 프로그래밍을 할 수 있다.
- Colab은 자주 사용되는 여러 라이브러리들이 미리 설치되어 있다.

> 라이브러리는 `import`를 통해서 불러올 수 있다.

In [32]:
import numpy

> 필요하다면 `as`를 통해서 명령어를 원하는 문자로 단축해서 쓸 수 있도록 지정할 수도 있다.

In [33]:
import numpy as np

> 만일 설치되어 있지 않은 라이브러리를 import하는 경우는 에러가 발생한다.
- 이 경우는 `!pip install (라이브러리)` 명령어를 통해 colab에 라이브러리를 설치 후 사용하자.

In [34]:
# 설치하지 않은 경우 에러가 발생한다.
import selenium

ModuleNotFoundError: ignored

In [35]:
!pip install selenium

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting selenium
  Downloading selenium-4.4.0-py3-none-any.whl (985 kB)
[K     |████████████████████████████████| 985 kB 5.2 MB/s 
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting urllib3[secure,socks]~=1.26
  Downloading urllib3-1.26.11-py2.py3-none-any.whl (139 kB)
[K     |████████████████████████████████| 139 kB 48.1 MB/s 
[?25hCollecting trio~=0.17
  Downloading trio-0.21.0-py3-none-any.whl (358 kB)
[K     |████████████████████████████████| 358 kB 44.0 MB/s 
[?25hCollecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting sniffio
  Downloading sniffio-1.2.0-py3-none-any.whl (10 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.1.0-py3-none-any.whl (24 kB)
Collecting cryptography>=1.3.4
  Downloadin

In [36]:
import selenium
# 에러가 발생하지 않는다.

> 불러온 라이브러리는 해당 라이브러리의 문법에 맞춰 사용하도록 하자.

In [37]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## 2-1. Numpy 란?
> - ***Numerical Python***의 줄임말로, 파이썬을 사용한 산술 계산에 가장 중요한 패키지 중 하나이다.
- 핵심 기능 중 하나인 N차원 배열의 `ndarray`를 통해 대규모 데이터 집합을 다루는데 매우 유용하다.
    - **ndarray**는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열을 의미한다.
- 데이터 분석에서 대부분 **Pandas**와 함께 사용한다.
- 보통 numpy를 import할 때 편의상 `np`로 사용하는 경우가 많다.

In [38]:
import numpy as np

> numpy는 배열의 축(axis)의 수에 따라 차원이 달라진다.
- axis는 0부터 순차적으로 1차원, 2차원, 3차원...을 뜻한다.
    - `axis=2` : 3차원
- `np.shape()` 함수를 사용하면 해당 데이터 속 각 차원의 크기를 알려준다.

In [39]:
# 1차원 데이터
array1 = np.array([1,2,3])
np.shape(array1)

# (3,)는 '1차원에 3개의 값이 있다'는 의미이다.

(3,)

In [40]:
# 2차원 데이터
array2 = np.array([[1,2,3],
                   [4,5,6]])
np.shape(array2)

# (2,3)은 '1차원(axis0, 행)에 2개의 값, 2차원(axis1, 열)에 3개의 값이 있다'는 의미이다.

(2, 3)

In [41]:
# 3차원 데이터
array3 = np.array([[[1,2,3],
                    [4,5,6]],
                   [[7,8,9],
                    [10,11,12]]])
np.shape(array3)

# (2,2,3)은 '1차원(axis=0)에 2개의값, 2차원(axis=1)에 3개의 값, 3차원(axis=2)에 2개의 값이 있다'는 의미이다.

(2, 2, 3)

## 2-2. 배열(array) 슬라이싱과 정렬

### **배열(array) 생성하기**
> 1. `array 함수` 사용
2. numpy의 자체의 배열 생성 함수 사용

array 함수 사용하기

> array 함수를 이용하여 리스트, 튜플 혹은 다른 순차형 데이터를 ndarray 배열로 변환할 수 있다.

In [42]:
data = [1,2,3,4,5,6,7]

In [43]:
np.array(data)

array([1, 2, 3, 4, 5, 6, 7])

> 같은 길이를 가진 리스트를 내포한 데이터는 다차원 배열로 변환된다.

In [44]:
data = [[1,2,3],[4,5,6]]

In [45]:
np.array(data)

array([[1, 2, 3],
       [4, 5, 6]])

> 같은 형식의 데이터를 가지는 array 특성상 데이터의 자료형을 알아서 추측하여 설정해주지만,<br>
`dtype` 옵션을 통해 데이터의 자료형을 지정해줄 수도 있다.

In [46]:
data = [[1,2,3],[4,5,6]]
np.array(data)

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
np.array(data, dtype='float')

array([[1., 2., 3.],
       [4., 5., 6.]])

In [48]:
np.array(data, dtype='str')
# 이때 dtype으로 나오는 '<U1'은 '유니코드 문자열'이라는 의미이다.

array([['1', '2', '3'],
       ['4', '5', '6']], dtype='<U1')

numpy의 자체의 배열 생성 함수 사용

> `np.zeros()` : 주어진 dtype에 맞는 배열을 생성하고, 값을 0으로 채운다.

In [49]:
# 0으로 이루어진 (3,3)의 배열 생성
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

> `np.ones()` : 주어진 dtype에 맞는 배열을 생성하고, 값을 1로 채운다.

In [50]:
# 1로 이루어진 (3,4) 배열 생성
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

> `np.full()` : 주어진 dtype의 배열을 생성하고, 값을 주어진 값으로 채운다.

In [51]:
# 10으로 이루어진 (2,3) 배열 생성
np.full((2,3), 10)

array([[10, 10, 10],
       [10, 10, 10]])

> `np.eye()` : 주어진 배열에 맞는 단위행렬을 생성한다.
- 좌상단에서 우하단까지의 값을 1로 채우고, 나머지를 0으로 채운 행렬 단위행렬이라고 한다.

In [52]:
np.eye(4,4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

> `np.arange()` : 파이썬의 내장 함수 range와 유사하지만 array 배열을 반환해준다.

In [53]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
np.arange(3,10)

array([3, 4, 5, 6, 7, 8, 9])

In [55]:
np.arange(4,12,2)

array([ 4,  6,  8, 10])

> `np.linspace()` : 원하는 구간의 등간격인 값을 구해준다.
- 그래프를 그릴 때 유용하게 사용한다.
- 'np.linspace(시작값, 끝값, 간격개수)'의 형식이다.

In [56]:
np.linspace(0,10,5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [57]:
np.linspace(0,15,4)

array([ 0.,  5., 10., 15.])

### **슬라이싱 (Slicing)**
> - **데이터의 슬라이싱**은 데이터의 부분집합이나 개별 요소를 선택하여 추출하는 것이다.

1차원 데이터 슬라이싱
> - 1차원 데이터는 기본적인 파이썬 슬라이싱과 유사하게 동작한다.
- 파이썬은 **제로인덱스**를 사용한다는 것을 다시 한 번 상기하자.

In [58]:
arr = np.array([1,2,3,4,5])

In [59]:
# index가 0인 데이터 슬라이싱
arr[0]

1

In [60]:
# index가 3인 데이터 슬라이싱
arr[3]

4

다차원 데이터 슬라이싱
> - 다차원 데이터의 슬라이싱은 첫 번쨰 대괄호[ ]부터 하나씩 큰 차원의 index를 의미한다.
    - 1차원: arr[행index], 2차원: arr[행index][열index], ...
- 쉼표를 기준으로 슬라이싱 할 수도 있다.
    - arr[행index, 열index, ...]
    - 차원이 커질수록 콤마(,)를 기준으로 기준값이 하나씩 더 늘어난다.

In [61]:
arr2D = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12]])

In [62]:
# 1차원의 3번째 데이터 슬라이싱(1행,3열)
arr2D[0][2]

3

In [63]:
# 2차원의 4번째 데이터 슬라이싱(2행,4열)
arr2D[1][3]

8

> 슬라이싱에서 [ : ] 로 슬라이싱 하면 해당 차원의 모든 데이터를 선택한다.

In [64]:
# 4열의 데이터 모두 선택
arr2D[:, 3]

array([ 4,  8, 12])

In [65]:
# 2행의 데이터 모두 선택
arr2D[1, :]

array([5, 6, 7, 8])

구간 슬라이싱
> 파이썬의 슬라이싱과 유사한 형식으로 구간 슬라이싱을 할 수도 있다.

In [66]:
arr = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12],
                [13,14,15,16]])

In [67]:
# 3행부터 슬라이싱
arr[2:]

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [68]:
# 3행까지 슬라이싱
arr[:3]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [69]:
# 2,3 열 슬라이싱
arr[:, 1:3]

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

> 구간 슬라이싱을 활용하여 데이터의 중간에 원하는 부분만 슬라이싱 할 수도 있다.

In [70]:
# 2,3행의 1,2열 슬라이싱
arr[1:3, 0:2]

array([[ 5,  6],
       [ 9, 10]])

> [ :: ] 을 사용하여 특정 간격을 기준으로 슬라이싱 할수도 있다.

In [71]:
# 2칸 간격으로 행을 추출 (1,3행)
arr[::2]

array([[ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

In [72]:
# 2칸 간격으로 열을 추출 (1,3열)
arr[:, ::2]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15]])

> [ -1 ]을 입력하면 마지막 차원의 데이터를 슬라이싱한다.

In [73]:
# 마지막 행 슬라이싱 (4행)
arr[-1]

array([13, 14, 15, 16])

In [74]:
# 마지막 열 슬라이싱 (4열)
arr[:, -1]

array([ 4,  8, 12, 16])

### Fancy 인덱싱
> Fancy indexing은 특정 index에 해당하는 위치의 데이터만 뽑고 싶을 때 사용

In [75]:
arr = np.arange(16).reshape(4,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [76]:
# 3열 4행의 값 추출
arr[2,3]

11

In [77]:
# 1,3행 추출
arr[[0,2], :]

array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11]])

In [78]:
# 1,4열 추출
arr[:, [0,3]]

array([[ 0,  3],
       [ 4,  7],
       [ 8, 11],
       [12, 15]])

> Fancy indexing에서 다차원 indexing은 조금 다르게 동작한다.
- 아래 예시의 arr[[0,2], [1,3]]은 해당 행과 열 데이터의 겹치는 부분인 [1,3]와 [9,11]이 슬라이싱 되는 것이 아닌 [1,11]이 슬라이싱 된다.
- Fancy indexing에서 해당 코드는 [0,1]의 위치값 [1]과, [2,3]의 위치값[11]을 슬라이싱한다.

In [79]:
# index[0,1]의 값과 index[2,3]의 값 추출
arr[[0,2], [1,3]]

array([ 1, 11])

In [80]:
# 1,3행의 2,4열을 전부 구하고 싶은 경우
arr[[0,2]][:,[1,3]]

array([[ 1,  3],
       [ 9, 11]])

### Boolean 인덱싱
> - Boolean 값인 True와 False를 이용하여 특정 조건을 만족하는 True 값만 슬라이싱
> - indexing 하고자 하는 데이터와 불리언 배열의 크기가 같아야만 indexing이 가능하다.

In [81]:
arr = np.arange(16).reshape((4,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [82]:
boolean = np.array([[True, True, False, False],
                    [False, False, True, True],
                    [True, False, True, False],
                    [False, True, False, True]])
boolean

array([[ True,  True, False, False],
       [False, False,  True,  True],
       [ True, False,  True, False],
       [False,  True, False,  True]])

In [83]:
arr[boolean]

array([ 0,  1,  6,  7,  8, 10, 13, 15])

> 조건을 통해 Boolean 배열을 만들어서 대입할수도 있다.

In [84]:
arr > 8

array([[False, False, False, False],
       [False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [85]:
# [arr>8]의 값이 boolean 배열이기 때문에 조건만 대입하면 바로 슬라이싱 가능
arr[arr>8]

array([ 9, 10, 11, 12, 13, 14, 15])

### 배열 차원 변환
> - `np.reshape()`를 활용하면 원하는 차원으로 데이터를 변환 가능하다.
    - 'arr.reshape(행, 열)' 의 형식
- 단, 변환하려는 차원과 데이터의 크기가 맞지 않으면 변환되지 않는다.

In [86]:
arr1 = np.arange(12)
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [87]:
# 3행 4열의 2차원 데이터로 변환
arr2 = arr1.reshape(3,4)
arr2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

> 데이터의 크기를 모를 경우 `np.shape()`를 이용하면 알 수 있다.

In [88]:
np.shape(arr2)

(3, 4)

> 차원을 입력할 때 '-1'을 입력하면 자동으로 차원을 계산하여 넣어준다.

In [89]:
arr3 = arr1.reshape(2,-1)
arr3

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

### 정렬(sort)
> - `np.sort()`를 활용하여 데이터를 정렬할 수 있다.
- 기본 디폴트 설정은 오름차순이다.
    - 정렬 옵션으로 [::-1]을 추가하면 내림차순으로 바꿀 수 있다.

1차원 정렬

In [90]:
arr = np.array([10,5,3,8,6,2,9,1,4,7])

In [91]:
np.sort(arr)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [92]:
np.sort(arr)[::-1]

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

N차원 정렬

In [93]:
arr = np.array([[2, 11, 6, 9],
                [1, 10, 16, 5],
                [8, 15, 14, 3],
                [12, 7, 13, 4]])
arr

array([[ 2, 11,  6,  9],
       [ 1, 10, 16,  5],
       [ 8, 15, 14,  3],
       [12,  7, 13,  4]])

> 다차원의 정렬은 축(axis)을 설정하여 정렬 방향을 선택할 수 있다.

In [94]:
# 행 방향 정렬 (위에서 아래 방향으로 정렬)
np.sort(arr, axis=0)

array([[ 1,  7,  6,  3],
       [ 2, 10, 13,  4],
       [ 8, 11, 14,  5],
       [12, 15, 16,  9]])

In [95]:
# 열 방향 정렬 (왼쪽에서 오른쪽으로 정렬)
np.sort(arr, axis=1)

array([[ 2,  6,  9, 11],
       [ 1,  5, 10, 16],
       [ 3,  8, 14, 15],
       [ 4,  7, 12, 13]])

### 유용한 Numpy 함수

> - `np.sum()` : 배열 전체 혹은 특정 축에 대한 모든 원소 합 계산

In [96]:
arr = np.arange(16).reshape(4,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [97]:
# 전체합
np.sum(arr)

120

In [98]:
# 특정 축의 합 (열방향)
np.sum(arr, axis=1)

array([ 6, 22, 38, 54])

> - `np.mean()` : 배열 전체 혹은 특정 축에 대한 산술평균을 계산

In [99]:
# 전체 평균
np.mean(arr)

7.5

In [100]:
# 특정 축의 평균 (행방향)
np.mean(arr, axis=0)

array([6., 7., 8., 9.])

> - `np.min()` : 최소값
- `np.max()` : 최대값

In [101]:
# 전체의 최소값,최대값
np.min(arr), np.max(arr)

(0, 15)

In [102]:
# 특정 축의 최소값(행), 최대값(열)
np.min(arr, axis=0), np.max(arr, axis=1)

(array([0, 1, 2, 3]), array([ 3,  7, 11, 15]))

> - `np.argmin()` : 최소값의 index 반환
- `np.argmax()` : 최대값의 index 반환

In [117]:
# 전체의 최소/최대값 index
np.argmin(arr), np.argmax(arr)

(0, 15)

In [118]:
# 최소/최대값 index - 특정 행(열)
np.argmin(arr, axis=0), np.argmax(arr,axis=1)

(array([0, 0, 0, 0]), array([3, 3, 3, 3]))

> - `np.std()` : 표준편차
- `np.var()` : 분산

In [104]:
# 전체값의 표준편차,분산
np.std(arr), np.var(arr)

(4.6097722286464435, 21.25)

In [119]:
# 특정 축의 표준편차(열), 분산(행)
np.std(arr,axis=1), np.var(arr, axis=0)

(array([1.11803399, 1.11803399, 1.11803399, 1.11803399]),
 array([20., 20., 20., 20.]))

> - `np.where()` : 특정 값의 index를 반환

In [105]:
np.where(arr==6)
# 행 기준으로 index 1, 열 기준으로 index 2에 있다는 의미이다.

(array([1]), array([2]))

## 2-3. 행렬(matrix) 연산과 성능

### **행렬(matrix)** 이란?
> - 행렬은 변수나 자료가 행(Row)과 열(Column)에 맞춰 이루어진 2차원 배열을 의미한다.
    - 행(Row) : 행렬의 가로 줄
    - 열(Column) : 행렬의 세로 줄
- 대부분의 정형 데이터들은 행렬의 형태로 이루어져 있기 때문에 행렬을 분석하고 다루는 것이 중요하다.
- 현재 Python을 이용한 행렬 연산 중에서 Numpy가 가장 좋은 성능을 가지고 있는 것으로 알려져 있다.

### 행렬의 기본 연산
> 기본적인 행렬의 개념과 연산은 **공학수학**이나 **선형대수학**과 같은 수학 서적에서 자세히 공부하도록 하고,<br>여기서는 Numpy를 이용한 연산 방법을 중심으로 알아보겠다.

In [106]:
import numpy as np

> 행렬 덧셈 / 뺼셈<br>

- 두 행렬의 대응되는 각 원소들을 덧셈 / 뺼셈 한다.
- 연산되는 두 행렬은 차원이 같아야 한다.

In [107]:
arr1 = np.arange(1,17).reshape(4,4)
arr2 = np.arange(1,17).reshape(4,4)

In [108]:
# 덧셈
arr1 + arr2

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

In [109]:
# 뺄셈
arr1 - arr2

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

> 행렬의 곱셈 / 나눗셈<br>

- 두 행렬의 대응되는 각 원소들을 곱하기 / 나누기 한다.
    - 곱셈의 경우는 **내적 연산**과 구분하여 **Element-wise연산** 이라고 한다.
- 마찬가지로 연산되는 두 행렬의 차원이 같아야 한다.

In [110]:
# 곱셈 : Element-wise 연산
arr1 * arr2

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144],
       [169, 196, 225, 256]])

In [111]:
# 나눗셈
arr1 / arr2

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

> 내적 연산 (Dot Product)<br>

- 행렬의 독특한 곱셈 방법이다.
- 두 행렬의 내적 연산을 위해서는 연산되는 ***앞행렬의 열***과 ***뒤행렬의 행***의 차원이 같아야 한다.

In [112]:
# 내적 연산 (Dot Product)
np.dot(arr1,arr2)

array([[ 90, 100, 110, 120],
       [202, 228, 254, 280],
       [314, 356, 398, 440],
       [426, 484, 542, 600]])

In [113]:
arr1 = np.array([[1,2,3,4],
                  [5,6,7,8]])
arr2 = np.array([[1,2],
                  [5,6],
                  [9,10],
                  [13,14]])

In [114]:
np.dot(arr1, arr2)

array([[ 90, 100],
       [202, 228]])

### 브로드캐스팅(Broadcasting) 연산
> - 브로드캐스팅은 저차원 배열의 연산을 고차원 배열로 확장시켜 연산하는 것을 의미힌다.
- 저차원 배열과 고차원 배열을 계산하면 자동으로 브로드캐스팅하여 계산을 해준다.

In [122]:
arr3d = np.arange(24).reshape(3,4,2)
arr2d = np.arange(8).reshape(4,2)
np.shape(arr3d), np.shape(arr2d)

((3, 4, 2), (4, 2))

In [123]:
# 브로드캐스팅
arr3d + arr2d

array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10],
        [12, 14]],

       [[ 8, 10],
        [12, 14],
        [16, 18],
        [20, 22]],

       [[16, 18],
        [20, 22],
        [24, 26],
        [28, 30]]])

> 단일 값 브로드캐스팅도 가능하다.

In [124]:
arr2d + 10

array([[10, 11],
       [12, 13],
       [14, 15],
       [16, 17]])

In [125]:
arr2d * 10

array([[ 0, 10],
       [20, 30],
       [40, 50],
       [60, 70]])

In [126]:
arr2d / 10

array([[0. , 0.1],
       [0.2, 0.3],
       [0.4, 0.5],
       [0.6, 0.7]])