# **Chapter 02. 파이썬을 활용한 데이터 전처리**
> 파이썬을 활용한 데이터 전처리를 위해 Numpy, Pandas의 전반적인 내용을 살펴볼 것이다.

---
**< 목차 >**
> 2-0. 라이브러리(Libarary)란?<br>
2-1. Numpy 란?<br>
2-2. 배열(array) 슬라이싱과 정렬<br>
2-3. 행렬(martix) 연산과 성능

## 2-0. 라이브러리(Library)란?
> - 라이브러리는 쉽게 말하면 미리 만들어진 함수와 메소드로 이루어진 모듈들의 집합이다.<br>
- 자주 사용하는 기능들은 코드를 직접 작성할 필요 없이 만들어진 라이브러리를 불러와서 사용하면 편리하게 프로그래밍을 할 수 있다.
- Colab은 자주 사용되는 여러 라이브러리들이 미리 설치되어 있다.

> 라이브러리는 `import`를 통해서 불러올 수 있다.

In [1]:
import numpy

> 필요하다면 `as`를 통해서 명령어를 원하는 문자로 단축해서 쓸 수 있도록 지정할 수도 있다.

In [6]:
import numpy as np

> 만일 설치되어 있지 않은 라이브러리를 import하는 경우는 에러가 발생한다.
- 이 경우는 `!pip install (라이브러리)` 명령어를 통해 colab에 라이브러리를 설치 후 사용하자.

In [2]:
# 설치하지 않은 경우 에러가 발생한다.
import selenium

ModuleNotFoundError: ignored

In [3]:
!pip install selenium

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting selenium
  Downloading selenium-4.3.0-py3-none-any.whl (981 kB)
[K     |████████████████████████████████| 981 kB 28.4 MB/s 
[?25hCollecting urllib3[secure,socks]~=1.26
  Downloading urllib3-1.26.11-py2.py3-none-any.whl (139 kB)
[K     |████████████████████████████████| 139 kB 41.0 MB/s 
[?25hCollecting trio~=0.17
  Downloading trio-0.21.0-py3-none-any.whl (358 kB)
[K     |████████████████████████████████| 358 kB 50.7 MB/s 
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting sniffio
  Downloading sniffio-1.2.0-py3-none-any.whl (10 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.1.0-py3-none-any.whl (24 kB)
Collecting pyOpenSSL>=0.14
  Downloading p

In [4]:
import selenium
# 에러가 발생하지 않는다.

> 불러온 라이브러리는 해당 라이브러리의 문법에 맞춰 사용하도록 하자.

In [8]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## 2-1. Numpy 란?
> - ***Numerical Python***의 줄임말로, 파이썬을 사용한 산술 계산에 가장 중요한 패키지 중 하나이다.
- 핵심 기능 중 하나인 N차원 배열의 `ndarray`를 통해 대규모 데이터 집합을 다루는데 매우 유용하다.
    - **ndarray**는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열을 의미한다.
- 데이터 분석에서 대부분 **Pandas**와 함께 사용한다.
- 보통 numpy를 import할 때 편의상 `np`로 사용하는 경우가 많다.

In [9]:
import numpy as np

> numpy는 배열의 축(axis)의 수에 따라 차원이 달라진다.
- axis는 0부터 순차적으로 1차원, 2차원, 3차원...을 뜻한다.
    - `axis=2` : 3차원
- `np.shape()` 함수를 사용하면 해당 데이터 속 각 차원의 크기를 알려준다.

In [46]:
# 1차원 데이터
array1 = np.array([1,2,3])
np.shape(array1)

# (3,)는 '1차원에 3개의 값이 있다'는 의미이다.

(3,)

In [48]:
# 2차원 데이터
array2 = np.array([[1,2,3],
                   [4,5,6]])
np.shape(array2)

# (2,3)은 '1차원(axis0, 행)에 2개의 값, 2차원(axis1, 열)에 3개의 값이 있다'는 의미이다.

(2, 3)

In [52]:
# 3차원 데이터
array3 = np.array([[[1,2,3],
                    [4,5,6]],
                   [[7,8,9],
                    [10,11,12]]])
np.shape(array3)

# (2,2,3)은 '1차원(axis=0)에 2개의값, 2차원(axis=1)에 3개의 값, 3차원(axis=2)에 2개의 값이 있다'는 의미이다.

(2, 2, 3)

## 2-2. 배열(array) 슬라이싱과 정렬

### **배열(array) 생성하기**
> 1. `array 함수` 사용
2. numpy의 자체의 배열 생성 함수 사용

#### 1. array 함수 사용하기

> array 함수를 이용하여 리스트, 튜플 혹은 다른 순차형 데이터를 ndarray 배열로 변환할 수 있다.

In [24]:
data = [1,2,3,4,5,6,7]

In [26]:
np.array(data)

array([1, 2, 3, 4, 5, 6, 7])

> 같은 길이를 가진 리스트를 내포한 데이터는 다차원 배열로 변환된다.

In [32]:
data = [[1,2,3],[4,5,6]]

In [35]:
np.array(data)

array([['1', '2', '3'],
       ['4', '5', '6']], dtype='<U1')

> 같은 형식의 데이터를 가지는 array 특성상 데이터의 자료형을 알아서 추측하여 설정해주지만,<br>
`dtype` 옵션을 통해 데이터의 자료형을 지정해줄 수도 있다.

In [40]:
data = [[1,2,3],[4,5,6]]
np.array(data)

array([[1, 2, 3],
       [4, 5, 6]])

In [39]:
np.array(data, dtype='float')

array([[1., 2., 3.],
       [4., 5., 6.]])

In [38]:
np.array(data, dtype='str')
# 이때 dtype으로 나오는 '<U1'은 '유니코드 문자열'이라는 의미이다.

array([['1', '2', '3'],
       ['4', '5', '6']], dtype='<U1')

#### 2. numpy의 자체의 배열 생성 함수 사용

> `np.zeros()` : 주어진 dtype에 맞는 배열을 생성하고, 값을 0으로 채운다.

In [44]:
# 0으로 이루어진 (3,3)의 배열 생성
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

> `np.ones()` : 주어진 dtype에 맞는 배열을 생성하고, 값을 1로 채운다.

In [53]:
# 1로 이루어진 (3,4) 배열 생성
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

> `np.full()` : 주어진 dtype의 배열을 생성하고, 값을 주어진 값으로 채운다.

In [60]:
# 10으로 이루어진 (2,3) 배열 생성
np.full((2,3), 10)

array([[10, 10, 10],
       [10, 10, 10]])

> `np.eye()` : 주어진 배열에 맞는 단위행렬을 생성한다.
- 좌상단에서 우하단까지의 값을 1로 채우고, 나머지를 0으로 채운 행렬 단위행렬이라고 한다.

In [61]:
np.eye(4,4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

> `np.arange()` : 파이썬의 내장 함수 range와 유사하지만 array 배열을 반환해준다.

In [65]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [66]:
np.arange(3,10)

array([3, 4, 5, 6, 7, 8, 9])

In [68]:
np.arange(4,12,2)

array([ 4,  6,  8, 10])

> `np.linspace()` : 원하는 구간의 등간격인 값을 구해준다.
- 그래프를 그릴 때 유용하게 사용한다.
- 'np.linspace(시작값, 끝값, 간격개수)'의 형식이다.

In [69]:
np.linspace(0,10,5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [70]:
np.linspace(0,15,4)

array([ 0.,  5., 10., 15.])

### **슬라이싱 (Slicing)**