## Part 02 데이터 핸들링 - 1장 NumPy를 활용한 데이터 다루기
### 1절: Numpy의 배열객체

#### ndarray 배열
- 같은 종류의 데이터 타입을 담을 수 있는 다차원 배열 (숫자형, 문자열, 부울형 등)
<br>

1. array(object) : 객체(object)를 배열로 반환
2. arange([start, ], stop, [step, ]) : start 숫자에서 step 간격으로 증가하여 end 전(end를 포함하지 않는) 숫자까지 실수열을 생성
3. ones(shape) : shape는 정수 또는 튜플 형태로 입력되어, shape 값에 따른 모든 값이 1인 배열을 생성
4. zeros(shape) : shape는 정수 또는 튜플 형태로 입력되어, shape 값에 따른 모든 값이 0인 배열을 생성
5. full(shape, fill_value) : shape는 정수 또는 튜플 형태로 입력되어, shape 값에 따른 모든 값이 fill_value인 배열을 생성
6. identity(n) : 주 대각성분이 1인 행과 열의 수가 n개인 정사각 2차원 배열(항등행렬과 유사)

In [2]:
# numpy 패키지 불러오기

# !pip install numpy==1.21.1
# conda install numpy
import numpy as np

In [3]:
# 1d array
np.array([1, 3, 5, 7, 9])

array([1, 3, 5, 7, 9])

In [4]:
np.array('dataedu')

array('dataedu', dtype='<U7')

In [5]:
# arange([start, ], stop, [step, ])
np.arange(7)

array([0, 1, 2, 3, 4, 5, 6])

In [6]:
# arange는 실수도 가능 (range는 정수만 가능)
np.arange(1, 6, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5])

In [7]:
# range()는 step에 실수 불가능
range(1, 6, 0.5)

TypeError: 'float' object cannot be interpreted as an integer

In [8]:
# ones(shape)
np.ones(5)

array([1., 1., 1., 1., 1.])

In [9]:
# zeros(shape)
np.zeros(3)

array([0., 0., 0.])

In [10]:
# full(shape, fill_value)
np.full(5, 4.)

array([4., 4., 4., 4., 4.])

- 각 함수는 dtype 인자를 사용할 수 있으며, 별도로 입력하지 않을 경우(default)는 None이 선택되어 입력한 데이터 타입 그대로 유지되는 것을 의미
- 만약 3을 입력한 후 dtype=float을 입력할 경우 데이터 타입을 실수형으로 바꿀 수 있으며, 생략할 경우 입력된 3이 정수형이므로 자동으로 정수형이 됨
- *참고* : 배열객체.dtype는 배열객체의 데이터 타입 정보를 확인하는 메소드

In [15]:
# 배열 객체의 dtype
print(np.full(5, 4))

# 정수
print(np.full(5, 4).dtype)

# 실수
print(np.full(5, 4.).dtype)

[4 4 4 4 4]
int32
float64


In [16]:
# dtype 인자로 자료형 설정
np.full(5, 4, dtype='float').dtype

dtype('float64')

2d-array(2차원 배열)객체는 행렬(matrix)와 유사한 형태(실제로 행렬객체는 아님)

In [19]:
# 2d-array
np.array( [[1, 3, 5, 7, 9], [2, 4, 6, 8, 0]] )    # 2행 5열

array([[1, 3, 5, 7, 9],
       [2, 4, 6, 8, 0]])

In [20]:
np.array( [[1, 2, 3], [4, 5, 6], [7, 8, 9]] )     # 3행 3열

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
# 모든 값이 1(정수)이고 행의 수가 2, 열의 수가 5개인 2차원 배열
np.ones( (2, 5), dtype='int')

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [22]:
# 모든 값이 0(정수)이고 행의 수가 2, 열의 수가 5개인 2차원 배열
np.zeros( (2, 5), dtype='int')

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [24]:
# 모든 값이 7(정수)이고 행의 수가 3, 열의 수가 5개인 2차원 배열
np.full( (3, 5), 7)

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

In [25]:
# 주대각성분이 1인 행과 열의 수가 5개인 정사각 2차원 배열 생성 (항등행렬과 유사)
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

3d-array(3차원 배열) 객체는 2차원 배열이 층을 이룬 형태로 구성됨

In [26]:
# 3d array
np.array([
    [[1, 2, 3, 4], [5, 6, 7, 8]], # 0층
    [[2, 4, 6, 8], [1, 3, 5, 7]], # 1층
    [[0, 9, 8, 7], [7, 8, 9, 0]]  # 2층
])

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[2, 4, 6, 8],
        [1, 3, 5, 7]],

       [[0, 9, 8, 7],
        [7, 8, 9, 0]]])

In [27]:
# 모든 값이 1이고 3층 2행 4열인 3차원 배열
np.ones( (3, 2, 4), dtype='int')

array([[[1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [28]:
# 모든 값이 0이고 3층 2행 4열인 3차원 배열
np.zeros( (3, 2, 4), dtype = 'int')

array([[[0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [29]:
# 모든 값이 5이고 3층 2행 4열인 3차원 배열
np.full( (3, 2, 4), 5, dtype='int')

array([[[5, 5, 5, 5],
        [5, 5, 5, 5]],

       [[5, 5, 5, 5],
        [5, 5, 5, 5]],

       [[5, 5, 5, 5],
        [5, 5, 5, 5]]])

#### ndarray 정보 확인
1. 배열.dtype : 배열의 데이터타입 정보
2. 배열.shape : 배열의 형상 정보  
   - 1d array의 경우 (길이, )와 같은 형태로 반환
   - 2d array의 경우 (행길이, 열길이)와 같은 형태로 반환
   - 3d array의 경우 (층 수, 행길이, 열길이)와 같은 형태로 반환
3. 배열.size : 배열의 총 원소 수
4. 배열.ndim : 배열의 차원

In [32]:
# nd array 생성
arr1d = np.array( [1, 2, 3, 4])
arr2d = np.array( [[1, 2, 3, 4], [5, 6, 7, 8]] )
arr3d = np.array([
    [[1, 2, 3, 4], [5, 6, 7, 8]], # 0층
    [[2, 4, 6, 8], [1, 3, 5, 7]], # 1층
    [[0, 9, 8, 7], [7, 8, 9, 0]]  # 2층
])

In [34]:
# dtype
print(arr1d.dtype)
print(arr2d.dtype)
print(arr3d.dtype)

int32
int32
int32


In [35]:
# shape
print(arr1d.shape)
print(arr2d.shape)
print(arr3d.shape)

(4,)
(2, 4)
(3, 2, 4)


In [36]:
# size
print(arr1d.size)
print(arr2d.size)
print(arr3d.size)

4
8
24


In [37]:
# ndim
print(arr1d.ndim)
print(arr2d.ndim)
print(arr3d.ndim)

1
2
3


### 2절: Numpy의 연산

#### ndarray 인덱싱

In [38]:
# 1d array
print(arr1d[0], arr1d[3])

1 4


In [41]:
# 2d array
print(arr2d[0, 1], arr2d[1, 1])

# 음수 인덱싱
print(arr2d[-1, -1])

2 6
8


In [40]:
# 3d array
print(arr3d[0, 0, 1], arr3d[1, 0, 1], arr3d[2, 0, 1])

2 4 9


#### ndarray 슬라이싱

In [42]:
# 1d array
print(arr1d[0:2], arr1d[:])

[1 2] [1 2 3 4]


In [43]:
# 2d array
print(arr2d[0:3, 0], arr2d[1, :])

[1 5] [5 6 7 8]


In [44]:
# 3d array
print(arr3d[0, :, :3])

[[1 2 3]
 [5 6 7]]


#### ndarray 원소별 연산
- ndarray 배열에 대한 **산술연산자** 또는 **범용함수(universal functions; ndarray 안의 원소별 연산을 수행하는 함수)** 의 종류는 아래와 같음
- 60개 이상의 범용 함수가 정의되어 있지만, 여기선 일부만 다룸
- 범용 함수는 단일 배열인 경우와 서로 다른 배열인 경우에 따라 종류를 구분할 수 있음
<br>

1. abs(배열), fabs(배열) : 배열의 각 원소별 절댓값을 반환, 복소수가 아닌 경우에는 fabs로 빠르게 연산 가능
2. sqrt(배열) : 배열의 각 원소별 제곱근을 반환
3. square(배열) : 배열의 각 원소별 제곱 값을 반환
4. exp(배열) : 배열의 각 원소별 밑이 e(오일러 함수)인 지수 함수 값을 반환
5. log(배열) : 배열의 각 원소별 자연로그 값을 반환
6. log10(배열) : 배열의 각 원소별 상용로그 값을 반환
7. sign(배열) : 배열의 각 원소별 부호 값을 반환 (양수면 1, 음수면 -1, 0이면 0 반환)

In [47]:
# nd array 생성
arr = np.array( [1, -2, 3, -4, 25, 9])

In [48]:
# abs
np.abs(arr)

array([ 1,  2,  3,  4, 25,  9])

In [50]:
# fabs
np.fabs(arr)

array([ 1.,  2.,  3.,  4., 25.,  9.])

In [51]:
# sqrt
np.sqrt(arr)

  np.sqrt(arr)


array([1.        ,        nan, 1.73205081,        nan, 5.        ,
       3.        ])

In [52]:
# square
np.square(arr)

array([  1,   4,   9,  16, 625,  81])

In [54]:
# exp
np.exp(arr)

array([2.71828183e+00, 1.35335283e-01, 2.00855369e+01, 1.83156389e-02,
       7.20048993e+10, 8.10308393e+03])

In [55]:
np.log(arr)

  np.log(arr)


array([0.        ,        nan, 1.09861229,        nan, 3.21887582,
       2.19722458])

In [56]:
np.log10(arr)

  np.log10(arr)


array([0.        ,        nan, 0.47712125,        nan, 1.39794001,
       0.95424251])

In [57]:
np.sign(arr)

array([ 1, -1,  1, -1,  1,  1])

단일 배열의 소수점을 처리하는 범용 함수
1. round(배열, decimals = 0) : 배열의 각 원소별 소수점을 decimals(원하는 소수점 자릿수, default=0)까지 반올림한 값을 반환
2. ceil(배열) : 배열의 각 원소별 소수점을 올림한 값을 반환
3. floor(배열) : 배열의 각 원소별 소수점을 내림한 값을 반환
4. trunc(배열) : 배열의 각 원소별 소수점을 잘라버린 값을 반환

In [59]:
# nd array 생성
arr = np.array( [1.34, -2.15, 3.99, -4.38, 25.4, 9.12])

In [61]:
# round
np.round(arr)  # default = 0

array([ 1., -2.,  4., -4., 25.,  9.])

In [62]:
np.round(arr, 1)

array([ 1.3, -2.2,  4. , -4.4, 25.4,  9.1])

In [63]:
# ceil
np.ceil(arr)

array([ 2., -2.,  4., -4., 26., 10.])

In [64]:
# floor
np.floor(arr)

array([ 1., -3.,  3., -5., 25.,  9.])

In [65]:
# trunc
np.trunc(arr)

array([ 1., -2.,  3., -4., 25.,  9.])

서로 다른 배열객체의 범용 함수
- 주로 이들은 산술 연산과 관련되어 있으며 함수가 아닌 연산자로 대신 사용 가능
- **numpy.함수명**과 같은 방법으로 사용 가능
<br>
1. add(배열1, 배열2) : 두 배열의 원소 별 덧셈, 연산자 +로 대신 가능
2. subtract(배열1, 배열2) : 두 배열의 원소 별 뺄셈, 연산자 -로 대신 가능
3. multiply(배열1, 배열2) : 두 배열의 원소 별 곱셈, 연산자 *로 대신 가능
4. divide(배열1, 배열2) : 두 배열의 원소 별 나눗셈, 연산자 /로 대신 가능
5. mod(배열1, 배열2) : 두 배열의 원소 별 나눈 후 나머지, 연산자 %로 대신 가능
6. power(배열1, 배열2) : 배열1의 각 원소에 배열2의 원소만큼 제곱, 연산자 ** 로 대신 가능

In [66]:
arr1 = np.array( [1, 2, 3, 4, 5] )
arr2 = np.array( [1, 3, 5, 7, 9] )

In [74]:
# add
print(np.add(arr1, arr2))
print(arr1 + arr2)

[ 2  5  8 11 14]
[ 2  5  8 11 14]


In [75]:
# substract
print(np.subtract(arr1, arr2))
print(arr1 - arr2)

[ 0 -1 -2 -3 -4]
[ 0 -1 -2 -3 -4]


In [76]:
# multiply
print(np.multiply(arr1, arr2))
print(arr1 * arr2)

[ 1  6 15 28 45]
[ 1  6 15 28 45]


In [77]:
# divide
print(np.divide(arr1, arr2))
print(arr1 / arr2)

[1.         0.66666667 0.6        0.57142857 0.55555556]
[1.         0.66666667 0.6        0.57142857 0.55555556]


In [78]:
# mod
print(np.mod(arr1, arr2))
print(arr1 % arr2)

[0 2 3 4 5]
[0 2 3 4 5]


In [79]:
print(np.power(arr1, arr2))
print(arr1 ** arr2)

[      1       8     243   16384 1953125]
[      1       8     243   16384 1953125]


두 배열이 서로 다른 길이, 차원, shape를 가질 경우의 계산

In [83]:
arr = np.array( [5] )
arr1d = np.array( [1, 2, 3] )
arr2d1 = np.array([ [1, 4, 7], [2, 5, 8], [3, 6, 9] ])
arr2d2 = np.array( [[1], [0], [-1]] )

In [85]:
arr + arr1d

array([6, 7, 8])

In [86]:
arr1d + arr2d1

array([[ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [87]:
arr2d1 + arr2d2

array([[2, 5, 8],
       [2, 5, 8],
       [2, 5, 8]])

곱셈과 나눗셈의 경우 일반적인 행렬의 곱셈과는 다름  
행렬의 곱셈과 동일한 역할을 하는 함수는 **np.matmul(배열1, 배열2)** 혹은 연산자 **@** 로 가능

### 3절: Numpy의 주요 함수와 메소드

<br>

#### 형상 변환 메소드
1. 배열.reshape() : 배열을 입력된 shape로 변환, -1은 원래 배열의 길이와 남은 차원으로 알아서 정해지는 것을 의미
2. 배열 ravel(), 배열.flatten() : 다차원 배열을 1차원으로 평탄화
3. 배열.transpose() : 배열의 축 교환

In [90]:
arr1d = np.arange(8)
arr1d

array([0, 1, 2, 3, 4, 5, 6, 7])

In [91]:
# 행길이가 2고 열길이가 4인 2d array로 변환
arr2d = arr1d.reshape(2, 4)
arr2d

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [92]:
arr3d = arr1d.reshape(3, 3)
arr3d

ValueError: cannot reshape array of size 8 into shape (3,3)

**reshape 활용 예시 1)** 1차원 배열을 생성하여 (3, 3)인 2차원 배열로 변환할 수 있음. (3, -1)과 (-1, 3)은 행(열)의 수만 3으로 지정하면 원래 배열의 길이인 9와 남은 차원 하나를 자동으로 판단해 열(행)의 수를 3으로 계산해 2차원 객체 생성

In [93]:
arr1d = np.arange(9)
arr1d

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [96]:
arr2d1 = arr1d.reshape(3, 3)
arr2d1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [97]:
arr2d2 = arr1d.reshape(3, -1)
arr2d2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [100]:
arr2d3 = arr1d.reshape(-1, 3)
arr2d3

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

**reshape 활용 예시 2)** 연속된 수를 통해 2차원 배열을 생성하고자 할 경우 방법1처럼 리스트를 통해 생성하는 것보다 편하게 생성할 수 있음

In [101]:
arr2d4 = np.arange(9).reshape(3, 3)
arr2d4

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

**reshape 활용 예시 3)** 연속된 수를 통해 다차원 배열을 생성하고자 할 경우 빠르게 객체를 생성할 수 있는 방법

In [102]:
arr2d5 = np.arange(12).reshape(3, 2, -1)    # 층수 3, 행수3으로 지정, 남은 차원(열) 자동
arr2d5

array([[[ 0,  1],
        [ 2,  3]],

       [[ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11]]])

#### 평탄화
- reshape 메소드로도 다차원 배열을 평탄화하는 것은 가능하지만 1차원으로 변환될 길이를 입력해야 하는 번거로움이 있음
- revel()과 flatten() 메소드는 길이 입력 없이 이를 바로 수행할 수 있다는 장점이 있음

In [103]:
# reshape 메소드 활용
arr1 = arr1d.reshape(9)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [105]:
# (3, 2, 2)인 3차원 배열을 길이가 12인 1차원 배열로 변환
arr1d1  = arr2d5.reshape(12)
arr1d1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [107]:
# .ravel() 다차원 배열 객체를 1차원으로 평탄화
arr1d2 = arr2d1.ravel()    # 길이를 입력하지 않아도 됨
arr1d2

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [109]:
# .flatten()
arr1d3 = arr2d2.flatten()  # 길이를 입력하지 않아도 됨
arr1d3

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

**transpose**는 배열의 축을 교환하는 메소드로 전치 행렬의 역할을 수행함 (**배열.T**도 동일한 결과를 가져옴)

In [110]:
# transpose
arr2d = np.arange(8).reshape(4, 2)
arr2d

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [111]:
arr2d.transpose()

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

In [113]:
arr2d.T

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

#### 통계 함수
- 통계 함수는 기초 기술 통계를 수행하는 기능을 하며 **numpy.함수명**과 같은 방법으로 사용 가능

<br>

1. mean(배열) : 배열 내 모든 원소의 평균 반환
2. var(배열, ddof=None) : 배열 내 모든 원소의 분산 반환 (ddof(default=None)은 별도 지정하지 않을 경우 모분산을, ddof=1로 지정할 경우 표본분산이 됨)
3. std(배열, ddof=None) : 배열 내 모든 원소의 표준편차 반환 (ddof(default=None)은 별도 지정하지 않을 경우 모분산을, ddof=1로 지정할 경우 표본표준편차가 됨)
4. min(배열) : 배열 내 모든 원소의 최솟값 반환
5. max(배열) : 배열 내 모든 원소의 최댓값 반환
6. argmin(배열) : 배열 내 모든 원소의 최솟값이 있는 인덱스 반환
7. argmax(배열) : 배열 내 모든 원소의 최댓값이 있는 인덱스 반환