# 기초데이터과학 (01분반)
## 02-1. 데이터 가공: NumPy 활용

### Acknowledgement

#### 이 자료는 다음 서적의 내용을 바탕으로 작성되었음
- 파이썬 라이브러리를 활용한 데이터 분석. 한빛미디어
- 예제 중심의 파이썬 입문. 인포앤북

### NumPy
- 데이터 분석과 산술 연산을 하는 데 사용되는 기본적인 필수 패키지 중 하나
  - 'Numerical Python'의 약어
- 기본적으로 배열의 구조로 되어 있음
  - 파이썬의 과학 계산을 위한 패키지 라이브러리들은 NumPy 배열 객체를 기반으로 동작하는 경우가 많음
- NumPy에서 제공하는 것
  - 효율적인 다차원 배열인 ndarray는 빠른 배열 계산 기능 제공
  - 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수 제공
  - 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구 제공
  - 선형대수, 난수 생성기, 푸리에 변환 기능 제공
  - C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API
- NumPy 자체는 모델링이나 과학 계산을 위한 기능을 제공하지 않아서 먼저 NumPy 배열과 배열 기반 연산에 대한 이해를 한 다음 pandas 같은 배열 기반 도구를 사용하면 더 효율적임

#### NumPy의 중요한 장점
- 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨
  - NumPy가 파이썬 산술 계산 영역에서 중요한 위치를 차지하는 이유 중 하나
  - NumPy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 블록에 저장함
  - NumPy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있음
  - NumPy 배열은 내장 파이썬의 연속 자료형보다 훨씬 더 적은 메모리를 사용함
  - NumPy 연산은 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계산을 수행할 수 있음


- NumPy 배열과 파이썬 리스트의 성능 비교
  - 백만개의 정수를 원소로 갖는 NumPy 배열과 파이썬 리스트를 생성하고 각 원소에 2를 곱한 값을 원소로 갖는 새로운 NumPy 배열과 파이썬 리스트를 만드는 데 걸리는 시간 비교

In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [6]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: total: 31.2 ms
Wall time: 31.9 ms


In [7]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 1.02 s
Wall time: 1.04 s


### NumPy ndarray: 다차원 배열 객체

#### ndarray
- NumPy의 핵심 기능 중 하나로 N차원의 배열 객체를 나타냄
  - 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조
  - 스칼라 원소간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학 연산을 수행할 수 있도록 해줌
  - https://numpy.org/doc/stable/reference/arrays.ndarray.html


#### ndarray 생성하기
- array 함수 이용
  - 시퀀스 타입 객체를 넘겨받아 넘겨받은 데이터가 들어 있는 새로운 numpy 배열 생성

In [5]:
import numpy as np # 이하 코드에서는 import 생략

data1 = [6, 7.5, 8, 0, 1]
# 일차원 리스트를 이용하여 ndarray 생성
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [6]:
data2 = [[1,2,3,4], [5,6,7,8]]
# 2차원 리스트(같은 길이를 가지는 리스트를 원소로 갖는)를 이용하여 2차원 ndarray 생성
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

- ndarray 속성
  - ndarray.ndim
    - 배열의 차원의 수
  - ndarray.shape
    - 배열의 형상 정보(차원 혹은 축) - 각 차원의 요소 개수를 튜플의 형태로 나타냄
    - 2차원 배열 n행 m열이라면 shape은 (n, m)
  - ndarray.size
    - 배열의 요소 수
  - ndarray.dtype
    - 배열 요소의 자료형
    - int8, uint8, int16, uint16, int32, uint32, int64, uint64: 정수형
    - float16, float32, float64, float128: 부동소수점형
    - complex64, complex128, complex256: 각가 2개의 32, 64, 128비트 부동소수점형을 가지는 복소수형
    - bool: 논리형
    - 유니코드 형

In [7]:
# 명시적으로 지정하지 않는 한 np.array는 생성될 때 적절한 자료형을 추론함
arr1.dtype

dtype('float64')

In [9]:
arr2.dtype

dtype('int32')

In [10]:
arr2.ndim

2

In [11]:
arr2.shape

(2, 4)

In [10]:
data3 = ['abc', 'be', 'c']
arr3 = np.array(data3)
arr3

array(['abc', 'be', 'c'], dtype='<U3')

- NumPy의 random.randn 함수 이용
  - 표준편차가 1이고 평균이 0인 정규분포에서 표본 추출

In [26]:
np.random.randn(2,3)

array([[-0.17197519, -0.69128152, -0.49052255],
       [ 0.5259702 , -1.53828328,  0.1623995 ]])

- 배열의 형상(shape) 바꾸기
  - reshape

In [31]:
data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
print(arr2)
print(arr2.shape)

arr3 = arr2.reshape(4,2)
print(arr3)
print(arr3.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


#### ndarray 객체 초기화하기
- arange, ones, zeros, empty, full, eye

- arange
  - 파이썬의 range 함수의 배열 버전

In [12]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [14]:
np.arange(10, 121, 10)
print(np.arange(10, 121, 10))

[ 10  20  30  40  50  60  70  80  90 100 110 120]


- ones, zeros
  - 모든 원소를 1/0으로 채운 배열을 반환
  - 기본적으로는 float64 타입
  - dtype을 명시하면 해당 타입으로 생성

In [15]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [18]:
np.ones(8, dtype=np.bool)

array([ True,  True,  True,  True,  True,  True,  True,  True])

In [11]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [13]:
np.ones((3,3), dtype=np.uint32)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]], dtype=uint32)

In [17]:
np.ones((2,2,2), dtype=np.int32)

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]])

In [19]:
d1 = np.zeros(7)
print(d1)
print(d1.dtype)

[0. 0. 0. 0. 0. 0. 0.]
float64


In [21]:
d2 = np.zeros((3,2), dtype=np.int32)
print(d2)

[[0 0]
 [0 0]
 [0 0]]


- eye, identity
  - N x N 크기의 단위행렬을 생성 (좌상단에서 우하단을 잇는 대각선은 1로 채우고 나머지는 0)

In [22]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [23]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [25]:
np.eye(4, dtype=np.uint16)

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]], dtype=uint16)

### 연습문제
-  다음과 같은 1차원 numpy 배열을 만들어 출력하기
  - [0,2,4,6,8,10,12,14,16,18,20,22,24,28]
  
- 위 1차원 배열을 (3, 5) shape의 2차원 배열로 만들기

In [9]:
data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
print(arr2)
print(arr2.shape)

arr3 = arr2.reshape(4,2)
print(arr3)
print(arr3.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


In [14]:
# 1차원 배열 생성
arr1=np.arange(0,30,2)
print(arr1.shape)

(15,)


In [13]:
# (3,5)의 2차원 배열로 변환
arr2 = arr1.reshape(3,5)
print(arr2.shape)

(3, 5)


#### 인덱싱과 슬라이싱

- 1차원 배열

In [32]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
arr[5]

5

In [34]:
arr[5:8]

array([5, 6, 7])

In [35]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- 1차원 배열의 인덱싱, 슬라이싱은 파이썬의 리스트와 유사하게 동작
- 리스트와의 중요한 차이점
  - 배열 조각은 원본 배열의 뷰
  - 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영됨
  - 만약 뷰 대신 슬라이스의 복사본을 얻고자 한다면 copy() 함수를 사용해서 배열을 복사해야 함

In [36]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [37]:
arr_slice[1] = 1234
arr

array([   0,    1,    2,    3,    4,   12, 1234,   12,    8,    9])

In [38]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [39]:
a2 = arr[5:8].copy()
a2

array([64, 64, 64])

In [40]:
a2[:] = 128
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [41]:
a2

array([128, 128, 128])

In [8]:
# 리스트 슬라이싱의 경우

l1 = [1,2,3,4,5]
l2 = l1[2:4]
print(l2)

[3, 4]


In [9]:
l2[0] = 100
print(l2)

[100, 4]


In [10]:
print(l1)

[1, 2, 3, 4, 5]


- 다차원 배열


In [42]:
# 2차원 배열
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[2] # 한 행 전체

array([7, 8, 9])

In [43]:
arr2d[2][0] # 해당 행, 열의 원소

7

In [44]:
arr2d[2, 0]

7

In [45]:
arr2d[:2] # 0번 축을 기준으로 슬라이싱 - 0번, 1번 행 선택

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
print(arr2d)
arr2d[:2, 1:] # 0번 축에 대해서는 0,1번 행 선택, 1번 축에 대해서는 1번 이후 열 선택

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[2, 3],
       [5, 6]])

In [48]:
arr2d[1, :2] # 0번 축의 1번 행 선택, 1번 축의 0, 1번 열 선택
# 인덱싱과 슬라이싱을 같이 사용 - 1차원 배열이 됨

array([4, 5])

In [49]:
arr2d[:2, 2] # 0번 축의 0, 1번 행, 1번 축의 2번 열 선택
# 인덱싱과 슬라이싱을 같이 사용 - 1차원 배열이 됨

array([3, 6])

In [50]:
arr2d[:2, 2:] # 0번 축의 0, 1번 행, 1번 축의 2번 열
# 각 축별로 슬라이싱 사용 - 2차원 배열 그대로 유지

array([[3],
       [6]])

### 연습문제
- 가장자리 원소만 1이고 그 안의 원소는 모두 0인 2차원 배열 생성하기

In [89]:
# 5x5 2차원 배열로 생성

# 2차원 배열을 1로 초기화하여 생성

# 슬라이싱 연산으로 내부 원소를 0으로 변경


[[1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1.]]


### NumPy 배열 다루기

#### 배열의 산술 연산
- 벡터화
  - for 문을 사용하지 않고 데이터에 대한 산술 연산을 일괄 처리할 수 있음
  - 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용됨

In [54]:
a = np.array([[1., 2., 3.], [4.,5.,6.]])
print(2*a)
print(a-a)
print(a*a)
print(1/a)

[[ 2.  4.  6.]
 [ 8. 10. 12.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]


In [12]:
# 리스트의 경우

lst1 = [1,2,3,4,5]
lst2 = [10,20,30,40,50]

print(2*lst1) # 리스트에 * 연산을 적용하면 리스트 반복

print(lst1 * lst2) # 리스트끼리 * 연산 불가능

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]


TypeError: can't multiply sequence by non-int of type 'list'

In [55]:
b = np.array([[0., 4., 1.], [7.,2.,12.]])
print(a>b)

[[ True False  True]
 [False  True False]]


#### 통계 메소드 사용
- 배열 전체 혹은 배열의 한 축을 따르는 데이터에 대한 통계를 계산
  - 합계, 평균, 표준편차, 최대값, 최소값 등
  - sum: 배열 전체 혹은 특정 축에 대한 모든 원소의 합. 크기가 0인 배열에 대한 sum 결과는 0
  - mean: 산술 평균. 크기가 0인 배열에 대한 mean 결과는 NaN
  - std, var: 표준편차와 분산
  - min, max: 최소값과 최대값
  - argmin, argmax: 최소 원소의 색인(인덱스) 값과 최대 원소의 색인(인덱스) 값
  - cumsum: 각 원소의 누적합
  - cumprod: 각 원소의 누적곱

In [13]:
data = np.array([[80, 78, 90, 93],
                 [65, 87, 88, 75], 
                 [98, 100, 68, 80]])

# 전체 원소의 합, 평균, 최대값, 최소값
print(data.sum())
print(data.mean())
print(data.max())
print(data.min())
print()

print(data.sum(0)) # 동일한 열의 원소들끼리 합
print(data.sum(axis=0)) # 동일한 열의 원소들끼리 합
print()

print(data.sum(1)) # 동일한 행의 원소들끼리 합
print(data.mean(1)) # 동일한 행의 원소들끼리 평균
print()

print(data.max(axis=0)) # 동일한 열의 원소들끼리 비교하여 그 중 최대값
print(data.max(axis=1)) # 동일한 행의 원소들끼리 비교하여 그 중 최대값
print()

index1 = np.argmax(data, axis=0) # 동일한 열의 원소 중 최대값의 인덱스
print(index1)

index2 = np.argmin(data, axis=1) # 동일한 행의 원소 중 최소값의 인덱스
print(index2)

1002
83.5
100
65

[243 265 246 248]
[243 265 246 248]

[341 315 346]
[85.25 78.75 86.5 ]

[ 98 100  90  93]
[ 93  88 100]

[2 2 0 0]
[1 0 2]


In [64]:
arr = np.array([1,2,3,4,5,6,7])
print(arr.cumsum()) # 중간 계산값을 담고 있는 배열 반환
print(arr.cumprod())

[ 1  3  6 10 15 21 28]
[   1    2    6   24  120  720 5040]


#### 배열에 조건식 사용
- 특정 조건을 만족하는 요소 값의 개수를 세거나, 조건을 만족하는 요소의 값을 특정 값으로 변경할 수 있음

In [14]:
data = np.random.randn(3,4) # 3행 4열의 2차원 배열 생성 (배열의 원소는 평균 0, 표준편차 1인 정규분포에서 랜덤한 값을 뽑음)
print(data)

[[ 0.26789541 -0.27353191  1.55095121 -0.49547887]
 [-0.04768179  0.07509686  1.128544   -0.47865908]
 [-1.56899799 -1.80447735  1.57789557  2.37527777]]


In [15]:
print(data > 0) # 양수이면 True, 음수이면 False

[[ True False  True False]
 [False  True  True False]
 [False False  True  True]]


In [16]:
total = (data < 0).sum()   # 음수의 원소 개수
print(total)

6


In [17]:
data2 = np.where(data > 0, 1, -1) # 원소 값이 0보다 크면 1, 그렇지 않으면 -1
print(data2)

[[ 1 -1  1 -1]
 [-1  1  1 -1]
 [-1 -1  1  1]]


In [18]:
data3 = np.where(data > 0, 5, data) # 원소 값이 0보다 크면 5, 그렇지 않으면 원래 값 그대로
print(data3)

[[ 5.         -0.27353191  5.         -0.49547887]
 [-0.04768179  5.          5.         -0.47865908]
 [-1.56899799 -1.80447735  5.          5.        ]]


#### 배열의 요소 정렬
- sort 함수

In [19]:
arr = np.random.randn(6)
print(arr)
print()

arr.sort()
print(arr)

[ 0.08447948  1.42229988  2.05621564  0.1224029   1.13736258 -0.23964273]

[-0.23964273  0.08447948  0.1224029   1.13736258  1.42229988  2.05621564]


In [69]:
data = np.array([[13, 22, 17, 2],
                 [-2, 20, 8, 3], 
                 [-16, 10, -5, 33]])

data.sort(0) # 각 열의 요소를 오름차순으로 정렬
print(data)
print()

data.sort(1) # 각 행의 요소를 오름차순으로 정렬
print(data)

[[-16  10  -5   2]
 [ -2  20   8   3]
 [ 13  22  17  33]]

[[-16  -5   2  10]
 [ -2   3   8  20]
 [ 13  17  22  33]]


#### 배열에 열과 행 삽입
- insert 함수

In [20]:
a = np.arange(20)
print(a)

b = np.insert(a, 3, 0) # 배열 a의 3번 인덱스 위치에 0을 삽입
print(b)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[ 0  1  2  0  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [21]:
x = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
print(x)
print()

[[1 1 1]
 [2 2 2]
 [3 3 3]]



In [22]:
y = np.insert(x, 1, 0, axis=0) # 배열 x의 0번 축(행 기준)의 인덱스 1의 위치에 모든 원소값이 0인 행 삽입
print(y)

y = np.insert(x, 1, 0, axis=1) # 배열 x의 1번 축(열 기준)의 인덱스 1의 위치에 모든 원소값이 0인 열 삽입
print(y)

[[1 1 1]
 [0 0 0]
 [2 2 2]
 [3 3 3]]
[[1 0 1 1]
 [2 0 2 2]
 [3 0 3 3]]


### 연습문제
- 학생 5명의 국어, 영어, 수학 세 과목의 시험 점수가 있다고 가정하고 이 점수의 표준 점수를 계산하기
  - 국어 점수 [95, 90, 80, 75, 90]
  - 영어 점수 [70, 95, 85, 90, 100]
  - 수학 점수 [90, 80, 85, 70, 75]

In [16]:
# 한 행이 각 과목 점수로 이루어진 2차원 배열 생성
kor = np.array([95, 90, 80, 75, 90])
eng = np.array([70, 95, 85, 90, 100])
math = np.array([90, 80, 85, 70, 75])
# 표준 점수 계산 : Z = (원점수 - 점수 평균) / 점수 표준편차
result_kor = (kor-kor.mean() )/kor.std()
print(result_kor)

[ 1.22474487  0.54433105 -0.81649658 -1.4969104   0.54433105]


#### 선형대수
- 행렬의 곱셈, 분할, 역행렬, 행렬식, 정사각 행렬 수학 등
- numpy.linalg
  - diag: 정사각 행렬의 대각/비대각 원소를 1차원 배열로 반환하거나, 1차원 배열을 대각선 원소로 하고 나머지는 0으로 채운 단위행렬을 반환
  - dot: 행렬 곱셈
  - trace: 행렬의 대각선 원소의 합 계산
  - det: 행렬식 계산
  - eig: 정사각 행렬의 고유값과 고유벡터 계산
  - inv: 정사각 행렬의 역행렬 계산
  - svd: 특이값 분해(SVD) 계산
  - solve: A가 정사각 행렬일 때 Ax = b를 만족하는 x를 구함


In [73]:
x = np.array([[1.,2.,3.],[4.,5.,6.]])
y = np.array([[6.,23.],[-1,7],[8,9]])
print(x)
print(y)

print(x.dot(y))
print(np.dot(x, y)) # x.dot(y)와 동일

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 6. 23.]
 [-1.  7.]
 [ 8.  9.]]
[[ 28.  64.]
 [ 67. 181.]]
[[ 28.  64.]
 [ 67. 181.]]


- 행렬 전치
  - 행과 열을 뒤바꿈

In [74]:
x.transpose()

array([[1., 4.],
       [2., 5.],
       [3., 6.]])

In [75]:
x.T

array([[1., 4.],
       [2., 5.],
       [3., 6.]])

In [76]:
x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [23]:
from numpy.linalg import inv

X = np.random.randn(3,3)

print(X)

[[ 0.63762638  0.15702945 -1.87939683]
 [ 2.80022234  0.4515695   0.45742299]
 [-1.24229159 -0.70450711 -0.21945968]]


In [24]:
mat = X.T.dot(X)
print(mat)

[[9.79110096 2.23982437 0.35516597]
 [2.23982437 0.72490353 0.06604852]
 [0.35516597 0.06604852 3.78953077]]


- 역행렬 계산

In [25]:
print(inv(mat))

[[ 0.34911273 -1.0774267  -0.01394118]
 [-1.0774267   4.70682687  0.01894333]
 [-0.01394118  0.01894333  0.26486135]]


- 행렬과 그 행렬의 역행렬 곱셈 결과: 항등행렬

In [26]:
print(np.dot(mat, inv(mat)))

[[ 1.00000000e+00  1.75924084e-15 -1.89058338e-17]
 [-1.30706833e-17  1.00000000e+00 -2.95386938e-18]
 [ 1.27160704e-17 -3.45357002e-17  1.00000000e+00]]
