# ***데이터 핸들링 이론***

**< 데이터 핸들링 = 데이터 가공 = 데이터 전처리 >**

수집된 데이터(DB) -> 분석하기 쉬운 형태의 데이터(csv, json)

# ***Numpy***

- 파이썬 라이브러리 중 하나 -> 과학 연산에 많이 사용됨
- 배열(행렬, 선형대수) 사용
- 제공 함수 : 선형대수, 푸리에 변환 (수학 함수들)

**ex) 주택 가격 예측**

주택 크기 -> 주택 가격
y = a*x + b

방 갯수 -> 주택 가격
y1 = a1*x1 + b1

.....

=> 이 식들을 행렬로 표현

In [None]:
import numpy as np

## **배열 생성**

In [None]:
## 1차원

a = np.array([1, 2, 3, 4])
print(a)
print("shape: ", a.shape)       # (4,) (행,열)
print("ndim: ", a.ndim)         # 1 (차원)
print("dtype: ", a.dtype)       # int64 (데이터 타입)
print("itemsize: ", a.itemsize) # 8 (각 요소 바이트 수)
print("nbytes: ", a.nbytes)     # 32 (전체 바이트 수)

[1 2 3 4]
shape:  (4,)
ndim:  1
dtype:  int64
itemize:  8
nbytes:  32


In [None]:
## 2차원

b = np.array([[1, 2], [3, 4]])
print(b)
print("shape:", b.shape)
print("ndim:", b.ndim)
print("dtype:", b.dtype)
print("itemsize:", b.itemsize)
print("nbytes:", b.nbytes)

[[1 2]
 [3 4]]
shape: (2, 2)
ndim: 2
dtype: int64
itemsize: 8
nbytes: 32


In [None]:
## 3차원

c = np.array([[[1, 2], [3, 4]], 
              [[5, 6], [7, 8]]])
print(c)
print("shape:", c.shape)
print("ndim:", c.ndim)
print("dtype:", c.dtype)
print("itemsize:", c.itemsize)
print("nbytes:", c.nbytes)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
shape: (2, 2, 2)
ndim: 3
dtype: int64
itemsize: 8
nbytes: 64


In [None]:
## 하나의 숫자값 = 스칼라 값
s = np.array(1)
print("Scalar:\n", s)
print(f"(dimension: {s.ndim})\n")

## 1차원 : 벡터
v = np.array([1, 2, 3])
print("Vector:\n", v)
print(f"(dimension: {v.ndim})\n")

## 2차원 : 행렬(Matrix)
m = np.array([[1, 2, 3], [1, 2, 3]])
print("Matrix:\n", m)
print(f"(dimension: {m.ndim})\n")

## 3차원 : 텐서(Tensor)
t = np.array([[[1, 2], [1, 2]],
              [[1, 2], [1, 2]]])
print("Tensor:\n", t)
print(f"(dimension: {t.ndim})")

Scalar:
 1
(dimension: 0)

Vector:
 [1 2 3]
(dimension: 1)

Matrix:
 [[1 2 3]
 [1 2 3]]
(dimension: 2)

Tensor:
 [[[1 2]
  [1 2]]

 [[1 2]
  [1 2]]]
(dimension: 3)



In [None]:
# for 문을 이용해서 배열 생성

f = np.array([i for i in range(0, 10, 2)])
print(f)
print("ndim:", f.ndim)
print("dtype:", f.dtype)
print("itemsize:", f.itemsize)
print("nbytes:", f.nbytes)

[0 2 4 6 8]
ndim: 1
dtype: int64
itemsize: 8
nbytes: 40


## **데이터 타입&형변환**

**< 숫자형 >**

- 부호가 있는 정수(Signed integer)
- 부호가 없는 정수(Unsigned integer)
- 실수(floating point)
- 복소수(complex)

**< 문자형 >**
- string_
- unicod_


**< 논리형 >**
- True(1), False(0)
- 비트 연산 이용: & and, | or, ^ xor, ~ not

In [None]:
## 숫자형

# int (8bit, 16bit, 32bit, 64bit) ('i1', 'i2', 'i4', 'i8')
data1 = [1.1, 2, 3]
i = np.array(data1, dtype = np.int32)
print(f"int32: {i}, {i.dtype}")

# uint (8bit, 16bit, 32bit, 64bit) ('u1', 'u2', 'u4', 'u8')
data2 = [-1, 2, 3]
ui = np.array(data2, dtype = np.uint32)
print(f"uint32: {ui}, {ui.dtype}")

# floating point (16bit, 32bit, 64bit, 128bit) ('f2', 'f4', 'f8')
f = np.array(data1, dtype=np.float64)
print(f"float64: {f}, {f.dtype}")

# complex (64bit, 128bit, 256bit) ('c8', 'c16')
c = np.array([1 + 2j, 3 + 4j, 5 + 6j], dtype=np.complex64)
print(f"complex64: {c.real}, {c.imag}, {c.dtype}")  # c.real : 실수부분 / c.imag : 허수부분

int32: [1 2 3], int32
uint32: [4294967295          2          3], uint32
float64: [1.1 2.  3. ], float64
complex64: [1. 3. 5.], [2. 4. 6.], complex64


In [None]:
## 문자형

# string_ : unicode 보다 크기가 작음, 사용자가 직접 볼 필요가 없을 때
data = [1, 2, 3]
s = np.string_(data)
print(f"s: {s} / s.dtype: {s.dtype}")  # x01 : 바이트 단위 표현 / S3 : string 3개

data2 = [1, 2, 3, 4, 5]
s2 = np.string_(data2)  # s2_ = np.array(data2, dtype='S')
print(f"s2: {s2} / s2.dtype: {s2.dtype}")

# unicode_ : 크기가 큼, 사용자가 읽는게 필요할 때(가독성)
data3 = [1, 2, 3, 4, 5]
u = np.array(data3, dtype='U')
print(f"u: {u} / u.dtype: {u.dtype}")   # U1 : 각 요소가 1자리

data4 = [11, 22, 33, 44, 55]
u2 = np.array(data4, dtype='U')
print(f"u2: {u2} / u2.dtype: {u2.dtype}")

s: b'\x01\x02\x03' / s.dtype: |S3
s2: b'\x01\x02\x03\x04\x05' / s2.dtype: |S5
u: ['1' '2' '3' '4' '5'] / u.dtype: <U1
u2: ['11' '22' '33' '44' '55'] / u2.dtype: <U2


In [None]:
## 논리형

l1 = np.array([True, False, True])
l2 = np.array([False, True, False])

print(f'l1 : {l1}')
print(f'l2 : {l2}')

print(f'l1 & l2 : {np.logical_and(l1, l2)}')
print(f'l1 | l2 : {np.logical_or(l1, l2)}')
print(f'l1 ^ l2 : {np.logical_xor(l1, l2)}')
print(f'~ l1 : {np.logical_not(l1)}')

l1 : [ True False  True]
l2 : [False  True False]
l1 & l2 : [False False False]
l1 | l2 : [ True  True  True]
l1 ^ l2 : [ True  True  True]
~ l1 : [False  True False]


**<< 데이터 형변환 (Cast, Casting) >>**

- 데이터들끼리 형태를 맞춰줌
- ex) 이미지 데이터 -> uint형으로 불어옴 -> float형으로 형변환 (이미지는 분석을 할때는 float형으로 많이 함)

In [None]:
## 방법 1

data = [1.1, 2, 3]

a = np.float64(data)    # np.데이터타입(데이터)
print(a, a.dtype)

[1.1 2.  3. ] float64


In [None]:
## 방법 2

a = a.astype('int64')   # 데이터.astype('데이터타입')
print(a, a.dtype)

[1 2 3] int64


**▶ uint -> int 자동 변환**

In [None]:
b = np.uint16(0)

print(b, b.dtype)

0 uint16


In [None]:
b = b - 1   # 파이썬에서 자동 형 변환

print(b, b.dtype)

-1 int64


In [None]:
c = np.uint16(-1)   # uint16 (0 ~ 65,535) 마지막 값 출력
print(c, c.dtype)

65535 uint16


## **산술연산**

**<< 속도비교 >>**

In [None]:
import time

data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
dataTwo = [[1, 1, 1], [2, 2, 2], [3, 3, 3]]

# 행렬과 스칼라의 곱
start_time = time.time()

for i in range(len(data)):
    for j in range(len(data[0])):
        data[i][j] *= 2

end_time = time.time()

elapsed_time = end_time - start_time
print(f"Elapsed time (matrix-scalar multiplication): {elapsed_time:.6f} seconds")


# 행렬끼리 덧셈
start_time = time.time()

for i in range(len(data)):
    for j in range(len(data[0])):
        data[i][j] += dataTwo[i][j]

end_time = time.time()

elapsed_time = end_time - start_time
print(f"Elapsed time (matrix addition): {elapsed_time:.6f} seconds")

Elapsed time (matrix-scalar multiplication): 0.000232 seconds
Elapsed time (matrix addition): 0.000181 seconds


In [None]:
import numpy as np
import time

data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
dataTwo = [[1, 1, 1], [2, 2, 2], [3, 3, 3]]

a = np.array(data)
b = np.array(dataTwo)

start_time = time.time()

print(a * 2)
print(a + a)
print(a + b)
print(a * b)
print(np.dot(a, b)) # 행렬곱
print(a @ b) # 행렬곱

end_time = time.time()

elapsed_time = end_time - start_time
print(f"Elapsed time (matrix addition): {elapsed_time:.6f} seconds")

[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]
[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]
[[ 2  3  4]
 [ 6  7  8]
 [10 11 12]]
[[ 1  2  3]
 [ 8 10 12]
 [21 24 27]]
[[14 14 14]
 [32 32 32]
 [50 50 50]]
[[14 14 14]
 [32 32 32]
 [50 50 50]]
Elapsed time (matrix addition): 0.010029 seconds


**<< 산술 연산 함수 >>**

In [None]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 덧셈
c = a + b
print("PLUS:", c)

# 뺄셈
d = a - b
print("SUB:", d)

# 곱셈
e = a * b
print("MUL:", e)

# 나눗셈
f = a / b
print("DIV:", f)

PLUS: [5 7 9]
SUB: [-3 -3 -3]
MUL: [ 4 10 18]
DIV: [0.25 0.4  0.5 ]


In [None]:
import numpy as np

a = np.array([1, 2, 3])

# 지수
b = np.exp(a)
print("exp:", b)

# 자연로그
c = np.log(a)
print("log:", c)

# 2진로그
d = np.log2(a)
print("log2:", d)

# 10진로그
e = np.log10(a)
print("log10:", e)

exp: [ 2.71828183  7.3890561  20.08553692]
log: [0.         0.69314718 1.09861229]
log2: [0.        1.        1.5849625]
log10: [0.         0.30103    0.47712125]


In [None]:
import numpy as np

a = np.array([0, np.pi/2, np.pi])

# 사인
b = np.sin(a)
print("sin:", b)

# 코사인
c = np.cos(a)
print("cos:", c)

# 탄젠트
d = np.tan(a)
print("tan:", d)

sin: [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos: [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan: [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


## **배열의 연결과 분할**

**<< 연결 >>**

* **np.concatenate()**

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]

concat = np.concatenate([x, y])
print(concat)

[1 2 3 4 5 6]


In [None]:
x2 = [[1, 2], [3, 4]]
y2 = [[4, 5], [6, 7]]

concat2 = np.concatenate([x2, y2])  # 행 추가 (axis=0 생략)
print(concat2, "\n")

concat2_axis1 = np.concatenate([x2, y2], axis=1)    # 열 추가
print(concat2_axis1)

[[1 2]
 [3 4]
 [4 5]
 [6 7]] 

[[1 2 4 5]
 [3 4 6 7]]


In [None]:
a = np.arange(10).reshape(2, 5)
b = np.arange(10, 20).reshape(2, 5)

print("2차원(행추가):")
print(np.concatenate([a, b]))
print()

print("2차원(열추가):")
print(np.concatenate([a, b], axis=1))
print()

print("3차원:")
print(np.concatenate([[a, b], [a, b]]))

2차원(행추가):
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]

2차원(열추가):
[[ 0  1  2  3  4 10 11 12 13 14]
 [ 5  6  7  8  9 15 16 17 18 19]]

3차원:
[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]


* **np.hstack(), np.vstack()**

In [None]:
x2 = [[1, 2], [3, 4]]
y2 = [[4, 5], [6, 7]]

# hstack horizontal - 수평 열
h = np.hstack([x2, y2])
print("hstack - 수평 열방향:\n", h, "\n")

# vstack horizontal - 수직 행
v = np.vstack([x2, y2])
print("vstack - 수직 행방향:\n", v)

hstack - 수평 열방향:
 [[1 2 4 5]
 [3 4 6 7]] 

vstack - 수직 행방향:
 [[1 2]
 [3 4]
 [4 5]
 [6 7]]


**<< 분할 >>**

* **np.hsplit(), np.vsplit()**

In [None]:
x = np.array([[1, 2], [3, 4], [5, 6]])

# hsplit - 수평 열
h2 = np.hsplit(x, 2)
print("hsplit(열방향):\n", h2, "\n")

# vsplit - 수직 행
v2 = np.vsplit(x, 3)
print("vsplit(행방향):\n", v2)

hsplit(열방향):
 [array([[1],
       [3],
       [5]]), array([[2],
       [4],
       [6]])] 

vsplit(행방향):
 [array([[1, 2]]), array([[3, 4]]), array([[5, 6]])]


## **다양한 Matrix 만들기**

In [None]:
# 0으로 채워진 배열

zero = np.zeros([3, 4, 5])
print(zero)

[[[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]]


In [None]:
# 1로 채워진 배열

one = np.ones([3, 4, 5])
print(one)

[[[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]

 [[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]

 [[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]]


In [3]:
# 내가 원하는 값으로 채워진 배열

f = np.full([2, 2], 10)
print(f)

[[10 10]
 [10 10]]


In [None]:
# 대각 행렬

eye = np.eye(3)
print(eye)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
# dot 함수

temp = np.arange(9).reshape(3, 3)

dot = np.dot(eye, temp)
print(dot)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]


In [None]:
# empty

empty = np.empty([3, 4, 5])
print(empty)

[[[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]

 [[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]

 [[1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]
  [1. 1. 1. 1. 1.]]]


## **Numpy 제공 함수**

**<< 범용 함수 >>**

In [None]:
## np.abs() : 절댓값

arr1 = np.array([-1, -2, -3, -4])
abs_arr = np.abs(arr1)
print(abs_arr)

[1 2 3 4]


In [None]:
## np.sqrt() : 제곱근

arr2 = np.array([1, 4, 9, 16])
sqrt_arr = np.sqrt(arr2)
print(sqrt_arr)

[1. 2. 3. 4.]


**<< 집계 함수 >>**

In [None]:
a = np.array([1, 2, 3, 4, 5])
a_mean = np.mean(a)
print(a_mean)

3.0


In [None]:
b = np.array([1, 3, 5, 7, 9])
b_median = np.median(b)
print(b_median)

5.0


In [None]:
c = np.array([1, 2, 3, 4, 5])
c_std = np.std(c)
print(c_std)

1.4142135623730951


In [None]:
d = np.array([1, 2, 3, 4, 5])
d_var = np.var(d)
print(d_var)

2.0


In [None]:
e = np.array([1, 2, 3, 4, 5])
e_sum = np.sum(e)
print(e_sum)

15


In [None]:
f = np.array([1, 2, 3, 4, 5])
f_cumsum = np.cumsum(f) # 누적 합계
print(f_cumsum) # 반환값 타입 : 배열

[ 1  3  6 10 15]


In [None]:
g = np.array([1, 2, 3, 4, 5])
g_argmin = np.argmin(g)
g_min = np.min(g)
print(g_argmin) # index 값 출력
print(g_min)    # 최소 값 출력

0
1


In [None]:
g = np.array([1, 2, 3, 4, 5])
g_argmax = np.argmax(g)
g_max = np.max(g)
print(g_argmax) # index 값 출력
print(g_max)    # 최소 값 출력

4
5


In [4]:
arr = np.array([[1, 2, 3],[4, 5, 6], [7, 8, 9]])

print(np.max(arr, axis=0))  # 같은 열, 행들 중에서 max값
print(np.max(arr, axis=1))  # 같은 행, 열들 중에서 max값

[7 8 9]
[3 6 9]


In [None]:
h = np.array([0, 0, 0, 1])
h_true = np.any(h)  # 배열에 True값이 하나라도 있는지 확인
print(h_true)

True


In [None]:
i = np.array([1, 1, 1, 1])
i_all = np.all(i)   # 전부 True여야 True
print(i_all)

True


In [None]:
# NaN : 비어있는 값

j = np.array([1, 2, np.nan, 4])

j_nsum = np.nansum(j)
print(j_nsum)

7.0


In [None]:
j = np.array([1, 2, np.nan, 4])

j_nsum = np.sum(j)
print(j_nsum)

nan


In [None]:
k = np.array([1, 2, 3, 4, 5])

k_where = np.where(k < 3, k, 0) # (조건문, True, False)
print(k_where)

k_where2 = np.where(k < 3)
print(k_where2)

[1 2 0 0 0]
(array([0, 1]),)


## **Boolean Indexing**

조건에 따른 요소들을 판별해서 새로운 배열을 만든다.

현업에서는 np.where()보다 boolean indexing을 더 많이 사용한다.

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])   # 원본 데이터는 건들지 않는다.

even_a = a[a % 2 == 0]  # 짝수만 뽑아내기
print("원본데이터:", a)
print("Boolean Indexing:", even_a)

원본데이터: [ 1  2  3  4  5  6  7  8  9 10]
Boolean Indexing: [ 2  4  6  8 10]


## **Broadcast(브로드캐스트)**

- 크기가 다른 배열 간의 연산도 가능하게 해줌
- ex) 1차원, 2차원

In [None]:
# 이렇게 계산이 가능하다.

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

c = a + b
print(c)

[5 7 9]


In [None]:
# 이 계산은 어떻게 가능한걸까?

d = np.array([[1], [2], [3]])
e = np.array([4, 5, 6])

f = d + e
print(f)

[[5 6 7]
 [6 7 8]
 [7 8 9]]


▶ 브로드캐스트 조건

- 두 배열의 차원수가 다를 경우, 더 작은 차원의 배열에 큰 차원의 배열이 맞을 때까지 차원 1을 추가한다.
- 두 배열의 차원 수가 같을 경우에도, 크기가 1인 차원이 있다면 다른 배열의 크기와 일치하도록 복제된다.
- 두 배열의 차원 수가 같은 경우데도, 모든 차원의 크기가 같거나 크기가 1이라면 모양이 같은 두 배열의 요소 간 연산을 한다.

In [None]:
d = np.array([[1], [2], [3]])
e = np.array([[4], [5], [6]])

f = d + e
print(f)

[[5]
 [7]
 [9]]


In [None]:
d = np.array([[1], [2], [3]])   # 3X1
e = np.array([[4, 5, 6]])       # 1X3

f = d + e
print(f)

[[5 6 7]
 [6 7 8]
 [7 8 9]]
