# 데이터 처리
* 데이터세트는 광범위한 종류를 가짐 ex. 문서, 이미지, 사운드, 수치 측정값 등
* 데이터를 분석할 수 있게 만드는 첫번째 단계는 데이터를 숫자 배열로 변환하는 것

![img8](./img/img8.png)

# numpy
- Numpy array는 list와 비슷하지만, 배열의 규모가 커질 수록 데이터 저장 및 처리에 훨씬 더 효율적임
- 데이터프레임은 테이블 구조 데이터의 편리한 조작을 위해서 사용
- 숫자만으로 구성된 데이터를 대상으로 "수학 연산"을 하기 위해서는 배열 (array)을 다루어야 한다
- 이를 위해 넘파이 라이브러리를 사용한다
- 다 차원 배열 ndarray(n-dimensional array)를 다룬다


## 리스트와 배열의 차이
- 리스트는 데이터 조작용 배열은 계산용
- 리스트, 배열, 튜플은 서로 타입을 쉽게 바꿀 수 있다

In [39]:
# 리스트의 복제
x = [1, 2, 10]
x * 3

[1, 2, 10, 1, 2, 10, 1, 2, 10]

In [40]:
import numpy as np
print(np.__version__)

1.20.1


In [43]:
np?

## 리스트에서 배열만들기

In [47]:
y = np.array(x)
y

array([ 1,  2, 10])

In [51]:
y = np.array(x, dtype='float')
y

array([ 1.,  2., 10.])

In [48]:
type(y)

numpy.ndarray

In [49]:
z = y.tolist()
z

[1, 2, 10]

In [50]:
type(z)

list

## 배열 속성 지정

In [53]:
x1 = np.random.randint(10, size=6) #1차원
x2 = np.random.randint(10, size=(3,4)) #2차원
x3 = np.random.randint(10, size=(3,4,5)) #3차원

In [59]:
print(x2)
print("x1 ndim: ",x2.ndim)
print("x1 shape: ", x2.shape)
print("x1 size: ", x2.size)
print("x1 dtype: ", x1.dtype)

[[0 1 3 3]
 [4 0 8 5]
 [3 1 5 5]]
x1 ndim:  2
x1 shape:  (3, 4)
x1 size:  12
x1 dtype:  int64


## arange
- range 타입의 "범위" 데이터를 생성한 후 이를 배열로 만든다

In [11]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## reshape
- 배열의 구조를 바꾼다 (차원 변경)

In [68]:
# 0~11 값으로 구성된 1차원 배열을 4x3 모양의 2차원 배열로 변경
x = np.arange(12).reshape(4,3)
x

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

# 배열 다루기

## 샘플(행) 추출
- 행단위의 추출은 인덱스를 지정

In [13]:
x[0]

array([0, 1, 2])

In [14]:
x[[0,2]]

array([[0, 1, 2],
       [6, 7, 8]])

In [15]:
x[0:3]

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

## 행과 열 추출
- 행과 열을 지정하기 위해서는 [ , ]과 같이 ","로 행, 열을 구분해야 한다
- : 는 전체 범위를 나타낸다

In [16]:
x[:,[0,2]]

array([[ 0,  2],
       [ 3,  5],
       [ 6,  8],
       [ 9, 11]])

In [17]:
x[:,1:3]

array([[ 1,  2],
       [ 4,  5],
       [ 7,  8],
       [10, 11]])

In [18]:
x

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

## 배열 연산
- 일반 스칼라 변수의 연산과 동일한 형식을 사용할 수 있다

In [20]:
x + 100

array([[100, 101, 102],
       [103, 104, 105],
       [106, 107, 108],
       [109, 110, 111]])

In [21]:
10*x

array([[  0,  10,  20],
       [ 30,  40,  50],
       [ 60,  70,  80],
       [ 90, 100, 110]])

## 로직 연산

In [22]:
x > 5

array([[False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [23]:
# 5 보다 큰 값을 모두 9로 교체
x[x > 5] = 9
x

array([[0, 1, 2],
       [3, 4, 5],
       [9, 9, 9],
       [9, 9, 9]])

In [24]:
# 트랜스포즈는 행과 열의 위치를 바꾼다 (T 사용)
x.T

array([[0, 3, 9, 9],
       [1, 4, 9, 9],
       [2, 5, 9, 9]])

## 행, 열 대상 연산

In [103]:
x = np.arange(24).reshape(6,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [104]:
# 컬럼(열) 대상 연산
x.mean(axis=0)

array([10., 11., 12., 13.])

In [105]:
# 행 대상 연산
x.mean(axis=1)

array([ 1.5,  5.5,  9.5, 13.5, 17.5, 21.5])

In [106]:
# 배열 전체의 평균
x.mean()

11.5

In [107]:
# 컬럼별 최대값
x.max(axis=0)

array([20, 21, 22, 23])

In [108]:
# 컬럼별 최소값
x.min(axis=0)

array([0, 1, 2, 3])

## 배열 붙이기
- 넘파이의 concatenate() 사용
- 행의 방향 또는 열의 방향으로 붙일 수 있다

In [113]:
data = np.arange(100,124).reshape(6,4)
data

array([[100, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111],
       [112, 113, 114, 115],
       [116, 117, 118, 119],
       [120, 121, 122, 123]])

In [114]:
data2 = np.concatenate((x, data))
data2

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11],
       [ 12,  13,  14,  15],
       [ 16,  17,  18,  19],
       [ 20,  21,  22,  23],
       [100, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111],
       [112, 113, 114, 115],
       [116, 117, 118, 119],
       [120, 121, 122, 123]])

In [115]:
data3 = np.concatenate((x, data), axis=1)
data3

array([[  0,   1,   2,   3, 100, 101, 102, 103],
       [  4,   5,   6,   7, 104, 105, 106, 107],
       [  8,   9,  10,  11, 108, 109, 110, 111],
       [ 12,  13,  14,  15, 112, 113, 114, 115],
       [ 16,  17,  18,  19, 116, 117, 118, 119],
       [ 20,  21,  22,  23, 120, 121, 122, 123]])

In [116]:
copy1=data
data[0,0]=20
copy1

array([[ 20, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111],
       [112, 113, 114, 115],
       [116, 117, 118, 119],
       [120, 121, 122, 123]])

In [117]:
data[0,0]=100
copy2 = data.copy()
data[0,0]=20
copy2

array([[100, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111],
       [112, 113, 114, 115],
       [116, 117, 118, 119],
       [120, 121, 122, 123]])

# Numpy 배열연산: 유니버셜 함수
- Numpy는 데이터 배열을 사용하여 최적화된 연산을 위한 쉽고 유연한 인터페이스를 제공
- Numpy패키지에서 사용할 수 있는 유니버설 함수가 있음

In [79]:
x = np.arange(4)
x

array([0, 1, 2, 3])

## 산술연산

In [84]:
print(np.add(x,2))
print(np.subtract(x,2))
print(np.negative(x))
print(np.multiply(x,3))
print(np.divide(x,3))

[2 3 4 5]
[-2 -1  0  1]
[ 0 -1 -2 -3]
[0 3 6 9]
[0.         0.33333333 0.66666667 1.        ]


## 절댓값
* 삼각함수(sin, cos, tan)
* 지수와 로그 exp, log

In [90]:
x = np.arange(-2,3)
print(x)
abs(x)

[-2 -1  0  1  2]


array([2, 1, 0, 1, 2])

## 최솟값과 최댓값

In [93]:
arr= np.random.rand(10)
print(arr)
print(max(arr))
print(min(arr))
print(sum(arr))

[0.59075442 0.24374902 0.49250271 0.61380619 0.39549949 0.50281563
 0.17989409 0.34887626 0.56986616 0.52002116]
0.6138061864028608
0.1798940900716013
4.457785137599677


In [97]:
M = np.random.random((3,4))
print(M)
print(M.sum())
print(M.min())
print(M.max())
print(M.max(axis=0))

[[0.56187121 0.59382726 0.64416713 0.38348736]
 [0.30570981 0.67252019 0.36439612 0.84432302]
 [0.66896606 0.10154905 0.09636033 0.95668048]]
6.193858036938742
0.09636032511745551
0.9566804789139849
[0.66896606 0.67252019 0.64416713 0.95668048]


## 정렬

In [98]:
x = np.array([2,1,4,3,5])
np.sort(x)

array([1, 2, 3, 4, 5])

## 구조화 배열 만들기

In [131]:
name = ["Alice", "Bob", "Cathy", "Doug"]
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

In [132]:
x = np.zeros(4, dtype=int)
x

array([0, 0, 0, 0])

In [135]:
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                      'formats':('U10','i4','f8')})
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


## 데이터프레임과 배열 전환
- 데이터프레임과 배열은 쉽게 서로 전환할 수 있다
- 배열에는 인데스와 컬럼 이름이 포함되지 않는다 

In [120]:
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [121]:
# 배열을 데이터프레임으로 전환 (데이터프레임을 생성하면 된다)
import pandas as pd
df = pd.DataFrame(x)
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


## 데이터프레임에서 배열 추출
- 데이터프레임의 내용(수치 값)만 추출하여 배열을 만들려면 values를 사용한다

In [122]:
df.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])