## 240328 - Python Module(2)

### numpy 행렬 관련 기초 명령(1) - 기본 연산
행렬, 벡터 연산 지원
(리스트보다 연산 빠르고 기능도 많음)

In [1]:
# numpy는 np라는 별명으로 흔히 사용함
import numpy as np

In [2]:
# ones(), zeros(): 지정 크기만큼 행렬을 만들고 각각 1과 0으로 채움
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [3]:
np.zeros((3,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [8]:
# eye(): 단위 행렬 만들기 (정수 1과 같은 성질을 가진 행렬)
# 행과 열의 크기가 같으며, 주 대각선 1로 이루어짐
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [9]:
# array(): 행렬 만들기
data1 = np.array([ [1,2,3], [4,5,6], [7,8,9] ])
data1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
# shape: 행렬 크기 확인
data1.shape

(3, 3)

In [11]:
# dtype: 행렬 내부의 데이터형 확인
data1.dtype

dtype('int64')

In [12]:
# astype(): 행렬 내부의 데이터형 변경
data1 = data1.astype(np.float64)
data1

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [14]:
# 행렬의 사칙연산
# 덧셈: numpy 배열에 + 연산을 하면, 대응되는 값끼리 합침
# 곱셈: 행렬의 곱셈이 아니라 같은 위치의 요소끼리 곱하는 것
data1 * data1

array([[ 1.,  4.,  9.],
       [16., 25., 36.],
       [49., 64., 81.]])

In [15]:
# 행렬 각 요소에 일괄적으로 더하거나 뺄 때는 단순한 덧셈/뺄셈을 하면 됨
data1 + 3

array([[ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [16]:
# 제곱근: ** 0.5
data1 ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

In [17]:
# 동일하게 각각을 제곱할 수 있음
data1 ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.],
       [49., 64., 81.]])

### numpy 행렬 관련 기초 명령(2) - 슬라이싱

In [20]:
# arange(): 0부터 9까지 정수 생성
# 주의: arrange아니고 arange임
data2 = np.arange(10)
data2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
# 원하는 위치의 데이터만 얻고 싶다면 리스트형의 슬라이싱을 사용할 수 있음
data2[0]

0

In [23]:
data2[1:4] # 1부터 3까지

array([1, 2, 3])

In [24]:
# 원하는 범위의 구간에 있는 데이터만 변경 가능
data2[1:4] = 10
data2

array([ 0, 10, 10, 10,  4,  5,  6,  7,  8,  9])

In [25]:
# 행만 지정해서 출력
data1[2]

array([7., 8., 9.])

In [27]:
# 범위 지정하여 출력도 가능
data1[:2]

array([[1., 2., 3.],
       [4., 5., 6.]])

In [28]:
data1[:2, 1:]

array([[2., 3.],
       [5., 6.]])

### numpy 행렬 관련 기초 명령(3) - 조건문에 따른 슬라이싱

In [29]:
# 데이터 준비
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will'], dtype='<U4')

In [30]:
data_names = np.random.randn(5,4)
data_names

array([[-0.20889745,  0.17354976,  0.91233518,  0.35208132],
       [ 0.43594993, -2.5447156 ,  1.25651525,  0.18574327],
       [ 2.34292534, -0.58820979,  2.28343608,  0.61814644],
       [-1.24318733,  0.36481934,  0.20831413, -1.53524295],
       [ 1.72058483, -0.21519786,  0.43907575, -0.2609339 ]])

In [31]:
# 행렬에서 특정 조건 검색
# names 변수에서 'Bob'이 포함된 부분 검색
names == 'Bob'

array([ True, False, False,  True, False])

In [32]:
# 이 조건을 그대로 data_names에 적용하면 True인 행만 나타남
data_names[names == 'Bob']

array([[-0.20889745,  0.17354976,  0.91233518,  0.35208132],
       [-1.24318733,  0.36481934,  0.20831413, -1.53524295]])

In [33]:
# 다시 열을 슬라이싱 가능
data_names[names == 'Bob', 2:]

array([[ 0.91233518,  0.35208132],
       [ 0.20831413, -1.53524295]])

In [34]:
# 물결 기호(~): 부정(not) 조건 찾기
data_names[~(names == 'Bob')]

array([[ 0.43594993, -2.5447156 ,  1.25651525,  0.18574327],
       [ 2.34292534, -0.58820979,  2.28343608,  0.61814644],
       [ 1.72058483, -0.21519786,  0.43907575, -0.2609339 ]])

In [35]:
# 두 개 이상의 조건도 연결하여 사용 가능
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True])

In [36]:
data_names[mask]

array([[-0.20889745,  0.17354976,  0.91233518,  0.35208132],
       [ 2.34292534, -0.58820979,  2.28343608,  0.61814644],
       [-1.24318733,  0.36481934,  0.20831413, -1.53524295],
       [ 1.72058483, -0.21519786,  0.43907575, -0.2609339 ]])

In [37]:
# data_names에서 음수를 검색하고 그 조건을 이용해서 데이터 변경도 가능
data_names < 0

array([[ True, False, False, False],
       [False,  True, False, False],
       [False,  True, False, False],
       [ True, False, False,  True],
       [False,  True, False,  True]])

In [38]:
data_names[data_names < 0] = 0
data_names

array([[0.        , 0.17354976, 0.91233518, 0.35208132],
       [0.43594993, 0.        , 1.25651525, 0.18574327],
       [2.34292534, 0.        , 2.28343608, 0.61814644],
       [0.        , 0.36481934, 0.20831413, 0.        ],
       [1.72058483, 0.        , 0.43907575, 0.        ]])

### shape와 reshape
numpy를 이용해 만든 행렬의 크기, 그 크기를 변경하는 기능

In [39]:
# 15개의 원소가 있는 data_mat 생성
data_mat = np.arange(15)
data_mat

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [40]:
# shape: 행렬 크기 반환
# (15,): 15의 크기를 가지는 1차원 배열이라는 의미
data_mat.shape

(15,)

In [None]:
# 다양한 행렬의 shape
  # (4,): 1차원 배열, axis=0
  # (2, 3): 2차원 배열, axis=0~1
  # (4, 3, 2): 3차원 배열, axis=0~2

In [41]:
# reshape(행, 열): 원하는 형태로 numpy array 변경
# 대신 원본 배열의 크기에 맞게 적용해줘야 함 (예를 들어, 15개 원소 1차원 -> 3x5 2차원)
data_mat = data_mat.reshape(3, 5)
data_mat

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [42]:
data_mat.shape

(3, 5)

In [43]:
# reshape 할 때, -1을 이용하면 원하는 행이나 열만 적용해서 배열 형태 변경 가능
# -1을 이용해 reshape 할 때도 원본 행렬의 크기를 고려해야 함(잘 나누어 떨어지도록)

# 예) 행은 1개였으면 좋겠는데 열은 몇 개가 나오든 관계 없다(-1)
data_mat = data_mat.reshape(1, -1) # (1, 15)이랑 결과 같음
data_mat

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14]])

In [46]:
# 행은 3개였으면 좋겠는데 열은 알아서 해줘
data_mat = data_mat.reshape(3, -1)
data_mat

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [47]:
# T: 행과 열을 서로 바꿔주는 transpose도 가능함
data_mat = data_mat.reshape(3, 5)
data_mat

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [49]:
data_mat.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### 간단한 통계 구하기

In [51]:
# 랜덤 함수로 데이터 준비
data = np.random.randn(5, 4)
data

array([[ 0.32083648,  1.13655065, -0.47453077, -1.28977733],
       [ 1.1563827 , -1.25946769,  0.30570226, -0.01372026],
       [ 0.55055283, -1.9274325 , -1.75336217, -0.50090694],
       [-1.63192027,  0.39331777,  0.30813594,  0.8541697 ],
       [ 2.47264385, -0.71822035,  1.25070832, -0.52200546]])

In [52]:
# 평균 구하기
np.mean(data)

-0.06711716115127753

In [53]:
# 데이터 속성으로 호출해도 됨
data.mean()

-0.06711716115127753

In [54]:
data.sum()

-1.3423432230255505

In [55]:
# axis 옵션: 행/열별로 데이터 평균 구하기
# axis = 0: 2차원 배열에서 열 방향 (세로 방향)
data.mean(axis = 0)

array([ 0.57369912, -0.47505042, -0.07266928, -0.29444806])

In [56]:
# axis = 1: 2차원 배열에서 행 방향 (가로 방향)
data.mean(axis = 1)

array([-0.07673024,  0.04722425, -0.9077872 , -0.01907421,  0.62078159])

In [57]:
# 표준편차(std), 분산(var)도 평균처럼 구할 수 있음
np.std(data)

1.1327553262351397

In [58]:
np.var(data)

1.2831346291140777

In [59]:
data.std()

1.1327553262351397

In [60]:
data.var()

1.2831346291140777

In [61]:
# argmin: 최솟값의 위치(index)
# argmax: 최댓값의 위치
np.argmin(data)

9

In [62]:
data.argmin()

9

In [63]:
np.argmax(data)

16

In [64]:
data.argmax()

16