# Numpy 기초

https://doorbw.tistory.com/171

## 1. Numpy 란?

In [1]:
# numpy 사용하기
import numpy as np

## 2. Array 정의 및 사용하기

In [2]:
data1 = [1, 2, 3, 4, 5]
data1

[1, 2, 3, 4, 5]

In [3]:
data2 = [1,2,3,3.5,4]
data2

[1, 2, 3, 3.5, 4]

In [4]:
# numpy 를 이용하여 array 정의하기
# 1. 위에서 만든 python list 를 이용
arr1 = np.array(data1)
arr1

array([1, 2, 3, 4, 5])

In [5]:
# array의 형태(크기)를 확인할 수 있다.
arr1.shape

(5,)

In [6]:
# 2. 바로 python list 를 넣어 줌으로써 만들기
arr2 = np.array([1,2,3,4,5])
arr2

array([1, 2, 3, 4, 5])

In [7]:
arr2.shape

(5,)

In [8]:
# array 의 자료형을 확인할 수 있다.
arr2.dtype

dtype('int32')

In [9]:
arr4 = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
arr4

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [10]:
arr4.shape

(4, 3)

### 2-1. np.zeros(), np.ones(), np.arrange() 함수
numpy 에서 array 를 정의할 때 사용되는 함수들이다.

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [12]:
np.zeros((3,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [13]:
# np.arrange() 는 1차원 array 를 만든다. index 는 0부터 시작한다.
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.arange(3,10)

array([3, 4, 5, 6, 7, 8, 9])

## 3. Array 연산
기본적으로 numpy 에서 연산을 할 때는 크기가 서로 동일한 array 끼리 연산이 진행된다.<br />
**이때 같은 위치에 있는 요소들 끼리 연산이 진행된다.**

In [15]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [16]:
arr1.shape

(2, 3)

In [17]:
arr2 = np.array([np.arange(10,13),[13,14,15]])
arr2

array([[10, 11, 12],
       [13, 14, 15]])

### 3-1. array 덧셈

In [18]:
arr1 + arr2

array([[11, 13, 15],
       [17, 19, 21]])

### 3-3. array 곱셈

주의하자!<br />
행렬의 곱처럼 곱셈이 진행되는 것이 아니라 각 요소별로 곱셈이 진행된다.

In [19]:
arr1 * arr2

array([[10, 22, 36],
       [52, 70, 90]])

### 3-5 array의 브로드 캐스트
위에서는 array 가 같은 크기를 가져야 서로 연산이 가능하다고 했지만,<br />
numpy 에서는 브로드캐스트라는 기능을 제공한다.<br />
브로드캐스트란, 서로 크기가 다른 array 가 연산이 가능하게끔 하는 것이다.

In [20]:
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [21]:
arr1.shape

(2, 3)

In [22]:
arr1 + np.array([10,11,12])

array([[11, 13, 15],
       [14, 16, 18]])

In [23]:
arr3 = np.array([10,11,12])
arr1 * arr3

array([[10, 22, 36],
       [40, 55, 72]])

위와 같이 서로 크기가 다른 arr1 과 arr3 의 연산이 가능하다.<br />
연산결과를 살펴보면 arr3이 [10,11,12] 에서 [[10,11,12],[10,11,12]]로 확장되어 계산되었음을 확인할 수 있다.<br />
동일한 방식으로 하나의 array 에 스칼라 연산도 가능하다.

In [24]:
arr1 * 10

array([[10, 20, 30],
       [40, 50, 60]])

In [25]:
arr1 ** 2

array([[ 1,  4,  9],
       [16, 25, 36]], dtype=int32)

## 4. Array 인덱싱

numpy 에서 사용되는 인덱싱은 기본적으로 python 인덱싱 (0 기반 index) 과 동일하다.

In [26]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
# 결과값이 스칼라 임.
arr1[0]

0

In [28]:
# 이 때는 numpy 임.
arr1[3:9]

array([3, 4, 5, 6, 7, 8])

In [29]:
arr1[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

물론 1차원이 아닌 그 이상의 차원에서도 인덱싱이 가능하다.

In [30]:
arr2 = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [31]:
# 2차원의 array 에서 인덱싱을 하기 위해선 2개의 인자를 입력해야 합니다.
arr2[0,0] # => 1

1

In [32]:
# 2행의 모든 요소 꺼내기
arr2[1,:] # 이때는 numpy array 임.

array([5, 6, 7, 8])

In [33]:
# 2행의 마지막 요소 꺼내기. 이때는 스칼라임.
arr2[1,-1] # 

8

In [34]:
# 이게 백미인가?!!
# 모든 행의 4th 요소를 꺼내서 numpy 1차원 배열로 만들어버림.
arr2[:, 3]

array([ 4,  8, 12])

## 5. Array boolean 인덱싱(마스크)

위에서 이용한 다차원의 인덱싱을 응용하여 boolean 인덱싱을 할 수 있다.

해당 기능은 주로 마스크라고 이야기하는데, boolean 인덱싱을 통해 만들어낸 array 를 통해<br />
우리가 원하는 행 또는 열의 값만 뽑아낼 수 있다.

즉, 마스크처럼 우리가 가리고 싶은 부분은 가리고, 원하는 요소만 꺼낼 수 있다.

In [35]:
names = np.array(['Changbeom', 'Changbeom', 'Tak', 'John', 'Lee', 'Changbeom', 'Park', 'Changbeom'])
names

array(['Changbeom', 'Changbeom', 'Tak', 'John', 'Lee', 'Changbeom',
       'Park', 'Changbeom'], dtype='<U9')

In [36]:
names.shape

(8,)

In [37]:
# 아래에서 사용되는 np.random.randn() 함수는 기대값이 0이고, 표준편차가 1인 [가우시안 정규 분포]를 따르는 난수를 발생시키는 함수이다.
# 이 외에도 0~1 의 난수를 발생시키는 np.random.rand() 함수도 존재한다.
data = np.random.randn(8, 4)
data

array([[-0.29279781,  0.00529366,  0.04719254, -0.84438729],
       [ 0.28483627, -0.5742316 , -0.2081693 ,  0.27460791],
       [-0.05787047, -1.36031354, -0.39688154, -1.49515398],
       [ 1.8430655 , -1.7818576 , -0.38880684,  0.49255531],
       [-1.08884344, -0.20433709,  0.48186385, -1.01543245],
       [ 0.37165504, -1.45023169, -0.4826623 ,  0.59105595],
       [ 0.87682674,  0.7380262 ,  0.05740689,  1.56548969],
       [-0.45727566, -0.59575621, -0.56707761, -1.5678298 ]])

In [38]:
# 내가 생각하는 난수이군.
data2 = np.random.rand(8,4)
print(data2)
print()
data2 = np.floor( data2 * 10 )
data2


[[0.09087273 0.73546861 0.19725231 0.40491671]
 [0.97375029 0.31853832 0.12430581 0.03224682]
 [0.19915764 0.4425504  0.46909123 0.17996757]
 [0.62936592 0.69629198 0.1476624  0.13259436]
 [0.75325188 0.78063426 0.9150495  0.84596462]
 [0.9808021  0.03870156 0.46877111 0.338683  ]
 [0.25837163 0.55335015 0.12028338 0.52017889]
 [0.14543803 0.84075283 0.96845138 0.40638836]]



array([[0., 7., 1., 4.],
       [9., 3., 1., 0.],
       [1., 4., 4., 1.],
       [6., 6., 1., 1.],
       [7., 7., 9., 8.],
       [9., 0., 4., 3.],
       [2., 5., 1., 5.],
       [1., 8., 9., 4.]])

In [39]:
data2.tolist()

[[0.0, 7.0, 1.0, 4.0],
 [9.0, 3.0, 1.0, 0.0],
 [1.0, 4.0, 4.0, 1.0],
 [6.0, 6.0, 1.0, 1.0],
 [7.0, 7.0, 9.0, 8.0],
 [9.0, 0.0, 4.0, 3.0],
 [2.0, 5.0, 1.0, 5.0],
 [1.0, 8.0, 9.0, 4.0]]

위와 같은 **names** 와 **data** 라는 array 가 있다.<br />
이 때 , names 의 각 요소가 data 의 각 행과 연결된다고 가정해보자.<br />
그리고 이 때, names 가 Changbeom 인 행의 data만 보고 싶을 때 다음과 같이 마스크를 사용한다. (이 때는 행을 보는 것이지)

In [40]:
# 요소가 Beomwoo 인 항목에 대한 mask 생성
# 이 때는 true 와 false 의 마스트가 생성되는군.
names_changbeom_mask = (names == 'Changbeom')
names_changbeom_mask

array([ True,  True, False, False, False,  True, False,  True])

In [41]:
data[names_changbeom_mask, :]

array([[-0.29279781,  0.00529366,  0.04719254, -0.84438729],
       [ 0.28483627, -0.5742316 , -0.2081693 ,  0.27460791],
       [ 0.37165504, -1.45023169, -0.4826623 ,  0.59105595],
       [-0.45727566, -0.59575621, -0.56707761, -1.5678298 ]])

In [42]:
# 요소가 Kim 인 행의 데이터만 꺼내기
print(data[names == 'Tak',:])

# 결과가 numpy 2차원 배열이군.

data[names == 'Hello',:] # shape 가 (0,4)

[[-0.05787047 -1.36031354 -0.39688154 -1.49515398]]


array([], shape=(0, 4), dtype=float64)

In [43]:
# 논리 연산을 응용하여, 요소가 Tak, 또는 Park 인 행의 데이터만 꺼내기
data[ (names == 'Tak') | (names == 'Park'), :]

array([[-0.05787047, -1.36031354, -0.39688154, -1.49515398],
       [ 0.87682674,  0.7380262 ,  0.05740689,  1.56548969]])

In [44]:
#뭄론 data array 자체적으로도 마스크를 만들고, 이를 응용하여 인덱싱이 가능하다.<br />
#data array 에서 0번째 열이 0보다 작은 요소의 boolean 값은 다음과 같다.

data[:, 0] < 0

array([ True, False,  True, False,  True, False, False,  True])

In [45]:
# 위에서 만든 마스크를 이용하여 0번째 열의 값이 0보다 작은 행을 구한다.
data[data[:, 0]<0, :]

array([[-0.29279781,  0.00529366,  0.04719254, -0.84438729],
       [-0.05787047, -1.36031354, -0.39688154, -1.49515398],
       [-1.08884344, -0.20433709,  0.48186385, -1.01543245],
       [-0.45727566, -0.59575621, -0.56707761, -1.5678298 ]])

이를 통해 특정 위치에만 우리가 원하는 값을 대입할 수 있다.<br />
위에서 얻은, 0번째 열의 값이 0보자 작은 행의 2,3번째 열값에 0을 대입하여 보자.

In [46]:
data[data[:,0]<0, 2:4] = 0
data

array([[-0.29279781,  0.00529366,  0.        ,  0.        ],
       [ 0.28483627, -0.5742316 , -0.2081693 ,  0.27460791],
       [-0.05787047, -1.36031354,  0.        ,  0.        ],
       [ 1.8430655 , -1.7818576 , -0.38880684,  0.49255531],
       [-1.08884344, -0.20433709,  0.        ,  0.        ],
       [ 0.37165504, -1.45023169, -0.4826623 ,  0.59105595],
       [ 0.87682674,  0.7380262 ,  0.05740689,  1.56548969],
       [-0.45727566, -0.59575621,  0.        ,  0.        ]])

## 6. Numpy 함수

numpy 에서는 array에 적용되는 다양한 함수가 있다.

### 6-1. 하나의 array 에 적용되는 함수

In [47]:
arr1 = np.random.randn(5,3)
arr1

array([[ 1.60549244,  1.50208029,  1.31945713],
       [-0.51303807, -0.30741503, -0.42414334],
       [-0.38227901, -0.29938106, -1.94813828],
       [ 1.07527607, -0.98837631,  0.35406125],
       [ 0.70156543, -1.47997256,  1.65709344]])

In [48]:
# 각 성분의 절대값 계산하기
np.abs(arr1)

array([[1.60549244, 1.50208029, 1.31945713],
       [0.51303807, 0.30741503, 0.42414334],
       [0.38227901, 0.29938106, 1.94813828],
       [1.07527607, 0.98837631, 0.35406125],
       [0.70156543, 1.47997256, 1.65709344]])

In [49]:
# 각 성분의 제곱근 계산하기 ( == array ** 0.5) square root
np.sqrt(arr1)

  np.sqrt(arr1)


array([[1.26708028, 1.22559385, 1.14867625],
       [       nan,        nan,        nan],
       [       nan,        nan,        nan],
       [1.03695519,        nan, 0.59503046],
       [0.83759503,        nan, 1.28728142]])

In [50]:
# 각 성분의 제곱 계산하기
np.square(arr1)

array([[2.57760597, 2.2562452 , 1.74096711],
       [0.26320806, 0.094504  , 0.17989757],
       [0.14613724, 0.08962902, 3.79524277],
       [1.15621863, 0.97688773, 0.12535937],
       [0.49219406, 2.19031878, 2.74595868]])

In [51]:
# 각 성분을 무리수 e 의 지수로 삼은 값을 계산하기
np.exp(arr1)

array([[4.9803115 , 4.49102199, 3.74138972],
       [0.598674  , 0.73534535, 0.65433008],
       [0.68230465, 0.74127689, 0.14253919],
       [2.9308019 , 0.37218051, 1.42484246],
       [2.01690757, 0.22764393, 5.24404655]])

In [52]:
# 각 성분을 자연로그, 상용로그, 밑이 2인 로그를 씌운 값을 계산하기
np.log(arr1)

  np.log(arr1)


array([[ 0.47343053,  0.40685101,  0.27722038],
       [        nan,         nan,         nan],
       [        nan,         nan,         nan],
       [ 0.07257744,         nan, -1.03828536],
       [-0.35444111,         nan,  0.50506513]])

In [53]:
np.log10(arr1)

  np.log10(arr1)


array([[ 0.20560826,  0.17669315,  0.12039528],
       [        nan,         nan,         nan],
       [        nan,         nan,         nan],
       [ 0.03151998,         nan, -0.4509216 ],
       [-0.15393182,         nan,  0.219347  ]])

In [54]:
np.log2(arr1)

  np.log2(arr1)


array([[ 0.68301587,  0.58696193,  0.39994447],
       [        nan,         nan,         nan],
       [        nan,         nan,         nan],
       [ 0.10470711,         nan, -1.49792914],
       [-0.51135043,         nan,  0.72865496]])

In [55]:
# 각 성분의 부호 계산하기(+인 경우 1, -인 경우 -1, 0인 경우 0)
np.sign(arr1)

array([[ 1.,  1.,  1.],
       [-1., -1., -1.],
       [-1., -1., -1.],
       [ 1., -1.,  1.],
       [ 1., -1.,  1.]])

In [56]:
# 각 성분의 소수 첫 번째 자리에서 올림한 값을 계산하기
np.ceil(arr1)

array([[ 2.,  2.,  2.],
       [-0., -0., -0.],
       [-0., -0., -1.],
       [ 2., -0.,  1.],
       [ 1., -1.,  2.]])

In [57]:
# 각 성분의 소수 첫 번째 자리에서 내림한 값을 계산하기
np.floor(arr1)

array([[ 1.,  1.,  1.],
       [-1., -1., -1.],
       [-1., -1., -2.],
       [ 1., -1.,  0.],
       [ 0., -2.,  1.]])

In [58]:
# 각 성분이 NaN인 경우 True를, 아닌 경우 False 를 반환하기
np.isnan(arr1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [59]:
# 왜 이걸 하냐면
np.isnan(np.log(arr1))

  np.isnan(np.log(arr1))


array([[False, False, False],
       [ True,  True,  True],
       [ True,  True,  True],
       [False,  True, False],
       [False,  True, False]])

In [61]:
# 각 성분이 무한대인 경우 True를, 아닌 경우 False 를 반환하기
np.isinf(arr1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [62]:
# 각 성분에 대해 삼각함수 값을 계산하기 (cos, cosh, sin, sinh, tan, tanh)
np.cos(arr1)

array([[-0.03468915,  0.06866197,  0.24870131],
       [ 0.87125737,  0.95311896,  0.91139162],
       [ 0.92781689,  0.95551922, -0.36845073],
       [ 0.47548939,  0.55004658,  0.93797238],
       [ 0.76383277,  0.09069895, -0.08619004]])

> 또 문제가 발생하였네. 왜 어떤 값에 대하여 삼각함수 값을 구하지. 삼각함수는 각도인데 이 값을 각도로 보겠다는 것인가?

In [63]:
np.tanh(arr1)

array([[ 0.92249114,  0.90552347,  0.86664886],
       [-0.47230893, -0.29808363, -0.40041522],
       [-0.36468502, -0.29074609, -0.96017431],
       [ 0.79144072, -0.75666913,  0.33997234],
       [ 0.60536048, -0.90146285,  0.92982462]])

### 6-2. 두 개의 array 에 적용되는 함수

In [64]:
arr1

array([[ 1.60549244,  1.50208029,  1.31945713],
       [-0.51303807, -0.30741503, -0.42414334],
       [-0.38227901, -0.29938106, -1.94813828],
       [ 1.07527607, -0.98837631,  0.35406125],
       [ 0.70156543, -1.47997256,  1.65709344]])

In [66]:
arr2 = np.random.randn(5, 3)
arr2

array([[ 0.08156969,  1.35754649, -0.39047013],
       [ 0.47786926, -1.11921856, -0.53520738],
       [ 1.34601739, -2.21738888, -1.24430877],
       [ 1.53779454, -1.04834795, -0.40707054],
       [-1.28998368, -1.02582055,  0.37266251]])

In [67]:
# 두 개의 array 에 대해 동일한 위치의 성분끼리 연산 값을 계산하기
# (add, subtract, multiply, divide)
np.multiply(arr1, arr2)

array([[ 0.13095952,  2.03914383, -0.5152086 ],
       [-0.24516512,  0.34406461,  0.22700465],
       [-0.5145542 ,  0.66384423,  2.42408556],
       [ 1.65355367,  1.03616228, -0.1441279 ],
       [-0.90500796,  1.51818627,  0.6175366 ]])

In [68]:
# 두 개의 array 에 대해 동일한 위치의 성분끼리 비교하여 최대값 또는 최소값 계산하기
# (maximum, minimum)
np.maximum(arr1, arr2)

array([[ 1.60549244,  1.50208029,  1.31945713],
       [ 0.47786926, -0.30741503, -0.42414334],
       [ 1.34601739, -0.29938106, -1.24430877],
       [ 1.53779454, -0.98837631,  0.35406125],
       [ 0.70156543, -1.02582055,  1.65709344]])

### 6-3. 통계 함수

통계 함수를 통해 array 의 합이나 평균등을 구할 때,
추가로 axis 라는 인자에 대한 값을 지정하여 열 또는 행의 합 또는 평균 등을 구할 수 있다.

In [69]:
arr1

array([[ 1.60549244,  1.50208029,  1.31945713],
       [-0.51303807, -0.30741503, -0.42414334],
       [-0.38227901, -0.29938106, -1.94813828],
       [ 1.07527607, -0.98837631,  0.35406125],
       [ 0.70156543, -1.47997256,  1.65709344]])

In [70]:
# 전체 성분의 합을 계산
np.sum(arr1)

1.8722823899746754

In [72]:
# 행 간의 합을 계산
np.sum(arr1, axis=1)

array([ 4.42702986, -1.24459644, -2.62979836,  0.44096101,  0.87868632])

In [73]:
# 열 간의 합을 계산
np.sum(arr1, axis=0)

array([ 2.48701686, -1.57306467,  0.95833019])

In [77]:
# 전체 성분의 평균을 계산
np.mean(arr1)

0.12481882599831169

In [78]:
# 열 간의 평균을 계산
np.mean(arr1, axis=0)

array([ 0.49740337, -0.31461293,  0.19166604])

In [79]:
# 전체 성분의 평균을 계산
np.mean(arr1)

0.12481882599831169

In [80]:
# 행 간의 평균을 계산
np.mean(arr1, axis=1)

array([ 1.47567662, -0.41486548, -0.87659945,  0.146987  ,  0.29289544])