# Numpy
- Numerical Python
- 벡터와 행렬 연산을 위한 편리한 기능들 제공
- pandas와 matplotlib 기반
- array 단위로 데이터 관리

In [2]:
import numpy as np


## Array 정의 및 사용

In [3]:
data1 = [1, 2, 3, 4, 5]
data1


[1, 2, 3, 4, 5]

In [4]:
data2 = [1, 2, 3, 3.5, 4]
data2


[1, 2, 3, 3.5, 4]

In [5]:
arr1 = np.array(data1)
arr1


array([1, 2, 3, 4, 5])

In [6]:
# array 크기 확인
arr1.shape


(5,)

In [7]:
# 리스트를 이용하여 array 생성
arr2 = np.array([1, 2, 3, 4, 5])
arr2


array([1, 2, 3, 4, 5])

In [8]:
 arr2.shape

(5,)

In [9]:
# array의 자료형 확인
arr2.dtype

dtype('int32')

In [10]:
arr3 = np.array(data2)
arr3

array([1. , 2. , 3. , 3.5, 4. ])

In [13]:
arr3.shape

(5,)

In [14]:
arr3.dtype

dtype('float64')

In [15]:
arr4 = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
arr4

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [16]:
arr4.shape

(4, 3)

In [17]:
arr4.dtype

dtype('int32')

## numpy 자료형
- 부호가 있는 정수 int(8, 16, 32, 64)
- 부호가 없는 정수 uint(8 ,16, 32, 54)
- 실수 float(16, 32, 64, 128)
- 복소수 complex(64, 128, 256)
- 불리언 bool
- 문자열 string_
- 파이썬 오프젝트 object
- 유니코드 unicode_

## np.zeros(), np.ones(), np.arange() 함수

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((3,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [21]:
np.ones(9)

array([1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [22]:
np.ones((2,10))

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [24]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
np.arange(3,10)

array([3, 4, 5, 6, 7, 8, 9])

# Array 연산

기본적으로 동일한 크기의 array 간 연산 수행

In [29]:
arr1 = np.array([[1,3,4], [4,3,6]])
arr1

array([[1, 3, 4],
       [4, 3, 6]])

In [30]:
arr2 = np.array([[10,11,12],[13,14,15]])
arr2

array([[10, 11, 12],
       [13, 14, 15]])

In [31]:
arr1 + arr2

array([[11, 14, 16],
       [17, 17, 21]])

In [32]:
arr1 - arr2

array([[ -9,  -8,  -8],
       [ -9, -11,  -9]])

In [33]:
arr1 * arr2

array([[10, 33, 48],
       [52, 42, 90]])

### Broad cast : 
- 서로 크기가 다른 array들의 연산이 가능하도록 

In [34]:
arr1

array([[1, 3, 4],
       [4, 3, 6]])

In [37]:
arr3 = np.array([10,11,12])
arr3

array([10, 11, 12])

In [38]:
arr1 + arr3

array([[11, 14, 16],
       [14, 14, 18]])

In [41]:
arr1 * 10

array([[10, 30, 40],
       [40, 30, 60]])

In [42]:
arr1 ** 2

array([[ 1,  9, 16],
       [16,  9, 36]], dtype=int32)

### Array 인덱싱:
- 파이썬의 인덱싱과 동일
- 0번째로 시작함

In [43]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
# 0번째 요소
arr1[0]

0

In [45]:
# 3번째 요소
arr1[3]

3

In [46]:
# 3번째 요소부터 8번째 요소
arr1[3:9]

array([3, 4, 5, 6, 7, 8])

In [47]:
arr1[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
arr2 = np.array([[1,2,3,4],
                 [5,6,7,8],
                 [9,10,11,12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [51]:
# 2차원의 array에서 인덱싱을 하기 위해선 2개의 인자를 입력해야 합니다.
arr2[0,0]        

1

In [52]:
# 2행의 모든 요소 꺼내기
arr2[2,:]

array([ 9, 10, 11, 12])

In [53]:
# 2행의 3번째 요소 꺼내기
arr2[2,3]

12

In [54]:
# 모든 열의 3번째 요소 꺼내기
arr2[:,3]

array([ 4,  8, 12])

### Array boolean 인덱싱(Mask)
- 다차원의 인덱싱을 응용하여 boolean 인덱싱
- boolean인덱싱을 통해 만들어낸 array를 통해 원하는 행 또는 열의 값만 뽑아냄
- 가리고 싶은 부분은 가리고, 원하는 요소만 꺼냄

In [56]:
names = np.array(['Beomwoo','Beomwoo','Kim','Joan','Lee','Beomwoo',
                  'Park','Beomwoo'])
names

array(['Beomwoo', 'Beomwoo', 'Kim', 'Joan', 'Lee', 'Beomwoo', 'Park',
       'Beomwoo'], dtype='<U7')

In [57]:
names.shape

(8,)

In [58]:
data = np.random.randn(8,4)
data

array([[-0.56022088, -1.26518719, -0.03069826,  0.34028535],
       [ 0.94032123,  0.33916732,  0.473721  , -0.79702604],
       [ 0.7923289 ,  0.46648306, -0.35808581, -0.89971487],
       [ 1.63301643,  0.19369188, -2.09194873,  1.90749969],
       [ 0.84381489,  0.95319952,  0.43065144,  0.12095863],
       [-0.44508095, -0.6202255 ,  0.83617597, -1.08954188],
       [ 0.85993841,  0.96369543, -0.45363843, -0.05810098],
       [-0.47637534, -1.19522613, -0.76437373,  0.14550036]])

In [59]:
data.shape

(8, 4)

In [60]:
# 요소가 Beomwoo인 항목에 대한 mask 생성
names_Beomwoo_mask = (names == 'Beomwoo')
names_Beomwoo_mask

array([ True,  True, False, False, False,  True, False,  True])

In [61]:
data[names_Beomwoo_mask,:]

array([[-0.56022088, -1.26518719, -0.03069826,  0.34028535],
       [ 0.94032123,  0.33916732,  0.473721  , -0.79702604],
       [-0.44508095, -0.6202255 ,  0.83617597, -1.08954188],
       [-0.47637534, -1.19522613, -0.76437373,  0.14550036]])

In [62]:
# 요소가 Kim인 행의 데이터만 꺼내기
data[names == 'Kim',:]

array([[ 0.7923289 ,  0.46648306, -0.35808581, -0.89971487]])

In [63]:
# 논리 연산을 응용하여, 요소가 Kim 또는 Park인 행의 데이터만 꺼내기
data[(names == 'Kim') | (names == 'Park'),:]

array([[ 0.7923289 ,  0.46648306, -0.35808581, -0.89971487],
       [ 0.85993841,  0.96369543, -0.45363843, -0.05810098]])

In [64]:
# 먼저 마스크를 만든다.
# data array에서 0번째 열이 0보다 작은 요소의 boolean 값은 다음과 같다.
data[:,0] < 0

array([ True, False, False, False, False,  True, False,  True])

In [65]:
# 위에서 만든 마스크를 이용하여 0번째 열의 값이 0보다 작은 행을 구한다.
data[data[:,0]<0,:]

array([[-0.56022088, -1.26518719, -0.03069826,  0.34028535],
       [-0.44508095, -0.6202255 ,  0.83617597, -1.08954188],
       [-0.47637534, -1.19522613, -0.76437373,  0.14550036]])

In [66]:
# 0번째 열의 값이 0보다 작은 행의 2,3번째 열 값
data[data[:,0]<0,2:4]

array([[-0.03069826,  0.34028535],
       [ 0.83617597, -1.08954188],
       [-0.76437373,  0.14550036]])

In [67]:
data[data[:,0]<0,2:4] = 0
data

array([[-0.56022088, -1.26518719,  0.        ,  0.        ],
       [ 0.94032123,  0.33916732,  0.473721  , -0.79702604],
       [ 0.7923289 ,  0.46648306, -0.35808581, -0.89971487],
       [ 1.63301643,  0.19369188, -2.09194873,  1.90749969],
       [ 0.84381489,  0.95319952,  0.43065144,  0.12095863],
       [-0.44508095, -0.6202255 ,  0.        ,  0.        ],
       [ 0.85993841,  0.96369543, -0.45363843, -0.05810098],
       [-0.47637534, -1.19522613,  0.        ,  0.        ]])

### Numpy함수
- array에 적용되는 다양한 함수

#### 하나의 array에 적용되는 함수

In [68]:
arr1 = np.random.randn(5,3)
arr1

array([[-0.06216319, -1.6573282 , -1.1350403 ],
       [-2.29481387,  1.36716692,  0.73409649],
       [ 0.75751561,  0.33674707, -0.46164685],
       [ 1.35747454,  0.25637386, -0.77171608],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [69]:
# 각 성분의 절대값 계산하기
np.abs(arr1)

array([[0.06216319, 1.6573282 , 1.1350403 ],
       [2.29481387, 1.36716692, 0.73409649],
       [0.75751561, 0.33674707, 0.46164685],
       [1.35747454, 0.25637386, 0.77171608],
       [0.02990859, 0.16814247, 1.69413214]])

In [70]:
# 각 성분의 제곱근 계산하기 ( == array ** 0.5)
np.sqrt(arr1)

  


array([[       nan,        nan,        nan],
       [       nan, 1.16925913, 0.85679431],
       [0.87035373, 0.58029912,        nan],
       [1.16510709, 0.50633374,        nan],
       [0.17294101, 0.41005178, 1.30158831]])

In [71]:
# 각 성분의 제곱 계산하기
np.square(arr1)

array([[3.86426158e-03, 2.74673676e+00, 1.28831648e+00],
       [5.26617068e+00, 1.86914540e+00, 5.38897662e-01],
       [5.73829902e-01, 1.13398589e-01, 2.13117816e-01],
       [1.84273711e+00, 6.57275549e-02, 5.95545702e-01],
       [8.94523887e-04, 2.82718887e-02, 2.87008370e+00]])

In [72]:
# 각 성분의 제곱 계산하기
np.square(arr1)

array([[3.86426158e-03, 2.74673676e+00, 1.28831648e+00],
       [5.26617068e+00, 1.86914540e+00, 5.38897662e-01],
       [5.73829902e-01, 1.13398589e-01, 2.13117816e-01],
       [1.84273711e+00, 6.57275549e-02, 5.95545702e-01],
       [8.94523887e-04, 2.82718887e-02, 2.87008370e+00]])

In [73]:
# 각 성분을 무리수 e의 지수로 삼은 값을 계산하기
np.exp(arr1)

array([[0.93972952, 0.19064767, 0.32140917],
       [0.10078015, 3.92421733, 2.0835986 ],
       [2.13297051, 1.40038482, 0.63024487],
       [3.88636602, 1.29223575, 0.46221918],
       [1.03036035, 1.18310515, 5.44192108]])

In [75]:
# 각 성분을 자연로그, 상용로그, 밑이 2인 로그를 씌운 값을 계산하기
np.log(arr1)

  


array([[        nan,         nan,         nan],
       [        nan,  0.31274066, -0.3091148 ],
       [-0.27771113, -1.08842317,         nan],
       [ 0.30562601, -1.36111852,         nan],
       [-3.50960948, -1.78294365,  0.5271706 ]])

In [76]:
np.log10(arr1)

  """Entry point for launching an IPython kernel.


array([[        nan,         nan,         nan],
       [        nan,  0.13582154, -0.13424685],
       [-0.12060841, -0.47269617,         nan],
       [ 0.13273169, -0.59112626,         nan],
       [-1.52420403, -0.77432259,  0.22894728]])

In [77]:
np.log2(arr1)

  """Entry point for launching an IPython kernel.


array([[        nan,         nan,         nan],
       [        nan,  0.4511894 , -0.44595838],
       [-0.40065247, -1.5702627 ,         nan],
       [ 0.44092514, -1.96367894,         nan],
       [-5.06329619, -2.57224396,  0.76054641]])

In [78]:
# 각 성분의 부호 계산하기(+인 경우 1, -인 경우 -1, 0인 경우 0)
np.sign(arr1)

array([[-1., -1., -1.],
       [-1.,  1.,  1.],
       [ 1.,  1., -1.],
       [ 1.,  1., -1.],
       [ 1.,  1.,  1.]])

In [79]:
arr1

array([[-0.06216319, -1.6573282 , -1.1350403 ],
       [-2.29481387,  1.36716692,  0.73409649],
       [ 0.75751561,  0.33674707, -0.46164685],
       [ 1.35747454,  0.25637386, -0.77171608],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [80]:
# 각 성분의 소수 첫 번째 자리에서 내림한 값을 계산하기
np.floor(arr1)

array([[-1., -2., -2.],
       [-3.,  1.,  0.],
       [ 0.,  0., -1.],
       [ 1.,  0., -1.],
       [ 0.,  0.,  1.]])

In [81]:
# 각 성분이 NaN인 경우 True를, 아닌 경우 False를 반환하기
np.isnan(arr1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [82]:
np.isnan(np.log(arr1))

  """Entry point for launching an IPython kernel.


array([[ True,  True,  True],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False, False]])

In [83]:
# 각 성분이 무한대인 경우 True를, 아닌 경우 False를 반환하기
np.isinf(arr1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [85]:
# 각 성분에 대해 삼각함수 값을 계산하기(cos, cosh, sin, sinh, tan, tanh)
np.cos(arr1)

array([[ 0.99806849, -0.08642392,  0.4220959 ],
       [-0.66239975,  0.20222507,  0.74243633],
       [ 0.72654532,  0.94383449,  0.89532017],
       [ 0.21170756,  0.96731583,  0.71671499],
       [ 0.99955277,  0.98589733, -0.12302336]])

In [86]:
np.tanh(arr1)

array([[-0.06208324, -0.92985641, -0.81273726],
       [-0.97989096,  0.87804493,  0.62556515],
       [ 0.63961127,  0.32457023, -0.43142549],
       [ 0.87580603,  0.25090076, -0.64792621],
       [ 0.02989968,  0.16657561,  0.93467149]])

#### 두 개의 array에 적용되는 함수

In [87]:
arr1

array([[-0.06216319, -1.6573282 , -1.1350403 ],
       [-2.29481387,  1.36716692,  0.73409649],
       [ 0.75751561,  0.33674707, -0.46164685],
       [ 1.35747454,  0.25637386, -0.77171608],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [89]:
arr2 = np.random.randn(5,3)
arr2

array([[-0.01470732,  0.32278406,  1.60069956],
       [ 0.76291044, -2.64602839,  1.15364723],
       [ 0.73705247, -0.8124378 ,  2.01365416],
       [ 0.28264978,  0.35090652, -0.43804893],
       [ 0.06670231, -1.31034671,  0.66493671]])

In [90]:
# 두 개의 array에 대해 동일한 위치의 성분끼리 연산 값을 계산하기(add, subtract, multiply, divide)
np.multiply(arr1,arr2)

array([[ 9.14253855e-04, -5.34959130e-01, -1.81685851e+00],
       [-1.75073746e+00, -3.61756249e+00,  8.46888384e-01],
       [ 5.58328753e-01, -2.73586049e-01, -9.29597104e-01],
       [ 3.83689879e-01,  8.99632587e-02,  3.38049403e-01],
       [ 1.99497204e-03, -2.20324926e-01,  1.12649065e+00]])

In [91]:
# 두 개의 array에 대해 동일한 위치의 성분끼리 비교하여 
# 최대값 또는 최소값 계산하기(maximum, minimum)
np.maximum(arr1,arr2)

array([[-0.01470732,  0.32278406,  1.60069956],
       [ 0.76291044,  1.36716692,  1.15364723],
       [ 0.75751561,  0.33674707,  2.01365416],
       [ 1.35747454,  0.35090652, -0.43804893],
       [ 0.06670231,  0.16814247,  1.69413214]])

### 통계함수

In [92]:
arr1

array([[-0.06216319, -1.6573282 , -1.1350403 ],
       [-2.29481387,  1.36716692,  0.73409649],
       [ 0.75751561,  0.33674707, -0.46164685],
       [ 1.35747454,  0.25637386, -0.77171608],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [93]:
# 전체 성분의 합을 계산
np.sum(arr1)

0.3188492095917379

In [94]:
# 열 간의 합을 계산
np.sum(arr1, axis=1)

array([-2.85453169, -0.19355045,  0.63261583,  0.84213232,  1.8921832 ])

In [95]:
# 행 간의 합을 계산
np.sum(arr1, axis=0)

array([-0.21207831,  0.47110212,  0.0598254 ])

In [96]:
# 전체 성분의 평균을 계산
np.mean(arr1)

0.021256613972782525

In [97]:
# 행 간의 평균을 계산
np.mean(arr1, axis=0)

array([-0.04241566,  0.09422042,  0.01196508])

In [98]:
# 전체 성분의 표준편차, 분산, 최소값, 최대값 계산(std, var, min, max)
np.std(arr1)

1.0957481579635404

In [99]:
np.min(arr1, axis=1)

array([-1.6573282 , -2.29481387, -0.46164685, -0.77171608,  0.02990859])

In [100]:
# 전체 성분의 최소값, 최대값이 위치한 인덱스를 반환(argmin, argmax)
np.argmin(arr1)

3

In [101]:
np.argmax(arr1,axis=0)

array([3, 1, 4], dtype=int64)

In [102]:
# 맨 처음 성분부터 각 성분까지의 누적합 또는 누적곱을 계산(cumsum, cumprod)
np.cumsum(arr1)

array([-0.06216319, -1.71949138, -2.85453169, -5.14934555, -3.78217863,
       -3.04808213, -2.29056652, -1.95381945, -2.4154663 , -1.05799177,
       -0.80161791, -1.57333399, -1.54342539, -1.37528293,  0.31884921])

In [103]:
np.cumsum(arr1,axis=1)

array([[-0.06216319, -1.71949138, -2.85453169],
       [-2.29481387, -0.92764694, -0.19355045],
       [ 0.75751561,  1.09426268,  0.63261583],
       [ 1.35747454,  1.61384839,  0.84213232],
       [ 0.02990859,  0.19805106,  1.8921832 ]])

In [104]:
np.cumprod(arr1)

array([-6.21631851e-02,  1.03024800e-01, -1.16937300e-01,  2.68349337e-01,
        3.66878337e-01,  2.69324101e-01,  2.04017211e-01,  6.87021980e-02,
       -3.17161534e-02, -4.30538706e-02, -1.10378869e-02,  8.51811477e-03,
        2.54764821e-04,  4.28367851e-05,  7.25711743e-05])

In [105]:
arr1

array([[-0.06216319, -1.6573282 , -1.1350403 ],
       [-2.29481387,  1.36716692,  0.73409649],
       [ 0.75751561,  0.33674707, -0.46164685],
       [ 1.35747454,  0.25637386, -0.77171608],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [106]:
# 전체 성분에 대해서 오름차순으로 정렬
np.sort(arr1)

array([[-1.6573282 , -1.1350403 , -0.06216319],
       [-2.29481387,  0.73409649,  1.36716692],
       [-0.46164685,  0.33674707,  0.75751561],
       [-0.77171608,  0.25637386,  1.35747454],
       [ 0.02990859,  0.16814247,  1.69413214]])

In [108]:
# 전체 성분에 대해서 내림차순으로 정렬
np.sort(arr1)[::-1]

array([[ 0.02990859,  0.16814247,  1.69413214],
       [-0.77171608,  0.25637386,  1.35747454],
       [-0.46164685,  0.33674707,  0.75751561],
       [-2.29481387,  0.73409649,  1.36716692],
       [-1.6573282 , -1.1350403 , -0.06216319]])

In [109]:
# 행 방향으로 오름차순으로 정렬
np.sort(arr1,axis=0)

array([[-2.29481387, -1.6573282 , -1.1350403 ],
       [-0.06216319,  0.16814247, -0.77171608],
       [ 0.02990859,  0.25637386, -0.46164685],
       [ 0.75751561,  0.33674707,  0.73409649],
       [ 1.35747454,  1.36716692,  1.69413214]])