# NumPy Basics

### 1. Review를 위한 단계
- 방식 : 기존 실습 자료 및 검색을 하면서 이해하고 주석 달기
- 파일명 : **step03_Review이름.ipynb** 제출

In [3]:
# 넘파이 임포트하기
import numpy as np

## The NumPy ndarray: A Multidimensional Array Object

In [4]:
#랜덤한 숫자를 가진 2행 3열의 ndarray 만들기
data = np.random.randn(2, 3)
data

array([[ 0.87661519, -1.73638768,  0.38718761],
       [-0.92852165,  0.19680584, -0.04287564]])

In [5]:
# 10을 곱하면 각 요소에 10을 곱하게 됨
data * 10
# 행렬의 곱셈
data + data

array([[ 1.75323038, -3.47277537,  0.77437523],
       [-1.85704331,  0.39361168, -0.08575129]])

In [6]:
# 데이터의 모양, 즉 두개 의 디메션일때는 행렬 처럼 이해하면 되고, 3개, 4개 등등 더 될 수 있다. 깊이와 크기로 이해하면 좋다. 
data.shape
# 해당 데이터 요소의 타입
data.dtype

(2, 3)

### Creating ndarrays

In [18]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
# 기존의 데이터, list 타입을 가지고 넘파이 어레이를 만들어주고
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [19]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
# 마찬가지로 다중 깊이가 있는 리스트도 변환 가능
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [20]:
# 데이터의 깊이, 즉 디멘션이 얼마나 되는지 확인
arr2.ndim
# 다시 모양 확인. 이 길이가 곧 데이터 깊이이고, 각 크기를 말한다. 모두를 곱한게 총 데이터 요소 개수
arr2.shape

(2, 4)

In [21]:
arr1.dtype
arr2.dtype # 타입 확인

dtype('int32')

In [22]:
np.zeros(10)
np.zeros((3, 6)) # 0으로 채우기, 근데 기본은 float

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [10]:
np.arange(15) # 순차적인 15 길이의 어레이 생성

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### Data Types for ndarrays

In [11]:
arr1 = np.array([1, 2, 3], dtype=np.float64) # 어레이를 생성할 때 타입 지정도 가능
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

dtype('int32')

In [12]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype
float_arr = arr.astype(np.float64) # 타입 추후 변경도 가능
float_arr.dtype

dtype('float64')

In [13]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr
arr.astype(np.int32) # 순수 문법에서 int(13,1) 하는 거 같이 잘 버림 됨

array([ 3, -1, -2,  0, 12, 10])

In [26]:
int_array = np.arange(6, dtype='int')
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
# int_array.astype(calibers.dtype)  # 타입 변경
int_array + calibers

array([0.22 , 1.27 , 2.357, 3.38 , 4.44 , 5.5  ])

### Arithmetic with NumPy Arrays

In [28]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr
arr * arr
arr - arr # 더하기 빼기 각 요소별로

array([[0., 0., 0.],
       [0., 0., 0.]])

In [29]:
1 / arr # 알아서 개별 연산함 
arr ** 0.5 # 마찬가지로 개별 연산함

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [30]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2
arr2 > arr # 요소별로도 비교 해줌

array([[False,  True, False],
       [ True, False,  True]])

### Basic Indexing and Slicing

In [18]:
arr = np.arange(10)
arr
arr[5]
arr[5:8]
arr[5:8] = 12 # 슬라이싱을 해서 적용 가능
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [19]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [20]:
arr_slice[1] = 12345 # 슬라이싱 해놓은 객체는 오라클의 뷰와 같이 원본에 영향을 줌
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [21]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [22]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2] # 2차원 배열에서 하나 고른건 당연히 1차원 배열

array([7, 8, 9])

In [23]:
arr2d[0][2]
arr2d[0, 2] # json 고르듯이 해도 되고, 쉼표로 표기해도 됨

3

In [24]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) # 3차원 배열
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [25]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [26]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [27]:
arr3d[1, 0] # 2차원 배열에서 두번 고르면 1차원 배열이 나옵니다

array([7, 8, 9])

In [28]:
x = arr3d[1]
x
x[0]

array([7, 8, 9])

#### Indexing with slices

In [29]:
arr
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [30]:
arr2d
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [31]:
arr2d[:2, 1:] #다중으로 다중 슬라이싱 가능

array([[2, 3],
       [5, 6]])

In [32]:
arr2d[1, :2]

array([4, 5])

In [33]:
arr2d[:2, 2]

array([3, 6])

In [34]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [35]:
arr2d[:2, 1:] = 0 # 슬라이스해서 적용
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### Boolean Indexing

In [32]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names
data

array([[-0.92106433, -1.21595496,  0.74913095,  1.00587475],
       [-0.4366508 ,  0.25452468, -0.62852277,  1.14975644],
       [ 0.3192361 , -0.43143255,  0.6905055 ,  2.42866296],
       [ 0.77463069, -0.20773081, -2.51560056,  0.20442741],
       [-3.11506263,  1.09386584, -0.67000373,  0.56713372],
       [-0.76862025,  0.75187774, -1.58097517, -0.74825092],
       [-1.48231706,  0.35525531, -0.50465713,  0.57935897]])

In [33]:
names == 'Bob' # 각각 확인

array([ True, False, False,  True, False, False, False])

In [34]:
data[names == 'Bob']  #  두개의 어레이를 이용해서 데이터 조작의 기준으로 활용
# data[0], data[3] 만 걸러져서 그 두개만 합한 데이터가 나옴

array([[-0.92106433, -1.21595496,  0.74913095,  1.00587475],
       [ 0.77463069, -0.20773081, -2.51560056,  0.20442741]])

In [35]:
data[names == 'Bob', 2:]
data[names == 'Bob', 3]

array([1.00587475, 0.20442741])

In [37]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

array([[-0.92106433, -1.21595496,  0.74913095,  1.00587475],
       [ 0.3192361 , -0.43143255,  0.6905055 ,  2.42866296],
       [ 0.77463069, -0.20773081, -2.51560056,  0.20442741],
       [-3.11506263,  1.09386584, -0.67000373,  0.56713372]])

In [41]:
data[data < 0] = 0 # data 를 직접 자신의 데이터를 기준으로 조작
data

array([[0.32008705, 1.40266574, 0.        , 0.        ],
       [0.        , 0.        , 1.29904493, 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.03501913, 0.33884394, 0.        , 1.16509749],
       [0.        , 0.46981864, 0.        , 0.        ],
       [0.24207895, 0.17520639, 0.        , 0.55309563],
       [0.        , 1.74751709, 0.        , 0.57378902]])

In [42]:
data[names != 'Joe'] = 7 # 마찬가지로 데이터 조작 기준으로 활용
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 1.29904493, 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.24207895, 0.17520639, 0.        , 0.55309563],
       [0.        , 1.74751709, 0.        , 0.57378902]])

### Transposing Arrays and Swapping Axes

In [43]:
arr = np.arange(15).reshape((3, 5))  #  같은 데이터 개수의 다른 shape로 변경 
arr
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [60]:
arr = np.random.randn(6, 3)
arr

array([[ 1.48773453, -0.30586316, -1.21536597],
       [-1.25990188,  0.35834083, -0.59645392],
       [ 0.7450372 , -0.37308941, -0.74233427],
       [-0.70118523, -0.24414757,  0.71413571],
       [-0.4078487 , -1.92618748, -1.36076386],
       [ 0.14454598, -0.56306527, -1.06950435]])

In [61]:
np.dot(arr.T, arr) # 행렬의 곱을 수행한다.

array([[ 5.03468203, -0.30908605, -1.71008334],
       [-0.30908605,  4.44800486,  3.48389151],
       [-1.71008334,  3.48389151,  5.88943954]])

In [65]:
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [76]:
print(arr.shape)
print(arr.transpose((1, 0, 2)).shape)
arr.transpose((1, 0, 2))

(2, 2, 4)
(2, 2, 4)


array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [78]:
print(arr.transpose((2, 1, 0)).shape)  # shape에서 표시되는 각 깊이별 데이터와 축을 스왑한다.
arr.transpose((2, 1, 0))

(4, 2, 2)


array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

In [79]:
arr.swapaxes(1, 2)  # 말 그대로 축을 스왑한다

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [81]:
arr.swapaxes(0, 2)  # 0 과 2 사이의 축을 교환한다.

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

In [44]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

## Universal Functions: Fast Element-Wise Array Functions

In [82]:
arr = np.arange(10)
arr
np.sqrt(arr) # 각 요소별 루트 해준다

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [48]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y)  #  같은 모양의 두 데이터 배열의 요소별 비교 가능

array([0.03276973, 0.8802721 , 1.78570476, 0.11646581, 1.47263743,
       0.16359109, 1.00700218, 0.81061659])

In [89]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr) #소수부분과 정수부분 분리 후 왼쪽에 소수, 오른쪽에 정수부분
print(remainder)
whole_part

[ 0.42451002 -0.68708035  0.95703922  0.64496744 -0.61343363  0.28609669
  0.08097977]


array([ 8., -4.,  1.,  0., -3.,  2.,  3.])

In [90]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

  np.sqrt(arr, arr)


array([2.90250065,        nan, 1.39894218, 0.80309865,        nan,
       1.51198435, 1.75527199])

### Expressing Conditional Logic as Array Operations

In [51]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [52]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)] # 삼항식 같이 true 웬족 false 오른쪽 zip에서는 조건이 오른쪽
result

[1.1, 2.2, 1.3, 1.4, 2.5]

In [53]:
result = np.where(cond, xarr, yarr) # 삼항식 같이 true 웬족 false 오른쪽 where에서는 조건이 왼쪽
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

In [54]:
arr = np.random.randn(4, 4)
arr
arr > 0
np.where(arr > 0, 2, -2)

array([[-2, -2, -2,  2],
       [ 2, -2, -2,  2],
       [-2, -2,  2,  2],
       [ 2,  2, -2, -2]])

In [55]:
np.where(arr > 0, 2, arr) # set only positive values to 2

array([[-2.09512395, -1.20453221, -0.13129129,  2.        ],
       [ 2.        , -0.78248382, -0.28886777,  2.        ],
       [-2.40799681, -1.5792456 ,  2.        ,  2.        ],
       [ 2.        ,  2.        , -0.27673552, -1.08053033]])

### Mathematical and Statistical Methods

In [56]:
arr = np.random.randn(5, 4)
arr
arr.mean()
np.mean(arr)
arr.sum()

-1.09967470479056

In [57]:
arr.mean(axis=1) # 평균
arr.sum(axis=0) # 합계

array([ 1.10011426,  1.42735532, -0.52109798, -3.1060463 ])

In [58]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum() # reduce 에서 더하기 하는 것 처럼 앞에서부터 쭉 더한 값

array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)

In [59]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

### Methods for Boolean Arrays

In [92]:
arr = np.random.randn(100)
(arr > 0).sum() # 조건합계

43

In [95]:
bools = np.array([False, False, True, False])
bools.any() # 하나라도 트루면 오케이
bools.all() # 하나라도 false면 false

False

### Sorting

In [62]:
arr = np.random.randn(6)
arr
arr.sort() # 우리가 아는 그 sort
arr

array([-1.33109173, -0.39137791, -0.34793683,  1.00799048,  1.20393536,
        2.31480942])

In [63]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

array([[-0.21905217,  0.1605642 ,  1.24262893],
       [-0.38805752,  0.2352362 ,  0.79529249],
       [-0.94551898, -0.85719057,  0.19420061],
       [-0.38949586, -0.26799127,  0.61654753],
       [-1.68077664,  0.59904963,  0.69171486]])

In [64]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

-1.6957239308256462