# Ch.04 Numpy

### 중요기능
- ndarray(다차원 배열): 빠르고 메모리를 효율적으로 사용
- 수학 함수: 전체 데이터 배열에 대해 빠른 연산을 제공
- 선형 대수, 난수 발생기, 푸리에 변환
- C, C++, 포트란 등 다른 언어로 쓰여진 코드를 통합하는 도구

# 04.01 Numpy ndarray: 다차원 배열 객체

In [1]:
import numpy as np

In [2]:
data = np.random.randn(3,3)
data

array([[ 1.12452452, -0.64006575,  0.08282937],
       [-0.02823716, -0.31398863,  0.59268475],
       [ 1.85741624,  1.35715138, -0.02769731]])

## 객체 살펴보기
- NParray객체.dtype : 요소값의 type
- NParray객체.astype(type 종류) : ()안의 type으로 변경
- NParray객체.ndim : 차원의 수 반환
- NParray객체.shape : 몇 by 몇인지 반환

In [3]:
data.dtype

dtype('float64')

In [4]:
data.astype(int)

array([[1, 0, 0],
       [0, 0, 0],
       [1, 1, 0]])

In [5]:
# if you assign the data type deliberately, the outcome will be changed to totally different numbers
# 데이터 타입을 assigning 으로 변경하면 값이 이상해진다.

data1 = np.array([.1, .4, .8, .2])
data1.dtype = int
data1

array([-1717986918,  1069128089, -1717986918,  1071225241, -1717986918,
        1072273817, -1717986918,  1070176665])

In [6]:
#number of dimension
data.ndim

2

In [7]:
#shape
print(data.shape) # results in tuple 행과 열을 튜플로 반환
print(data.shape[0]) # number of rows 행의 수
print(data.shape[1]) # number of columns 열의 수

(3, 3)
3
3


## 간단한 연산
numpy array의 연산: 각 요소별로 연산이 적용된다. (vector 연산)

주의 사항
- 곱셈(*) : 각 요소별 곱셈(matrix 곱셈 아님)
- np.dot(a,b) : 배열 a,b의 matrix 곱셈

In [8]:
data2 = np.random.randint(0,10, (3,3))
data2

array([[4, 0, 4],
       [0, 8, 6],
       [5, 9, 0]])

In [9]:
data2*10

array([[40,  0, 40],
       [ 0, 80, 60],
       [50, 90,  0]])

In [10]:
data2+data2

array([[ 8,  0,  8],
       [ 0, 16, 12],
       [10, 18,  0]])

In [11]:
#data1 squared
#각 요소들에 대한 제곱
data2**2

array([[16,  0, 16],
       [ 0, 64, 36],
       [25, 81,  0]], dtype=int32)

In [12]:
#equals to data1**2
#not a matrix multiplication
#data1**2과 같다
#행렬의 곱하기 연산 아님
data2*data2

array([[16,  0, 16],
       [ 0, 64, 36],
       [25, 81,  0]])

In [13]:
#matrix multiplication
#행렬의 곱하기
np.dot(data2, data2)

array([[ 36,  36,  16],
       [ 30, 118,  48],
       [ 20,  72,  74]])

# 04.01.01 ndarray 생성
- np.array(iterable 객체)
- np.arange(start num, end num, term)
- np.zeros((shape)) : 튜플 값에 해당하는 형태로 모든 요소값이 0인 array
- np.ones((shape)): 튜플 값에 해당하는 형태로 모든 요소값이 1인 array
- np.empty(shape, dtype=float, order='C') : Return a new array of given shape and type, without initializing entries.

## array 형태 변환
array이름.reshape(원하는 형태)

형태에서 해당 차원의 길이를 모르는 경우 -1로 지정

In [14]:
np.zeros((3,4,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [15]:
np.ones((2,3,5))

array([[[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]]])

In [16]:
[i for i in range(4)]

[0, 1, 2, 3]

In [17]:
data3 = [[i for i in range(0,4)],
         [i for i in range(5,9)],
         [i for i in range(11, 15)]]
data3

[[0, 1, 2, 3], [5, 6, 7, 8], [11, 12, 13, 14]]

In [18]:
arr1 = np.array(data3)
arr1

array([[ 0,  1,  2,  3],
       [ 5,  6,  7,  8],
       [11, 12, 13, 14]])

In [19]:
arr1.dtype

dtype('int32')

In [20]:
data4 = [[i/2 for i in range(0,4)],
        [i/2 for i in range(5,9)]]
data4

[[0.0, 0.5, 1.0, 1.5], [2.5, 3.0, 3.5, 4.0]]

In [21]:
arr2 = np.array(data4)
arr2

array([[0. , 0.5, 1. , 1.5],
       [2.5, 3. , 3.5, 4. ]])

In [22]:
arr2.dtype

dtype('float64')

In [23]:
#np.arange
np.arange(0,24,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22])

In [24]:
np.arange(0,24,2).reshape(2,2,3)

array([[[ 0,  2,  4],
        [ 6,  8, 10]],

       [[12, 14, 16],
        [18, 20, 22]]])

In [25]:
#what -1 means for? : automatically will be set according to the other number of array
#reshape에서 -1의 역할: 다른 차원의 수에 맞춰서 알아서 조정되도록
np.arange(0,24,2).reshape(-1,4)

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22]])

In [26]:
np.arange(0,24,2).reshape(-1,2,3)

array([[[ 0,  2,  4],
        [ 6,  8, 10]],

       [[12, 14, 16],
        [18, 20, 22]]])

In [27]:
np.arange(0,24,2).reshape(2,-1,3)

array([[[ 0,  2,  4],
        [ 6,  8, 10]],

       [[12, 14, 16],
        [18, 20, 22]]])

In [28]:
#using dtype, you can set the type
#dtype을 이용해 자료형을 선언할 수 있다.

np.arange(0,4, dtype=float)

array([0., 1., 2., 3.])

In [29]:
arr2

array([[0. , 0.5, 1. , 1.5],
       [2.5, 3. , 3.5, 4. ]])

In [30]:
arr2.astype(int)
arr2

array([[0. , 0.5, 1. , 1.5],
       [2.5, 3. , 3.5, 4. ]])

In [40]:
#need to reassign in order to save astype
#numbers are replaced after round down
#내림되어서 저장된다.
arr2 = arr2.astype(int)
arr2

array([[0, 0, 1, 1],
       [2, 3, 3, 4]])

In [31]:
z = np.zeros((3,4))
z

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [32]:
z.dtype

dtype('float64')

In [33]:
z_int = z.astype(int)
z_int

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [34]:
z_int.dtype

dtype('int32')

In [41]:
arr3 = np.array([np.arange(3), np.arange(3,0,-1)])
arr3

array([[0, 1, 2],
       [3, 2, 1]])

In [42]:
np.empty(10).reshape(2,5)

array([[6.23042070e-307, 1.89146896e-307, 1.37961302e-306,
        6.23053614e-307, 6.23053954e-307],
       [1.78020169e-306, 1.78021527e-306, 1.33512376e-306,
        8.34451079e-308, 3.91792476e-317]])

In [43]:
np.empty(5)

array([0.00e+000, 0.00e+000, 0.00e+000, 5.77e-321, 0.00e+000])

## 항등행렬/단위행렬(Identity matrix) 생성

항등행렬/단위행렬이란?:

선형대수학에서, 단위 행렬(영어: identity matrix)은 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬이다.

- np.identity(행의 수)
- np.eye(행의 수)

In [45]:
#diagonal ndarray
#대각선 array

def l(num):
    lmatrix = np.zeros((num,num))
    for i in range(0, num):
        lmatrix[i][i] = 1
    return lmatrix

lmtrx = l(4)
lmtrx

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [49]:
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [48]:
np.eye(4,4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [50]:
np.eye(4,8)

array([[1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.]])

# 04.01.04 색인과 슬라이싱 기초

리스트와 비슷하게 동작한다

In [55]:
arr4 = np.arange(10)
arr4

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
arr4[5]

5

In [58]:
arr4[5:8]

array([5, 6, 7])

In [59]:
arr4[5:8] =12
arr4

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

## 뷰(View) : 배열 조각은 원본 데이터에 반영된다.
- 복사본이 아니고 그 객체에서 참조하는 형식이다.

즉, 슬라이싱이나 인덱싱으로 저장한 객체 값이 변경되면 원래 array의 값도 변경된다.

In [60]:
arr4_slice = arr4[5:8]
arr4_slice

array([12, 12, 12])

In [61]:
arr4_slice[1] = 12345
arr4

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

원본 데이터를 변경하지 않는 다른 복사본 객체가 필요한 경우

`객체.copy()` 를 사용한다.

In [62]:
arr4_copy = arr4.copy()
arr4_copy

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [63]:
arr4_copy[:] = 1
arr4_copy

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [64]:
arr4 #원본 객체 값은 변하지 않는다.

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [65]:
arr4 is arr4_copy

False

## 다차원 배열

In [66]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [67]:
arr2d[2]

array([7, 8, 9])

In [68]:
arr2d[0][2]

3

In [69]:
arr2d[0,2]

3

In [71]:
arr2d[0:][2]

array([7, 8, 9])

In [73]:
arr2d[:][2][1]

8

In [72]:
arr2d[0:,2]

array([3, 6, 9])

In [74]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [75]:
arr3d.shape

(2, 2, 3)

In [76]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [77]:
old_values = arr3d[0].copy()

In [78]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [79]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

## 슬라이스 색인

In [80]:
arr4

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [81]:
arr4[1:6]

array([ 1,  2,  3,  4, 12])

In [83]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [82]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [86]:
arr2d[:2, :1]

array([[1],
       [4]])

In [87]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [88]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

# 04.01.05 Boolean 색인
데이터에서 조건에 맞는 subset을 추출할 때 사용

In [100]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
names_data = np.random.randint(0,10,(7,4))

In [94]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [101]:
names_data

array([[5, 4, 7, 6],
       [0, 3, 5, 8],
       [0, 5, 0, 9],
       [0, 2, 0, 7],
       [2, 3, 9, 4],
       [6, 7, 0, 6],
       [2, 5, 9, 5]])

In [102]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [103]:
#Data에 마스킹 씌울 수 있다. : 기본값은 행에 마스킹을 씌운다
names_data[names == 'Bob']

array([[5, 4, 7, 6],
       [0, 2, 0, 7]])

In [104]:
names_data[names == 'Bob', :2]

array([[5, 4],
       [0, 2]])

In [106]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [107]:
~(names == 'Bob')

array([False,  True,  True, False,  True,  True,  True])

In [108]:
names_data[~(names == 'Bob')]

array([[0, 3, 5, 8],
       [0, 5, 0, 9],
       [2, 3, 9, 4],
       [6, 7, 0, 6],
       [2, 5, 9, 5]])

In [109]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [110]:
names_data[mask]

array([[5, 4, 7, 6],
       [0, 5, 0, 9],
       [0, 2, 0, 7],
       [2, 3, 9, 4]])

In [114]:
names_data[(3 < names_data) | (names_data < 5)]

array([5, 4, 7, 6, 0, 3, 5, 8, 0, 5, 0, 9, 0, 2, 0, 7, 2, 3, 9, 4, 6, 7,
       0, 6, 2, 5, 9, 5])

In [116]:
names_data < 5

array([[False,  True, False, False],
       [ True,  True, False, False],
       [ True, False,  True, False],
       [ True,  True,  True, False],
       [ True,  True, False,  True],
       [False, False,  True, False],
       [ True, False, False, False]])

In [117]:
names_data[names_data < 5] = -1
names_data

array([[ 5, -1,  7,  6],
       [-1, -1,  5,  8],
       [-1,  5, -1,  9],
       [-1, -1, -1,  7],
       [-1, -1,  9, -1],
       [ 6,  7, -1,  6],
       [-1,  5,  9,  5]])

# 04.01.06 팬시 색인

정수 배열을 사용한 색인, 인덱싱이나 슬라이싱과 유사

In [120]:
arr_empt = np.empty((8,4))
arr_empt

array([[1., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

In [123]:
for i in range(8):
    arr_empt[i] = i
    
arr_empt

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [124]:
#indexing rows in order
## write down indecies in list

#특정 순서로 row 선택
##인덱스가 담긴 리스트를 넘겨주면 된다.
arr_empt[[4,3,7,1]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [7., 7., 7., 7.],
       [1., 1., 1., 1.]])

In [125]:
arr_empt[[-3,-5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [127]:
arr_arange = np.arange(32).reshape(8,-1)
arr_arange

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [128]:
arr_arange[[1,5,7,2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [129]:
arr_arange[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

In [133]:
arr_arange[[1,5,7,2]][:, [0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

# 04.01.07 배열 전치와 축 바꾸기
- array객체.T : 전치 행렬
- array객체.transpose(뒤바꿀 축 튜플)

In [137]:
arr_T = np.arange(15)
arr_T

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [145]:
arr_T = arr_T.reshape(5,-1)
arr_T

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [146]:
arr_T.T

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

In [147]:
np.dot(arr_T, arr_T.T)

array([[  5,  14,  23,  32,  41],
       [ 14,  50,  86, 122, 158],
       [ 23,  86, 149, 212, 275],
       [ 32, 122, 212, 302, 392],
       [ 41, 158, 275, 392, 509]])

In [226]:
aaa = np.arange(8).reshape(2,4)
aaa

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [227]:
aaa.transpose(1,0)

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

In [223]:
arr_trans = np.arange(16).reshape(2,2,4)
arr_trans

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [224]:
arr_trans.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [150]:
arr_trans.transpose((2,1,0))

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

In [153]:
arr_trans.transpose(1,0,2)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [154]:
arr_trans.swapaxes(1,0)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

# 04.02 유니버셜 함수
- 원소별로 연산을 수행
- 하나 이상의 스칼라 값을 받아, 벡터화 되어 고속으로 연산 수행

[Built-in-Functions](https://docs.python.org/3/library/functions.html)

## 단항 유니버셜 함수
  - abs, fabs : 절댓값
  - sqrt : 제곱근
  - square : 제곱
  - exp : 지수
  - log, log10, log2, log1p
  - sign: 부로 계산 1(양수), 0(영), -1(음수)
  - ceil : 소수점 아래 올림
  - floor : 소수점 아래 내림
  - rint : 반올림
  - modf : 소수 부분과 정수 부분 각 배열로 반환
  - isnan : 각 원소가 NA인지 반환
  - isfinit, isinf : 각 원소가 유한한 숫자인지
  - cos, cosh, sin, sinh, tan, tanh : 일반 삼각함수, 쌍곡 삼각 함수
  - arccos, arccosh, arcsin, arcsinh, arctan, arctanh: 역삼각 함수

In [177]:
arr_uni = np.arange(10)
arr_uni

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [178]:
np.sqrt(arr_uni)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [179]:
np.exp(arr_uni)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [180]:
x = np.random.randn(8)
y = np.random.randn(8)

In [181]:
x

array([ 1.52656354,  1.17216351,  0.14107981,  0.67595488, -0.62293112,
       -0.86649439, -0.3015238 ,  1.33617037])

In [182]:
y

array([ 1.31976907,  0.57679297, -0.17700474, -0.53808343,  0.8262254 ,
        0.05406444,  0.48780925, -0.78748311])

In [183]:
# Compare x and y, take the bigger one
# x,y 각 인덱스에 위치한 값을 비교하여 더 큰 값을 가져옴
np.maximum(x,y)

array([1.52656354, 1.17216351, 0.14107981, 0.67595488, 0.8262254 ,
       0.05406444, 0.48780925, 1.33617037])

In [184]:
np.modf(x)

(array([ 0.52656354,  0.17216351,  0.14107981,  0.67595488, -0.62293112,
        -0.86649439, -0.3015238 ,  0.33617037]),
 array([ 1.,  1.,  0.,  0., -0., -0., -0.,  1.]))

In [185]:
arr_float = np.array([[1.5, 4.7, 5.65, 2.2],[8.9, 7.99, 3.12, 6.4]])
arr_float

array([[1.5 , 4.7 , 5.65, 2.2 ],
       [8.9 , 7.99, 3.12, 6.4 ]])

In [186]:
np.modf(arr_float)

(array([[0.5 , 0.7 , 0.65, 0.2 ],
        [0.9 , 0.99, 0.12, 0.4 ]]), array([[1., 4., 5., 2.],
        [8., 7., 3., 6.]]))

# 04.03.01 배열연산으로 조건절 표현하기
- np.where : ""x if 조건 else y""의 벡터화된 버전
- np.where(조건, 참일때 결과, 거짓일때 결과)

In [189]:
A = np.arange(20)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [191]:
np.where(A >= 5, np.where(A > 10, '10보다 큼', '5 이상 10이하'),'5 미만')

array(['5 미만', '5 미만', '5 미만', '5 미만', '5 미만', '5 이상 10이하', '5 이상 10이하',
       '5 이상 10이하', '5 이상 10이하', '5 이상 10이하', '5 이상 10이하', '10보다 큼',
       '10보다 큼', '10보다 큼', '10보다 큼', '10보다 큼', '10보다 큼', '10보다 큼',
       '10보다 큼', '10보다 큼'], dtype='<U9')

In [192]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
condition = np.array([True, False, True, True, False])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

In [194]:
#using list, lambda
#기본 list로 했을 때
result = [(x if c else y) for x, c, y in zip(xarr, condition, yarr)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

In [195]:
# zip(*iterable)
# Make an iterator that aggregates elements from each of the iterables.
# 동일한 개수로 이루어진 자료형을 묶어 주는 역할을 하는 함수이다.
list(zip([1, 2, 3], [4, 5, 6]))

[(1, 4), (2, 5), (3, 6)]

In [196]:
list(zip([1, 2, 3], [4, 5, 6], [7, 8, 9]))

[(1, 4, 7), (2, 5, 8), (3, 6, 9)]

In [197]:
list(zip("abc", "def"))

[('a', 'd'), ('b', 'e'), ('c', 'f')]

In [200]:
#using np.where
result2 = np.where(condition, xarr, yarr)
result2

array([1.1, 2.2, 1.3, 1.4, 2.5])

In [201]:
arr_rand = np.random.randn(4,4)
arr_rand

array([[-0.67943435, -0.97206035,  0.49161767, -1.74358051],
       [-1.96249364,  1.55884263,  1.07695771, -1.42758791],
       [-1.09546212, -0.92677596, -0.82170724, -1.13250614],
       [ 1.27610356,  0.00734373, -1.4989785 , -0.0670626 ]])

In [202]:
np.where(arr_rand > 0 , 2, -2)

array([[-2, -2,  2, -2],
       [-2,  2,  2, -2],
       [-2, -2, -2, -2],
       [ 2,  2, -2, -2]])

In [203]:
np.where(arr_rand > 0, np.where(.5 > arr_rand, 0.5, 1), -1)

array([[-1. , -1. ,  0.5, -1. ],
       [-1. ,  1. ,  1. , -1. ],
       [-1. , -1. , -1. , -1. ],
       [ 1. ,  0.5, -1. , -1. ]])

# 04.03.02 수학 메서드와 통계 메서드
## 통계 메서드

- sum
- mean
- std, var
- min, max
- argmin, argmax : min, max 값의 인덱스
- cumsum : 누적합
- cumprod : 누적곱

In [206]:
arr_int = np.arange(16).reshape(2,2,4)
arr_int

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [207]:
print(arr_int.sum())
print(np.sum(arr_int))

120
120


In [208]:
print(arr_int.mean())
print(np.mean(arr_int))

7.5
7.5


In [209]:
print(arr_int.mean(axis=1))
print(np.mean(arr_int, axis=1))

[[ 2.  3.  4.  5.]
 [10. 11. 12. 13.]]
[[ 2.  3.  4.  5.]
 [10. 11. 12. 13.]]


In [221]:
print(arr_int.mean(axis=2))

[[ 1.5  5.5]
 [ 9.5 13.5]]


In [212]:
arr_int

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [216]:
print(arr_int.shape)
print(arr_int.ndim)

(2, 2, 4)
3


In [213]:
print(arr_int.mean(axis=0))
print(np.mean(arr_int, axis=0))

[[ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
[[ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]


In [230]:
np.argmax(arr_int, axis = 2)

array([[3, 3],
       [3, 3]], dtype=int32)

In [254]:
data_math = np.arange(1,31).reshape(5,6)
data_math

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30]])

In [255]:
data_math.sum(axis=0)
#65 = 1+7+13+19+25

array([65, 70, 75, 80, 85, 90])

In [257]:
data_math.sum(0)
# == data_math.sum(axis=0)

array([65, 70, 75, 80, 85, 90])

In [258]:
data_math.sum(axis=1)
#21 = 1+2+3+4+5+6

array([ 21,  57,  93, 129, 165])

In [259]:
data_math.cumsum(1)

array([[  1,   3,   6,  10,  15,  21],
       [  7,  15,  24,  34,  45,  57],
       [ 13,  27,  42,  58,  75,  93],
       [ 19,  39,  60,  82, 105, 129],
       [ 25,  51,  78, 106, 135, 165]], dtype=int32)

In [260]:
data_math.cumsum(0)

array([[ 1,  2,  3,  4,  5,  6],
       [ 8, 10, 12, 14, 16, 18],
       [21, 24, 27, 30, 33, 36],
       [40, 44, 48, 52, 56, 60],
       [65, 70, 75, 80, 85, 90]], dtype=int32)

In [262]:
data_math.cumprod(0)

array([[     1,      2,      3,      4,      5,      6],
       [     7,     16,     27,     40,     55,     72],
       [    91,    224,    405,    640,    935,   1296],
       [  1729,   4480,   8505,  14080,  21505,  31104],
       [ 43225, 116480, 229635, 394240, 623645, 933120]], dtype=int32)

In [264]:
data_math.min(1)

array([ 1,  7, 13, 19, 25])

# 04.03.02 정렬

In [231]:
arr_sort = np.array([np.random.randint(0,10) for i in range(24)]).reshape(3,4,-1)

In [232]:
arr_sort

array([[[3, 0],
        [9, 8],
        [0, 5],
        [3, 6]],

       [[1, 7],
        [2, 4],
        [6, 4],
        [1, 5]],

       [[8, 5],
        [3, 2],
        [5, 4],
        [7, 5]]])

In [234]:
arr_sort.sort(1)
arr_sort

array([[[0, 0],
        [3, 5],
        [3, 6],
        [9, 8]],

       [[1, 4],
        [1, 4],
        [2, 5],
        [6, 7]],

       [[3, 2],
        [5, 4],
        [7, 5],
        [8, 5]]])

In [236]:
arr_sort.sort(axis=0)
arr_sort

array([[[0, 0],
        [1, 4],
        [2, 5],
        [6, 5]],

       [[1, 2],
        [3, 4],
        [3, 5],
        [8, 7]],

       [[3, 4],
        [5, 5],
        [7, 6],
        [9, 8]]])

In [238]:
arr_sort.sort(0)
arr_sort

array([[[0, 0],
        [1, 4],
        [2, 5],
        [6, 5]],

       [[1, 2],
        [3, 4],
        [3, 5],
        [8, 7]],

       [[3, 4],
        [5, 5],
        [7, 6],
        [9, 8]]])

# 04.03.05 집합 함수
## 배열집합 연산
- np.unique(x)
- np.intersect1d(x,y) : 교집합. 공통적으로 존재하는 원소를 정렬하여 반환
- np.union1d(x,y) : 합집합
- np.in1d(x,y): x 원소 중 y의 원소를 포함하는지 나타내는 Boolean 배열을 반환
- np.setdiff1d(x,y) : 차집합
- np.setxor1d(x,y) : 한 배열에는 포함되지만 두 배열 모두에는 포함되지 않는 집합의 대칭차집합을 반환

In [239]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [240]:
ints = np.array([3,3,3,2,2,1,1,4,4])
ints

array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [241]:
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [242]:
np.unique(ints)

array([1, 2, 3, 4])

In [243]:
values = np.array([6,0,0,3,2,5,6])
values

array([6, 0, 0, 3, 2, 5, 6])

In [245]:
np.in1d(values, [2,3,6])
#Is each element in values is in [2,3,6]? 

array([ True, False, False,  True,  True, False,  True])

In [246]:
ints

array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [249]:
ints2 = np.array([1,2,3,4,5,6])
np.intersect1d(ints, ints2)

array([1, 2, 3, 4])

In [250]:
np.union1d(ints, ints2)

array([1, 2, 3, 4, 5, 6])

In [252]:
np.setdiff1d(ints2, ints)

array([5, 6])

In [253]:
np.setxor1d(ints, ints2)

array([5, 6])

## 데이터 저장

In [265]:
data_math

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30]])

In [267]:
#np.save('C:/python...', data_math)

In [268]:
#np.load('C:/python...')

In [269]:
#np.savetxt('C:/python...', data_math)

## random 표본 추출하기
- np.random.random() : 0~1 사이
- np.random.seed(10) : setting random seed 
- np.random.randint(a,b) : a~b 사이

In [277]:
np.random.seed(10)
np.random.random((1,2))

array([[0.77132064, 0.02075195]])

In [278]:
np.random.seed(10)
np.random.random((1,2))

array([[0.77132064, 0.02075195]])

In [284]:
np.random.randint(1,10,(4,4))

array([[2, 1, 2, 9],
       [1, 9, 7, 5],
       [4, 1, 5, 7],
       [9, 2, 9, 5]])