# NumPy Basics

1. Review를 위한 단계
- 방식 : chapter04 장을 보면서 이해하고 주석 달기
- 제출 방식 : 강사가 제시한 폴더에 파일명 수정해서 제출하
- 파일명 : **step05_bookReview임동원.ipynb**

In [2]:
import numpy as np

## The NumPy ndarray: A Multidimensional Array Object

In [3]:
# random의 randn 함수를 사용해서 실수형 2행 3열의 데이터를 생성한다.
data = np.random.randn(2, 3)
data

array([[ 0.01186412, -0.6400366 ,  0.83312796],
       [-0.85825854,  0.7638333 , -0.98965162]])

In [4]:
data * 10 # 만든 data에 10을 곱한다.
data + data # 만든 data와 data를 더한다.

array([[ 0.02372824, -1.2800732 ,  1.66625592],
       [-1.71651708,  1.5276666 , -1.97930323]])

In [5]:
data.shape # data의 구조를 보여준다.
data.dtype # data의 타입을 보여준다.

dtype('float64')

### Creating ndarrays

In [6]:
# 만든 리스트데이터를 numpy형으로 넣는다.
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1) 
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [7]:
# 2차원, 즉 2행 4열의 데이터를 생성한다
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [10]:
# ndim - 차원을 보여준다
# shape - 구조를 보여준다
arr2.ndim
arr2.shape

(2, 4)

In [11]:
# numpy형 arr1, arr2 의 타입을 보여준다
arr1.dtype
arr2.dtype

dtype('int32')

In [12]:
# 0으로 10개의 데이터를 채운다
np.zeros(10)
# 0으로 3행 6열의 데이터를 채운다
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [13]:
# arange는 수열처럼 0부터 14까지의 데이터를 채운다
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### Data Types for ndarrays

In [14]:
# 배열을 생성한다. 1,2,3의 데이터를 넣고 타입을 지정해준다
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

dtype('int32')

In [15]:
# numpy형 배열을 생성한다
arr = np.array([1, 2, 3, 4, 5])
arr.dtype
# 정수형 데이터의 타입을 바꾼다 astype()
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [16]:
# 실수형 데이터의 배열을 astype을 써서 정수형32bit로 바꾼다
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [19]:
# 정수형 0~9 까지의 데이터 배열 생성
int_array = np.arange(10)
# 데이터값을 실수형으로 주고 타입 지정
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
# 정수형타입을 실수형타입인 calibers.dtype 변수로다가 반환
print(int_array.astype(calibers.dtype))

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


### Arithmetic with NumPy Arrays

In [21]:
# 배열들의 연산이 가능, 
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)
print(arr * arr)
print(arr - arr)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [23]:
# 브로드캐스팅이 가능. 숫자와 배열과의 연산이 가능하다.
print(1 / arr)
arr ** 0.5

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]


array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [25]:
# 비교연산도 가능, 각각의 데이터값을 비교
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### Basic Indexing and Slicing

In [38]:
# 데이터의 슬라이싱과 값을 직접 부여가능하다
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])
arr[5:8] = 12
print(arr)

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]


In [39]:
# 데이터를 잘라 arr_slice 변수에 넣는다
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [40]:
# 값 대입도 가능
arr_slice[1] = 12345
print(arr_slice)
print(arr)

[   12 12345    12]
[    0     1     2     3     4    12 12345    12     8     9]


In [41]:
# 잘라낸 데이터 전체에 64 대입, 원본 반영됨
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [43]:
# 3행 3열의 데이터를 생성 후 3열의 데이터를 본다
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [46]:
# 1행 3열의 데이터를 본다
print(arr2d[0][2])
print(arr2d[0, 2])

3
3


In [49]:
# 3치원의 데이터를 생성한다.
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d)
print(arr3d.ndim, "차원")

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
3 차원


In [51]:
# 가장 바깥쪽에있는 리스트에 1번째, arr3d[1][1][2] 짜리 배열
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [57]:
# old_values에 0번째를 카피해서 넣는다
old_values = arr3d[0].copy()
# 그리고 42로 모든 데이터를 초기화 해준 후 출력
arr3d[0] = 42
print(arr3d)
# 다시 원래의 데이터로 복귀시켜줌
arr3d[0] = old_values


[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]


In [58]:
print(arr3d)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [59]:
# 데이터의 2번째리스트의 첫번째 행 출력
arr3d[1, 0]

array([7, 8, 9])

In [60]:
# 데이터의 2번째 리스트를 x 변수에 대입
x = arr3d[1]
x
# 2번째 리스트의 첫번째 행 출력
x[0]

array([7, 8, 9])

#### Indexing with slices

In [62]:
# arr 안에 있는 데이터를 1~5번까지 자른다
arr
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [63]:
# arr2d 데이터를 첫번째열, 2번째까지 자른다
arr2d
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:
# 뒤에서 2행2열을 나눈다
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [68]:
# 3행 3열에서 2행의 0부터 2까지 데이터를 뽑는다
print(arr2d)
arr2d[1, :2]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([4, 5])

In [69]:
# 1,2행의 세번째 데이터를 뽑는다
arr2d[:2, 2]

array([3, 6])

In [72]:
# 전체의 행에서 첫번째의 열의 데이터만 뽑는다
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [74]:
# 1,2행의 1번째부터의 데이터에 0을 대입한다
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### Boolean Indexing

In [77]:
# names에는 이름, data에는 랜덤값 7행 4열을 준다
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(names)
print(data)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
[[ 0.85091481 -0.41132383  1.10490576 -0.05501331]
 [ 1.34676526 -1.38572268  0.12619049 -0.12650067]
 [-0.15681915  1.27435567  0.17905117  0.34788655]
 [-0.16063604  0.28351607  0.14639909 -1.23376992]
 [-0.547204    0.39233392 -0.26020557  1.36626597]
 [ 2.09258999  0.63778092 -1.27894853 -2.31791328]
 [-0.98193486  0.29616022  0.43729372  0.67749267]]


In [79]:
# 비교 연산으로 names 에 'Bob'이 있는지 확인한다
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [80]:
# data 안에 Bob이 있는지 확인
data[names == 'Bob']

array([[ 0.85091481, -0.41132383,  1.10490576, -0.05501331],
       [-0.16063604,  0.28351607,  0.14639909, -1.23376992]])

In [81]:
data[names == 'Bob', 2:]
data[names == 'Bob', 3]

array([-0.05501331, -1.23376992])

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

In [None]:
data[data < 0] = 0
data

In [None]:
data[names != 'Joe'] = 7
data

### Transposing Arrays and Swapping Axes

In [None]:
arr = np.arange(15).reshape((3, 5))
arr
arr.T

In [None]:
arr = np.random.randn(6, 3)
arr
np.dot(arr.T, arr)

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
arr
arr.transpose((1, 0, 2))

In [None]:
arr
arr.swapaxes(1, 2)

## Universal Functions: Fast Element-Wise Array Functions

In [None]:
arr = np.arange(10)
arr
np.sqrt(arr)

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y)

In [None]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

In [None]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

### Expressing Conditional Logic as Array Operations

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

In [None]:
result = np.where(cond, xarr, yarr)
result

In [None]:
arr = np.random.randn(4, 4)
arr
arr > 0
np.where(arr > 0, 2, -2)

In [None]:
np.where(arr > 0, 2, arr) # set only positive values to 2

### Mathematical and Statistical Methods

In [None]:
arr = np.random.randn(5, 4)
arr
arr.mean()
np.mean(arr)
arr.sum()

In [None]:
arr.mean(axis=1)
arr.sum(axis=0)

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

### Methods for Boolean Arrays

In [None]:
arr = np.random.randn(100)
(arr > 0).sum() # Number of positive values

In [None]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

### Sorting

In [None]:
arr = np.random.randn(6)
arr
arr.sort()
arr

In [None]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

In [None]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile