# # 1월 10일
---

## # Numpy
---
- "Numerical python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수 제공
- Numerical Python을 의미하는 Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 많은 머신러닝 알고리즘이 넘파이 기반으로 작성돼 있으며 알고리즘의 입출력 데이터를 넘파이 배열 타입으로 사용함
- 넘파이의 기본 데이터 타입은 numpy.ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산
$$$$

## # Numpy 특징
---
- 강력한 N차원 배열 객체
- 정교한 브로드캐스팅 기능
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 푸리에 변환은 시간이나 공간에 대한 함수를 시간 또는 공간 주파수 성분으로 분해하는 변환
- 버용적 데이터 처리에 사용 가능한 다차원 컨테이너

In [2]:
!pip install numpy



In [3]:
import numpy as np
z = np.arange(10)
print(z, type(z))

[0 1 2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>


In [6]:
import numpy as np

my_arr = np.arange(1000000)
my_list = list(range(1000000))

%time for _ in range(10): my_array2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 11 ms
Wall time: 716 ms


### # 배열 연산
---

In [5]:
# np.random.randn 가우시안 표준 정규분표에서 난수 매트릭스(행렬) array 생성
import numpy as np

data = np.random.randn(2, 3) # 2행, 3열 표준 정규분포 매트릭스
print(data, '\n')
print(data * 10, '\n')
print(data + data, '\n')
print(data.shape) # 크기
print(data.dtype) # 데이터타입
print(data.ndim) # 차원

[[ 0.07736396  1.09831063  1.6408687 ]
 [-0.88630065 -1.14531427  0.28946557]] 

[[  0.77363963  10.98310626  16.40868702]
 [ -8.86300647 -11.45314269   2.89465572]] 

[[ 0.15472793  2.19662125  3.2817374 ]
 [-1.77260129 -2.29062854  0.57893114]] 

(2, 3)
float64
2


### # 다차원 배열
---

<img src = 'numpy 차원.jpg' STYLE = 'width : 300px;'>

In [78]:
import numpy as np

data2 = [[1, 2, 3, 4], [5, 6, 7 ,8]]
print(type(data2), '\n\n')

arr2 = np.array(data2)
print(arr2, type(arr2), '\n')
print(arr2.ndim, '\n')
print(arr2.shape)

<class 'list'> 


[[1 2 3 4]
 [5 6 7 8]] <class 'numpy.ndarray'> 

2 

(2, 4)


In [16]:
# 1차원 배열로 3개의 데이터

import numpy as np

array1 = np.array([1, 2, 3])
print(array1, type(array1), array1.shape) # ( ,열)이 아닌 (열, ) 형태로 출력

[1 2 3] <class 'numpy.ndarray'> (3,)


In [18]:
# 2차원 배열로 2개의 row와 3개의 column으루 구성된 6개의 데이터

import numpy as np

a = [[7, 7, 7], [7, 7, 7]]
arr2 = np.array(a)
print(arr2, type(arr2), arr2.shape)

[[7 7 7]
 [7 7 7]] <class 'numpy.ndarray'> (2, 3)


In [6]:
# 1개의 row와 3개의 column으로 구성된 2차원 배열

import numpy as np

array1 = np.array([7, 7, 7])
print(array1, array1.shape)

array2_1 = np.array([[7, 7, 7]])
print(array2_1, array2_1.shape)

[7 7 7] (3,)
[[7 7 7]] (1, 3)


In [48]:
# 3차원

import numpy as np

array3 = np.array([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 0]], [[2, 2, 3, 4, 5], [6, 7, 8, 9, 0]], [[3, 2, 3, 4, 5], [6, 7, 8, 9, 0]]])
print(array3, '\n\n', type(array3), array3.shape)

[[[1 2 3 4 5]
  [6 7 8 9 0]]

 [[2 2 3 4 5]
  [6 7 8 9 0]]

 [[3 2 3 4 5]
  [6 7 8 9 0]]] 

 <class 'numpy.ndarray'> (3, 2, 5)


In [8]:
# 경고 메시지 제외 처리

import warnings

warnings.filterwarnings('ignore')

## # 배열 생성 및 초기화
---

- Numpy는 원하는 shape로 배열을 설정하고 각 요소를 특정 값으로 초기화하는 zeros, ones, full, eye 함수 제공
- 파라미터로 입력한 배열과 같은 shape의 배열을 만드는 zeros_like, ones_like, full_like 함수도 제공

In [9]:
import numpy as np

print(np.zeros((10)))
print()
print(np.zeros((3, 6)))
print()
print(np.zeros((2, 3, 2)))
print()
print(np.ones((2, 3, 2)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]

[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]


In [7]:
import numpy as np

a = np.full((2, 2), 5)
print(a)

[[5 5]
 [5 5]]


### # 항등행렬, 단위행렬 - eye
---

In [9]:
import numpy as np

ar2 = np.eye(5)
print(ar2)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### # arange, reshape
---

In [40]:
# arrange 함수 : python의 range함수의 배열 버전
# reshape : 행렬의 배열을 바꿔준다

import numpy as np

arr1 = np.arange(15)
print(arr1, '\n')

arr2 = arr1.reshape(3, 5)
print(arr2, '\n')

arr3 = arr1.reshape(3, 1, 5)
print(arr3)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14] 

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] 

[[[ 0  1  2  3  4]]

 [[ 5  6  7  8  9]]

 [[10 11 12 13 14]]]


In [50]:
# array1을 생성하고 reshape 함수를 이용, (5, 2) 배열을 생성하고 크기를 같이 출력하세요.

import numpy as np

array1 = np.arange(1, 11).reshape(5, 2)

print(array1, '\n\n', array1.shape)

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]] 

 (5, 2)


In [59]:
# 0 ~ 29 일차원 배열을 생선한 후 다시 2, 3차원 배열로 변환하여 출력

import numpy as np

array1 = np.arange(30)
print(array1, '\n')
print(array1.reshape(3, 10), '\n')
print(array1.reshape(2, 3, 5))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29] 

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]]


In [65]:
# reshape(-1, -1) 차원 변경 : 계산 가능한 경우 -1부분을 자동으로 배열

import numpy as np

array1 = np.arange(30)
ar12 = array1.reshape(10, -1)
ar13 = array1.reshape(-1, 2, 5)
print(ar12, ar12.shape, '\n')
print(ar13, ar13.shape, '\n')

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]
 [24 25 26]
 [27 28 29]] (10, 3) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]]] (3, 2, 5) 



In [103]:
import numpy as np

array = np.arange(30).reshape(3, 10)
print(array, '\n')
print(array.reshape(30), array.reshape(-1).shape, '\n')
print(array.reshape(3, 5, -1))


[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] 

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29] (30,) 

[[[ 0  1]
  [ 2  3]
  [ 4  5]
  [ 6  7]
  [ 8  9]]

 [[10 11]
  [12 13]
  [14 15]
  [16 17]
  [18 19]]

 [[20 21]
  [22 23]
  [24 25]
  [26 27]
  [28 29]]]


## # 행렬의 종류
---
- 정방행렬은 행과 열의 수가 같은 행렬
- 대각행렬은 주대각선 원소를 제외한 모든 원소들이 0인 정방행렬
- 항등행렬은 행렬 곱셈 연산에 항등원으로 작용하는 행렬
- 영행렬은 모든 원소가 0인 행렬로 곱셈연산에서 영원으로 작용하는 행렬
- 전치행렬은 주대각선 원소를 기준으로 행과 열을 바꿔주는 행렬
- 직교행렬은 행렬 A의 역행렬이 A의 전치행렬이고 A의 전치행렬과 A행렬을 곱하였을 때 항등행렬이 나오는 행렬

### # 정방행렬
---

In [10]:
import numpy as np

array = np.full((5, 5), 7)
print(array)

[[7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]]


### # 항등행렬, 단위행렬
---

In [11]:
import numpy as np

a = np.eye(5)
print(a)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### # 영행렬
---

In [115]:
import numpy as py

a = np.zeros((5, 5))
print(a)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


ndarray 데이터 형태 지정 및 변경
<img src = '데이터 형태.jpg' style = 'width = 300px;'>

In [156]:
import numpy as np

arr1 = np.array([1, 2, 3], dtype = np.float64)
arr2 = np.array([1, 2, 3], dtype = np.int32)

print(arr1)
print(arr2)

[1. 2. 3.]
[1 2 3]


In [177]:
# 타입 변경

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(arr.dtype, '\n')

float_arr = arr.astype(np.float64)
print(float_arr)
print(float_arr.dtype)

int32 

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
float64


In [178]:
# empty 함수 : shape와 dtype을 입력 받아 초기화되지 않은 배열을 만들어준다
# empty 함수를 실행할 때마다 값이 다른 것을 확인할 수 있다. 이는 해당 메모리 영역에 어떤 데이터가 남아있던지 상관없이 그대로 영역의 주소만 알려줄 뿐 초기화는 사용자에게 맡기기 때문에.

print(np.empty(shape = (10), dtype = np.int8))
print(np.zeros(shape = (10), dtype = np.int8))

[1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0]


In [210]:
# 문자열 타입으로 배열 만들기

import numpy as np

arr = np.array([1, 2, 3, 4], dtype = 'S') # = arr = np.array([1, 2, 3, 4], dtype = np.string_)
print(arr, arr.dtype)

[b'1' b'2' b'3' b'4'] |S1


In [211]:
# int의 기본타입은 int32, float의 기본타입은 float64

import numpy as np

arr = np.array([1, 2, 3, 4], dtype = 'S')
arr2 = arr.astype(int)
print(arr2, arr2.dtype)
arr1 = arr.astype(float)
print(arr1, arr1.dtype)

[1 2 3 4] int32
[1. 2. 3. 4.] float64


In [24]:
# 정수와 실수로 구성된 list_e = [1.2, 2.3, 3]을 numpy를 이용해서 실수형과 정수형으로 각각 출력하세요.

import numpy as np

list_e = [1.2, 2.3, 3]
print(np.array(list_e, dtype = np.int32))
arr = np.array(list_e)
print(arr, arr.dtype, '\n')

arr1 = arr.astype(int)
print(arr1, arr1.dtype)

[1 2 3]
[1.2 2.3 3. ] float64 

[1 2 3] int32


In [235]:
# 배열의 산술 연산
# arr = np.array([[1, 2, 3], [4, 5, 6]])

arr = np.arange(1, 7).reshape(2, 3)
print(arr, arr.dtype)

print()

print(arr * arr, '\n')
print(arr - arr, '\n')

[[1 2 3]
 [4 5 6]] int32

[[ 1  4  9]
 [16 25 36]] 

[[0 0 0]
 [0 0 0]] 



In [239]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.,]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [254]:
# 기본 사칙연산

value1 = np.arange(1, 10).reshape(3, -1)
value2 = np.arange(11, 20).reshape(3, -1)

print(value2 + value1, '\n')
print(np.add(value1, value2), '\n')

print(value2 - value1, '\n')
print(np.subtract(value2, value1), '\n')

print(value2 * value1, '\n')
print(np.multiply(value2, value1), '\n')

print(value2 / value1, '\n')
print(np.divide(value2, value1))

[[12 14 16]
 [18 20 22]
 [24 26 28]] 

[[12 14 16]
 [18 20 22]
 [24 26 28]] 

[[10 10 10]
 [10 10 10]
 [10 10 10]] 

[[10 10 10]
 [10 10 10]
 [10 10 10]] 

[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]] 

[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]] 

[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]] 

[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]]


In [279]:
arr = np.random.randn(2, 3)
arr

array([[ 1.0467235 ,  1.13395612, -1.03501164],
       [-0.54752277,  0.19712192, -1.09794693]])

In [299]:
arr.mean().round(4) # 전체의 평균값

-0.0504

In [285]:
arr.mean(axis = 1) # 각 열의 평균값

array([ 0.38188933, -0.48278259])

In [286]:
arr.mean(axis = 0) # 각 행의 평균값

array([ 0.24960037,  0.66553902, -1.06647928])

In [305]:
arr.cumprod()

array([ 1.0467235 ,  1.18693852, -1.22849518,  0.67262908,  0.13258994,
       -0.14557671])

In [539]:
# 인덱싱, 슬라이싱

arr2d = np.arange(1, 10).reshape(3, -1)

print(arr2d, '\n')

print(arr2d[2], '\n')

print(arr2d[2][2], '\n')

print(arr2d[:, 0], '\n') # = print(arr2d[0:, 0])

print(arr2d[:2, :], '\n') # = print(arr2d[:2, 0:])

print(arr2d[[0, 2], :])

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[7 8 9] 

9 

[1 4 7] 

[[1 2 3]
 [4 5 6]] 

[[1 2 3]
 [7 8 9]]


In [497]:
# arr2d에서 [3, 6], [[1, 2], [4, 5]]를 출력하세요

import numpy as np

arr2d = np.arange(1, 10).reshape(3, -1)

print(arr2d[:2, 2], '\n')
print(arr2d[:2, :2])

[3 6] 

[[1 2]
 [4 5]]


In [551]:
import numpy as np

arr = np.arange(30).reshape(5, 6)
print(arr, '\n')

print(arr[2, 2:5])
print(arr[:2, 3])
print(arr[:3, 1])
print(arr[[0, 1, 2], 1])

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]] 

[14 15 16]
[3 9]
[ 1  7 13]
[ 1  7 13]


In [554]:
# 배열을 리스트로 변환

import numpy as np

arr = np.arange(30).reshape(5, 6)
li = arr.tolist()

print(li, type(li))

[[0, 1, 2, 3, 4, 5], [6, 7, 8, 9, 10, 11], [12, 13, 14, 15, 16, 17], [18, 19, 20, 21, 22, 23], [24, 25, 26, 27, 28, 29]] <class 'list'>


In [12]:
# 불린(boolean) 인덱싱
# 특정 조건에 맞는 것을 True로 인식하여 True인 값만 뽑아준다

import numpy as np

arr1d = np.arange(1, 10)
# arr1d = list(range(1, 10))
print(arr1d)

arr3 = arr1d[arr1d > 5] 
print(arr3)
print(arr1d > 5)

[1 2 3 4 5 6 7 8 9]
[6 7 8 9]
[False False False False False  True  True  True  True]


In [13]:
# arr1d에서 일반 인덱스를 이용해서 [6 7 8 9]를 출력

arr1d = np.arange(1, 10)
print(arr1d[5:])
print(arr1d[arr1d > 5])

[6 7 8 9]
[6 7 8 9]


In [15]:
array_e = np.arange(1, 15)

print(array_e[array_e / 2 > 5])


[11 12 13 14]


In [1]:
names = np.array(['Bob', 'joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(names, '\n')
print(data)

print(names == "Bob", '\n')
print(data[names == 'Bob'], '\n')
print(data[names == 'Bob', 2:], '\n')
print(data[names != 'Bob'], '\n')
print(data[(names == 'Bob') | (names == 'Will')], '\n')

data[data < 0] = 0
print(data)

NameError: name 'np' is not defined

In [15]:
# Fancy Indexing

import numpy as np

arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
print(arr, '\n')
print(arr[[4, 3, 0, 6]], '\n')
print(arr[[-3, -5, -7]])

[[0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [2. 2. 2. 2.]
 [3. 3. 3. 3.]
 [4. 4. 4. 4.]
 [5. 5. 5. 5.]
 [6. 6. 6. 6.]
 [7. 7. 7. 7.]] 

[[4. 4. 4. 4.]
 [3. 3. 3. 3.]
 [0. 0. 0. 0.]
 [6. 6. 6. 6.]] 

[[5. 5. 5. 5.]
 [3. 3. 3. 3.]
 [1. 1. 1. 1.]]


In [3]:
arr = np.arange(32).reshape((8, -1))
print(arr, '\n')

print(arr[[1, 5, 7, 2], [0, 3, 1, 2]], '\n')
print(arr[[1, 5, 7, 2]], '\n')
print(arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]], '\n')
print(arr[[1, 5, 7, 2]][[2], [0, 3, 1, 2]])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] 

[ 4 23 29 10] 

[[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]] 

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]] 

[28 31 29 30]


In [4]:
# 배열 전치와 축 바꾸기

import numpy as np

arr = np.arange(15).reshape(3,5)
print(arr,'\n')
print(arr.T)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] 

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]
