In [1]:
# [도구 넘파이](https://colab.research.google.com/github/rickiepark/handson-ml3/blob/main/tools_numpy.ipynb)
# 넘파이는 파이썬의 과학 컴퓨팅을 위한 기본 라이브러리.
# 강력한 N-차원 배열 객체, 선형 대수, 푸리에(Fourier) 변환, 유사 난수 생성과 같은 함수 제공

# 배열 생성

import numpy as np

ModuleNotFoundError: No module named 'numpy'

In [None]:
import matplotlib
matplotlib.matplotlib_fname()

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# np.zeros
# 0으로 채워진 배열을 만든다
np.zeros(5)

In [None]:
# 2D 배열(즉, 행렬)을 만들려면 우너하는 행과 열의 크기를 튜플로 전달한다
np.zeros((3,4))

In [None]:
# 용어
# - 넌파이에서 각 차원을 **축(axis)** 이라고 한다
# - 축의 개수를 **랭크(rank)** 라고 한다
#   - 3 x 4 행렬 = 랭크 2인 배열 (2차원 배열)
#   - 첫 번째 축의 길이: 3, 두 번째 축의 길이: 4
# - 배열의 축 길이를 배열의 **크기(shape)** 라고 한다
#   - 위 행렬의 크기는 (3, 4)
#   - 랭크는 크기의 길이와 같다
# - 배열의 **사이즈(size)** 는 전체 원소의 개수. 축의 길이를 모두 곱해서 구할 수 있다. (3 x 4 = 12)

a = np.zeros((3,4))
a

In [None]:
a.shape

In [None]:
a.ndim # len(a.shape) # 축의 개수

In [None]:
a.size

In [None]:
# N-차원 배열
# - 임의의 랭크 수를 가진 N-차원 배열을 만들 수 있다
# - ex. 크기가 (2,3,4) 인 3D 배열(랭크=3)

np.zeros((2,3,4))

In [None]:
# 넘파이 배열의 타입: `ndarray`

type(np.zeros((2,3,4)))

In [None]:
# np.ones
# ndarray를 만들수 있는 넘파이 함수
# ex. 1로 채워진 3 x 4 크기의 행렬

np.ones((3,4))

In [None]:
# np.full
# 주어진 갑으로 지정된 크기의 배열을 초기화한다
# 다음은 `pi`로 채워진 3 x 4 크기으 ㅣ배열

np.full((3,4), np.pi)

In [None]:
# np.empty
# 초기화되지 않은 2x3 크기의 배열을 만든다
# 배열의 내용은 예측이 불가능하며 메모리 상황에 따라 달라진다

np.empty((2,3))

In [None]:
# np.array
# array 함수는 파이썬의 리스트를 사용하여 ndarray를 초기화한다

np.array([[1,2,3,4], [10,20,30,40]])

In [None]:
# np.arrange
# 파이썬 range 함수와 비슷한 넘파이 arange 함수를 사용하여 ndarray를 만들 수 있다

np.arange(1, 5)

In [None]:
# 부동 소수도 가능
np.arange(10., 5.0)

In [None]:
# 파이썬 기본 range 함수처럼 건너 뛰는 정도를 지정할 수 있다
np.arange(1, 5, 0.5)

In [None]:
# 부동 소수를 사용하면 원소의 개수가 일정하지 않을 수 있다
print(np.arange(0, 5/3, 1/3)) # 부동 소수 오차 때문에, max는 4/3 또는 5/3이 된다
print(np.arange(0, 5/3, 0.333333333))
print(np.arange(0, 5/3, 0.333333334))

In [None]:
# np.linespace
# linespace 함수는 지정된 개수만큼 두 값 사이를 나눈 배열을 반환한다
# arange와는 다르게 최갯값이 "포함"된다.
print(np.linspace(0, 5/3, 6))

In [None]:
# np.rand와 np.randn
# 넘파이 random 모듈에는 ndarray를 랜덤한 값으로 초기화할 수 있는 함수들이 많이 있다
# ex. 균등 분포인 0과 1사이의 랜덤한 부동 소수로 3x4 행렬을 초기화한다
np.random.rand(3,4)

In [None]:
# 평군이 0이고 분산이 1인 일변량 정규분포에서 샘플링한 랜덤한 부동 소수를 담은 3x4배열
np.random.randn(3,4)

In [None]:
# 맷플롯립을 사용해 그린 그래프
import matplotlib 
import matplotlib.pyplot as plt
import sys

# 코랩의 경우 나눔 폰트를 설치합니다.
if 'google.colab' in sys.modules:
  !sudo apt-get -qq -y install fonts-nanum
  import matplotlib.font_manager as fm
  font_files = fm.findSystemFonts(fontpaths=['/usr/share/fonts/truetype/nanum'])
  for fpath in font_files:
      fm.fontManager.addfont(fpath)

# 나눔 폰트를 사용합니다.
matplotlib.rc('font', family='NanumGothic')
matplotlib.rcParams['axes.unicode_minus'] = False
matplotlib.matplotlib_fname()

In [None]:
import matplotlib.pyplot as plt

plt.hist(np.random.rand(100000), density=True, bins=100, histtype="step", color="blue", label="rand")
plt.hist(np.random.randn(100000), density=True, bins=100, histtype="step", color="red", label="randn")
plt.axis([-2.5, 2.5, 0, 1.1])
plt.legend(loc = "upper left")
plt.title("랜덤 분포")
plt.xlabel("값")
plt.ylabel("밀도")
plt.show()

In [None]:
# np.fromfunction
# 함수를 사용해서 ndarray를 초기화할 수 있다
def my_funciton(z, y, x):
  return x + 10 * y + 100 * z

np.fromfunction(my_funciton, (3, 2, 10))

In [None]:
# 넘파이는 먼저 크기가 (3, 2, 1)인 세 개의 ndarray를 만든다
# 각 배열을 축을 따라 좌표 값과 같은 값을 가진다
# 예를 들어, z 축에 있는 배열의 모든 원소는 z-축의 값과 같다

np.fromfunction(lambda z, y, x: z, (3, 2, 10))

In [None]:
# `x + 10 * y + 100 * z`에서 x, y, z는 `ndarray`이다.
# 함수 `my_funciton`이 원소마다 호출되는 것이 아니고 딱 **한 번**호출 된다
# 그래서 효율적으로 초기화할 수 있다

In [None]:
# 배열 데이터

# dtype
# 넘파이의 `ndarray`는 모든 원소가 동일한 타입(보통 숫자)을 가지기 때문에 효율적이다
# `dtype` 속성으로 쉽게 데이터 타입을 확인할 수 있다

c = np.arange(1, 5)
print(c.dtype, c)

In [None]:
c = np.arange(1.0, 5.0)
print(c.dtype, c)

In [None]:
# 넘파이가 데이터 타입을 결정하도록 내버려두는 대신
# `dtype` 매개변수를 사용해서 배열을 만들 때 명시적으로 지정할 수 있다
d = np.arange(1, 5, dtype=np.complex64)
print(d.dtype, d)

In [None]:
# 가능한 데이터 타입
# `int8`, `int16`, `int32`, `int64`, `uint8`|`16`|`32`|`64`, `float16`|`32`|`64`, `complex64`|`128`가 있습니다. 
# 전체리스트: http://docs.scipy.org/doc/numpy/user/basics.types.html

In [None]:
# itemsize
# 각 아이템의 크기(바이트)를 반환한다
e = np.arange(1, 5, dtype=np.complex64)
e.itemsize

In [None]:
# data 버퍼
# 배열의 데이터는 1차원 바이트 버퍼로 메모리에 저장된다
# data 속성을 사용해 참조할 수 있다

f = np.array([[1,2], [1000, 2000]], dtype=np.int32)
f.data

In [None]:
# 파이선 3에서는 f.data가 버퍼고
# 파이썬 2에서는 memoryview 이다

if (hasattr(f.data, "tobytes")):
    data_bytes = f.data.tobytes() # python 3
else:
    data_bytes = memoryview(f.data).tobytes() # python 2

data_bytes

In [None]:
# 여러 개의 ndarray가 데이터 버퍼를 공유할 수 있다
# 하나를 수정하면 다른 것도 바뀐다

# 배열 크기 변경
# 자신을 변경
# ndarray의 shape를 지정하면 간단히 크기를 바꿀 수 있다
# 배열의 원소 개수는 동일하게 유지된다

g = np.arange(24)
print(g)
print("랭크:", g.ndim) # 1차 배열

In [None]:
g.shape = (6, 4)
print(g)
print("랭크:", g.ndim) # 2차 배열

In [None]:
g.shape = (2, 3, 4)
print(g)
print("랭크:", g.ndim) # 3차 배열

In [None]:
# reshape
# 동일한 데이터를 가리키는 새로운 ndarray 객체를 반환
# 한 배열을 수정하면 다른 것도 함께 바뀐다

g2 = g.reshape(4,6) # 4 x 6 = 24; 크기가 동일 하는 경우만 수정 할 수 있다
print(g2)
print("랭크:", g2.ndim)

In [None]:
# 행 1, 열 2의 원소를 999로 설정
g2[1, 2] = 999
g2

In [None]:
# 이에 상응하는 g의 원소도 수정된다
g

In [None]:
# ravel
# 동일한 데이터를 가리키는 새로운 1차원 ndarray를 반환한다
g.ravel()

In [None]:
# 산술연상
# 일반적인 산술연산은 모두 ndarray와 함께 사용할 수 있다

a = np.array([14, 23, 32, 41])
b = np.array([5,  4,  3,  2])
print("a + b  =", a + b)
print("a - b  =", a - b)
print("a * b  =", a * b)
print("a / b  =", a / b)
print("a // b  =", a // b)
print("a % b  =", a % b)
print("a ** b =", a ** b)

In [None]:
# 곱셉은 행렬 곱셈이 아니다
# 배열의 크기가 같아야 한다. 그렇지 않으면 넘파이가 브로드캐스팅 규칙을 적용한다

# 브로드캐스팅
# 일반적으로 넘파이는 동일한 크기의 배열을 기대한다. 그렇지 않은 상황에서는 브로드캐스팅 규칙을 적용한다

# 규칙 1
# 배열의 랭크가 동일하지 않으면 랭크가 맞을 때 까지 랭크가 작은 배열 앞에 1을 추가한다. 

h = np.arange(5).reshape(1, 1, 5)
print(h)


In [None]:
# (1, 1, 5) 크기의 3D 배열에 (5, ) 크기의 1D 배열을 더하는 경우
# 브로드캐스팅의 규칙1이 적용된다
h + [10, 20, 30, 40, 50] # 다음과 동일 h + [[[10, 20, 30, 40, 50]]]

In [None]:
# 규칙 2
# 특정 차원이 1인 배열은 그 차원에서 크기가 가장 큰 배열의 크기에 맞춰 동작한다
# 배열의 원소가 차원을 따라 반복한다

k = np.arange(6).reshape(2,3)
k

In [None]:
# 크기의 2D ndarray에 (2, 1) 크기의 2D 배열을 더하는 경우
# 넘파이는 브로드캐스팅 규칙2를 적용한다

k + [[100], [200]] # k + [[100, 100, 100], [200, 200, 200]]

In [None]:
# 규칙 1과 규칙 2가 동시에 동작할 수도 있다
k + [100, 200, 300]

# 규칙 1 적용: [[100, 200, 300]]
# 규칙 2 적용: [[100, 200, 300], [100, 200, 300]]

In [None]:
k + 1000
# k + [[1000, 1000, 1000], [1000, 1000, 1000]]

In [None]:
# 규칙 3
# 규칙 1 & 2을 적용했을 때 모든 배열의 크기가 맞아야 한다

try:
  k + [33, 44]
except ValueError as e:
  print(e)


In [None]:
# 브로드캐스팅 규칙은 산술 연산 뿐만 아니라 넘파이 연산에서 많이 사용된다
# https://numpy.org/doc/stable/user/basics.broadcasting.html

# 업캐스팅
# dtype이 다른 배열을 합칠 때 넘파이는 (실제 값에 상관없이) 모든 값을 다룰 수 있는 타입으로 업캐스팅한다

k1 = np.arange(0, 5, dtype=np.uint8)
print(k1, k1.dtype)

In [None]:
k2 = k1 + np.array([5, 6, 7, 8, 9], dtype=np.int8)
print(k2.dtype, k2)

In [None]:
# 모든 int8와 uint8 값을 표현하기 위해 int16이 필요
# 이 코드에서는 uint8이면 충분하지만 업캐스팅되었다
k3 = k1 + 1.5
print(k3.dtype, k3)

In [None]:
# 조건 연산자
# 조건 연산자도 원소별로 적용된다

m = np.array([20, -5, 30, 40])
m < [15, 16, 35, 36]

In [None]:
# 브로드캐스팅을 사용
m < 25 # m < [25, 25, 25, 25]

In [None]:
# 불리언 인덱싱과 함께 사용하면 아주 유용하다
m[m<25]

In [None]:
# 수학 함수와 통계 함수
# ndarray 에서 사용할 수 있는 수학 함수와 통계 함수가 많다

# ndarray 함수
# 일부 함수는 ndarray 메서드로 제공된다

# mean
# 크기에 상관없이 ndarray 에 있는 모든 우너소의 평균을 계산한다
a = np.array([[-2.5, 3.1, 7], [10, 11, 12]])
print(a)
print("평균 =", a.mean())

In [None]:
# 유용한 ndarray 메서드
# prod: 주어진 축에 대한 배열의 요소의 곱을 계산
# axis = 0: 열 기준으로 곱셈
# axis = 1: 행 기준을호 곱셈
for func in (a.min, a.max, a.sum, a.prod, a.std, a.var):
  print(func.__name__, "=" , func())

In [None]:
# 매개변서 axis
# 지정된 축을 따라 원소에 연산을 적용하는데 사용한다

c=np.arange(24).reshape(2,3,4)
c

In [None]:
c.sum(axis=0) # 첫 번째 축을 따라 더람, 결과는 3x4 배열

In [None]:
c.sum(axis=1)  # 두 번째 축을 따라 더함, 결과는 (2, 4) 배열

In [None]:
# 여러 축에 대해서 더할 수도 있다
c.sum(axis=(0, 2)) # 첫 번째 축과 세 번째 축을 따라 더함, 결과는 (3, ) 배열

In [None]:
sum([sum([ 0,  1,  2,  3]), sum([12, 13, 14, 15])]) # 60
sum([sum([ 4,  5,  6,  7]), sum([16, 17, 18, 19])]) # 92
sum([sum([ 8,  9, 10, 11]), sum([20, 21, 22, 23])]) # 124

In [None]:
# 일반 함수
# https://colab.research.google.com/github/rickiepark/handson-ml3/blob/main/tools_numpy.ipynb#scrollTo=qCVCQFC8HFJ_&uniqifier=1