# 테이블형 데이터 다루기

## 배열 만들기
- https://numpy.org/doc/stable/reference/generated/numpy.array.html

In [1]:
import numpy as np
numbers = np.array(range(1, 11), copy=True)
numbers

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [6]:
num = np.arange(1, 11)
print(num)

[ 1  2  3  4  5  6  7  8  9 10]


In [4]:
a = [1, 2, 3]
b = [4, 5, 6]
print(a + b)

a1 = np.array([1, 2, 3])
b1 = np.array([4, 5, 6])
print(a1 + b1)

[1, 2, 3, 4, 5, 6]
[5 7 9]


In [5]:
print(type(a1))

<class 'numpy.ndarray'>


## Array copy 만들기
- https://stackoverflow.com/questions/55074362/about-the-boolean-parameter-copy-in-np-array-function

In [2]:
a1 = np.array([1, 2, 3])
a2 = np.array(a1, copy=False)
a3 = np.array(a1, copy=True)

a1[0] = 50
print(f"a1: {a1}")
print(f"a2: {a2}")
print(f"a3: {a3}")

a1: [50  2  3]
a2: [50  2  3]
a3: [1 2 3]


In [3]:
x = np.array([1, 2, 3])
y = x
z = np.copy(x)

x[0] = 10
print(x[0] == y[0])
print(x[0] == z[0])

True
False


## Shallow copy, deep copy

In [7]:
a = np.array([1, 'm', [2, 3, 4]], dtype=object)
b = np.copy(a)
b[2][0] = 10

print(a)
print(b)

[1 'm' list([10, 3, 4])]
[1 'm' list([10, 3, 4])]


In [8]:
import copy
a = np.array([1, 'm', [2, 3, 4]], dtype=object)
c = copy.deepcopy(a) 
c[2][0] = 10
print(a)
print(c)

[1 'm' list([2, 3, 4])]
[1 'm' list([10, 3, 4])]


## Array 만들기

In [9]:
ones = np.ones([2, 4], dtype=np.float64)
ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [10]:
zeros = np.zeros([2, 4], dtype=np.float64)
zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [13]:
empty = np.empty([2, 4], dtype=np.float64)
# 배열의 내용물이 항상 0인 것은 아니다.
empty
# zeros와는 달리 array value를 0으로 세팅하지 않음. 약간 빠를 수 있음.

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [15]:
ones.shape # 아직 변형되지 않았다면 원래 모양을 반환한다.

(2, 4)

In [16]:
numbers.ndim # len(numbers.shape)와 같다.

1

In [14]:
zeros.dtype

dtype('float64')

In [17]:
eye = np.eye(3, k=1)
eye

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [18]:
np_numbers = np.arange(2, 5, 0.25)
np_numbers

array([2.  , 2.25, 2.5 , 2.75, 3.  , 3.25, 3.5 , 3.75, 4.  , 4.25, 4.5 ,
       4.75])

In [19]:
# np_inumbers = np_numbers.astype(np.int)
np_inumbers = np_numbers.astype(int)
np_inumbers

array([2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4])

## 행/열 전환과 형태 변형하기

In [None]:
sap = np.array(["MMM", "ABT", "ABBV", "ACN", "ACE", "ATVI", "ADBE", "ADT"])
sap

In [None]:
sap2d = sap.reshape(2, 4)
sap2d

In [None]:
sap3d = sap.reshape(2, 2, 2)
sap3d

In [None]:
sap2d.T

In [None]:
sap3d.swapaxes(1, 2)

In [None]:
sap3d.transpose((0, 2, 1))

## 인덱싱과 자르기

In [None]:
dirty = np.array([9, 4, 1, -0.01, -0.02, -0.001])
whos_dirty = dirty < 0 # 불 배열을 불 인덱스로 사용한다.
whos_dirty

In [None]:
dirty[whos_dirty] = 0 # 모든 음수값을 0으로 바꾼다.
dirty

In [None]:
# -0.5와 0.5 사이에 위치한 아이템은 무엇일까?
linear = np.arange(-1, 1.1, 0.2)
(linear <= 0.5) & (linear >= -0.5)
# <, <= 등과 같은 관계형 연산자는 &, |, !와 같은 비트 단위 연산자보다 처리순위가 떨어지므로
# 반드시 ()를 통해 우선순위를 설정해야 함.

### 스마트 인덱싱, 스마트 슬라이싱

In [None]:
sap

In [None]:
sap[[1, 2, -1]]

In [None]:
sap2d[:, [1]]

## 브로드캐스팅 (배열끼리의 벡터화된 사칙연산)

In [None]:
a = np.arange(4)
b = np.arange(1, 5)
a+b

In [None]:
c = [0, 1, 2, 3]
d = [1, 2, 3, 4]
c+d

In [None]:
a*5

In [None]:
c*5

In [None]:
noise = np.eye(4) + 0.01 * np.ones((4, ))
noise


noise = np.eye(4) + 0.01 * np.random.random([4, 4])
np.round(noise, 2)

## 유니버셜 함수
- https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs

In [None]:
%%timeit

def test(values):
    size = len(values)
    output = np.empty(size)
    for i, value in enumerate(values):
        output[i] = 1.0 / value
    return output

values = np.random.randint(1, 100, size=1000)
result_inbuilt = test(values)
print(result_inbuilt)

In [None]:
%%timeit

values = np.random.randint(1, 100, size=1000)
result_vectorized = 1.0 / values
print(result_vectorized)

### E.g. isnan()

In [None]:
# 여덟 종목의 이틀간의 주가
stocks = np.array([140.49, 0.97, 40.68, 41.53, 55.7, 57.21, 98.2, 99.19, 109.96, 111.47, 35.71, 36.27, 87.85, 89.11, 30.22, 30.91])
stocks

In [None]:
# Reshape를 통해 보기 좋게 가공
stocks = stocks.reshape(8, 2).T
stocks

In [None]:
fall = np.greater(stocks[0], stocks[1])
fall

In [None]:
# fall이라는 boolean array를 이용한 boolean indexing
sap[fall]

In [None]:
# 새 MMM 주식 가격이 결측치라고 가정해보자.
stocks[1, 0] = np.nan
np.isnan(stocks)

In [None]:
stocks[np.isnan(stocks)] = 0
stocks

## 조건부 함수 이해하기

In [None]:
# 어떤 종목의 가격이 눈에 띄게 (즉, 1.00달러 이상) 변화했는지 알아보자.
# numpy.where
changes = np.where(np.abs(stocks[1] - stocks[0]) > 1.00,
                   stocks[1] - stocks[0], 0)
changes


In [None]:
# 할당한 주식기호를 출력하도록 해보자.
sap[np.nonzero(changes)]

In [None]:
# Boolean indexing으로도 출력가능하다.
sap[np.abs(stocks[1] - stocks[0]) > 1.00]

In [None]:
# 평균 수준보다 크게 변화한 주식을 추출해 보자.
sap[np.abs(stocks[0] - stocks[1]) > np.mean(np.abs(stocks[0] - stocks[1]))]

## 배열 집계와 정렬

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib   # matplotlib은 나중에...

# 주어진 이자에 대한 단리/복리 이자비용을 출력해 보자.
RATE = .0375    # 3.75%
TERM = 30
simple = (RATE * np.ones(TERM)).cumsum()
compound = ((1 + RATE) * np.ones(TERM)).cumprod() - 1

matplotlib.style.use("ggplot")
t = np.arange(1, 31)
plt.plot(t, compound)
plt.plot(t, simple)
plt.legend(["Compound", "Simple"], loc=2)
plt.xlabel("Year")
plt.ylabel("Accrued Interest")
plt.tight_layout()
plt.savefig("interest.pdf")

## 배열을 집합처럼 다루기

In [None]:
# 배열 내 아이템의 순서보다, 배열의 내용물이 더 중요한 시나리오가 있다.
dna = "AGTCCGCGAATACAGGCTCGGT"
dna_as_array = np.array(list(dna))
dna_as_array

In [None]:
np.unique(dna_as_array)

In [None]:
# "In one dimension"
np.in1d(["MSFT", "MMM", "AAPL"], sap)

In [None]:
np.intersect1d(["MSFT", "MMM", "AAPL"], sap)

In [None]:
np.union1d(["MSFT", "MMM", "AAPL"], sap)

## 합성 사인파 만들기

In [None]:
# 필요한 라이브러리를 불러온다.
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

In [None]:
# 신호, 잡음, 그리고 "악기" 정보를 상수로 정의한다.
SIG_AMPLITUDE = 10; SIG_OFFSET = 2; SIG_PERIOD = 100
NOISE_AMPLITUDE = 3
N_SAMPLES = 5 * SIG_PERIOD
INSTRUMENT_RANGE = 9

In [None]:
# 사인 곡선을 구성하고 잡음을 섞어 넣는다.
times = np.arange(N_SAMPLES).astype(float)
signal = SIG_AMPLITUDE * np.sin(2 * np.pi * times / SIG_PERIOD) + SIG_OFFSET
noise = NOISE_AMPLITUDE * np.random.normal(size=N_SAMPLES)
signal += noise

In [None]:
# 음역대를 벗어난 스파이크를 제거한다.
signal[signal > INSTRUMENT_RANGE] = INSTRUMENT_RANGE
signal[signal < -INSTRUMENT_RANGE] = -INSTRUMENT_RANGE

In [None]:
# 결과를 플롯(plot)으로 시각화한다.
matplotlib.style.use("ggplot")
plt.plot(times, signal)
plt.title("Synthetic sine wave signal")
plt.xlabel("Time")
plt.ylabel("Signal + noise")
plt.ylim(ymin = -SIG_AMPLITUDE, ymax = SIG_AMPLITUDE)

# 플롯을 저장한다.
plt.savefig("signal.pdf")