## numpy

In [None]:
## Numpy practice
## 2021.01.27
## JeongHyeon Kim

In [7]:
import numpy as np
# 일반적으로 np라는 별명으로 사용
# ndarray는 numpy의 N차월의 배열이며, 대규모 데이터를 담을 수 있음

In [3]:
np_array_a = np.array([1,2,3,4,5])

In [5]:
print(type(np_array_a))
# list가 아니라 numpy가 가진 데이터 형으로 변환된 것을 확인

<class 'numpy.ndarray'>


In [8]:
np_array_a.dtype

dtype('int32')

In [10]:
np_array_b = np.array([1., 2., 3., 4., 5.])

In [12]:
np_array_b.dtype
# 데이터 타입이 부동소수점인 것을 확인

dtype('float64')

In [13]:
np.array(1,2,3,4)
# numpy의 array객체를 만들 때는 list형식으로 전달

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [14]:
np_array_b = np.array([1., 2, 3., 4., 5.])

In [17]:
np_array_b.dtype
# numpy의 array객체를 만들 때, 데이터가 하나라도 소수점이 들어가 있으면 모두 실수형으로 저장
# ndarray는 하나의 데이터 타입만 들어갈 수 있음

dtype('float64')

## arange() 함수

In [28]:
z = np.arange(5, dtype=np.float32)

In [29]:
z

array([0., 1., 2., 3., 4.], dtype=float32)

In [25]:
print(z.shape) # ndarray의 모양을 알려줌
print(z.ndim) # ndarray의 차원을 알려줌

(10,)
1


## linspace() 함수

In [30]:
from numpy import pi

In [31]:
pi

3.141592653589793

In [36]:
# 0부터 pi까지 20개의 데이터를 생성
pi_data = np.linspace(0, pi, 20)

In [37]:
pi_data

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

In [63]:
# seed는 난수를 고정하는 용도로 사용
np.random.seed(123)
pi_data2 = np.random.random((20))
pi_data2

array([0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897,
       0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752,
       0.34317802, 0.72904971, 0.43857224, 0.0596779 , 0.39804426,
       0.73799541, 0.18249173, 0.17545176, 0.53155137, 0.53182759])

In [67]:
pi_data + pi_data2

array([0.69646919, 0.45148632, 0.55754542, 1.04735571, 1.3808569 ,
       1.24984137, 1.97284609, 1.84225861, 1.80370776, 1.88024035,
       1.99664783, 2.54786651, 2.42273603, 2.20918866, 2.712902  ,
       3.21820013, 2.82804344, 2.98635045, 3.50779705, 3.67342024])

## 다차원 배열 만들기

In [68]:
a = np.array([(1.3, 4, 5), (4, 5, 6)])

In [73]:
print(a.shape)
print(a.ndim)
print(a.dtype)

(2, 3)
2
float64


In [74]:
a2 = np.array([(1.3, 4, 5), (4, 5, 6)], dtype=np.float32)

In [75]:
print(a2.shape)
print(a2.ndim)
print(a2.dtype)

(2, 3)
2
float32


In [76]:
b = np.array([(1, 7, 4, 5), (4, 5, 6, 9)])

In [81]:
print(b.shape)

(2, 4)


In [78]:
c = np.array([[1, 8, 4], [4, 5, 6], [4, 5, 6]])

In [82]:
print(c.shape)
print(c.ndim)
# array 형성할 때, list, tuple를 원소로 형성 가능. 최종 마지막 껍데기만 list로 만들면 된다.

(3, 3)
2


## 다른 dtype으로 변경

In [84]:
a2.astype(np.int32)
# astype은 언제쓸까? 변수는 사실 메모리 용량을 차지. 많은 데이터를 불러올 때 데이터 숫자는 작은데
# float64로 불러오면 메모리를 많이 차지. 그럴 때 astype으로 메모리를 줄인다.

array([[1, 4, 5],
       [4, 5, 6]])

## 빈 다차원 생성하기

In [86]:
# 0으로 된 array 형성
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [88]:
# 3차원
tmp = np.ones((2,3,4), dtype=np.int32)

In [89]:
tmp.ndim

3

In [90]:
tmp

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [96]:
# 어떤 숫자가 들어갈지 모름
np.empty((6,15))

array([[0.00000000e+000, 6.95247000e-310, 3.28553654e-321,
                    nan, 1.36349101e-311, 0.00000000e+000,
        6.20198208e+223, 4.22911574e+252, 4.04974598e-109,
        1.87750993e-152, 7.04101559e+199, 1.37776416e+199,
        1.87750993e-152, 7.04101559e+199, 2.33032703e+155],
       [5.15594322e-066, 2.28896110e+243, 1.29628772e-153,
        1.23478409e-259, 6.01099941e+175, 1.34450516e+161,
        5.81828558e+252, 2.59345433e+161, 3.58252215e+246,
        7.47730012e+247, 1.27734658e-152, 7.04101559e+199,
        4.07001003e+180, 6.96409691e+252, 4.26252834e+257],
       [4.07005406e+180, 6.96409691e+252, 1.69338334e-152,
        4.18435846e-109, 6.20684873e+228, 1.43396156e+166,
        2.66064812e-260, 5.28964691e+180, 4.47593816e-091,
        7.71532621e-071, 7.12930821e+159, 2.61191759e+209,
        2.11671202e+214, 6.01346953e-154, 1.21906494e-152],
       [4.22911563e+252, 1.27246785e+232, 1.78743824e+161,
        4.81809028e+233, 7.86517465e+276, 2.28896090e

## reshape() 함수로 형태 변경하기

In [97]:
d = np.arange(12)

In [98]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [99]:
d.shape

(12,)

In [109]:
d2 = d.reshape(2,6)

In [110]:
d2

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [111]:
d2.ndim

2

In [112]:
f = np.arange(48)

In [113]:
f

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47])

In [114]:
f2 = f.reshape(3,4,4)

In [115]:
f2

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]]])

In [116]:
f2.ndim

3

In [117]:
f2.shape

(3, 4, 4)

## 벡터연산

In [119]:
a = np.arange(10)

In [120]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [122]:
tmp2 = []
for x in range(10):
    tmp2.append(x * 10)
tmp2

In [125]:
# array는 벡터 연산이 가능해서 위와 같은 짓을 하지 않아두 됨.
print(a * 10)
print(a - a)
print(a / 4)
print(a ** 2)

[ 0 10 20 30 40 50 60 70 80 90]
[0 0 0 0 0 0 0 0 0 0]
[0.   0.25 0.5  0.75 1.   1.25 1.5  1.75 2.   2.25]
[ 0  1  4  9 16 25 36 49 64 81]


In [126]:
# 형태가 다르면 에러가 뜬다.
b = np.arange(12)
a - b

ValueError: operands could not be broadcast together with shapes (10,) (12,) 

## 위에서 만든 pi_data, pi_data2의 형태를 변경하여 벡터 연산

In [142]:
pi_data.reshape(4,5)

array([[0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793],
       [0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284],
       [1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774],
       [2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265]])

In [143]:
pi_data2.reshape(4,5)

array([[0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897],
       [0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752],
       [0.34317802, 0.72904971, 0.43857224, 0.0596779 , 0.39804426],
       [0.73799541, 0.18249173, 0.17545176, 0.53155137, 0.53182759]])

In [145]:
pi_data.reshape(4,5) + pi_data2.reshape(4,5)

array([[0.69646919, 0.45148632, 0.55754542, 1.04735571, 1.3808569 ],
       [1.24984137, 1.97284609, 1.84225861, 1.80370776, 1.88024035],
       [1.99664783, 2.54786651, 2.42273603, 2.20918866, 2.712902  ],
       [3.21820013, 2.82804344, 2.98635045, 3.50779705, 3.67342024]])