# Numpy 개요
- 수학, 과학, 공학, 데이터 과학 분야 응용 분야에서 Python으로 사용할 수 있는 open source 라이브러리
- C/C++ Fortran과 통합하기 쉬움
- 데이터 구조
    - ndarray 클래스 : array 클래스라고 부르기도 함
    - 동일한 데이터형 원소들 (주로 숫자형 데이터)의 다차원 배열
    - indexing : 정수들의 tuple로 인덱스를 표현
    - broadcastring
- 다양한 수치 연산 도구
    - 다차원 배열에 적용할 수 있는 벡터화 함수
    - 선형대수 , 퓨리에 변환 ,콘볼류션, 통계 라이브러리 등.. ect
    

# Numpy의 장점

- 다차원 배열 또는 행렬 연산의 편리함
- 우수한 메모리 효율
- 빠른 처리속도


In [1]:
import numpy as np
np.__version__

'1.20.3'

In [2]:
lst = [1,3,4]
lst2 = [[1,3,4], [3,2,1]]

a = np.array(lst)
a2 = np.array(lst2)

In [3]:
a


array([1, 3, 4])

In [4]:
a2

array([[1, 3, 4],
       [3, 2, 1]])

In [5]:
a[0]

1

In [6]:
a[-1]

4

In [7]:
a[1:3]

array([3, 4])

In [8]:
a2[1][2]

1

In [9]:
a2[1,2]

1

In [11]:
a_row = 10
a_col = 10
b_row = 10
b_col = 10

In [12]:
na = np.random.randn(a_row, a_col)
nb = np.random.randn(b_row, b_col)

In [13]:
la = na.tolist()
lb = nb.tolist()

In [14]:
ma = np.matrix(na)
mb = np.matrix(nb)

In [17]:
%timeit na.dot(nb) 
%timeit na @ nb
%timeit [[sum([r*c for r,c in zip(row, col)]) for col in zip(*lb)] for row in la]
%timeit ma.dot(mb)
%timeit ma @ mb


659 ns ± 1.33 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
1.03 µs ± 5.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
76.4 µs ± 641 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
1.07 µs ± 11.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
2.21 µs ± 23 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [81]:
# 소요 시간 비교 na.dot(nb) < ma.dot(mb) < na @ nb < ma @ mb < list 곱셈

# Numpy의 다차원 배열과 리스트 객체의 구조 비교
- 리스트
    - 이질 (heterogeneous) 데이터 형 원소 가능
    - 동적 배열
    - 리스트는 선언시56 byte 원소 하나 추가할 때마다 8 * 4 만큼 늘어남.  head + address + addr 추가공간 형태
    - 새로운 원소가 추가 될 때 마다 여유공간에 하나씩 채워넣음 따라서 용량이 늘어나진 않지만 하지만 참조 주소가 가르키는 용량 추가
    
- numpy 다차원배열 
    - 동질 (homogeneous) 데이터 형 원소만 가능
    - 고정크기 배열

In [83]:
from sys import getsizeof

In [21]:
lst = []
for n in range(10):
    if n > 0:
        lst.append(n)
    print(f"Addr. of lst: {id(lst)}", end=", ")
    print(f"No. of item(s): {len(lst)}", end=", ")
    print(f"Size of lst: {getsizeof(lst)} bytes", end=", ")
    print(f"Size of items: {sum([getsizeof(item) for item in lst])} bytes")


Addr. of lst: 2738107912896, No. of item(s): 0, Size of lst: 56 bytes, Size of items: 0 bytes
Addr. of lst: 2738107912896, No. of item(s): 1, Size of lst: 88 bytes, Size of items: 28 bytes
Addr. of lst: 2738107912896, No. of item(s): 2, Size of lst: 88 bytes, Size of items: 56 bytes
Addr. of lst: 2738107912896, No. of item(s): 3, Size of lst: 88 bytes, Size of items: 84 bytes
Addr. of lst: 2738107912896, No. of item(s): 4, Size of lst: 88 bytes, Size of items: 112 bytes
Addr. of lst: 2738107912896, No. of item(s): 5, Size of lst: 120 bytes, Size of items: 140 bytes
Addr. of lst: 2738107912896, No. of item(s): 6, Size of lst: 120 bytes, Size of items: 168 bytes
Addr. of lst: 2738107912896, No. of item(s): 7, Size of lst: 120 bytes, Size of items: 196 bytes
Addr. of lst: 2738107912896, No. of item(s): 8, Size of lst: 120 bytes, Size of items: 224 bytes
Addr. of lst: 2738107912896, No. of item(s): 9, Size of lst: 184 bytes, Size of items: 252 bytes


In [22]:
import numpy as np
x = np.array([])
print(f"Size of numpy array x: {getsizeof(x)} bytes")

Size of numpy array x: 104 bytes


In [84]:
# 정수가 하나씩 추가 될 때마다 4바이트와 주소가 바뀜
x = np.array([], np.int32)
print(x.dtype)
for n in range(10):
    if n > 0:
        x = np.append(x, [n])
    print(f"Addr. of x: {id(x)}", end=", ")
    print(f"No. of item(s): {len(x)}", end=", ")
    print(f"Size of x: {getsizeof(x)} bytes")


int32
Addr. of x: 2738166757488, No. of item(s): 0, Size of x: 104 bytes
Addr. of x: 2738166757392, No. of item(s): 1, Size of x: 108 bytes
Addr. of x: 2738166758256, No. of item(s): 2, Size of x: 112 bytes
Addr. of x: 2738166757488, No. of item(s): 3, Size of x: 116 bytes
Addr. of x: 2738166757392, No. of item(s): 4, Size of x: 120 bytes
Addr. of x: 2738166757488, No. of item(s): 5, Size of x: 124 bytes
Addr. of x: 2738166759216, No. of item(s): 6, Size of x: 128 bytes
Addr. of x: 2738166757488, No. of item(s): 7, Size of x: 132 bytes
Addr. of x: 2738166759216, No. of item(s): 8, Size of x: 136 bytes
Addr. of x: 2738166757488, No. of item(s): 9, Size of x: 140 bytes


In [85]:
# int64 이기 때문에 8씩 증가함.
x = np.array([], np.int64)
print(x.dtype)
for n in range(10):
    if n > 0:
        x = np.append(x, [n])
    print(f"Addr. of x: {id(x)}", end=", ")
    print(f"No. of item(s): {len(x)}", end=", ")
    print(f"Size of x: {getsizeof(x)} bytes")


int64
Addr. of x: 2738166756048, No. of item(s): 0, Size of x: 104 bytes
Addr. of x: 2738166758640, No. of item(s): 1, Size of x: 112 bytes
Addr. of x: 2738166757488, No. of item(s): 2, Size of x: 120 bytes
Addr. of x: 2738166756048, No. of item(s): 3, Size of x: 128 bytes
Addr. of x: 2738166758640, No. of item(s): 4, Size of x: 136 bytes
Addr. of x: 2738166757488, No. of item(s): 5, Size of x: 144 bytes
Addr. of x: 2738166756048, No. of item(s): 6, Size of x: 152 bytes
Addr. of x: 2738166758640, No. of item(s): 7, Size of x: 160 bytes
Addr. of x: 2738166757488, No. of item(s): 8, Size of x: 168 bytes
Addr. of x: 2738166756528, No. of item(s): 9, Size of x: 176 bytes


In [86]:
x.dtype

dtype('int64')

# Numpy의 다차원 배열을 이용한 1차원 벡터의 표현과 연산.

In [87]:
import numpy as np
a = np.array([1, 3, 5, 3, 1])
b = np.array([3, 5, 7, 1, 2])
a + b

array([ 4,  8, 12,  4,  3])

In [88]:
2 * a

array([ 2,  6, 10,  6,  2])

## NumPy 다차원 배열 클래스 ndarray의 주요 attributes
- ndarray.ndim: axes (dimensions)의 수
- ndarray.shape: axes별 원소의 개수를 튜플로 표현
- ndarray.size: 원소의 개수
- ndarray.dtype: numpy.int32, numpy.int16, numpy.float64 등
- ndarray.itemsize: 각 원소의 크기를 byte 단위
- ndarray.nbytes: 전체 데이터의 크기를 byte 단위로 표시

In [89]:
na = np.random.randint(1, 10, (3, 4)) # 1이상 10 미만의 랜덤 정수 생성 후 3,4 배열로  수정.
na

array([[4, 8, 2, 2],
       [5, 1, 9, 4],
       [5, 4, 7, 1]])

In [90]:
na.ndim

2

In [91]:
na.shape

(3, 4)

In [92]:
na.dtype

dtype('int32')

In [93]:
na.size

12

In [94]:
na.itemsize # size를 바이트로

4

In [35]:
na.nbytes # size를 

48

In [36]:
int_dt = [np.int8, np.uint8,
            np.int16, np.uint16,
            np.int32, np.uint32,
          np.int64, np.uint64, 'i1', 'i2', 'i4', 'i8', 'u1', 'u2', 'u4', 'u8']
for dt in int_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)


int8 1
uint8 1
int16 2
uint16 2
int32 4
uint32 4
int64 8
uint64 8
int8 1
int16 2
int32 4
int64 8
uint8 1
uint16 2
uint32 4
uint64 8


In [37]:
# dtype을 문자형으로 변환
int_dt = ['<b', '<B',
            '<h', '<H',
            '<i', '<I',
            '<q', '<Q']
for dt in int_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)


int8 1
uint8 1
int16 2
uint16 2
int32 4
uint32 4
int64 8
uint64 8


In [38]:
float_dt = [np.float16, np.float32, np.float64, 'f2', 'f4', 'f8']
for dt in float_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)

float16 2
float32 4
float64 8
float16 2
float32 4
float64 8


In [39]:
float_dt = ['<e', '<f', '<d']
for dt in float_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)


float16 2
float32 4
float64 8


# 복소수 데이터 타입

In [96]:
complex_dt = [np.csingle, np.cdouble]
for dt in complex_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)

complex64 8
complex128 16


In [42]:
complex_dt = ['<F', '<G']
for dt in complex_dt:
    x = np.array([1, 2, 3], dtype=dt)
    print(x.dtype, x.itemsize)


complex64 8
complex128 16


# numpy 정수형의 overflow와 underflow

In [97]:
import numpy as np
a = np.array([100, 200], np.int8)
a

array([100, -56], dtype=int8)

In [44]:
np.iinfo(np.int8)
# 최솟값 -128, 최대값 127

iinfo(min=-128, max=127, dtype=int8)

In [98]:
a + a # 최댓값을 넘어가기 때문

array([ -56, -112], dtype=int8)

In [47]:
3 * a

array([44, 88], dtype=int8)

In [103]:
b = np.array([100, 200], np.uint8)
b


array([100, 200], dtype=uint8)

In [104]:
# unsigend
np.iinfo(np.uint8)

iinfo(min=0, max=255, dtype=uint8)

In [105]:
 2 * b

array([200, 144], dtype=uint8)

# Ndarray 생성
- 리스트와 튜플을 이용한 ndarray 생성

In [107]:
data1 = (1, 2, 3, 4, 5) # tuple : 모든 원소의 데이터 유형이 같아야 함.
arr1 = np.array(data1) # 1d array


In [102]:
arr1

array([1, 2, 3, 4, 5])

In [53]:
arr1.dtype

dtype('int32')

In [54]:
arr1.ndim # 1차원이기 때문에

1

In [55]:
arr1.size #원소 개수

5

In [56]:
data2 = [[1, 2, 3., 4], [5, 6, 7, 8.]] # nested list
arr2 = np.array(data2) # 2d array

In [58]:
data2

[[1, 2, 3.0, 4], [5, 6, 7, 8.0]]

In [108]:
arr2 # 모두 실수로 변환 후 생성됨.

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

In [109]:
arr2.dtype

dtype('float64')

In [110]:
arr2.ndim

2

In [111]:
arr2.size

8

In [112]:
data3 = [[1, 2, 3., 4], [5+1j, 6, 7, 8.]] # nested list
arr3 = np.array(data3) # 2d array


In [113]:
data3 

[[1, 2, 3.0, 4], [(5+1j), 6, 7, 8.0]]

In [115]:
arr3 # 모두 복소수 형태로 변환됨.

array([[1.+0.j, 2.+0.j, 3.+0.j, 4.+0.j],
       [5.+1.j, 6.+0.j, 7.+0.j, 8.+0.j]])

In [117]:
arr3.dtype #default

dtype('complex128')

In [67]:
arr3.ndim

2

In [68]:
arr3.size

8

In [121]:
data4 = ['a', 'b']
arr4 = np.array(data4)


In [122]:
arr4.dtype # 4바이트 길이의 Unicode 문자열

dtype('<U1')

In [71]:
arr4.itemsize

4

In [72]:
data5 = ['ab', 'b']
arr5 = np.array(data5)

In [123]:
arr5.dtype  # 8바이트 길이의 Unicode 문자열

dtype('<U2')

In [74]:
arr5.itemsize

8

In [124]:
data6 = ['abc', 'b']
arr6 = np.array(data6)


In [128]:
arr6.dtype  # 12바이트 길이의 Unicode 문자열

dtype('<U3')

In [129]:
arr6.itemsize

12

In [130]:
getsizeof(np.array([])), getsizeof(arr6)
# 길이가 달라도 가장 길이가 긴 걸 저장함.
# 글자 하나당 4바이트의 길이로

(104, 128)

In [80]:
for n in range(0, 53):
    data_s = 'abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz'[:n]
    arr_s = np.array(data_s)
    print(arr_s, arr_s.dtype, arr_s.itemsize, getsizeof(arr_s))

 <U1 4 92
a <U1 4 92
ab <U2 8 96
abc <U3 12 100
abcd <U4 16 104
abcde <U5 20 108
abcdef <U6 24 112
abcdefg <U7 28 116
abcdefgh <U8 32 120
abcdefghi <U9 36 124
abcdefghij <U10 40 128
abcdefghijk <U11 44 132
abcdefghijkl <U12 48 136
abcdefghijklm <U13 52 140
abcdefghijklmn <U14 56 144
abcdefghijklmno <U15 60 148
abcdefghijklmnop <U16 64 152
abcdefghijklmnopq <U17 68 156
abcdefghijklmnopqr <U18 72 160
abcdefghijklmnopqrs <U19 76 164
abcdefghijklmnopqrst <U20 80 168
abcdefghijklmnopqrstu <U21 84 172
abcdefghijklmnopqrstuv <U22 88 176
abcdefghijklmnopqrstuvw <U23 92 180
abcdefghijklmnopqrstuvwx <U24 96 184
abcdefghijklmnopqrstuvwxy <U25 100 188
abcdefghijklmnopqrstuvwxyz <U26 104 192
abcdefghijklmnopqrstuvwxyza <U27 108 196
abcdefghijklmnopqrstuvwxyzab <U28 112 200
abcdefghijklmnopqrstuvwxyzabc <U29 116 204
abcdefghijklmnopqrstuvwxyzabcd <U30 120 208
abcdefghijklmnopqrstuvwxyzabcde <U31 124 212
abcdefghijklmnopqrstuvwxyzabcdef <U32 128 216
abcdefghijklmnopqrstuvwxyzabcdefg <U33 132 220
abcd