## numpy
- 다차원 데이터 처리를 위한 전처리 라이브러리
- 고성능 수치 계산으로 수치해석, 통계, 과학 관련 데이터 처리에 효율적
- 벡터화: 루프 없이 데이터 처리 수행

### list vs narray 성능 비교: 여러 데이터의 합 구하기

In [5]:
import time
data = [1] * 100000000
total = 0
start_time = time.time()
# for x in data:
#     total += x
total = sum(data)
print(total)
end_time = time.time()
diff = end_time - start_time
print(f"list sum: {diff}")

100000000
list sum: 0.5383203029632568


In [None]:
import time
import numpy as np
data = np.ones(100000000) # 메모리가 붙어있는 애들 생성
total = 0
start_time = time.time()
total = np.sum(data)
end_time = time.time()
diff = end_time - start_time
print(f"np sum: {diff}")

np sum: 0.03533339500427246


### list vs narray 성능 비교: 여러 데이터 조작하기

In [9]:
import time
data = [1] * 100000000
start_time = time.time()
# for i in range(len(data)):
#     data[i] += 1
data = list(map(lambda x:x+1, data))
end_time = time.time()
diff = end_time - start_time
print(f"list increment: {diff}")
print(data[0])

list increment: 8.406183004379272
2


In [10]:
import time
import numpy as np
data = np.ones(100000000)
start_time = time.time()
data = data + 1
end_time = time.time()
diff = end_time - start_time
print(f"np increment: {diff}")
print(data[0])

np increment: 0.34813690185546875
2.0


In [None]:
# numpy 배열은 동일한 타입의 데이터를 담는 다차원 배열
# ndarray 클래스를 사용하여 생성

import numpy as np

# 1차원 배열
a1 = np.array([1, 2, 3])
print(a1)
print(a1.ndim) # 차원
print(a1.shape) # 모양
print(a1.size) # 크기 (총 몇 칸이냐)
print(a1.dtype) # 데이터 타입
print("=" * 20)

a2 = np.array([1, "ㅇㅇ", 2])
print(a2)

[1 2 3]
1
(3,)
3
int64
['1' 'ㅇㅇ' '2']


In [19]:
# 2차원 배열
a2 = np.array([[1.0, 2, 3], [4, 5, 6]])
print(a2)
print(a2.ndim)
print(a2.shape)
print(a2.size)
print(a2.dtype)

[[1. 2. 3.]
 [4. 5. 6.]]
2
(2, 3)
6
float64


In [None]:
# 3차원 배열
# 유사도를 판단할 때 많이 사용한다~
a3 = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(a3)
print(a3.ndim)
print(a3.shape)
print(a3.size)
print(a3.dtype)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
3
(2, 2, 2)
8
int64


In [None]:
# 배열 연산

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print("배열의 합", a + b)
print("배열의 차", a - b)
print("배열의 곱", a * b)
print("스칼라 합", a + 1)

# 리스트는???
l = [1, 3]
l2 = [1, 2, 4]
print(l + l2)
print(l + 1)
print(l - l2)

배열의 합 [5 7 9]
배열의 차 [-3 -3 -3]
배열의 곱 [ 4 10 18]
스칼라 합 [2 3 4]
[1, 3, 1, 2, 4]


TypeError: can only concatenate list (not "int") to list

In [31]:
# 배열 연산

a = np.array([1, 2, 3])

print("합", a.sum())
print("평균", a.mean())
print("최대값", a.max())
print("최소값", a.min())

합 6
평균 2.0
최대값 3
최소값 1


In [32]:
a = np.array([1, 2, 3, 4, 5])

# 인덱싱
b = a[0] # 1
c = a[2] # 3

# 슬라이싱
d = a[1:3] # [2, 3, 4]
e = a[:3] # [1, 2, 3]
f = a[3:] # [4, 5]

In [35]:
a = np.array([[1, 2, 3], [4, 5, 6]])

# 인덱싱
b = a[0, 0] # 1
c = a[1, 2] # 6

# 슬라이싱
d = a[0, 1:3] # [2, 3] 0번째 줄에서 1, 2번
e = a[:, 1] # [2, 5] 모든 줄에서 1번에 해당하는 애
f = a[:, :2] # [[1, 2], [4, 5]] 모든 줄에서 2번 앞까지

print(d)
print(e)
print(f)

[2 3]
[2 5]
[[1 2]
 [4 5]]


## 변형

In [42]:
a = np.array([[1, 2], [3, 4], [5, 6]])

# 배열의 형태 변경
print(a.reshape((2, 3)))

# a
print(a)

# 배열 전치
print(a.T)

[[1 2 3]
 [4 5 6]]
[[1 2]
 [3 4]
 [5 6]]
[[1 3 5]
 [2 4 6]]


In [44]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 베열 병합
print(np.concatenate((a, b)))

[1 2 3 4 5 6]


In [None]:
a = np.array([
    [1, 2], [3, 4]
    ])
b = np.array([5, 6])

# 베열 병합
print(np.concatenate((a, b), axis=0)) # 위아래로 붙는다

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7])

# 배열 분리
b, c = np.split(a, [3]) # 인덱스 번호
print(b, c)

[1 2 3] [4 5 6 7]


In [None]:
a = np.array([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
])

# 배열 분리
b, c = np.split(a, [1], axis=0) # 0이면 행, 1이면 열
print(b)
print("="*20)
print(c)

[[1 2 3]]
[[4 5 6]
 [7 8 9]]


## 주요 함수

In [60]:
# 배열 크기 정의 및 초기화
# 0으로 채워진 배열
zeros_arr = np.zeros((3, 4))
print(zeros_arr)
print(zeros_arr.ndim)
print(zeros_arr.shape)
print(zeros_arr.size)
print(zeros_arr.dtype)

print("")

# 1로 채워진 배열
ones_arr = np.ones((2, 3), dtype=np.int16)
print(ones_arr)
print(ones_arr.ndim)
print(ones_arr.shape)
print(ones_arr.size)
print(ones_arr.dtype)

print("")

# 임의의 값
empty_arr = np.empty((2, 3))
print(empty_arr)
print(empty_arr.ndim)
print(empty_arr.shape)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
2
(3, 4)
12
float64

[[1 1 1]
 [1 1 1]]
2
(2, 3)
6
int16

[[4.9e-324 9.9e-324 1.5e-323]
 [2.0e-323 2.5e-323 3.0e-323]]
2
(2, 3)


In [65]:
# arange: 범위 내 간격 기준 나열
# 시작, 끝, 간격

a1 = np.arange(10, 30, 5)
print(a1)

a2 = np.arange(0, 2, 0.3)
print(a2)

a3 = np.arange(0, -1, -0.2)
print(a3)

[10 15 20 25]
[0.  0.3 0.6 0.9 1.2 1.5 1.8]
[ 0.  -0.2 -0.4 -0.6 -0.8]


In [None]:
# linspace: 범위 내 수만큼 균등하게 나눔
# 시작, 끝(포함!!), 나눌 수

a1 = np.linspace(0, 2, 9)
print(a1)

a2 = np.linspace(1, 2, 10)
print(a2)

[0.   0.25 0.5  0.75 1.   1.25 1.5  1.75 2.  ]
[1.         1.11111111 1.22222222 1.33333333 1.44444444 1.55555556
 1.66666667 1.77777778 1.88888889 2.        ]


In [67]:
# 0과 1 사이의 균등 분포에서 난수를 생성하여 배열
# 3x3인 배열을 생성
arr = np.random.random((3, 3))
print(arr)

[[0.56228809 0.96693324 0.67034669]
 [0.51807804 0.91380726 0.50638657]
 [0.31216806 0.0311294  0.71112166]]


In [68]:
# 평균이 0이고 표준편차가 1인 정규 분포를 따르는 난수를 생성
# 2x4 배열을 생성
arr = np.random.randn(2, 4)
print(arr)

[[ 0.41202751  1.89955686 -1.55081414 -1.77472598]
 [ 1.28616136  0.59568643 -0.2574     -1.13272031]]
