# 넘파이의 데이터 구조

넘파이의 자료형은 ndarray. 효율적인 배열 연산을 위해 개발되었고, 리스트와 ndarray는 유연성과 효율성을 기준으로 비교할 수 있다.

List는 유연성 면에서 서로 다른 데이터 타입을 담을 수 있지만 ndarray는 서로 다른 데이터 타입의 요소를 담을 수 없다.  
ndarray는 효율성 면에서 모든 요소 정보를 한 번에 저장할 수 있고, C로 구현된 내부 반복문을 사용하기 때문에 속도가 매우 빠르다. 그러나 List는 각 요소 정보를 따로 저장하고, 반복문 사용이 필수적이다.  

## 배열 만들기

### 리스트에서 배열 만들기

In [1]:
import numpy as np

a = np.array([1, 4, 2, 5, 3])
b = np.array([3.14, 4, 2, 3])
c = np.array([1, 2, 3, 4], dtype = float)

print(a, b, c)

[1 4 2 5 3] [3.14 4.   2.   3.  ] [1. 2. 3. 4.]


In [2]:
# 떼어서 출력하면 다른점이 보인다.
a

array([1, 4, 2, 5, 3])

In [3]:
b

array([3.14, 4.  , 2.  , 3.  ])

In [4]:
c

array([1., 2., 3., 4.])

a는 int, b는 float인 것이 보인다. 또한 c는 float으로 지정해주었기 때문에 float으로 보인다.

In [None]:
# 함수를 이용하여 배열 만들기
a = np.zeros(10, dtype = int) # 0으로 채운 배열 생성
b = np.ones((3, 5), dtype = float) #1로 채운 배열 생성
c = np.full((3,5), 3.14) # 3.14로 채운 배열 만들기 
d = np.arange(0, 20, 2) # 0에서 시작해 2씩 더해 20까지 채우는 배열 생성
e = np.linspace(0, 1, 5) # 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채운 배열 만들기
f = np.random.random((3,3)) # 3*3 크기의 난수 배열 생성
g = np.random.normal(0, 1, (3, 3)) # 평균 0, 표준 편차 1의 정규 분포를 따르는 3*3 난수 배열
h = np.random.randint(0, 10, (3, 3)) # [0, 10) 구간의 임의로 정수로 채운 3*3 배열 만들기
i = np.eye(3) # 크기 3의 단위 행렬 만들기

print("np.zeros(10, dtype = int):\n", a)
print("\nnp.ones((3, 5), dtype = float):\n", b)
print("\nnp.full((3,5), 3.14):\n", c)
print("\nnp.arange(0, 20, 2):\n", d)
print("\nnp.linspace(0, 1, 5):\n", e)
print("\nnp.random.random((3,3)):\n", f)
print("\nnp.random.normal(0, 1, (3, 3)):\n", g)
print("\nnp.random.randint(0, 10, (3, 3)):\n", h)
print("\nnp.eye(3):\n", i)

#### 인덱싱과 슬라이싱

In [None]:
# 기본적인 인덱싱과 슬라이싱
x1 = np.array([1, 3, 5, 7, 9])

print("x1[0]:", x1[0]) # 양수 인덱스 (맨 앞 요소)
print("x1[3]:", x1[3]) # 세 번째 요소 
print("x1[-1]:", x1[-1]) # 음수 인덱스 (맨 뒤 요소)
print("x1[-2]:", x1[-2]) # 뒤에서 네 번째 요소 

print("x1[1:3]:", x1[1:3]) # 1번째 요소부터 3번째 요소까지 슬라이싱

In [None]:
x2

In [None]:
# 2차원 배열의 인덱싱 및 슬라이싱
x2 = np.random.random(size = (10, 5))

print("x2[0, 1]", x2[0, 1])
print("x2[1:4, 2]\n", x2[1:4, 2])
print("x2[0, 2:4]\n", x2[0, 2:4])
print("x2[0:3, 2:4]\n", x2[0:3, 2:4])

#### 유니버설 함수

In [None]:
# 사용 기초
x = np.array([1, 2, 3, 4])
y = np.array([4, 3, 2, 1])

print("x + y = ", x + y)
print("x - y = ", x - y)
print("x * y = ", x * y)
print("x / y = ", x / y)
print("log x = ", np.log(x))

In [None]:
# 루프와 유니버설 함수의 속도 비교
arr_1 = np.random.randint(1, 10, size = 10 ** 8)
arr_2 = np.random.randint(1, 10, size = 10 ** 8)
import time
### 리스트를 사용하여 벡터의 덧셈 구현
t1 = time.time()
output = []
for val1, val2 in zip(arr_1, arr_2):
    output.append(val1 + val2)
t2 = time.time()
print("반복문을 사용한 경우:", round(t2 - t1, 4))

### 유니버설 함수를 사용하여 벡터의 덧셈 구현
t1 = time.time()
output = arr_1 + arr_2
t2 = time.time()
print("유니버설 함수를 사용한 경우:", round(t2 - t1, 4))

In [None]:
# 브로드캐스팅
print("np.arange(3) + 5:", 
      np.arange(3) + 5, '\n')

print("np.ones((3, 3)) + np.arange(3)\n",
      np.ones((3, 3)) + np.arange(3), '\n')

print("np.arange(3).reshape(3, 1) + np.arange(3)\n",
      np.arange(3).reshape(3, 1) + np.arange(3))

In [None]:
# 브로드캐스팅 예시: z - normalization
X = np.random.random((10, 3))
Xmean = X.mean(axis = 0) # 열별 평균 크기: (1, 3)
Xstd = X.std(axis = 0) # 열별 표준편차 크기: (1, 3)

Z = (X - Xmean) / Xstd

print("X:", X)
print("\nXmean:\n", Xmean)
print("\nXstd:\n", Xstd)
print("\nZ:\n", Z)

#### 비교 연산자

In [None]:
L = np.array([1, 2, 3, 4, 5])
L >= 3

In [None]:
# 비교 연산자
L = np.array([1, 2, 3, 4, 5])
cond = L >= 3
sum(cond) # 조건을 만족하는 요소의 개수

In [None]:
L[cond] # 조건을 만족하는 요소만 반환