**Numpy의 자료형은 ndarray로 효율적인 배열 연산을 하기 위해 개발되었다.**
- list와 ndarray는 유연성과 효율성을 기준으로 비교할 수 있다.

## list
- 서로 다른 데이터 타입의 요소를 담을 수 있다. (유연성이 높다.)
- 각 요소 정보를 따로 저장한다. (효율성이 낮다)
- 반복문 사용이 필수적 (효율성이 낮다)

## ndarray
- 같은 데이터 타입의 요소만 담을 수 있다.(유연성이 낮다)
- 모든 요소정보를 한 번에 저장한다.(효율성이 높다)
- C로 구현된 내부 반복문을 사용하여 속도가 매우 빠르다.(효율성이 높다)

> 배열 만들기 : np.array

## 리스트에서 배열 만들기

In [10]:
import numpy as np

In [2]:
a = np.array([1,4,2,5,3])
b = np.array([3.14, 4, 2, 3])
c = np.array([1,2,3,4,],dtype= float)
print(a,b,c)

[1 4 2 5 3] [3.14 4.   2.   3.  ] [1. 2. 3. 4.]


In [3]:
a

array([1, 4, 2, 5, 3])

In [4]:
b

array([3.14, 4.  , 2.  , 3.  ])

In [5]:
c

array([1., 2., 3., 4.])

## 함수를 이용하여 배열 만들기

In [14]:
a = np.zeros((3,5), dtype=int) # 0으로 채운 배열 생성
a

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [12]:
b = np.ones((3,5), dtype = float) # 1로 채운 배열 생성
b

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [15]:
c = np.full((3,5), 3.14) # 3.14로 채운 배열 만들기
c

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [18]:
d = np.arange(0,22,2) # 0에서 시작해 2씩 더해 20까지 채우는 배열 생성
d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [20]:
e = np.linspace(0,1,5) # 0과 1사이에 일정한 간격을 가진 5개의 값으로 채운 배열 만들기
e

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [21]:
f = np.random.random((3,3)) # 3x3 크기의 난수 배열 생성
f

array([[0.84116098, 0.23045889, 0.48262388],
       [0.33332365, 0.90262863, 0.54872841],
       [0.50957251, 0.89465343, 0.26672615]])

In [22]:
g = np.random.normal(0,1,(3,3)) # 평균 0, 표준 편차 1의 정규 분포를 따르는 3x3 난수 배열
g

array([[ 0.72750015,  1.54557979,  0.38408147],
       [-0.30776251, -0.62449551, -0.6608539 ],
       [ 1.85545546, -1.19530773,  0.22064559]])

In [23]:
h = np.random.randint(0, 10,(3,3)) #[0,10) 구간의 임의로 정수로 채운 3x3 배열 만들기
h

array([[3, 7, 3],
       [5, 1, 9],
       [2, 2, 0]])

In [24]:
i = np.eye(3) # 크기 3의 단위 행렬 만들기
i

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [25]:
print("np.zeros(10, dtype = int):\n", a)
print("\nnp.ones((3, 5), dtype = float):\n", b)
print("\nnp.full((3,5), 3.14):\n", c)
print("\nnp.arange(0, 20, 2):\n", d)
print("\nnp.linspace(0, 1, 5):\n", e)
print("\nnp.random.random((3,3)):\n", f)
print("\nnp.random.normal(0, 1, (3, 3)):\n", g)
print("\nnp.random.randint(0, 10, (3, 3)):\n", h)
print("\nnp.eye(3):\n", i)

np.zeros(10, dtype = int):
 [[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]

np.ones((3, 5), dtype = float):
 [[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]

np.full((3,5), 3.14):
 [[3.14 3.14 3.14 3.14 3.14]
 [3.14 3.14 3.14 3.14 3.14]
 [3.14 3.14 3.14 3.14 3.14]]

np.arange(0, 20, 2):
 [ 0  2  4  6  8 10 12 14 16 18 20]

np.linspace(0, 1, 5):
 [0.   0.25 0.5  0.75 1.  ]

np.random.random((3,3)):
 [[0.84116098 0.23045889 0.48262388]
 [0.33332365 0.90262863 0.54872841]
 [0.50957251 0.89465343 0.26672615]]

np.random.normal(0, 1, (3, 3)):
 [[ 0.72750015  1.54557979  0.38408147]
 [-0.30776251 -0.62449551 -0.6608539 ]
 [ 1.85545546 -1.19530773  0.22064559]]

np.random.randint(0, 10, (3, 3)):
 [[3 7 3]
 [5 1 9]
 [2 2 0]]

np.eye(3):
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### 인덱싱과 슬라이싱
- 기본적인 인덱싱과 슬라이싱은 리스트 자료형과 완전히 동일함
- 2차원 배열인 경우, X[i,j]는 i행 j열에 있는 요소를 나타냄(c.f. X가 리스트라면, X[i][j]로 접근함)
- 불울 리스트도 인덱스로 사용할 수 있으며, True인 요소와 대응되는 요소만 가져옴
![image.png](attachment:image.png)

- 여려 개의 인덱스를 리스트 형태로 입력받을 수도 있음
![1-4-2.PNG](attachment:1-4-2.PNG)

In [26]:
# 기본적인 인덱싱과 슬라이싱
x1 = np.array([1, 3, 5, 7,9])

print("x1[0]:", x1[0]) # 양수 인덱스 (맨 앞 요소)
print("x1[3]:", x1[3]) # 세 번째 요소
print("x1[-1]:", x1[-1]) # 음수 인덱스 (맨 뒤 요소)
print("x1[-2]:", x1[-2]) # 뒤에서 네 번째 요소 
print("x1[1:3]:", x1[1:3]) # 1번째 요소부터 3번째 요소까지 슬라이싱

x1[0]: 1
x1[3]: 7
x1[-1]: 9
x1[-2]: 7
x1[1:3]: [3 5]


In [29]:
x2 = np.random.random(size = (10, 5))
x2

array([[0.96587737, 0.96409142, 0.04011288, 0.28307815, 0.99746315],
       [0.83198525, 0.79445298, 0.64847505, 0.18698478, 0.66670787],
       [0.78808253, 0.71188861, 0.0257906 , 0.94662226, 0.11466703],
       [0.3137453 , 0.76705763, 0.80928109, 0.90362443, 0.0923783 ],
       [0.07217125, 0.02657485, 0.88281991, 0.71877191, 0.20690015],
       [0.85632986, 0.88802072, 0.03333552, 0.3370179 , 0.02391996],
       [0.97573881, 0.70895758, 0.95721863, 0.48660603, 0.22122258],
       [0.48429181, 0.43561624, 0.38403134, 0.11500812, 0.39315365],
       [0.59584143, 0.55735041, 0.01971266, 0.85337101, 0.56721054],
       [0.71260036, 0.00474174, 0.37974391, 0.38004145, 0.27970948]])

In [30]:
# 2차원 배열의 인덱싱 및 슬라이싱
print("x2[0, 1]", x2[0, 1])

x2[0, 1] 0.964091422352985


In [31]:
print("x2[1:4, 2]\n", x2[1:4, 2])

x2[1:4, 2]
 [0.64847505 0.0257906  0.80928109]


In [33]:
print("x2[0, 2:4]\n", x2[0, 2:4])

x2[0, 2:4]
 [0.04011288 0.28307815]


In [34]:
print("x2[0:3, 2:4]\n", x2[0:3, 2:4])

x2[0:3, 2:4]
 [[0.04011288 0.28307815]
 [0.64847505 0.18698478]
 [0.0257906  0.94662226]]


#### 유니버설 함수

- 유니버설 함수는 단순 반복문에 비해, 매우 빠르다

In [35]:
# 사용 기초
x = np.array([1, 2, 3, 4])
y = np.array([4, 3, 2, 1])

print("x + y = ", x + y)
print("x - y = ", x - y)
print("x * y = ", x * y)
print("x / y = ", x / y)
print("log x = ", np.log(x))

x + y =  [5 5 5 5]
x - y =  [-3 -1  1  3]
x * y =  [4 6 6 4]
x / y =  [0.25       0.66666667 1.5        4.        ]
log x =  [0.         0.69314718 1.09861229 1.38629436]


In [38]:
# 루프와 유니버설 함수의 속도 비교
arr_1 = np.random.randint(1, 10, size = 10**8)
arr_2 = np.random.randint(1, 10, size = 10**8)
import time
### 리스트를 사용하여 벡터의 덧셈 구현
t1 = time.time()
output=[]
for val1, val2 in zip(arr_1,arr_2):
    output.append(val1+val2)
t2 = time.time()
print("반복문을 사용한 경우: ", round(t2 - t1, 4))

# 유니버설 함수를 사용하여 백터의 덧셈 구현
t1 = time.time()
output = arr_1 +arr_2
t2 = time.time()
print("유니버설 함수를 사용한 경우: ",round(t2 - t1, 4))

반복문을 사용한 경우:  31.9548
유니버설 함수를 사용한 경우:  4.318


## 브로드캐스팅
- 다른 크기의 배열에 유니버설 함수를 적용하는 규칙 집합으로, 큰 차원의 배열에 맞게 작은 배열이 확장됨

![1-4-3.PNG](attachment:1-4-3.PNG)

In [39]:
print("np.arange(3) + 5:", 
      np.arange(3) + 5, '\n')

np.arange(3) + 5: [5 6 7] 



In [40]:
print("np.ones((3, 3)) + np.arange(3)\n",
      np.ones((3, 3)) + np.arange(3), '\n')

np.ones((3, 3)) + np.arange(3)
 [[1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]] 



In [41]:
print("np.arange(3).reshape(3, 1) + np.arange(3)\n",
      np.arange(3).reshape(3, 1) + np.arange(3))

np.arange(3).reshape(3, 1) + np.arange(3)
 [[0 1 2]
 [1 2 3]
 [2 3 4]]


In [42]:
# 브로드캐스팅 예시: z - normalization
X = np.random.random((10, 3))
Xmean = X.mean(axis = 0) # 열별 평균 크기: (1, 3)
Xstd = X.std(axis = 0) # 열별 표준편차 크기: (1, 3)

Z = (X - Xmean) / Xstd

print("X:", X)
print("\nXmean:\n", Xmean)
print("\nXstd:\n", Xstd)
print("\nZ:\n", Z)

X: [[0.64847598 0.76004525 0.55492644]
 [0.69973815 0.62183909 0.77923215]
 [0.61608522 0.20114653 0.7570479 ]
 [0.58867651 0.24183328 0.06480364]
 [0.39394776 0.46875782 0.67662601]
 [0.21141731 0.40100766 0.34569251]
 [0.21327514 0.67110212 0.66894853]
 [0.04507347 0.84134253 0.46994909]
 [0.94003912 0.77276559 0.48661322]
 [0.02576766 0.90939841 0.0369187 ]]

Xmean:
 [0.43824963 0.58892383 0.48407582]

Xstd:
 [0.29109719 0.23620576 0.2515947 ]

Z:
 [[ 0.72218611  0.72445916  0.28160619]
 [ 0.89828594  0.13934998  1.17314211]
 [ 0.61091483 -1.6416928   1.08496753]
 [ 0.51675826 -1.46944149 -1.66645873]
 [-0.15218929 -0.50873446  0.76531896]
 [-0.77923226 -0.79556134 -0.55002474]
 [-0.77285009  0.34790977  0.7348037 ]
 [-1.35066973  1.06863906 -0.05614877]
 [ 1.72378678  0.77831192  0.01008525]
 [-1.41699055  1.35676022 -1.77729151]]


#### 비교 연산자

In [43]:
L = np.array([1, 2, 3, 4, 5])
L >= 3

array([False, False,  True,  True,  True])

In [44]:
# 비교 연산자
L = np.array([1, 2, 3, 4, 5])
cond = L >= 3
sum(cond) # 조건을 만족하는 요소의 개수

3

In [45]:
L[cond] # 조건을 만족하는 요소만 반환

array([3, 4, 5])