### Numpy
- 복잡한 빅데이터의 수학적/과학적 계산을 위해 만들어진 라이브러리.
- 반복문을 사용하지 않고, 전체 데이터 배열 연산이 가능한 수학 함수들을 제공
- 배열 : 동일한 자료형의 원소들이 연속적인 형태로 구성된 자료구조

In [6]:
import numpy as np # Numpy 라이브러리를 불러오고 앞으로 np라고 부르겠다.

In [8]:
arr = np.array([4,3,2,1]) # np안에 있는 array함수를 사용
# array함수는 리스트나 튜플을 배열로 변환.
# 반환값을 arr변수에 저장

arr

array([4, 3, 2, 1])

In [10]:
list1 = [1,2,3,4]

arr = np.array(list1, dtype=np.float32)

arr

array([1., 2., 3., 4.], dtype=float32)

In [12]:
type(arr)

numpy.ndarray

In [14]:
list1 = [1,2,3,4]

arr = np.array(list1)

arr

array([1, 2, 3, 4])

In [20]:
arr + 1

array([2, 3, 4, 5])

In [16]:
arr + [1]

array([2, 3, 4, 5])

In [18]:
arr + [1,2,3,4]

array([2, 4, 6, 8])

In [22]:
arr * 3

array([ 3,  6,  9, 12])

In [24]:
arr / 3

array([0.33333333, 0.66666667, 1.        , 1.33333333])

### 배열끼리의 사칙연산

In [29]:
arr1 = np.array([1,2,3])
arr2 = np.array([4,5,6])
arr3 = np.array([7,8,9,10])

In [31]:
arr1 + arr2

array([5, 7, 9])

In [33]:
arr1 + arr3

ValueError: operands could not be broadcast together with shapes (3,) (4,) 

In [37]:
print(arr2 + arr1)
print(arr2 - arr1)
print(arr2 * arr1)
print(arr2 / arr1)
print(arr2 // arr1)
print(arr2 % arr1)

[5 7 9]
[3 3 3]
[ 4 10 18]
[4.  2.5 2. ]
[4 2 2]
[0 1 0]


In [44]:
# 정수와 실수를 같이 넣었을 때,
# 자동적으로 더 상위 표현 방식으로 표현 정수형 > 실수형
# 배열은 모두 동일한 자료형 이어야 한다. (업캐스팅)

arr_f = np.array([4,2.5])

arr_f

array([4. , 2.5])

In [46]:
# 문자형 자료가 담겨있는 배열
arr_str = np.array(['a','b','c','de'])

arr_str

array(['a', 'b', 'c', 'de'], dtype='<U2')

In [48]:
arr_str2 = np.array(['a','b',3,4]) # 숫자형 >> 문자열 (업캐스팅)

arr_str2

array(['a', 'b', '3', '4'], dtype='<U11')

### 2차원 배열

In [51]:
arr2 = np.array([[1,2,3],[4,5,6]])

arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
# ndim : 배열의 차원을 확인해주는 함수.
arr2.ndim # 숫자의 형태로 배열의 차원을 확인

2

In [55]:
# shape : 배열의 형태(행, 열)
arr2.shape

(2, 3)

In [57]:
# size :  배열의 가장 작은 단위 요소 개수 >> 전체 요소 수
arr2.size

6

In [61]:
# dtype : 배열 내 데이터들의 타입(자료형)
arr2.dtype

dtype('int32')

![image.png](attachment:18e82ca1-5de2-4a81-81a1-d3bb3eb682a1.png)

In [66]:
arr3 = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,1223]]])

In [68]:
arr3.ndim

3

In [70]:
arr3.shape

(2, 2, 3)

In [72]:
arr3.size

12

In [74]:
arr.dtype

dtype('int32')

### 편리하게 배열 생성 함수

In [97]:
# 0 으로 배열 생성
# zeros(형태)

arr_0 = np.zeros((3,2))

arr_0 # default 값 = 'float64'

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [83]:
arr_0.dtype

dtype('float64')

In [95]:
# 1로 배열 생성
# ones

arr_1 = np.ones((3,3,2), dtype=np.int32) # int 값으로 데이터타입 변경 선언

arr_1

array([[[1, 1],
        [1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1],
        [1, 1]]])

In [93]:
# 특정 값으로 배열 생성
# full
# np.full((형태), 값)

arr_f = np.full((3,2),5)

arr_f

array([[5, 5],
       [5, 5],
       [5, 5]])

In [121]:
# np.arange() : range() 시퀀스로 배열 생성, 사용법. range() 와 유사
# np.arange(시작할 값, 끝값(포함하지 않음), 증감량)

arr_a = np.arange(1,13,1)
print(arr_a)

arr_a = np.arange(1,13,3)
print(arr_a)

arr_a = np.arange(0,13,1)
print(arr_a)

arr_a = np.arange(0,13) # 증감량이 1일때 생략가능
print(arr_a)

arr_a = np.arange(13) # 시작값이 0일때 생략가능
print(arr_a)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  4  7 10]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12]


In [131]:
arr_a = np.arange(12)
print(arr_a)

#reshape : 배열의 형태(shape) 변경
arr_a.reshape(3,4) # 전체 요소 수 와 같게 형태를 변경해야 함!

[ 0  1  2  3  4  5  6  7  8  9 10 11]


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

### array의 데이터에 접근 방법
- array는 리스트와 마찬가지로 인덱싱, 슬라이싱 가능

In [135]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [149]:
# 2
print(arr1[0][1])

2


In [151]:
# 5
print(arr1[1][1])

5


In [163]:
# 인덱싱하여 값 변경
arr1 = np.array([[1,2,3],[4,5,6]])
print('변경 전 :\n',arr1)

# 값 변경
# arr[0] = [11,23,23] << 위와 같이 변경해야 함..
arr1[0] = 11  # 한 요소로만 채우기 >> []까지 생략 가능 원래 코드 = [11,11,11]

print('변경 후 :\n',arr1)

변경 전 :
 [[1 2 3]
 [4 5 6]]
변경 후 :
 [[11 11 11]
 [ 4  5  6]]


In [167]:
list1 = [[4,5,6],[4,5,6]]
print(list1)

# 값 변경
list1[0] = 11
print(list1)

[[4, 5, 6], [4, 5, 6]]
[11, [4, 5, 6]]


### 슬라이싱

In [175]:
arr2 = np.arange(9).reshape(3,3)

arr2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [177]:
arr2[:2]

array([[0, 1, 2],
       [3, 4, 5]])

In [181]:
print('인덱싱 :',arr2[0]) # 
print('슬라이싱 :',arr2[:1]) #
arr2[:1] #

인덱싱 : [0 1 2]
슬라이싱 : [[0 1 2]]


array([[0, 1, 2]])

In [183]:
# [4,5]를 슬라이싱

arr2[1][1:]

array([4, 5])

In [193]:
# 값 변경
arr2[1][1:] = 23
print(arr2)

arr2[1][1:] = [42,13]
print(arr2)

arr2[1][1:] = 1,2
print(arr2)

[[ 0  1  2]
 [ 3 23 23]
 [ 6  7  8]]
[[ 0  1  2]
 [ 3 42 13]
 [ 6  7  8]]
[[0 1 2]
 [3 1 2]
 [6 7 8]]


### 2차원 배열에서의 데이터 접근

In [198]:
# 2차원 배열
arr3 = np.arange(50).reshape(5,10) #reshape : 생성된 배열의 shape를 재설정

arr3

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [202]:
#arr[행의 범위,열의 범위] >> ',' 로 행의 범위와 열의 범위를 구분

# 0~1번 행 인덱스, 0~5번 열 인덱스
arr3[:2,:6]

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15]])

In [220]:
arr3[:,0]

array([ 0, 10, 20, 30, 40])

In [218]:
arr3[1:5:2,0]

array([10, 30])

### 실습

In [223]:
arr4 = np.arange(18).reshape(3,6)

arr4

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [227]:
# 7,13,9,15,11,17 을 가져와라

arr4[1:,1::2]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [279]:
arr4[1:,[1,3,5]]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [283]:
arr4[1:,range(1,6,2)]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [293]:
# 전치  = .T
arr4
# 3행 6열

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [289]:
# 6행 3열
arr4.T

array([[ 0,  6, 12],
       [ 1,  7, 13],
       [ 2,  8, 14],
       [ 3,  9, 15],
       [ 4, 10, 16],
       [ 5, 11, 17]])

In [291]:
arr4

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [317]:
# 랜덤수로 배열만들기
# mp.random.randint(시작값, 끝값(미포함),size = 크기)
# 정수 > 실수, randint > uniform

arr5 = np.random.randint(50,100, size = 8)
# 50에서, 99까지 8개의 값을 가지는 정수 난수 배열 생성
arr5

array([73, 94, 85, 98, 84, 63, 52, 51])

### 불리언(Boolean) 인덱싱
- 특정 조건에 맞는 값들을 찾아내고 싶을 때
- 사용법 : 인덱스 번호 대신, '조건식'을 입력

In [321]:
# 조건식
a=5
a<3

False

In [323]:
type(a<3)

bool

In [325]:
arr5

array([73, 94, 85, 98, 84, 63, 52, 51])

In [329]:
arr5>=70 

array([ True,  True,  True,  True,  True, False, False, False])

In [333]:
type(arr5>=70)  # >>> boolean 값이 들어간 배열

numpy.ndarray

In [349]:
# 다중조건
# 65 이상이고, 90이하

#numpy에서는 and, or 사용 불가능
#numpy에서는 &,|를 사용, numpy 배열의 내부 코드가 비트연산을 기반으로 만들어짐.
# & = and 연산자
# | = or 연산자

(arr5 >= 65) & (arr5 <= 90) 

array([ True, False,  True, False,  True, False, False, False])

In [353]:
# 짝숫값 판단 조건식
arr5%2 == 0  # boolean 인덱싱의 재료

array([False,  True, False,  True,  True, False,  True, False])

In [357]:
# 실제 값을 가져와보자
# True 에 해당하는 값들을 가져와보자
# 인덱스 번호대신, '조건식'입력
arr5[arr5%2==0]

array([94, 98, 84, 52])

### 불리언 인덱싱 예제

In [360]:
# 2차원 배열
arr6 = np.array([[6,9,6,9,7],[2,3,5,4,1]])

arr6

array([[6, 9, 6, 9, 7],
       [2, 3, 5, 4, 1]])

In [370]:
# 짝수일 경우, 0 으로 변경하는 코드를 작성

arr6[arr6%2==0]

array([0, 0, 0, 0])

In [372]:
arr6[arr6%2==0] = 0

In [366]:
arr6

array([[0, 9, 0, 9, 7],
       [0, 3, 5, 0, 1]])

In [374]:
# 불리언 인덱싱으로 값에 접근해서, 0을 대입
# 조건식
arr6 % 2 == 0

array([[ True, False,  True, False, False],
       [ True, False, False,  True, False]])

### 평균과 합계를 구하는 함수

In [377]:
arr7 = np.array([[1,2,3],[4,5,6]])

arr7

array([[1, 2, 3],
       [4, 5, 6]])

In [381]:
# 합계
# arr.sum()

arr7.sum()
# 배열이라는 객체에 속한 메서드

21

In [385]:
sum(arr7) # [1,2,3] + [4,5,6]

array([5, 7, 9])

In [389]:
sum(sum(arr7)) # 배열 메서드 arr7.sum()과 동일

21

In [399]:
# np.sum(시퀀스형 자료구조)
print(np.sum(arr7))
print(np.sum([1,2,3,4,5,6]))
print(np.sum(range(1,7)))

21
21
21


In [401]:
# 평균
# arr.mean() 배열 객체 메서드
arr7.mean()

3.5

In [403]:
# np.mean(시퀀스형 자료구조)
print(np.mean(arr7))
print(np.mean([1,2,3,4,5,6]))
print(np.mean(range(1,7)))

3.5
3.5
3.5
