# 넘파이 기초 : 배열과 벡터 연산
## Numerical Python의 약자. 파이썬에서 산술 계산을 하기 위한 필수 패키지
## Numpy 제공 기능
- 효율적인 다차원 배열인 ndarray 제공
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
## 기본적인 파이썬 산술 연산 기능보다 속도가 빠름

## The NumPy ndarray: 다차원 배열 객체

In [1]:
import numpy as np # numpy를 np로 임포트
# 정수 난수 생성
data1 = np.random.randint(10, size=6).reshape(2, 3) # 2행 3열의 난수 배열 생성
data1

array([[2, 0, 0],
       [5, 8, 6]])

In [2]:
data1 * 10 # 전체 배열 값 * 10

array([[20,  0,  0],
       [50, 80, 60]])

In [3]:
data1 + data1 # 각 배열끼리 합연산

array([[ 4,  0,  0],
       [10, 16, 12]])

In [4]:
data1.shape # shape : 배열 차원의 크기 출력

(2, 3)

In [5]:
data1.dtype # dtype : 배열에 저장된 자료형 출력

dtype('int32')

### ndarray 생성하기
- array 함수를 이용

In [6]:
data2 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data2) # 리스트를 ndarray로 변환
arr1
# ndarray는 데이터 타입을 통일시킴

array([6. , 7.5, 8. , 0. , 1. ])

In [7]:
# 같은 길이를 갖는 중첩 리스트는 다차원 배열로 변환 가능
data3 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data3) 
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [8]:
arr2.ndim # ndim : 차원 값을 리턴

2

In [9]:
arr2.shape # 차원의 크기를 출력

(2, 4)

In [10]:
arr1.dtype

dtype('float64')

In [11]:
arr2.dtype

dtype('int32')

In [12]:
np.zeros(10) # 0으로 이루어진 10개의 배열 생성

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [13]:
np.zeros((3, 6)) # 0으로 이루어진 3X6 2차원 배열 생성

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [14]:
np.arange(15) # 0~14까지의 순차 배열 생성

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### ndarray 데이터 타입
- int64 : 부호가 있는 64비트 정수형
- float64 : 배정밀도 부동소수점
- float128 : 확장정밀도 부동소수점
- bool : True, false
- object : 파이썬 객체형
- string_ : 고정길이 아스키 문자열형(각 문자는 1바이트)
- unicode_ : 고정 길이 유니코드형

In [15]:
arr1 = np.array([1, 2, 3], dtype=np.float64) # float64 타입으로 배열 생성
arr2 = np.array([1, 2, 3], dtype=np.int32) # int32 타입으로 배열 생성
print(arr1.dtype)
print(arr1)
print(arr2.dtype)
print(arr2)

float64
[1. 2. 3.]
int32
[1 2 3]


In [16]:
arr3 = np.array([1, 2, 3, 4, 5])
arr3.dtype

dtype('int32')

In [17]:
float_arr = arr3.astype(np.float64) # astype() : 타입 변경 메소드
float_arr.dtype

dtype('float64')

In [18]:
arr4 = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr4)
print(arr4.astype(np.int32)) # 실수 -> 정수로 변환되면서 소수점 아래가 없어짐

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]
[ 3 -1 -2  0 12 10]


In [19]:
numeric_strings = np.array(['1.25', '-9.6', '4222'], dtype=np.string_) 
# dtype = np.string_ 문자열 타입으로 생성하는 키워드
print(numeric_strings)

[b'1.25' b'-9.6' b'4222']


### 넘파이 배열의 산술 연산
- 배열은 for 문을 작성하지 않고 데이터를 일괄처리 가능
- 이를 벡터화라고 부르며, 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용

In [20]:
arr5 = np.array([[1., 2., 3.], [4., 5., 6.]]) # 배열 생성
print(arr5)
print(arr5 * arr5) # 배열 원소의 곱
print(arr5 - arr5) # 배열 원소의 차
print(1 / arr5) # 배열 원소의 몫
print(arr5 ** 0.5) # 배열 원소의 제곱근

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


In [21]:
arr6= np.array([[0., 4., 1.], [7., 2., 12.]])
print(arr6)
print(arr6 > arr5) # 배열 원소의 비교 연산자

[[ 0.  4.  1.]
 [ 7.  2. 12.]]
[[False  True False]
 [ True False  True]]


### 색인 및 슬라이싱 기초
- 색인(index) : 배열에 접근하기 위한 번호. 0이 가장 첫번째
- 슬라이싱(slicing) : 배열의 특정 데이터를 자르기는 기능

In [22]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
arr[5]

5

In [24]:
arr[5:8]

array([5, 6, 7])

In [25]:
arr[5:8] = 12 # 배열의 슬라이싱된 원소들을 12로 변경
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [26]:
arr_slice = arr[5:8] # 원본 배열에 대한 뷰(view)인 배열 조각 생성
arr_slice

array([12, 12, 12])

In [27]:
arr_slice[1] = 12345 # 배열 조각을 변경하면 원본 배열의 요소들도 변경됨
print(arr_slice)
arr

[   12 12345    12]


array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [28]:
arr_slice[:] = 64 # 배열 조각의 모든 요소를 64로 변경
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [29]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 2차원 배열 
arr2d[2]

array([7, 8, 9])

In [30]:
arr2d[0][2]

3

In [31]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) 
# 3차원 배열
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [32]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

### 팬시 인덱싱
- 다차원 배열 인덱스를 처리하는 기능

In [33]:
arr = np.empty((8, 4)) # 8 X 4 배열 생성
# 배열 데이터 초기화
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [34]:
arr[[4, 3, 0, 6]] # 4, 3, 0, 6 행의 데이터를 선택

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [35]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [36]:
# reshape() : 1차원 데이터를 원하는 차원으로 변경
arr = np.arange(32).reshape((8, 4)) # 0 ~ 31까지의 데이터를 8 X 4 크기의 배열로 변경
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [37]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] # [1, 0], [5, 3], [7, 1], [2, 2]에 해당하는 요소 선택

array([ 4, 23, 29, 10])

In [38]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] #[[1, 0], [1, 3], [1, 1], [1, 2]], ....

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

## 유니버설 함수
- 배열의 각 원소를 빠르게 처리하는 함수
- ndarray 안에 있는 데이터 요소별로 연산을 수행

In [39]:
arr = np.arange(10)
np.sqrt(arr) # 각 요소의 제곱근 계산

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [40]:
np.exp(arr) # 각 요소에서 지수 e^x를 계산

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [41]:
x = np.random.randint(10, size=6)
y = np.random.randint(10, size=6)
print(x)
print(y)
np.maximum(x, y) # 각 배열의 요소 중 큰 값을 반환한 배열

[4 1 2 3 5 5]
[2 6 1 9 9 4]


array([4, 6, 2, 9, 9, 5])

In [42]:
arr = np.random.randn(7) * 5
print(arr)
remainder, whole_part = np.modf(arr) # 배열의 각 요소를 정수와 소수 배열로 리턴
print(remainder)
print(whole_part)

[ 0.78679132  9.5666063  -7.52896886 -0.22066672  1.20053668 -6.44376775
  3.14897938]
[ 0.78679132  0.5666063  -0.52896886 -0.22066672  0.20053668 -0.44376775
  0.14897938]
[ 0.  9. -7. -0.  1. -6.  3.]


In [43]:
arr = np.array([1., 4., 9., 16.])
print(arr)
print(np.sqrt(arr)) # 배열의 각 요소들의 제곱근 배열로 리턴
arr

[ 1.  4.  9. 16.]
[1. 2. 3. 4.]


array([ 1.,  4.,  9., 16.])

### 정렬(Sorting)

In [44]:
arr = np.random.randint(10, size=6)
print(arr)
arr.sort() # 오름차순으로 정렬
print(arr)

[0 0 6 0 6 3]
[0 0 0 3 6 6]


In [45]:
large_arr = np.random.randint(1000, size=6)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5%에 위치한 데이터 출력

65

### 집합관련 함수

In [46]:
names = np.array(['민준', '지훈', '민서', '민준', '민서', '지훈', '지훈'])
np.unique(names) # unique() : 중복 제거 메소드

array(['민서', '민준', '지훈'], dtype='<U2')

In [47]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

array([1, 2, 3, 4])

In [48]:
sorted(set(names)) # names 집합으로 변환한 후 정렬

['민서', '민준', '지훈']

In [49]:
values = np.array([6, 0, 0, 3, 2, 5, 4])
np.in1d(values, [2, 3, 6]) # in1d() : x의 요소가 y의 요소에 포함되는지 나타내는 논리형 배열을 리턴

array([ True, False, False,  True,  True, False, False])

### 연습 문제

#### 연습문제1(정렬과 색인 활용)
- 아래 2차원 배열 데이터에서 두 번째 행의 데이터 중 가장 큰 값을 선택하시오.(단, sort()함수를 사용해야함)

In [50]:
data = np.random.randn(3, 3)
data

array([[-0.68303832,  0.3315237 , -0.5216996 ],
       [ 0.55588888,  0.40058716, -0.29962623],
       [-1.70503665,  0.37484763, -0.42699497]])

In [51]:
x = data[1]

In [52]:
x

array([ 0.55588888,  0.40058716, -0.29962623])

In [53]:
x.sort()

In [54]:
x[2]

0.5558888766587068