# 1. 넘파이(Numpy) 소개

- 수치 데이터를 다루기 위한 라이브러리
- 배열 계산에 최적화된 방식과 빠른 처리 속도
- import하여 사용

In [1]:
# 넘파이 import하기
import numpy as np

# 버전 확인
print(np.__version__)

1.23.5


# 2. 넘파이 배열 : ndarray
- n-dimenstion array (n 차원 배열)
- 공백으로 요소 구분 (리스트는 쉽표로 구분)
- 한 가지 데이터형만 사용 가능 (리스트는 서로 다른 데이터형 사용 가능)

## [참고] 파이썬에서 데이터 분석을 할 때 주로 사용하는 데이터형
- 리스트 : 다양한 값을 연속으로 저장
- 데이터프레임 : 데이터 전처리에 주로 사용
- 넘파이 배열 : 데이터 분석 처리에 주로 사용

## 2-1. 넘파이 배열 생성 : numpy.array
* *ndarray* = *numpy*.**array**(*data*)

### 2-1-1. 리스트로 생성
* *data* : list형 데이터, list 변수 

In [5]:
#1차원 배열
# npa = np.array([1,2,3])
ll = [1,2,3]
npa = np.array(ll)
print(npa)
print(type(npa))

[1 2 3]
<class 'numpy.ndarray'>


In [7]:
#2차원 배열
ll2 = [[1,2,3],[4,5,6]]
npa2 = np.array(ll2)
print(npa2)
print(type(npa2))

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>


### 2-1-2. 데이터프레임으로 생성
* *data* : DataFrame

In [10]:
import pandas as pd
mypd1 = pd.DataFrame([1, 2, 3])
print(mypd1)
npa = np.array(mypd1)
print(npa)

   0
0  1
1  2
2  3
[[1]
 [2]
 [3]]


In [9]:
mylist2=[[1, 2, 3],
 [4, 5, 6]]
print(type(mylist2))
mypd2=pd.DataFrame(mylist2)
print(type(mypd2))
npa = np.array(mypd2)
print(npa)

<class 'list'>
<class 'pandas.core.frame.DataFrame'>
[[1 2 3]
 [4 5 6]]


## 2-2. 넘파이 배열의 속성
* **dtype** : 데이터형 표시
* **shape** : 배열이 몇 행 몇 열인지 표시
* **ndim** : 배열의 차원 표시
* **size** : 배열의 원소수 표시
* **nbytes** : 배열의 byte 표시

* **T** : 배열의 행/열 방향 변경
* **flat** = *value* : 배열의 값 초기화

In [12]:
mylist = [[ 0,  1,  2,  3],
          [ 4,  5,  6,  7],
          [ 8,  9, 10, 11]]
npa = np.array(mylist)
print(npa)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [13]:
npa.dtype

dtype('int32')

In [14]:
npa.shape

(3, 4)

In [15]:
npa.ndim
# 배열의 차원수 
# 2차원

2

In [16]:
npa.size
# 배열의 원소의 수

12

In [17]:
npa.nbytes

48

In [19]:
print(npa.T)

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


In [20]:
npa.flat = -1
print(npa)

[[-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]]


## 2-3. Arange 활용 n차원 넘파이 배열 생성

* **arange**() : 특성 수열을 만들어 넘파일 배열을 생성
* *numpy*.*ndarray* = *numpy*.**arange**(시작값, 종료값, 증가값)
  - 시작값부터 종료값보다 작은 수 (즉, 종료값-1)까지 증가값만큼 커지는 배열 생성
  - 시작값은 생략시 0, 증가값은 생략 시 1

### 2-3-1. 1차원 넘파이 배열 생성

In [21]:
# 0 ~ 3 숫자로 1차원 배열 생성
npa = np.arange(4)
print(npa)

[0 1 2 3]


In [22]:
# 2 ~ 5 숫자로 1차원 배열 생성
npa = np.arange(2, 6)
print(npa)

[2 3 4 5]


In [23]:
# 0 ~ 10 중 짝수로 1차원 배열 생성
npa = np.arange(0, 11, 2)
print(npa)

[ 0  2  4  6  8 10]


### 2-3-2. 2차원 넘파이 배열 생성

* 데이터를 2차원 리스트로 구성하여 np.array 적용
* np.arange로 각 행을 생성하여 np.array 적용

* 다음의 array를 arange 사용하여 생성하고, shape 확인  
[[0 1 2]  
 [3 4 5]]  


In [24]:
npa2 = np.array([np.arange(3), np.arange(3,6)])
print(npa2)

[[0 1 2]
 [3 4 5]]


* 다음의 array를 arange 사용하여 생성하고, shape 확인   
[[0 3]  
 [1 4]  
 [2 5]] 


In [25]:
npa2 = np.array([np.arange(0,4,3),np.arange(1,5,3),np.arange(2,6,3)])
print(npa2)

[[0 3]
 [1 4]
 [2 5]]


In [27]:
npa2 = np.array([np.arange(3),np.arange(3,6)])
npa2 = npa2.T
print(npa2)

[[0 3]
 [1 4]
 [2 5]]


### 2-3-3. 3차원 넘파이 배열 생성
* 3차원 배열은 행과 열로 이루어진 2차원 배열이 여러 개인 형태로, 2차원 배열을 대괄호로 묶어서 표현

[[[0 1 2]  
  [3 4 5]]  

 [[0 1 2]  
  [3 4 5]]]  

In [29]:
npa2 = np.array([[np.arange(3),np.arange(3,6)],[np.arange(3),np.arange(3,6)]])
print(npa2)

[[[0 1 2]
  [3 4 5]]

 [[0 1 2]
  [3 4 5]]]


## 2-4. 배열의 데이터형 변형 : astype
* *ndarray* = *array_name*.**astype**(*변경할 데이터형*)

* 넘파이의 Data Type
  - i - integer
  - b - boolean
  - u - unsigned integer
  - f - float
  - c - complex float
  - m - timedelta
  - M - datetime
  - O - object
  - S - string
  - U - unicode string
  - V - fixed chunk of memory for other type ( void )

In [35]:
# 0부터 9까지의 배열 생성
a1 = np.arange(10)
print(a1)
# 실수형으로 변환한 배열 생성
a2 = a1.astype('f')
print(a2)
a3 = a1.astype('S')
print(a3)
a4 = a1.astype('U')
print(a4)

# f -> i 는 오류남
a5 = np.array(['0.1','0.2'])
a6 = a5.astype('i')
print(a6)

[0 1 2 3 4 5 6 7 8 9]
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
[b'0' b'1' b'2' b'3' b'4' b'5' b'6' b'7' b'8' b'9']
['0' '1' '2' '3' '4' '5' '6' '7' '8' '9']


ValueError: invalid literal for int() with base 10: '0.1'

## 2-5. 배열의 형태 변경

### 2-5-1. 배열의 구조 변경하기: reshape 함수
* 행과 열의 방향 변경
* 차원 변경

* *ndarray* = *ndarray*.**reshape**(면 수, 행 수, 열 수)
  - 자동으로 맞추고 싶은 수에 -1 사용 가능

In [37]:
# 0 ~ 5 숫자 배열 생성 (1행 6열 배열)
a1 = np.arange(6)
print(a1, a1.shape)

[0 1 2 3 4 5] (6,)


In [38]:
# 1행 6열을 6행 1열로 변경
a2 = a1.reshape(6,1)
print(a2, a2.shape)

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]] (6, 1)


In [39]:
# 1행 6열을 2행 3열로 변경
a3 = a1.reshape(2,3)
print(a3, a3.shape)

[[0 1 2]
 [3 4 5]] (2, 3)


In [42]:
# 0 ~11 수를 2면 2행 3열의 3차원 배열로 생성
a4 = np.arange(12).reshape(2,2,3)
print(a4, a4.shape)

# a4 = np.arange(12)
# print(a4, a4.shape)
# a5 = a4.reshape(2,2,3)
# print(a5,a5.shape)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]] (2, 2, 3)


In [45]:
m1=np.arange(6)
print(m1, m1.shape)
# 행 수는 자동, 2열 생성
m2 = m1.reshape(-1,2)
print(m2, m2.shape)
# 행 수는 자동, 3열 생성
m3 = m1.reshape(-1,3)
print(m3, m3.shape)

[0 1 2 3 4 5] (6,)
[[0 1]
 [2 3]
 [4 5]] (3, 2)
[[0 1 2]
 [3 4 5]] (2, 3)


In [48]:
m1=np.arange(12)
# 면 수 자동, 3행 2열 생성
m2 = m1.reshape(-1,3,2)
print(m2, m2.shape)
# 열 수 자동, 2면 3행 생성
m3 = m1.reshape(2,3,-1)
print(m3, m3.shape)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]] (2, 3, 2)
[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]] (2, 3, 2)


### 2-5-2. 다차원 배열을 1차원 배열로 평탄화하기: flatten 함수

* *new_ndarray* = *ndarray*.**flatten**()

In [49]:
# 0 ~ 11까지의 수를 3행 4열 배열로 생성
npa = np.arange(12).reshape(3,4)
print(npa)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [50]:
# 1차원 배열로 평탄화
npa2 = npa.flatten()
print(npa2)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


### 2-5-3. 배열의 방향 변경하기

* 순서 뒤집기 : 인덱스 -1
* 속성 T
* 함수 transpose()

In [52]:
# 0 ~ 11까지의 수를 3행 4열 배열로 생성
a = np.arange(12).reshape(3,4)
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [53]:
# 행 순서를 거꾸로 변경
print(a[::-1])

[[ 8  9 10 11]
 [ 4  5  6  7]
 [ 0  1  2  3]]


In [54]:
# 열 순서를 거꾸로 변경
print(a[:,::-1])

[[ 3  2  1  0]
 [ 7  6  5  4]
 [11 10  9  8]]


In [55]:
# 행과 열 순서를 거꾸로 변경
print(a[::-1,::-1])

[[11 10  9  8]
 [ 7  6  5  4]
 [ 3  2  1  0]]


In [56]:
# transpose() 적용
t = a.transpose()
print(t, t.shape)

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]] (4, 3)


In [57]:
# 속성 T 적용
t2 = a.T
print(t2)

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


## 2-6. 배열의 인덱싱과 슬라이싱

### 2-6-1. 1차원 배열의 인덱싱과 슬라이싱
* indexing : [숫자]
* slicing : [시작:끝+1:간격]

In [1]:
import numpy as np

In [2]:
# 0~5 1차원 배열 생성
a = np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

In [5]:
# 1차원 배열의 인덱싱 : 0 1 2 5 4
# a[0:3], a[5:3:-1]
a[0],a[1],a[2],a[3],a[-1],a[-2]

(0, 1, 2, 3, 5, 4)

In [6]:
# 1차원 배열의 슬라이싱
# [2] [0 1 2 3 4 5] [0 1 2 3 4]
a[2:3], a[:], a[:-1]
# [0 2 4] [5 4 3 2 1 0]
a[::2], a[::-1]
# 첫번째 수를 10으로 변경


(array([2]), array([0, 1, 2, 3, 4, 5]), array([0, 1, 2, 3, 4]))

### 2-6-2. 2차원 배열의 인덱싱과 슬라이싱 
* indexing : [행][열] 또는 [행, 열]
* slicing : [행 slicing, 열 slicing]

In [10]:
# 0~11 숫자로 3행 4열 배열 생성
a2 = np.arange(12).reshape(3,4)
print(a2, a2.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] (3, 4)


In [12]:
# 2차원 배열의 인덱싱 : 0 9
a2[0][0], a2[1,2], a2[-1,1]

(0, 6, 9)

In [17]:
# 0행만 슬라이싱
# 0행의 전체 열 슬라이싱
# 마지막 열 제외한 전체 행과 열 슬라이싱
# 2행 2열 간격으로 전체 행과 열 슬라이싱
a2[0], a2[0, :], a2[:, :-1], a2[::2, ::2]

(array([0, 1, 2, 3]),
 array([0, 1, 2, 3]),
 array([[ 0,  1,  2],
        [ 4,  5,  6],
        [ 8,  9, 10]]),
 array([[ 0,  2],
        [ 8, 10]]))

In [18]:
# 0번 행 요소를 모두 20으로 변경
a2[0] = 20
a2

array([[20, 20, 20, 20],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [21]:
# 슬라이싱된 요소값을 한꺼번에 변경
# [[30 20 20 30]
#  [ 4  5  6  7]
#  [30  9 10 30]]
a2[::2, ::3] = 30
print(a2)

[[30 20 20 30]
 [ 4  5  6  7]
 [30  9 10 30]]


In [23]:
# 전체 요소값을 한꺼번에 변경 : -1
a2[:,:] = -1
print(a2)

[[-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]]


### 2-6-3. 3차원 배열의 인덱싱과 슬라이싱
* indexing : [면][행][열] 또는 [면, 행, 열]
* slicing : [면 슬라이싱, 행 슬라이싱, 열 슬라이싱]

In [24]:
# 0 ~ 11 숫자로 2면 2행 3열 배열 생성
a3 = np.arange(12).reshape(2,2,3)
print(a3, a3.shape)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]] (2, 2, 3)


In [26]:
# 3차원 배열의 인덱싱
# 0면 0행 0열 인덱싱
# 0면 0행 0열 인덱싱
# 0면 1행 2열 인덱싱
a3[0][0][0], a3[0,0,0], a3[0,1,2]

(0, 0, 5)

In [29]:
# 3차원 배열의 슬라이싱
# [[[0 1]]
#  [[6 7]]]
a3[:,:1,:2], a3[:,:-1,:-1]

(array([[[0, 1]],
 
        [[6, 7]]]),
 array([[[0, 1]],
 
        [[6, 7]]]))

In [31]:
# [[[ 4  5]]
#  [[10 11]]]
a3[:,1:2,1:3], a3[:,1:,1:]

(array([[[ 4,  5]],
 
        [[10, 11]]]),
 array([[[ 4,  5]],
 
        [[10, 11]]]))

In [33]:
# [[ 2  5]
#  [ 8 11]]
a3[:,:,-1]

array([[ 2,  5],
       [ 8, 11]])

In [37]:
#[ 5 11]
a3[:,-1,-1]

array([ 5, 11])

In [35]:
#11
a3[-1,-1,-1]

11

### 2-6-4. Boolean Indexing
* 넘파이 배열에 조건을 설정하면 True/False를 요소로 하는 배열 생성
* 조건으로 설정된 값을 인덱스로 사용하여 조건에 맞는 값만 결과로 표시

In [38]:
# 1 ~ 7 숫자 1차원 배열 생성
a= np.arange(1,8)
a

array([1, 2, 3, 4, 5, 6, 7])

In [39]:
# 배열 내 데이터가 2보다 큰지 여부를 넘파일 배열로 출력
res = a>2
res

array([False, False,  True,  True,  True,  True,  True])

In [40]:
# 2보다 큰 수 출력
a[a>2]

array([3, 4, 5, 6, 7])

In [44]:
# 2보다 크고 6보다 작은 요소만 추출
# 짝수만 출력
# 평균보다 작은 값만 추출
a[(a>2) & (a<6)], a[a%2==0], a[a<a.mean()]

(array([3, 4, 5]), array([2, 4, 6]), array([1, 2, 3]))

## 2-7. 넘파이 배열의 정렬

### 2-7-1. 기본 정렬: sort 함수

* *sorted_ndarray* = *numpy*.**sort**(*ndarray*)
  - 오름차순 정렬
  - 내림차순 정렬하기 : sort 결과에 [::-1]로 배열 뒤집시
* *ndarray*.**sort()** : 배열 자체가 정렬됨 - 원본 자체가 변경됨

In [45]:
a=np.array([2, 8, 9, 7, 3, 1, 4, 5, 6])
print(a, a.shape)

[2 8 9 7 3 1 4 5 6] (9,)


In [46]:
# 원본 변경 없이 오름차순 정렬
np.sort(a)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
# 내림차순 정렬
np.sort(a)[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1])

In [48]:
# 원본을 오름차순 정렬
a.sort()
a

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

### 2-7-2. 인덱스 반환 정렬: argsort 함수
* 정렬된 값을 인덱스로 반환

* *sorted_index_list* = *numpy*.**argsort**(*ndarray*)

In [49]:
a=np.array([2, 8, 9, 7, 3, 1, 4, 5, 6])
print(a, a.shape)

[2 8 9 7 3 1 4 5 6] (9,)


In [50]:
slist = np.argsort(a)
slist

array([5, 0, 4, 6, 7, 8, 3, 1, 2], dtype=int64)

### 2-7-3. 2차원 배열의 정렬
* axis를 사용하여 행 또는 열 기준으로 정렬
  - axis = 0 : 열 요소 정렬
  - axis = 1 : 행 요소 정렬 (생략시)

In [51]:
arr2d=np.array([[5, 6, 7, 8],
 [4, 3, 2, 1],
 [10, 9, 12, 11]])
print(arr2d)

[[ 5  6  7  8]
 [ 4  3  2  1]
 [10  9 12 11]]


In [52]:
# 열 방향으로 같은 행의 요소 정렬
np.sort(arr2d, axis=1)

array([[ 5,  6,  7,  8],
       [ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

In [53]:
# 행 방향으로 같은 열의 요소 정렬
np.sort(arr2d, axis=0)

array([[ 4,  3,  2,  1],
       [ 5,  6,  7,  8],
       [10,  9, 12, 11]])