## 파이썬 기본3

### Numpy, Pandas, Matplotlib

#### Numpy

넘파이(Numpy)

- 대수, 행렬, 통계 등 수학 및 과학 연산을 위한 라이브러리
- ndarray라는 다차원 배열을 데이터로 나타내고 처리하는데 특화
- **실행속도가 빠르고 짧고 간결한 코드 구현**이 가능
- Numpy는 외부 라이브러리이므로, 설치 후 사용 가능

Numpy 배열과 파이썬 리스트의 차이

- 파이썬 리스트는 배열에 실제 데이터의 주소가 담겨져 있음
- 이것으로 인해 서로 다른 데이터타입을 리스트 요소로 넣을 수 있음
- 반면 numpy 배열은 실제 데이터가 배열에 들어 있음
- 리스트는 데이터를 읽고 쓰기에 numpy 배열보다 2배의 시간이 걸림
- 대량의 배열 연산 또는 행렬 연산에는 numpy가 유리함

넘파이 배열(Numpy Array)

- 넘파이는 다차원 배열을 지원함 (1차원: Vector, 2차원: Matrix, 3차원 이상: Tensor)
- 넘파이 배열은 한 가지 자료형 데이터를 요소로 가짐

In [None]:
# 시작하기 전 패키지 실행
import numpy
from bs4 import BeautifulSoup

In [None]:
# numpy를 간결하게 별명 붙이기
import numpy as np

넘파이 배열 직접 생성
- 리스트 데이터를 넘파이 배열로 바꾸어 생성
> np.array(리스트)

In [35]:
num_list = [1, 2, 3, 4]
int_arr2 = np.array(num_list)
print(int_arr2)     # 넘파이 배열은 ',' 없이 공백으로 데이터 구분

[1 2 3 4]


배열의 범위를 지정하여 생성
- 시작 인덱스부터 시작하여 끝 인덱스 전까지, 간격만큼 더해 넘파이 배열 생성
> np.arange (시작 인덱스, 끝 인덱스, 간격)

In [36]:
arr1 = np.arange(0, 10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
arr2 = np.arange(0, 10, 2)
arr2

array([0, 2, 4, 6, 8])

In [30]:
arr3 = np.arange(5)
arr3

array([0, 1, 2, 3, 4])

넘파이 배열에 들어가는 자료형
- 한 가지 데이터 타입으로 통일되어 처리됨


In [37]:
list_data = [1, '2', 3]
arr = np.array(list_data)   # 문자열형으로 통일
print(arr)  

['1' '2' '3']


In [34]:
list_data = [1, 2., 3]
arr = np.array(list_data)    # 실수형으로 통일
print(arr)                   # 넘파이는 소수점 아래 0이 계속 되는 경우 이를 생략
                             # 소수점만 표시해 해당 원소가 실수형임을 알림

[1. 2. 3.]


2차원 배열 생성
- 2차원 배열은 행렬(matrix)이라고 함
- 가로줄은 행(row), 세로줄은 열(column)

In [40]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])  # 중첩된 2차원 리스트
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


3차원 배열 생성
- 3차원 이상의 배열은 tensor이라고 함

In [41]:
arr = np.array([[[1, 2, 3, 4], [5, 6, 7, 8]], 
                [[9, 10, 11, 12], [13, 14, 15, 16]],
                [[17, 18, 19, 20], [21, 22, 23, 24]]])
print(arr)

[[[ 1  2  3  4]
  [ 5  6  7  8]]

 [[ 9 10 11 12]
  [13 14 15 16]]

 [[17 18 19 20]
  [21 22 23 24]]]


넘파이 배열의 차원
> 넘파이 배열명.ndim

In [None]:
arr = np.array([1, 2, 3, 4])    # 1차원 리스트

print(arr)
print(arr.ndim)    

[1 2 3 4]
1


In [43]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])  # 중첩된 2차원 리스트
print(arr)
print(arr.ndim) 

[[1 2 3 4]
 [5 6 7 8]]
2


넘파이 배열의 크기
> 넘파이 배열명.shape

In [None]:
arr = np.array([1, 2, 3, 4])    # 1차원 요소수가 4개

print(arr)
print(arr.shape) 

[1 2 3 4]
(4,)


In [45]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])  # 2차원 (2행 4열)
print(arr)
print(arr.shape) 

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


넘파이 배열의 차원 변경
> 넘파이 배열명.reshape(크기)

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(arr.ndim)
print(arr.shape)

arr2 = arr.reshape(2, 5)    # 2행 5열로 변경
print(arr2)
print(arr2.ndim)
print(arr2.shape)

1
(10,)
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
2
(2, 5)


In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

arr2 = arr.reshape(2, -1)   # -1은 NumPy가 배열의 크기를 자동으로 계산(열의 수 자동 결정)
print(arr2)
print(arr2.ndim)
print(arr2.shape)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
2
(2, 5)


In [48]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

arr2 = arr.reshape(5, -1) 
print(arr2)
print(arr2.ndim)
print(arr2.shape)

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
2
(5, 2)


넘파이 연산
- shape이 같다면 덧셈, 뺄셈, 곱셈, 나눗셈 연산 가능

In [None]:
a = np.array([1, 2, 3])     # 동일한 인덱스끼리 연산
b = np.array([4, 5, 6])

print(a + b)
print(a - b)
print(a * b)
print(a / b)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


In [None]:
# 백터화 연산 (모든 요소에 일괄적으로 연산 적용)
a = np.array([1, 2, 3])

print(a + 1)
print(a - 1)
print(a * 3)
print(a / 2)

[2 3 4]
[0 1 2]
[3 6 9]
[0.5 1.  1.5]


배열의 범위와 개수를 지정하여 생성
- 시작 인덱스부터 끝 인덱스까지 n개의 요소를 갖는 넘파이을 생성
> np.linspace(시작 인덱스, 끝 인덱스, 개수 n)

In [51]:
arr = np.linspace(1, 10, 10)

print(arr)
print(arr.dtype)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
float64


In [None]:
arr = np.linspace(0, np.pi, 10)     # 0부터 파이까지 동일한 간격으로 10개의 데이터 생성

print(arr)
print(arr.dtype)

[0.         0.34906585 0.6981317  1.04719755 1.3962634  1.74532925
 2.0943951  2.44346095 2.7925268  3.14159265]
float64


< 특별한 값을 갖는 배열 생성 >

np.zeros( ): 모든 요소가 0인 배열을 생성
> np.zeros(shape, dtype=float)

In [54]:
# np.zeros()
arr = np.zeros(10)
print(arr)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [55]:
arr = np.zeros(10, dtype = int)
print(arr)

[0 0 0 0 0 0 0 0 0 0]


In [56]:
arr = np.zeros((2, 5))
print(arr)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


np.ones( ): 모든 요소가 1인 배열을 생성
> np.ones(shape, dtype=float)


In [57]:
# np.ones()
arr = np.ones(10)
print(arr)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [58]:
arr = np.ones(10, dtype = int)
print(arr)

[1 1 1 1 1 1 1 1 1 1]


In [59]:
arr = np.ones((2, 5))
print(arr)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


np.eye( ): 단위 행렬을 생성
- 단위 행렬은 주 대각선의 요소가 1, 나머지 요소는 모두 0인 정사각 행렬
- 행렬 연산에서 곱셈의 항등원 역할
> np.eye(N, M=None, k=0, dtype=float)

N: 행의 개수  
M: 열의 개수, N과 동일하게 지정하면 정사각 행렬, 생략 가능  
k: 주 대각선의 위치를 지정, k=0이 기본값이며, k>0은 대각선을 위로, k<0은 아래로 이동시킴

In [60]:
# np.eye()
arr = np.eye(5)
print(arr)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [61]:
arr = np.eye(5, dtype = int)
print(arr)

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


In [22]:
a = np.arange(12)
b = a.reshape(2, -1, 2)
b

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [23]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [19]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)
z = np.zeros_like(x)
 
for i in range(10000):
    z[i] = x[i] + y[i]
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [24]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
 False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

In [25]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])