## 4. 그 밖의 라이브러리

계산을 위한 라이브러리인 numpy, 데이터 분석을 위한 pandas, 시각화 도구인 matplotlib, 정규 표현식을 사용하기 위한 Re, HTML을 다루기 위한 Beautiful Soup에 대해 알아보자.

### 넘파이

넘파이(numpy)는 빠르고 효율적인 계산을 위해 만들어진 파이썬 라이브러리다.  
고성능의 다차원 배열 객체와 이러한 배열을 계산한 효율적인 도구를 제공.  
핵심은 **ndarray** 객체! 이는 동일한 자료형을 가지는 n차원의 배열로 이 객체를 활용하면 파이썬에 내장된 배열을 사용하는 것보다 더 적은 코드로 연산이 가능하고 더 빠르게 결과를 얻을 수 있다!

`conda install numpy`

In [1]:
import numpy as np
a = np.array([1, 2, 3])
print(a)

[1 2 3]


### 넘파이 배열
넘파이 배열은 앞서 말한 **ndarray** 객체 형태다.  
이 객체는 동일한 자료형을 가지는 값들이 표(또는 격자판) 형태로 구성돼 있다.  
각 값은 음이 아닌 정수 값으로 색인되고, 객체의 차원은 axis(축)라 불린다.

ndarray 객체의 속성에 대해 알아보자.
- ndarray.ndim : 배열의 축(차원)의 수를 반환
- ndarray.shape : 배열의 형태 반환. 예를 들어 2*3 크기의 2차원 배열이 있다면 이 배열의 shape은 (2,3)
- ndarray.size : 배열내 원소의 총 개수 반환
- ndarray.dtype : 배열 내 원소들의 자료형 반환

In [3]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(a.ndim)
print(a.shape)
print(a.size)
print(a.dtype)

2
(3, 3)
9
int32


배열을 만들 때 다음과 같은 다양한 방법이 가능하다
- numpy.zeros : 모든 배열의 원소가 0인 배열
- numpy.ones : 모든 배열의 원소가 1인 배열
- numpy.empty : 배열의 크기만 정해주고 원소는 초기화하지 않은 배열. 원소에는 매우 크거나 작은 값
- numpy.arrange : 파이썬의 range 함수와 유사한 형태로 배열 생성. 배열의 원소들이 수열을 구성
- numpy.full : 배열의 모든 값이 하나의 상수인 배열 생성
- numpy.eye : 지정한 크기의 단위행렬 생성
- numpy.random.random : 배열의 원소를 임의의 값으로 생성. 값은 0부터 1 사이의 값으로 지정

In [7]:
a = np.zeros((2, 3))
print(a)

b = np.ones((2, 1))
print(b)

c = np.empty((2, 2))
print(c)

d = np.arange(10, 30, 5) # 10부터 30 전까지 5 단위로 배열 생성
print(d)

e = np.full((2, 2), 4) # 원소가 모두 4인 배열 생성
print(e)

f = np.eye(3)
print(f)

g = np.random.random((2, 2))
print(g)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1.]
 [1.]]
[[0.13226959 0.06988281]
 [0.36799482 0.80672   ]]
[10 15 20 25]
[[4 4]
 [4 4]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[0.53838442 0.77226883]
 [0.89336903 0.82286565]]


### 넘파이 기본 연산

넘파이는 배열끼리 연산할 때 빠르고 사용하기 쉬운 여러 연산 함수를 제공.  
넘파이에서 제공하는 기본 배열 연산에 대해 알아보자.  

넘파이는 기본적인 사칙 연산을 모두 지원.  
주의할 점은 벡터끼리의 곱셈과 내적을 구분한다는 것!  
\* 연산의 경우 벡터끼리 사용할 경우 원소별 곱셈을 의미
dot 연산이 벡터의 내적!

In [10]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

print(a+b)

print(np.add(a, b))

print(a-b)

print(np.subtract(b, a))

print(a**2)

print(b < 15)

c = np.array([[1, 2], 
              [3, 4]])

d = np.array([[10, 20],
              [30, 10]])

print(c * d) # 원소별 곱셈

print(np.dot(c, d)) # 내적

print(c.dot(d)) # 내적의 또 다른 사용법

[11 22 33]
[11 22 33]
[ -9 -18 -27]
[ 9 18 27]
[1 4 9]
[ True False False]
[[10 40]
 [90 40]]
[[ 70  40]
 [150 100]]
[[ 70  40]
 [150 100]]


위의 기본적인 연산 외에 중요한 연산 기능은 **축(axis)** 을 기준으로 한 연산.

In [12]:
a = np.array([[1, 2, 3, 4], 
              [5, 6, 7, 8],
              [1, 3, 5, 7]])

print(a.sum(axis = 0)) # 0축, 즉 열을 기준으로 한 덧셈

print(a.sum(axis = 1)) # 1축, 즉 행을 기준으로 한 덧셈

print(a.max(axis = 1)) # 각 행에서의 최댓값

print(a.max(axis = 0)) # 각 열에서의 최댓값

[ 7 11 15 19]
[10 26 16]
[4 8 7]
[5 6 7 8]


#### 넘파이 배열 인덱싱, 슬라이싱

넘파이 배열은 파이썬과 마찬가지로 인덱싱과 슬라이싱이 가능  

다차원 배열의 경우 넘파이는 유용한 인덱싱과 슬라이싱 기능을 제공.  
이 경우 인덱싱은 축(axis)을 기준으로 함!

In [16]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

print(a[1, 2])

print(a[ : , 1]) #1열의 모든 원소

print(a[-1]) # 마지막 행

6
[2 5 8]
[7 8 9]
