# Data 분석을 위한 패키지

1. NumPy
    - Numerical Python
    - 과학계산용 패키지
    - 특징
        - 빠르고 효율적인 다차원 배열 객체 ndarray (n-dimensional array)
            - `[[1, 2], [1, 2], [[1, 2], [3, 4]]]`
        - 데이터 분석 시 데이터 컨테이너 역할(데이터를 담는 그릇)
    - 설치
        - `pip install numpy`
1. pandas
    - 금융회사에 다니고 있던 Wes McKinney가 처음에 금융 데이터 분석을 위해 설계(2008년)
    - pandas: 계량 경제학 용어인 Panel Data와 Analysis의 합성어
    - Panel Data<sup>1</sup>
        - multi-dimensional data involving measurements over time (Wikipedia)
    - 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공한다.
    - pandas의 기본 구조는 NumPy로 되어있다.
    - 설치
        - `pip install pandas`
1. matplotlib/seaborn/bokeh
    - 시각화 도구
    - 설치
        - `pip install matplotlib`
        - `pip install seaborn`
        - `pip install bokeh`
        
1. SciPy
    - 과학 계산용 패키지
    - 최적화, 선형대수, 적분 등 과학 계산에 쓰이는 대부분이 있음
    - Numpy extension of Python

1. scikit-learn
    - SciPy에 기반한 머신러닝 프레임워크

<img src="https://www.altexsoft.com/media/2017/08/%5E4275D3AF463329B3C66C6157C233DBF8F6B2BCCF49CC64ABE9%5Epimgpsh_fullsize_distr.png">

---

# NumPy: 배열과 벡터 계산

### NumPy Documentation

[Tutorials](https://docs.scipy.org/doc/numpy/user/quickstart.html)

#### Numerical Python의 줄임말

1. 빠르고 효율적인 메모리 사용, 벡터 연산, 브로드캐스팅(확대) 기능을 제공하는 다차원 배열인 ndarray (n dimentional array)를 제공
1. for 문 등 반복문을 작성할 필요없이 전체 배열에 대해 빠른 연산을 제공
1. 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구
1. 선형대수, 난수 발생기, 푸리에(Fourier) 변환 기능
1. C, C++, 포트란 등 다른 언어로 쓰여진 코드를 통합하는 도구

#### 데이터 분석에서 빠른 연산을 위해 자주 사용하는 기능

1. 배열에서 데이터 변경, 정제, 부분 집합, 필터링의 빠른 수행
2. 정렬, 유일 원소 찾기, 집합 연산
3. 통계 표현과 데이터의 수집/요약
4. 여러 데이터의 병합, 데이터 정렬과 데이터 조작

#### 표준 NumPy의 컨벤션을 import numpy as np로 사용

---

# 1. NumPy ndarray: 다차원 배열 객체

### 1.1 ndarray 사용

In [1]:
import numpy as np 

In [2]:
lst = [1, -2, -3, 4,  5,  6]

In [3]:
arr = np.array(lst)
arr

array([ 1, -2, -3,  4,  5,  6])

In [4]:
arr * 3

array([ 3, -6, -9, 12, 15, 18])

In [5]:
arr + arr

array([ 2, -4, -6,  8, 10, 12])

In [6]:
arr +2

array([ 3,  0, -1,  6,  7,  8])

#### <참고> 파이썬 리스트의 산술 연산

In [7]:
lst * 3

[1, -2, -3, 4, 5, 6, 1, -2, -3, 4, 5, 6, 1, -2, -3, 4, 5, 6]

In [8]:
lst + lst

[1, -2, -3, 4, 5, 6, 1, -2, -3, 4, 5, 6]

In [9]:
lst + 2

TypeError: can only concatenate list (not "int") to list

### 1.2 ndarray 생성

In [10]:
# 1차원 배열
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [11]:
# 2차원 배열
data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [12]:
print(arr1.ndim)
print(arr2.ndim)

1
2


In [13]:
print(arr1.shape)
print(arr2.shape)

(5,)
(2, 4)


In [14]:
arr2.reshape((4,2))

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

#### <참고> np.array는 생성될 때 적절한 자료형을 선택한다.

In [15]:
print(arr1.dtype)
print(arr2.dtype)

float64
int32


#### np.zeros(): 0 으로 초기화된 배열 생성

In [16]:
np.zeros(10) 

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [17]:
np.zeros((3,6)) ## 3행 6열

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

#### np.ones(): 1 으로 초기화된 배열 생성

In [18]:
np.ones(10) 

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

#### np.arange(): 파이썬 range() 함수의 배열 버전

In [19]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [20]:
range(15)

range(0, 15)

In [21]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

함수| 설명
:---| :---
array | 입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype이 명시되지 않은 경우에는 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 복사된다.
asarray | 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우, 복사가 되지 않는다.
arange | 내장 range 함수와 유사하지만 리스트 대신 ndarray를 반환한다.
ones, ones_like | 주어진 dtype과 주어진 모양을 가지는 배열을 생성하고 내용을 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다.
zeros, zeros_like | ones, ones_like와 같지만 내용을 0으로 채운다.
empty, empty_like | 메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지는 않는다.
eye, identity | N x N 크기의 단위 행렬을 생성한다(좌상단에서 우하단을 잇는 대각선은 1로 채워지고 나머지는 0으로 채워진다).

### 1.3 ndarray의 자료형

dtype로 자료형을 알 수 있다.

- 산술 데이터의 dtype은 float, int 같은 자료형의 이름과 하나의 원소가 차지하는 비트로 이루어짐
- 파이썬의 float 객체에서 사용되는 부동소수점 값은 8바이트 혹은 64바이트로 이루어짐
- [NumPy 자료형](http://docs.scipy.org/doc/numpy/user/basics.types.html)

In [22]:
arr1 = np.array([1,2,3], dtype=np.float32)
arr1

array([1., 2., 3.], dtype=float32)

#### 타입 변경:  astype() 메소드

In [23]:
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [24]:
arr.dtype

dtype('int32')

In [25]:
f_arr = arr.astype(np.float64)
f_arr

array([1., 2., 3., 4., 5.])

In [26]:
f_arr.dtype

dtype('float64')

In [27]:
arr = np.array(['1','2','3'])

In [28]:
arr.dtype

dtype('<U1')

In [29]:
arr.astype(int)

array([1, 2, 3])

In [30]:
arr.astype(str)

array(['1', '2', '3'], dtype='<U1')

### 1.4 배열과 스칼라 간의 연산

- **배열은 for 반복문을 작성하지 않고 데이터를 일괄처리할 수 있다(벡터화)**
- 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용

In [31]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [32]:
arr * 3

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [33]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [34]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [35]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [36]:
# **는 square root of x
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

### 1.5 인덱싱(색인)과 슬라이싱

In [37]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
arr[5]

5

In [39]:
arr[:5] 

array([0, 1, 2, 3, 4])

In [40]:
arr[5:8] = 12

In [41]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

#### Slicing : 사용 예

- [:]: 배열 전체
- [0:n]: 0번째부터 n-1번째까지, 즉 n번 항목은 포함하지 않는다.
- [:5]: 0번째부터 4번째까지,5번은 포함하지 않는다.
- [2:]: 2번째부터 끝까지
- [-1]: 제일 끝에 있는 배열값 반환
- [-2]: 제일 끝에서 두번째 값 반환

#### arr2d[:2, 1:]
     행,  열

- 같은 [ ] 안에서는 행과 열 구분

In [42]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [43]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [44]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [45]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [47]:
arr2d[1, :2]

array([4, 5])

In [48]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

### 1.6 불리언 색인

In [5]:
data = np.arange(28)
data=data.reshape(7,4)

In [6]:
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [7]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [52]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [53]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [54]:
data[names == 'Bob']

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

In [55]:
names[names == 'Bob']

array(['Bob', 'Bob'], dtype='<U4')

In [56]:
data[names == 'Bob', :2]

array([[ 0,  1],
       [12, 13]])

#### != ,  ~ 으로 부정

In [57]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [58]:
data[~(names == 'Bob')]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [59]:
data[(names != 'Bob')]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [60]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [61]:
mask = (names == 'Bob') | (names == 'Will')

In [62]:
mask

array([ True, False,  True,  True,  True, False, False])

In [63]:
data[mask]

array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [10]:
data[(names == 'Bob') | (names == 'Will')]

array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

---

# 3. 배열을 사용한 데이터 처리

- 반복문 작성하지 않고 간결한 배열연산을 통해 많은 종류의 데이터 처리 작업
- **벡터화:** 배열연산을 사용해서 반복문을 명시적으로 제거하는 기법
- 순수 파이썬보다 2~3배, 많게는 수십, 수백 배까지 빠르다.
- **브로드캐스팅:** 아주 강력한 벡터 연산 방법

### 3.1 벡터화

In [65]:
import numpy as np 

In [66]:
points = np.arange(100000, dtype='f')
points[:10]

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.], dtype=float32)

In [67]:
%%time
total = 0
for i in points:
    total += i
print(total)

4999950000.0
Wall time: 21.9 ms


In [74]:
%time points.sum()

Wall time: 0 ns


4999950000.0

### 3.2 배열연산으로 조건절 표현하기

In [75]:
arr = np.random.randn(4, 4)
arr

array([[-0.32381239,  2.15712591,  0.33128881, -0.81038828],
       [ 0.3579077 , -1.10928965, -0.21202451,  0.68793236],
       [-0.04277657,  0.90976003,  0.31486357, -0.34442118],
       [ 0.35825729, -0.91260582, -1.16666033,  0.350072  ]])

In [76]:
np.where(arr > 0, 2, -2)

array([[-2,  2,  2, -2],
       [ 2, -2, -2,  2],
       [-2,  2,  2, -2],
       [ 2, -2, -2,  2]])

In [77]:
np.where(arr > 0, 2, arr)

array([[-0.32381239,  2.        ,  2.        , -0.81038828],
       [ 2.        , -1.10928965, -0.21202451,  2.        ],
       [-0.04277657,  2.        ,  2.        , -0.34442118],
       [ 2.        , -0.91260582, -1.16666033,  2.        ]])

### 3.3 수학 메서드와 통계 메서드

In [78]:
arr = np.random.randn(5, 4)
arr

array([[ 1.7407542 , -0.06133544,  2.12082675, -0.10841676],
       [ 0.49943566, -1.83129215,  0.60233232,  1.56794254],
       [ 1.09346936,  0.74627523,  0.85546628, -0.28186672],
       [-0.35852231,  0.99850127,  0.09970529,  1.10472836],
       [-1.04600971, -0.15425881,  0.87472618,  1.14886622]])

In [79]:
arr.mean()

0.48056638888405495

In [80]:
np.mean(arr)

0.48056638888405495

In [81]:
arr.sum()

9.6113277776811

#### 연산을 진행할 축을 선택( 행방향: axis = 0, 열방향: axis = 1) - Default: axis = 0

In [82]:
arr.sum(axis=0)

array([ 1.92912721, -0.30210989,  4.55305681,  3.43125365])

In [83]:
arr.sum(axis=1)

array([3.69182876, 0.83841837, 2.41334415, 1.84441261, 0.82332389])

In [84]:
arr.mean(axis=1)

array([0.92295719, 0.20960459, 0.60333604, 0.46110315, 0.20583097])

#### 기본 배열 통계 메서드

메세드 | 설명
:---|:---
sum            | 배열 전체 혹은 특정 축에 대한 모든 원소의 합을 계산한다.
mean           | 산술평균을 구한다. 크기가 0인 배열에 대한 mean 결과는 NaN이다.
std, var       | 각각 표준편차와 분산을 구한다.
min, max       | 최소값, 최대값
argmin, argmax | 최소 원소의 색인 값, 최대 원소의 색인 값
cumsum         | 각 원소의 누적 합
cumprod        | 각 원소의 누적 곱


### 3.4 불리언 배열을 위한 메서드

- 불리언 값은 True = 1, False = 0 으로 취급
- 불리언 배열에 대한 sum 메서드를 실행하면 True인 원소의 개수를 반환

In [85]:
bools = np.array([False, False, True, False])

In [86]:
# 하나라도 True 이면 결과는 True
bools.any()

True

In [87]:
# 모두 True 이면 결과는 True
bools.all()

False

In [88]:
bools = np.array([True, True, True, True])

In [89]:
bools.any()

True

In [90]:
bools.all()

True

### 3.5 정렬

In [96]:
arr = np.random.randn(8)
arr2  = arr.copy()
arr


array([-1.64721378, -0.51716037, -0.36191418, -1.94213771, -0.30732558,
       -1.86170261,  0.01132135, -1.15808678])

In [97]:
# <참고> 원본을 변경하지 않음
arr=np.sort(arr)

In [98]:
arr

array([-1.94213771, -1.86170261, -1.64721378, -1.15808678, -0.51716037,
       -0.36191418, -0.30732558,  0.01132135])

In [99]:
arr.sort()
arr

array([-1.94213771, -1.86170261, -1.64721378, -1.15808678, -0.51716037,
       -0.36191418, -0.30732558,  0.01132135])

In [100]:
arr2

array([-1.64721378, -0.51716037, -0.36191418, -1.94213771, -0.30732558,
       -1.86170261,  0.01132135, -1.15808678])

#### 다차원 배열의 정렬

In [101]:
arr = np.random.randn(5, 3)
arr

array([[-1.48680333,  0.46932999, -0.45365723],
       [ 0.18720363, -0.37823391, -0.20487627],
       [ 0.31187524,  1.41591501, -0.62792269],
       [ 0.98912485,  2.14206899,  0.72601374],
       [ 0.31575853,  0.42462708,  0.57504505]])

In [102]:
# axis = 0: 세로방향 정렬(column sort)
arr.sort(axis=0)
arr

array([[-1.48680333, -0.37823391, -0.62792269],
       [ 0.18720363,  0.42462708, -0.45365723],
       [ 0.31187524,  0.46932999, -0.20487627],
       [ 0.31575853,  1.41591501,  0.57504505],
       [ 0.98912485,  2.14206899,  0.72601374]])

In [103]:
# axis = 1: 가로방향 정렬(row sort)
arr.sort(axis=1)
arr

array([[-1.48680333, -0.62792269, -0.37823391],
       [-0.45365723,  0.18720363,  0.42462708],
       [-0.20487627,  0.31187524,  0.46932999],
       [ 0.31575853,  0.57504505,  1.41591501],
       [ 0.72601374,  0.98912485,  2.14206899]])

---

# 4. 배열의 파일 입∙출력

### 4.1 배열을 바이너리 형식으로 디스크에 저장하기

In [104]:
arr1 = np.arange(10)

In [105]:
arr2 = np.arange(5)

In [106]:
np.save('data/file_arr1.npy', arr1)

In [107]:
arr1_l = np.load('data/file_arr1.npy')
arr1_l

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 4.2 텍스트 파일 불러오기와 저장하기

In [108]:
arr = np.array( [[2.23342715,-0.37376633,-1.05142871],
                 [-0.57247149,-1.35777871,0.28676036],
                 [-0.01042671,-0.0211314,-0.72049352]])

In [109]:
arr

array([[ 2.23342715, -0.37376633, -1.05142871],
       [-0.57247149, -1.35777871,  0.28676036],
       [-0.01042671, -0.0211314 , -0.72049352]])

In [110]:
np.savetxt('data/array_ex.txt', arr, delimiter=',')

In [111]:
arr_l = np.loadtxt('data/array_ex.txt', delimiter=',')

In [112]:
arr_l

array([[ 2.23342715, -0.37376633, -1.05142871],
       [-0.57247149, -1.35777871,  0.28676036],
       [-0.01042671, -0.0211314 , -0.72049352]])

---

# 5. 선형대수

In [119]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])

In [120]:
y = np.array([[6., 23.], [-1, 7], [8, 9]])

In [121]:
x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [122]:
x.T

array([[1., 4.],
       [2., 5.],
       [3., 6.]])

In [123]:
y

array([[ 6., 23.],
       [-1.,  7.],
       [ 8.,  9.]])

In [124]:
x.shape

(2, 3)

In [125]:
y.shape

(3, 2)

In [126]:
# np.dot(x, y)
x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [128]:
np.matmul(x,y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [134]:
from numpy.linalg import inv

In [130]:
X = np.random.randn(5, 5)
X

array([[ 1.2452275 ,  1.35383445, -1.16031509, -0.29824561, -0.49304329],
       [-0.14507855, -1.88214905, -1.6384679 , -0.13883873, -1.23854041],
       [ 0.54222304, -1.3490442 , -1.51527501,  0.53280214, -0.66199299],
       [-0.45763837, -1.24614542, -0.235818  ,  0.58068092, -0.37323731],
       [-0.26076277,  0.58718984,  0.16640929,  1.54284856, -1.4120637 ]])

In [131]:
mat = X.T.dot(X)

In [132]:
mat

array([[ 2.14307522,  1.64457519, -1.96424072, -0.73040285, -0.25419192],
       [ 1.64457519,  9.09294333,  3.94871659, -0.67890149,  2.19263498],
       [-1.96424072,  3.94871659,  6.41026871, -0.11399074,  3.45753127],
       [-0.73040285, -0.67890149, -0.11399074,  3.10967675, -2.42903812],
       [-0.25419192,  2.19263498,  3.45753127, -2.42903812,  4.34853872]])

In [135]:
inv(mat)  # 행렬을 역행렬으로 변환

array([[ 211.08368884,  -94.93597845,  189.46362564,  -61.8133451 ,
        -124.96328068],
       [ -94.93597845,   42.85655281,  -85.35856983,   27.90318767,
          56.29640447],
       [ 189.46362564,  -85.35856983,  170.75573158,  -56.160024  ,
        -113.02367112],
       [ -61.8133451 ,   27.90318767,  -56.160024  ,   19.34273713,
          37.77483352],
       [-124.96328068,   56.29640447, -113.02367112,   37.77483352,
          75.50519517]])

In [137]:
# 행렬 * 역행렬 = 단위 행렬
mat.dot(inv(mat))

array([[ 1.00000000e+00, -9.37249120e-15, -8.34445665e-14,
         1.06813174e-14, -2.94464415e-14],
       [-2.09184141e-14,  1.00000000e+00,  5.52945227e-14,
        -3.67611204e-14, -6.31659489e-14],
       [ 3.36192312e-14, -5.89283178e-15,  1.00000000e+00,
        -7.11991246e-15,  3.94347710e-14],
       [ 2.91145744e-14, -1.63631869e-14,  6.90254029e-14,
         1.00000000e+00, -1.77070542e-14],
       [ 1.52703182e-14, -1.43303764e-14, -1.57942714e-15,
         3.75934584e-15,  1.00000000e+00]])

---