# Data 분석을 위한 패키지

1. NumPy
    - Numerical Python
    - 과학계산용 패키지
    - 특징
        - 빠르고 효율적인 다차원 배열 객체 ndarray (n-dimensional array)
            - `[[1, 2], [1, 2], [[1, 2], [3, 4]]]`
        - 데이터 분석 시 데이터 컨테이너 역할(데이터를 담는 그릇)
    - 설치
        - `pip install numpy`

2. Pandas
    - 금융회사에 다니고 있던 Wes McKinney가 처음에 금융 데이터 분석을 위해 설계(2008년)
    - pandas: 계량 경제학 용어인 Panel Data와 Analysis의 합성어
    - Panel Data<sup>1</sup>
        - multi-dimensional data involving measurements over time (Wikipedia)
    - 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공한다.
    - pandas의 기본 구조는 NumPy로 되어있다.
    - 설치
        - `pip install pandas`

3. Matplotlib / Seaborn / Pandas Plot
    - 시각화 도구
    - 설치
        - `pip install matplotlib`
        - `pip install seaborn`

---

# NumPy: 배열과 벡터 계산

### NumPy Documentation

[Tutorials](https://docs.scipy.org/doc/numpy/user/quickstart.html)

#### Numerical Python의 줄임말

1. 빠르고 효율적인 메모리 사용, 벡터 연산, 브로드캐스팅(확대) 기능을 제공하는 다차원 배열인 ndarray (n dimentional array)를 제공
1. for 문 등 반복문을 작성할 필요없이 전체 배열에 대해 빠른 연산을 제공
1. 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구
1. 선형대수, 난수 발생기, 푸리에(Fourier) 변환 기능
1. C, C++, 포트란 등 다른 언어로 쓰여진 코드를 통합하는 도구

#### 데이터 분석에서 빠른 연산을 위해 자주 사용하는 기능

1. 배열에서 데이터 변경, 정제, 부분 집합, 필터링의 빠른 수행
2. 정렬, 유일 원소 찾기, 집합 연산
3. 통계 표현과 데이터의 수집/요약
4. 여러 데이터의 병합, 데이터 정렬과 데이터 조작

---

# 1. NumPy ndarray: 다차원 배열 객체

### 1.1 ndarray 사용

In [None]:
import numpy as np 

In [None]:
lst = [1, -2, -3, 4,  5,  6]

In [None]:
arr = np.array(lst)
arr

In [None]:
arr * 3

In [None]:
arr + arr

#### <참고> 파이썬 리스트의 산술 연산

In [None]:
lst * 3

In [None]:
lst + lst

### 1.2 ndarray 생성

In [None]:
# 1차원 배열
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

In [None]:
arr1.ndim

In [None]:
arr1.shape

In [None]:
# 2차원 배열
data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
arr2

In [None]:
arr2.ndim

In [None]:
arr2.shape

In [None]:
arr2.reshape((4,2))

In [None]:
arr2.ravel()

#### np.arange(): 파이썬 range() 함수의 배열 버전

In [None]:
np.arange(15)

### 1.3 ndarray의 자료형

dtype로 자료형을 알 수 있다.
- [NumPy 자료형](http://docs.scipy.org/doc/numpy/user/basics.types.html)

In [None]:
arr1 = np.array([1,2,3], dtype=np.int32)
arr1

In [None]:
arr1.dtype

In [None]:
arr2 = np.array([1,2,3], dtype=np.float64)
arr2

In [None]:
arr2.dtype

#### <참고> dtype 축약코드

종류 | Type Code | 설명
:---|:---|:---
int8,  uint8  | i1, u1   | 부호가 있는 8비트(1바이트) 정수형과 부호가 없는 8비트 정수형
int16, uint16 | i2, u2   | 부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형
int32, uint32 | i4, u4   | 부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형
int64, uint64 | i8, u8   | 부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형
float16       | f2       | 반정밀도 부동소수점
float32       | f4 or f  | 단정밀도 부동소수점 C 언어의 float 형과 호환
float64       | f8 or d  | 배정밀도 부동소수점 C 언어의 double 형과 파이썬의 float 객체와 호환
float128      | f16 or g | 확장 정밀도 부동소수점
bool          | ?        | True, False 값을 저장하는 불리언형
object        | O        | 파이썬 객체형
string_       | S        | 고정 길이 문자열형, 길이가 10인 문자열의 dtype은 S10
unicode_      | U        | 고정 길이 유니코드형(예: U10)


### 1.4 배열과 스칼라 간의 연산

- **배열은 for 반복문을 작성하지 않고 데이터를 일괄처리할 수 있다(벡터화)**
- 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

In [None]:
arr + 10

In [None]:
arr * 2

In [None]:
arr * arr

In [None]:
arr - arr

### 1.5 인덱싱(색인)과 슬라이싱

In [None]:
arr = np.arange(10)
arr

In [None]:
arr[5]

In [None]:
arr[5:8] 

In [None]:
arr[5:8] = 12

In [None]:
arr

#### 2차원 배열 제어

In [None]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d

In [None]:
arr2d.ndim

In [None]:
arr2d[2]

In [None]:
arr2d[0][2]

#### 슬라이스 색인

In [None]:
arr = np.arange(10)
arr

In [None]:
arr[1:6]

In [None]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d

In [None]:
arr2d[:2]

---

# 2. 유니버설 함수

- ufunc 유니버설 함수는 ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수
- 유니버설 함수는 하나 이상의 스칼라 값을 받아서 하나 이상의 스칼라 결과 값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수

### 2.1 단항 유니버설 함수

In [None]:
import numpy as np 

In [None]:
arr = np.arange(10)

In [None]:
np.sqrt(arr)

In [None]:
arr

In [None]:
np.exp(arr)

#### [Universal functions](http://docs.scipy.org/doc/numpy/reference/ufuncs.html)

---

# 3. 배열을 사용한 데이터 처리

- 반복문 작성하지 않고 간결한 배열연산을 통해 많은 종류의 데이터 처리 작업
- **벡터화:** 배열연산을 사용해서 반복문을 명시적으로 제거하는 기법
- 순수 파이썬보다 2~3배, 많게는 수십, 수백 배까지 빠르다.
- **브로드캐스팅:** 아주 강력한 벡터 연산 방법

### 3.1 벡터화

In [None]:
import numpy as np 

In [None]:
points = np.arange(100000, dtype='f')
points[:10]

In [None]:
%%time
total = 0
for i in points:
    total += i
print(total)

In [None]:
%%time
points.sum()

### 3.2 배열연산으로 조건절 표현하기

In [None]:
arr = np.array([1,2,3,4,5,6,7,8,9])
arr

In [None]:
np.where( arr < 5, 1, 2)

In [None]:
np.where( arr < 5, 1, arr)

### 3.3 수학 메서드와 통계 메서드

In [None]:
arr = np.random.randn(5, 4)
arr

In [None]:
arr.mean()

In [None]:
np.mean(arr)

In [None]:
arr.sum()

#### 기본 배열 통계 메서드

메세드 | 설명
:---|:---
sum            | 배열 전체 혹은 특정 축에 대한 모든 원소의 합을 계산한다.
mean           | 산술평균을 구한다. 크기가 0인 배열에 대한 mean 결과는 NaN이다.
std, var       | 각각 표준편차와 분산을 구한다.
min, max       | 최소값, 최대값
argmin, argmax | 최소 원소의 색인 값, 최대 원소의 색인 값
cumsum         | 각 원소의 누적 합
cumprod        | 각 원소의 누적 곱


---

In [None]:
# End of file