# 참고: numpy, pandas

---

# 1. 필수 패키지

1. NumPy
    - Numerical Python
    - 과학계산용 패키지
    - 특징
        - 빠르고 효율적인 다차원 배열 객체 ndarray (n-dimensional array)
            - `[[1, 2], [1, 2], [[1, 2], [3, 4]]]`
        - 데이터 분석 시 데이터 컨테이너 역할(데이터를 담는 그릇)
    - 설치
        - `pip install numpy`
2. pandas
    - 금융회사에 다니고 있던 Wes McKinney가 처음에 금융 데이터 분석을 위해 설계(2008년)
    - pandas: 계량 경제학 용어인 Panel Data와 Analysis의 합성어
    - Panel Data<sup>1</sup>
        - multi-dimensional data involving measurements over time (Wikipedia)
    - 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료 구조와 함수를 제공한다.
    - pandas의 기본 구조는 NumPy로 되어있다.
    - 설치
        - `pip install pandas`
3. matplotlib/seaborn/bokeh
    - 시각화 도구
    - 설치
        - `pip install matplotlib`
        - `pip install seaborn`
        - `pip install bokeh`

<img src="https://www.altexsoft.com/media/2017/08/%5E4275D3AF463329B3C66C6157C233DBF8F6B2BCCF49CC64ABE9%5Epimgpsh_fullsize_distr.png">

1. Numpy
    - 빠르고 효율적인 다차원 배열 객체 ndarray (n-dimensional array)
    - [[1, 2], [1, 2], [[1, 2], [3, 4]]]
    - 데이터 분석 시 데이터 컨테이너 역할(데이터를 담는 그릇)
2. SciPy
    - 과학 계산용 패키지
    - 최적화, 선형대수, 적분 등 과학 계산에 쓰이는 대부분이 있음
    - Numpy extension of Python
3. pandas
    - Numpy에 기반한 패키지
4. scikit-learn
    - SciPy에 기반한 머신러닝 프레임워크

---

# 3. NumPy 맛보기

In [None]:
import numpy as np

- 데이터를 담는 그릇인 배열(Array)
- Python의 List/Tuple과 흡사
- 다차원 배열을 생성하기 간편하고 랜덤 생성 능력 등의 다양한 기능이 있음

## 3.1 1차원 배열

In [None]:
data = [1.0, 1.2, 3.1, 2.1, 2.8, 1.7, 0.5]  # list

In [None]:
data

In [None]:
# array 객체 만들기 from list
arr = np.array(data)

In [None]:
arr

In [None]:
arr.shape

In [None]:
arr.ndim  # 차원

In [None]:
range(10)

In [None]:
arr = np.arange(10)  # 1차원 배열 생성
arr.shape

In [None]:
arr.reshape(2, 5)  # 행, 열

In [None]:
arr.shape

In [None]:
arr.reshape(-1, 2)

> **Q. np.arange를 사용해서 보폭 2의 정수 2부터 20까지 나타내는 1차원 배열을 만들어보세요.**

In [None]:
# solution
np.arange(2, 21, 2)

> **Q. 0부터 8까지의 1차원 행렬을 만들고 3행 3열짜리 모양으로 만들어보세요.**

In [None]:
# solution
np.arange(9).reshape((3, 3))

In [None]:
# solution
np.arange(9).reshape(3, 3)

## 3.2 다차원 배열(ndimentional array)

In [None]:
data = [[1.0, 1.2], [3.1, 2.1], [2.8, 1.7]]

In [None]:
arr = np.array(data)
arr

In [None]:
arr.shape  # 3개 행, 2개 열

In [None]:
arr.ndim  # depth: 2

> **Q. 2x3 짜리 행렬을 만들어보세요 (데이터는 어떤 것이든 상관없음)**

> ex)

> ```python
array([[1, 1, 4],
       [1, 6, 1]])
```

In [None]:
# solution
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

In [None]:
# solution
np.random.randint(1, 7, size=(2, 3))

> **Q. integer(정수) 형식의 랜덤 수로 이뤄진 4x3 행렬을 만들어보세요.**

> 
```
array([[4, 6, 5],
       [3, 2, 3]])
```

In [None]:
# solution
np.random.randint(1, 13, size=(3, 3))

## 3.3 특수 행렬 생성

In [None]:
np.ones(10)

In [None]:
one = np.ones((3, 3))

In [None]:
#one = 2
one = one + 1
one

In [None]:
np.zeros((3, 5))

In [None]:
np.eye(5, 5)

In [None]:
np.arange(1, 4)

## 3.4 Numpy를 이용한 분포

### 1) 임의 정규 분포(arbitrary normal distribution)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
mu, sigma = 0, 0.1
s = np.random.normal(mu, sigma, 10000)
s

In [None]:
plt.hist(s, bins=100)
plt.show()

### 2) 표준 정규 분포(standard normal distribution)

In [None]:
data = np.random.randn(10000)
data

In [None]:
plt.hist(data, bins=50)  # 20개의 구간으로 나누어 히스토그램을 보이라는 의미
plt.show()

---

---

# 4. pandas 맛보기

## 4.1 History

- 2008년, AQR 투자 운용 회사(Capital Management)에 다니던 Wes McKinney가 개발 시작
- 2009년, 오픈 소스로 공개
- pandas: Panel Data Analysis의 약자
    - 횡단면 데이터(개별 단위의 데이터를 한 시점에 모은 것) + 시계열 데이터(특정 개별 주체의 데이터를 여러 시점에서 모은 것)
        - 예) 개별 기업의 주식 가격을 모은 것이 횡단면 데이터, 한 기업의 주가를 여러 기간에 걸쳐 기록하면 시계열 데이터이다.
    - pandas라는 이름을 Panel Data에서 가져왔다는 것에서 알 수 있듯, 금융 회사에 다니고 있었던 Wes McKinney는 금융 데이터를 분석하기에 적합하고 통합적인 기능을 제공하는 도구를 원함
    - Official documentation에는 모두 소문자(pandas)로 사용하고 있으므로 이 문서에도 pandas로 사용

## 4.2 import and set

In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

# Set pandas options
pd.set_option('display.notebook_repr_html', True)  # 기본값입니다. False로 하면 DataFrmae의 border=0
pd.set_option('display.max_columns', 10)  # 10 이상 넘어가면 '...' 으로 표시, unlimit: None
pd.set_option('display.max_rows', 10)

## 4.3 Data Structure

### 1) DataFrame의 구성

<img src="http://bookdata.readthedocs.io/en/latest/_images/base_01_pandas_5_0.png">

## 4.4 Series

### 1) 생성

- 1차원만 가능하다

첫 번째 컬럼|두 번째 컬럼
---|---
Index Label|Series 객체의 Value

In [None]:
from pandas import Series, DataFrame

In [None]:
import pandas as pd

In [None]:
pd.Series

In [None]:
Series(['a', 'b', 'c', 'd'])

In [None]:
Series(np.array(['a', 'b', 'c', 'd']))

In [None]:
s = Series([10000, 2000, 30000, 40000], index=['Seatle', 'Seoul', 'San Hose', 'Beijing'])
s

In [None]:
s.index

In [None]:
s.values

In [None]:
s

### 2) indexing and slicing

In [None]:
s['Seoul']

In [None]:
s[['Seatle', 'San Hose']]

In [None]:
s[['Seatle', 'San Hose']]

In [None]:
s['Seatle': 'San Hose']

### 3) Time Series

In [None]:
import pandas as pd

In [None]:
dates = pd.date_range('2016-05-01', '2016-05-07')
dates

## 4.5 DataFrame

### 1) 생성

In [None]:
tmp1 = Series([80, 92, 82, 85, 97, 84, 78], index=dates)

In [None]:
tmp1

In [None]:
tmp2 = Series(np.random.randint(60, 100, size=7), index=dates)

In [None]:
tmp1

In [None]:
tmp2

In [None]:
quiz = DataFrame({
        'Math': tmp1,
        'Philosophy': tmp2
    })
quiz

In [None]:
quiz.loc['2016-05-09 00 00 00'] = [100,200]


### 2) 데이터 살펴보기

In [None]:
quiz[['Math','Philosophy']]

In [None]:
quiz.loc['이름']

In [None]:
quiz.iloc[0]

In [None]:
quiz[['Math', 'Philosophy']]

In [None]:
quiz

In [None]:
quiz['Math'][[1, 3]]

함수 혹은 메소드
-> callable object

In [None]:
print('a')

In [None]:
quiz.Math

In [None]:
quiz.columns

### 3) 연산

In [None]:
diff = quiz.Math - quiz.Philosophy
diff

In [None]:
avg = np.mean(quiz, axis=1)  # axis: 1=row
avg

### 4) 컬럼 추가

In [None]:
quiz[quiz['Math'] == 80]

In [None]:
quiz['avg'] = avg
quiz

### 5) 데이터 찾기

In [None]:
quiz.loc['2016-05-09 00:00:00'] = 100
quiz

In [None]:
quiz.drop('2016-05-07', axis=1, inplace=True)

In [None]:
quiz.iloc[0]  # location

In [None]:
cond = quiz.index >= '2016-05-03'
#quiz[quiz.index >= '2016-05-03']

In [None]:
quiz[
    (quiz.index == '2016-05-03') | (quiz.index == '2016-05-04')
]

In [None]:
(quiz.index == '2016-05-03') | (quiz.index == '2016-05-04')

> **Q. 2016-05-03부터 2016-05-05짜리 데이터를 가져와보자.**

In [None]:
quiz

In [None]:
# Solution
quiz.iloc[2:5]

tqdm

In [None]:
# Solution
%time
quiz.loc['2016-05-03': '2016-05-05']

In [None]:
%time
quiz['2016-05-03': '2016-05-05']

In [None]:
# Solution
quiz.iloc[[2]]

In [None]:
quiz.Math > 90

In [None]:
quiz[quiz.Math > 90]

In [None]:
quiz.drop('Math',axis=1, inplace=True)

In [None]:
quiz

In [None]:
quiz[quiz.index < '2016-05-05']

In [None]:
quiz[(quiz.index < '2016-05-05') & (quiz.Math > 90)]

In [None]:
if a == 1 and b == 2

### 6) 그래프로 그려보기

In [None]:
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(quiz)

In [None]:
quiz.plot()

> **Q. plot size를 어떻게 늘릴 수 있을까요?**

In [None]:
quiz.plot(figsize=(15, 5))

> **Q. Title, X 라벨, Y 라벨도 넣어보자.**

In [None]:
quiz.plot(title='Score Trend', figsize=(15, 5))
plt.xlabel('Date')
plt.ylabel('Score')

> **Q. 다른 형태의 그래프는 어떻게 그릴 수 있을까요?**

Docstring

In [None]:
quiz.plot(title='Score Trend', figsize=(15, 5), kind='bar')
plt.xlabel('Date')
plt.ylabel('Score')

---

In [1]:
# end of file