# Machine Learning
# CH1: numpy & pandas 기초

## 2018년 11월 14일 안상호

---

> *가장 높은 곳에 올라가려면 가장 낮은 곳부터 시작하라.*
>> **푸블리우스 시루스**

---

- 목차
    1. `numpy` 기초
    2. `pandas` 기초
    3. `numpy` & `pandas` 응용

## 1. `Numpy` 기초

> *`numpy`는 수학 및 과학 연산을 위한 Python의 기본 패키지입니다.*

> 출처: [공식 홈페이지](http://www.numpy.org/) 


- 강점
    + a powerful N-dimensional array object
    + sophisticated (broadcasting) functions
    + tools for integrating C/C++ and Fortran code
    + useful linear algebra, Fourier transform, and random number capabilities

종합하자면 `C`/`C++`, `Fortran`으로 작성되어 빠르면서도 정교한 수학 연산, 특히 **벡터** 및 **행렬**(선형대수) 연산을 가능하게 합니다.

### Problem: 수학 연산

$$\vec{a} = (1, 2, 3)$$

$$\vec{b} = (4, 5, 6)$$

$$\therefore \vec{a} + \vec{b} = (5, 7, 9)$$

이걸 어떻게 구현해야할까?

- **python** `list`

In [1]:
a = [1, 2, 3]
b = [4, 5, 6]

print(a + b) ### 이게 아니다.
print([a_i + b_i for a_i, b_i in zip(a, b)]) ### zip 함수를 써서 묶고, list comprehension

def vector_sum(a, b):
    return [a_i + b_i for a_i, b_i in zip(a, b)]

[1, 2, 3, 4, 5, 6]
[5, 7, 9]


리스트간의 합은 단지 원소 갯수를 추가하는 것이기 때문에, 반복문 (`for` 또는 `list comprehension`)이 필요합니다.

이는 작은 규모의 연산에서는 별 차이가 없으나, 큰 규모의 연산에서는 끔찍한 성능을 발휘하게 됩니다.

- `numpy`

`numpy` **bb**

In [2]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a + b)

[5 7 9]


### 1.1. `numpy` 불러오기

관습적으로 `numpy`를 import 할때 `np`라는 약어를 사용하고 있습니다.

In [3]:
import numpy as np

### 1.2. 배열 생성

`numpy`의 자료 클래스를 `ndarray`**(N-Dimensional Array)**라고 합니다.

- `np.array()` 
    + 기존의 python `list`, `tuple` 등으로 생성   
    + `dtype`을 조정하여 데이터 타입 지정 가능

In [4]:
print(np.array([2,3,4]))
print(np.array([(1.5,2,3), (4,5,6)]))

a = np.array( [ [1,2], [3,4] ], dtype=complex)
print(type(a))
a

[2 3 4]
[[ 1.5  2.   3. ]
 [ 4.   5.   6. ]]
<class 'numpy.ndarray'>


array([[ 1.+0.j,  2.+0.j],
       [ 3.+0.j,  4.+0.j]])

- `np.arrange()` 
    + 범위를 지정하여 생성

In [5]:
np.arange( 10, 30, 5 )

array([10, 15, 20, 25])

- `np.zeros()` or `np.ones()` or `np.empty()`
    + 사이즈를 지정하여 생성 

In [6]:
np.zeros((3,4))

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [7]:
np.ones((2,3,4), dtype=np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [8]:
np.empty((2,3), dtype=np.double)

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

### 1.3. 산술 연산

`ndarray`는 기초적인 산술 연산을 지원하는데, **`+`,`-`, `*`, `/`**를 지원합니다. 

이 연산들은 같은 자리의 성분끼리 연산되는 *element-wise* 방식으로, 기본적으로는 원소의 수가 같을 때 연산이 가능합니다.

다만 **borad cast**라는 방법으로 서로 다른 원소들 간에도 연산이 가능한 경우가 있습니다.

![](http://www.astroml.org/_images/fig_broadcast_visual_1.png)

In [9]:
x = np.array([1.0, 2.0, 3.0])
y = np.array([2.0, 4.0, 6.0])
print(x + y) # 원소별 덧셈
print(x - y)
print(x * y) # 원소별 곱셈
print(x / y)


[ 3.  6.  9.]
[-1. -2. -3.]
[  2.   8.  18.]
[ 0.5  0.5  0.5]


In [10]:
x = np.arange(3)
x + 5

array([5, 6, 7])

### 1.4. N 차원 배열

![](https://taewanmerepo.github.io/2018/01/numpy/nparr.jpg)

In [11]:
A = np.array([1, 2, 3]) # 1D array
B = np.array([[1, 2, 3], [4, 5, 6]]) # 2D array

print(A.shape, B.shape)

(3,) (2, 3)


In [12]:
C = np.array([[3, 0, 4], [0, 6, 2]])

print(B.dot(A)) # 2 X 3 행렬과 3 X 1 array의 행렬곱

print(B + C) # element-wise 

[14 32]
[[ 4  2  7]
 [ 4 11  8]]


### 1.5. 인덱싱

- 원소에 대한 접근

In [13]:
X = np.array([[51, 55], [14, 19], [0, 4]])
print(X)

print("0행 {}".format(X[0]))
print("(0, 1) 위치의 원소 {}".format(X[0][1]))   

[[51 55]
 [14 19]
 [ 0  4]]
0행 [51 55]
(0, 1) 위치의 원소 55


- `for` **indexing**

In [14]:
for row in X:
    print(row)

[51 55]
[14 19]
[0 4]


- `bool` **indexing**

In [15]:
condition = X > 15
print(condition)

X[condition]

[[ True  True]
 [False  True]
 [False False]]


array([51, 55, 19])

---

## 2. `Pandas` 기초


> *`pandas`는 성능의 사용이 쉬운 데이터구조와 python 프로그래밍언어를 위한 데이터분석 도구를 제공하는 Python의 기본 패키지입니다.*

> 출처: [공식 홈페이지](https://pandas.pydata.org/) 

- 강점 
    + 자동적/명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 데이터구조.
    + 통합된 시계열 기능
    + 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
    + 산술연산과 한 축의 모든 값을 더하는 등 데이터 축약연산은 축의 이름같은 메타데이터로 전달될 수 있어야 함
    + 누락된 데이터를 유연하게 처리할 수 있는 기능
    + SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능
        - 출처: http://shop.oreilly.com/product/0636920050896.do
        
**Series**와 **DataFrame**이라는 자료구조를 사용하는 `pandas`는 `numpy` 기반 연산을 수행합니다.

### 2.1. `pandas` 불러오기

관습적으로 `pandas`를 import 할때 `pd`라는 약어를 사용하고 있습니다.

In [16]:
import pandas as pd 

### 2.2. Series

Series는 1차원 데이터를 다루는데 효과적인 자료구조이고, `numpy`의 `ndarray`와 유사하게 index와 value를 갖고 있다. 하지만 `pandas` **Series**가 갖고 있는 특징은 **색인(index)**을 지정할 수 있다는 특징이 있다. [[출처]](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Series.html)


In [17]:
price = pd.Series([10000, 15000, 17500, 16000, 14000])
price

0    10000
1    15000
2    17500
3    16000
4    14000
dtype: int64

In [18]:
price = pd.Series( [10000, 15000, 17500, 16000, 14000], index=['2018-11-24',
                                                               '2018-11-25',
                                                               '2018-11-26',
                                                               '2018-11-27',
                                                               '2018-11-28'])

price

2018-11-24    10000
2018-11-25    15000
2018-11-26    17500
2018-11-27    16000
2018-11-28    14000
dtype: int64

In [19]:
print(price["2018-11-24"])
print(price.values)
print(price.index)

10000
[10000 15000 17500 16000 14000]
Index(['2018-11-24', '2018-11-25', '2018-11-26', '2018-11-27', '2018-11-28'], dtype='object')


In [20]:
price/10

2018-11-24    1000.0
2018-11-25    1500.0
2018-11-26    1750.0
2018-11-27    1600.0
2018-11-28    1400.0
dtype: float64

### 2.3. DataFrame

In [21]:
pd.DataFrame()

---



## 3. `numpy` & `pandas` 응용

### 3.1. 성적 처리  

| 이름 | 중간 | 기말 | 수행 |
| :-------: |:-------:| :-------:| :-------:|
| 학생1      | 100 | 50  | 90|
| 학생2      | 70      |   85  | 80|
| 학생3 | 45      |    75  | 100 |

위와 같은 1학기의 성적표가 있고, (**중간**, **기말**, **수행**)의 반영 비율이 $(35\%, 45\%, 20\%)$ 일때의 총점 계산을 선형대수적으로 처리해 보겠습니다. 우선 위의 점수 테이블과 반영 비율을 각각, 행렬($matrix$)과  벡터($vector$)로 표기하면 아래와 같습니다.

$$
X = 
\begin{pmatrix} 
100 & 50 & 90 \\
70 & 85 & 80 \\
45 & 75 & 100 
\end{pmatrix} 
$$

$$ \vec{p} = (0.35, 0.45, 0.2)$$

따라서 행렬과 벡터의 내적계산을 통해 저희가 원하는 결과를 얻을 수 있게되는 것입니다.

$$
X \cdot \vec{p} = 
\begin{pmatrix} 
100 & 50 & 90 \\
70 & 85 & 80 \\
45 & 75 & 100 
\end{pmatrix} \cdot
(0.35, 0.45, 0.2)
$$


In [22]:
import numpy as np 

X = np.array([[100, 50, 90],
              [70, 85, 80],
              [45, 75, 100]])

p = np.array([0.35, 0.45, 0.2])

print(X.dot(p))

[ 75.5   78.75  69.5 ]


### 3.2. 기술 통계

- $Def$
    + **기술 통계($Descriptive$ $statistics$)**는 정보 수집의 특징을 정량적으로 설명하거나 요약하는 요약 통계입니다[[1]](https://en.wikipedia.org/wiki/Descriptive_statistics#cite_note-1). 즉, 데이터를 요약, 설명하는데 초점이 맞추어져 있으며 크게 2가지 기법이 있다.
        1. 집중화 경향 ($Central$ $tendency$): 데이터가 어떤 값에 집중되어 있는가?
            -  평균(Mean, Average)
        2. 분산도($Variation$): 데이터가 어떻게 퍼져 있는가?
            - 분산(Variance), 표준편차(Standard Deviation) 


데이터의 갯수가 $n$개 이고, 데이터의 각 성분을 $d_i$로 표현할 때, 

$$Mean = \cfrac{d_1 + d_2 + \cdots + d_n}{n} = \cfrac{\sum d_i}{n}$$

$$Variance = \cfrac{(d_1 - Mean)^2 + (d_2 - Mean)^2 + \cdots + (d_n - Mean)^2}{n - 1} = \cfrac{\sum (d_i - Mean)^2}{n - 1}$$

$$$$

$$Std = \sqrt{Var}$$


In [23]:
import pandas as pd
import numpy as np

data = pd.read_csv("data/iris.csv")
data.head()

Unnamed: 0.1,Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,3.0,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa


In [24]:
d = data.iloc[:, 1:5].values

n = d.shape[0]
data_mean = d.sum(axis=0)/n
print("각 열의 평균: {}".format(data_mean))

data_var = ((d - data_mean)**2 ).sum(axis=0)/(n - 1)
print("각 열의 분산: {}".format(data_var))

data_std = data_var**(1/2)
print("각 열의 표준편차: {}".format(data_std))

    

각 열의 평균: [ 5.84333333  3.05733333  3.758       1.19933333]
각 열의 분산: [ 0.68569351  0.18997942  3.11627785  0.58100626]
각 열의 표준편차: [ 0.82806613  0.43586628  1.76529823  0.76223767]


`ndarray` 클래스에 속한 `.sum()` 함수는 **axis** 설정이 가능하여 행별로 더할지, 열별로 더할지 설정할 수 있습니다.

### 비교

- `pandas`의 `describe()`함수를 사용!

In [25]:
data.describe()

Unnamed: 0.1,Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.057333,3.758,1.199333
std,43.445368,0.828066,0.435866,1.765298,0.762238
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


---

## Reference

### 1 ~ 2. `numpy` /` pandas`
- 책
    + 밑바닥 부터 시작하는 데이터 과학
    + 밑바닥 부터 시작하는 딥러닝
- 웹사이트
    + numpy
        - https://docs.scipy.org/doc/numpy/user/quickstart.html
        - https://github.com/WegraLee/deep-learning-from-scratch/tree/master/ch01
    + pandas
        - https://medium.com/@5eo1ab/pandas-%EC%93%B0%EB%8A%94-%EC%9D%B4%EC%9C%A0-9063a90b0bd5
        - https://wikidocs.net/2873
        
        
### 3. yes-dragon

- 기술 통계
    + https://en.wikipedia.org/wiki/Descriptive_statistics#cite_note-1
    + http://drhongdatanote.tistory.com/25