# Machine Learning
# CH1: numpy & pandas 기초

## 2018년 11월 14일 안상호

---

> *가장 높은 곳에 올라가려면 가장 낮은 곳부터 시작하라.*
>> **푸블리우스 시루스**

---

- 목차
    + `numpy` 기초
    + `pandas` 기초
    + `numpy` & `pandas` 응용

## 1. `Numpy` 기초

> *`numpy`는 수학 및 과학 연산을 위한 Python의 기본 패키지입니다.*

> 출처: [공식 홈페이지](http://www.numpy.org/) 


- 강점
    + a powerful N-dimensional array object
    + sophisticated (broadcasting) functions
    + tools for integrating C/C++ and Fortran code
    + useful linear algebra, Fourier transform, and random number capabilities

종합하자면 `C`/`C++`, `Fortran`으로 작성되어 빠르면서도 정교한 수학 연산, 특히 **벡터** 및 **행렬**(선형대수) 연산을 가능하게 합니다.

### Problem: 수학 연산

$$\vec{a} = (1, 2, 3)$$

$$\vec{b} = (4, 5, 6)$$

$$\therefore \vec{a} + \vec{b} = (5, 7, 9)$$

이걸 어떻게 구현해야할까?

- **python** `list`

In [4]:
a = [1, 2, 3]
b = [4, 5, 6]

print(a + b) ### 이게 아니다.
print([a_i + b_i for a_i, b_i in zip(a, b)]) ### zip 함수를 써서 묶고, list comprehension

def vector_sum(a, b):
    return [a_i + b_i for a_i, b_i in zip(a, b)]

[1, 2, 3, 4, 5, 6]
[5, 7, 9]


리스트간의 합은 단지 원소 갯수를 추가하는 것이기 때문에, 반복문 (`for` 또는 `list comprehension`)이 필요합니다.

이는 작은 규모의 연산에서는 별 차이가 없으나, 큰 규모의 연산에서는 끔찍한 성능을 발휘하게 됩니다.

- `numpy`

`numpy` **bb**

In [6]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a + b)

[5 7 9]


### 1.1. `numpy` 불러오기

관습적으로 `numpy`를 import 할때 `np`라는 약어를 사용하고 있습니다.

In [20]:
import numpy as np

### 1.2. 배열 생성

`numpy`의 자료 클래스를 `ndarray`**(N-Dimensional Array)**라고 합니다.

- `np.array()` 
    + 기존의 python `list`, `tuple` 등으로 생성   
    + `dtype`을 조정하여 데이터 타입 지정 가능

In [22]:
print(np.array([2,3,4]))
print(np.array([(1.5,2,3), (4,5,6)]))

a = np.array( [ [1,2], [3,4] ], dtype=complex)
print(type(a))
a

[2 3 4]
[[ 1.5  2.   3. ]
 [ 4.   5.   6. ]]
<class 'numpy.ndarray'>


array([[ 1.+0.j,  2.+0.j],
       [ 3.+0.j,  4.+0.j]])

- `np.arrange()` 
    + 범위를 지정하여 생성

In [13]:
np.arange( 10, 30, 5 )

array([10, 15, 20, 25])

- `np.zeros()` or `np.ones()` or `np.empty()`
    + 사이즈를 지정하여 생성 

In [15]:
np.zeros((3,4))

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [16]:
np.ones((2,3,4), dtype=np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [19]:
np.empty((2,3), dtype=np.double)

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

### 1.3. 산술 연산

`ndarray`는 기초적인 산술 연산을 지원하는데, **`+`,`-`, `*`, `/`**를 지원합니다. 

이 연산들은 같은 자리의 성분끼리 연산되는 *element-wise* 방식으로, 기본적으로는 원소의 수가 같을 때 연산이 가능합니다.

다만 **borad cast**라는 방법으로 서로 다른 원소들 간에도 연산이 가능한 경우가 있습니다.

![](http://www.astroml.org/_images/fig_broadcast_visual_1.png)

In [23]:
x = np.array([1.0, 2.0, 3.0])
y = np.array([2.0, 4.0, 6.0])
print(x + y) # 원소별 덧셈
print(x - y)
print(x * y) # 원소별 곱셈
print(x / y)


[ 3.  6.  9.]
[-1. -2. -3.]
[  2.   8.  18.]
[ 0.5  0.5  0.5]


In [26]:
x = np.arange(3)
x + 5

array([5, 6, 7])

### 1.4. N 차원 배열

![](https://taewanmerepo.github.io/2018/01/numpy/nparr.jpg)

In [28]:
A = np.array([1, 2, 3]) # 1D array
B = np.array([[1, 2, 3], [4, 5, 6]]) # 2D array

print(A.shape, B.shape)

(3,) (2, 3)


In [32]:
C = np.array([[3, 0, 4], [0, 6, 2]])

print(B.dot(A)) # 2 X 3 행렬과 3 X 1 array의 행렬곱

print(B + C) # element-wise 

[14 32]
[[ 4  2  7]
 [ 4 11  8]]


### 1.5. 인덱싱

- 원소에 대한 접근

In [36]:
X = np.array([[51, 55], [14, 19], [0, 4]])
print(X)

print("0행 {}".format(X[0]))
print("(0, 1) 위치의 원소 {}".format(X[0][1]))   

[[51 55]
 [14 19]
 [ 0  4]]
0행 [51 55]
(0, 1) 위치의 원소 55


- `for` **indexing**

In [38]:
for row in X:
    print(row)

[51 55]
[14 19]
[0 4]


- `bool` **indexing**

In [44]:
condition = X > 15
print(condition)

X[condition]

[[ True  True]
 [False  True]
 [False False]]


array([51, 55, 19])

---

## 2. `Pandas` 기초


> *`pandas`는 성능의 사용이 쉬운 데이터구조와 python 프로그래밍언어를 위한 데이터분석 도구를 제공하는 Python의 기본 패키지입니다.*

> 출처: [공식 홈페이지](https://pandas.pydata.org/) 

- 강점 
    + 자동적/명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 데이터구조.
    + 통합된 시계열 기능
    + 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
    + 산술연산과 한 축의 모든 값을 더하는 등 데이터 축약연산은 축의 이름같은 메타데이터로 전달될 수 있어야 함
    + 누락된 데이터를 유연하게 처리할 수 있는 기능
    + SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능
        - 출처: http://shop.oreilly.com/product/0636920050896.do
        
**Series**와 **DataFrame**이라는 자료구조를 사용하는 `pandas`는 `numpy` 기반 연산을 수행합니다.|

---

## 3. `numpy` & `pandas` 응용

### 3.1. 기술 통계

### 3.2. 성적 처리 

---

## Reference

- 책
    + 밑바닥 부터 시작하는 데이터 과학
    + 밑바닥 부터 시작하는 딥러닝
- 웹사이트
    + numpy
        - https://docs.scipy.org/doc/numpy/user/quickstart.html
        - https://github.com/WegraLee/deep-learning-from-scratch/tree/master/ch01
    + pandas
        - https://medium.com/@5eo1ab/pandas-%EC%93%B0%EB%8A%94-%EC%9D%B4%EC%9C%A0-9063a90b0bd5