# 개요

1. numpy 
2. pandas
3. torch로 vector, matrix 등 만들어보기

## 참고자료
* Official tutorial: https://docs.scipy.org/doc/numpy/reference/
* Stanford Univ. CS231 tutorial: http://cs231n.github.io/python-numpy-tutorial/

## 1. numpy, array, matrix 등

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
import numpy as np

### 리스트, 행렬 선언

In [None]:
# list_name(변수명 설정) = ["item-1", "item-2", ... , "item-n"]

a = [1, 2, 3]
b = ["a", "b", "c"]
c = [["a"], ["a", "b"], ["a", "c"], ["a", "b", "c"]]

print(a)
print(b)
print(c)

In [None]:
# append()로 리스트에 item 추가하기
c.append('new_item')
c.append(['new_item_list'])

print(c)

In [None]:
a = np.array([1, 2, 3])
b = np.array(["a", "b", "c"])
c = np.array([["a"], ["a", "b"], ["a", "c"], ["a", "b", "c"]])

print(a)
print(b)
print(c)

In [None]:
# 배열(또는 행렬)을 1로 채우기
print(np.ones((1, 5)))
print(np.ones((3, 2)))

In [None]:
# 배열(또는 행렬)을 0으로 채우기
print(np.zeros((1, 5)))
print(np.zeros((3, 2)))

In [None]:
# 주어진 범위 안에서 순차적으로 증가하는 리스트 만들기
# np.arange([start,] stop, [step, ] dtype=None)

print(np.arange(10))
print(np.arange(3,7, dtype=np.float))
print(np.arange(3,10,2))

In [None]:
# 행렬 선언하기
mat1 = np.array([[1,2,3],[4,5,6]])

# random으로 matrix 만들기
mat2 = np.random.randint(low=1, high=10, size=(3,2))
mat3 = np.random.rand(3,2)

print(mat1)
print(mat2)
print(mat3)

### 리스트 인덱싱(Indexing) & 슬라이싱(Slicing)

In [None]:
# Indexing
a = [1,3,5,7,9,11]
print(a[2], a[5], a[-1])

In [None]:
# Slicing
b = [2,4,6,8,10]
print(b[2:])
print(b[:2])
print(b[:])

### numpy의 reshape (PyTorch의 view와 비교)

In [None]:
# (row, column)
mat1 = np.random.rand(6,3)
print(mat1)

In [None]:
# -1: all
print(mat1.reshape(1, -1).shape)
print(mat1.reshape(1, -1))
print("=====")
print(mat1.reshape(-1, 1).shape)
print(mat1.reshape(-1, 1))

In [None]:
print(mat1.reshape(2, 9).shape)
print(mat1.reshape(9, 2))

In [None]:
mat1.reshape(2,5)

In [None]:
# tensor 형태로 나타내기
print(mat1.reshape(3,2,3).shape)
print(mat1.reshape(3,2,3))

### matrix 또는 tensor 형태에서도 slicing이 가능합니다!

In [None]:
mat2 = np.arange(24).reshape(-1, 4)
print(mat2)

In [None]:
mat2[:1,:3]

In [None]:
mat2[3, 0:2]

### Math Arithmetic Operations(사칙연산)

In [None]:
x = np.array([[1,3,5],[7,9,11],[13,15,17]])
y = np.array([[2,4,6],[8,10,12],[14,16,18]])

print(x)
print(y)

In [None]:
# add
x + y

In [None]:
x - y

In [None]:
x * y

In [None]:
x / y

In [None]:
print(x ** 2)
print(np.power(x, 2))

In [None]:
np.dot(x, y)

In [None]:
np.sqrt(x)

In [None]:
# More on matrix operation
z1 = np.array([[2,2,2]])
z2 = np.array([[2,2]])

x * z1

In [None]:
print(z2.shape)
print(x.shape)
print(x * z2)

In [None]:
# 합
print(x)
print(x.sum(axis = 0))
print(x.sum(axis = 1))

In [None]:
# 평균
print(x)
print(x.mean(axis = 0))
print(x.mean(axis = 1))

In [None]:
# 표준편차
print(x)
print(x.std(axis = 0))
print(x.std(axis = 1))

In [None]:
print(x.T)
print(np.dot(x, z1.T))

### Other operations

In [None]:
xx = np.random.rand(15)
print(xx)

In [None]:
print(xx)
print(xx.argsort()) # axis를 활용해서 행렬(matrix)에도 적용할 수 있다.
xx.sort()
print(xx)

## 2. Pandas

* https://pandas.pydata.org/pandas-docs/stable/

In [None]:
import pandas as pd

### Pandas Series 만들기

* pandas series는 1차원 데이터 집합

In [None]:
pd_series = pd.Series(index = ['a','b','c','d','e'], data=[1,2,3,4,5])
pd_series

In [None]:
# Pandas Series의 기초 정보
print('차원:', pd_series.ndim)
print('형태: ', pd_series.shape)
print('총 원소의 수:', pd_series.size)

print('값:', pd_series.values)
print('인덱스:', pd_series.index)

### index를 활용한 데이터 탐색

In [None]:
# loc(index를 활용하여 access), iloc(integer location)

print(pd_series.loc['a'])
print(pd_series.iloc[0])

print(pd_series.loc[['a','c']])
print(pd_series.iloc[[0,2]])

### 데이터 삭제

In [None]:
pd_series.drop('b')

In [None]:
print(pd_series)
pd_series.drop('b', inplace=True)
print(pd_series)

### Pandas Dataframe 만들기

* 2차원 데이터 집합. 행렬과 비슷하게 row와 column을 갖고 있다

In [None]:
data = {
    'A': np.arange(15),
    'B': np.random.randint(low=0, high=15, size=(15)),
    'C': np.random.rand(15)
}

data_df = pd.DataFrame(data)

In [None]:
data_df.head()

In [None]:
data_df.tail()

In [None]:
data_df.shape

### Indexing and Slicing

In [None]:
data_df[1:3]

In [None]:
data_df.loc[1]

In [None]:
data_df.loc[1]['C']

### Add, Remove and etc

In [None]:
data_df['D'] = data_df['A'] >= 5
data_df

In [None]:
data_df.drop('D', axis=1, inplace=True)

In [None]:
data_df.sort_index(axis=0, ascending=False)