# Numpy Tutorial
- Numpy 에 대해 복습해봅시다.
- Pytorch의 Tensor도 대부분 비슷하게 동작하고, 대부분의 데이터를 numpy 라이브러리로 전처리하는 경우가 많기 때문에 익숙해지는 것이 좋습니다.

In [None]:
import numpy as np

Numpy 를 사용하면 왜 좋은지에 대해 먼저 알아봅시다.

In [None]:
squares = np.array([x**2 for x in range(10)])
squares

In [None]:
squares = np.arange(10)**2
squares

In [None]:
%timeit np.array([x**2 for x in range(10)]) # 제곱을 한 값을 list에 넣고, array로 만들어줍니다. (가장 느림)

In [None]:
%timeit np.array([x for x in range(10)])**2 # 0~9를 list에 넣고, array로 만든 뒤 제곱합니다.

In [None]:
%timeit np.arange(10)**2 # arange 함수를 통해 0~9로 이루어진 array를 만들고, 제곱합니다. (가장 빠름)

이처럼 numpy 연산을 활용하면 속도를 향상시킬 수 있습니다. 복잡한 연산일수록 그 효과가 증대됩니다. (vector 연산, matrix 연산, ...)

- 이제, numpy array를 생성하는 방법들을 확인해봅시다.

In [None]:
# numpy array는 list, tuple, set 모두로부터 생성가능합니다.
squares = [x**2 for x in range(10)]         # python list
cubes = tuple(x**3 for x in range(10))      # python tuple
evens = {x for x in range(10) if x%2 == 0}  # python set

print(type(squares))
print(type(cubes))
print(type(evens))



In [None]:
a = np.array(squares)
b = np.array(cubes)
c = np.array(evens)

if type(a) == type(b) == type(c):
    print(type(a))

In [None]:
# numpy array를 생성할 때, data type을 지정할 수 있습니다.
zeros = np.zeros((3, 3), dtype=np.int32) # create a 3x3 array of 0's
ones = np.ones((2, 2), dtype=np.float64) # create a 2x2 array of 1's
empty = np.empty((3, 3))

print(zeros, zeros.dtype.name)
print(ones, ones.dtype.name)
print(empty, empty.dtype.name)

In [None]:
# data type의 변경도 가능합니다.
print(empty, empty.dtype.name)
empty = empty.astype(np.float16)
print(empty, empty.dtype.name)
empty = empty.astype(int)
print(empty, empty.dtype.name)

In [None]:
# arange VS linspace
a = np.arange(5, 30, 5) # 5~30까지의 값을 5 간격으로 쪼개어 만듭니다. (max값은 제외합니다.)
print(a.shape)
a

In [None]:
b = np.linspace(0, 1, 100) # 0~1 사이의 값을 100개로 쪼개어 만듭니다. (양 끝을 포함합니다.)
print(b.shape)
b

- 이제, numpy array를 이용해 연산해봅시다.

In [None]:
a = np.ones(15).reshape(3, 5)
b = np.ones(15).reshape(5, 3)

mult = a * 10            # element-wise multiplication
dot_prod1 = a.dot(b)     # dot product version 1 (matrix multiplication)
dot_prod2 = np.dot(a, b) # dot product version 2 (matrix multiplication)

print(mult, end='\n\n')
print(dot_prod1, end='\n\n')
print(dot_prod2)

In [None]:
a, b = dot_prod1, dot_prod2

print(a)
a += b # in-place 연산
print(a)
c = a + b
print(a) 

In [None]:
# 서로 다른 타입의 연산은 더 큰 범위의 타입으로 변환됩니다.
a = np.ones(10, dtype=int)
b = np.ones(10, dtype=float)
c = np.ones(10, dtype=complex) #복소수

a_plus_b = a + b # int + float
b_plus_c = b + c # float + complex

print(a)
print(b)
print(c)
print(a_plus_b.dtype.name)
print(b_plus_c.dtype.name)

In [None]:
# useful array methods
a = np.arange(1, 11)
print('Sum:', a.sum())
print('Min:', a.min())
print('Max:', a.max())

In [None]:
# applying methods to a single axis
a = np.arange(15).reshape(3, 5) + 1

print(a)
print(a.sum(axis=0)) # sum each column
print(a.min(axis=1)) # min of each row


In [None]:
# universal functions (sin, cos, exp, sqrt, ... etc)
a = np.linspace(0, 2*np.pi, 10000)

sin_a = np.sin(a)
sqrt_a = np.sqrt(a)
exp_a = np.exp(a)

print(sin_a, end='\n\n')
print(sqrt_a, end='\n\n')
print(exp_a, end='\n\n')

- Indexing, slicing

In [None]:
# indexing
A = np.array([x**2 for x in range(1, 11)]).reshape(2, 5)

print(A, end='\n\n')
print('A[0]\t\t', A[0])
print('A[-1]\t\t', A[-1])
print('A[0][0]\t\t', A[0][0])
print('A[-1][-1]\t', A[-1][-1])
print('A[-1,-1]\t', A[-1,-1])
#print('', A[])

In [None]:
# slicing
cubes = np.arange(1, 13).reshape(4, 3)**3  # cubes of 1-12

print(cubes[:,:], end='\n\n')         # all rows, all cols
print('First Column:\t', cubes[:, 0]) # first col
print('Last Column:\t', cubes[:, -1]) # last col
print('First Row:\t', cubes[0, :])    # first row
print('Last Row:\t', cubes[-1, :])    # last row

In [None]:
# 복잡한 형태의 indexing과 slicing
a = np.arange(24).reshape(8,3)

print(a)
print('\n',a[range(2,5),:])
print('\n',a[[2,3,4], 1:3])
print('\n',a[[2,3,4],[0,1,2]]) # [2,0], [3,1], [4,2] 위치의 element들을 추출합니다

In [None]:
# indexing using boolean
mask = np.eye(3, dtype=bool)
mask

In [None]:
a = np.arange(9).reshape(3,3)
a

In [None]:
a[mask] # True 인 지점만 추출합니다.

- 값을 대체하고 싶은 경우 사용할 수 있는 메서드

In [None]:
array = np.arange(40).reshape(10,4)
print(array)
array[:,3] = -1
print(array)
array[[5,3,7],[0,2,1]] = -20
print(array)

In [None]:
# changing values using condition
array = np.arange(40).reshape(10,4)
print(np.where(array>15, array, 0))

In [None]:
# condition에 해당하는 값을 직접 변경 (boolean 이용)
array = np.arange(40).reshape(10,4)
print(array>15)
array[(array>15)] += 100
print(array)

- shape를 바꾸고 싶을 때 사용 가능한 메서드

In [None]:
# array shape 변경
dim1 = np.arange(15)                   # Create 1 1x15 matrix;  n=1
dim2 = np.arange(15).reshape(3, 5)     # Create 1 3x5 matrix;   n=2
dim3 = np.arange(24).reshape(2, 3, 4)  # Create 2 3x4 matrices; n=3

print(dim1, dim1.ndim, end='\t[15]\n\n')  # ndim = 차원
print(dim2, dim2.ndim, end='\t[3x5]\n\n')
print(dim3, dim3.ndim, end='\t[2x3x4]')

In [None]:
dim3.ravel() # returns a COPY of the array flattened

In [None]:
print(dim3.shape)
print(dim3.T.shape)

print(dim2)
print(dim2.T)

In [None]:
# reshape VS resize
A = np.floor(10*np.random.random((3, 4)))
print(A)

A.reshape(4, 3) # reshape returns a COPY of A
print(A, 'array A remains unchanged')

A.resize(4, 3) # resize modifies array A
print(A, 'array A is of a new shape')

- numpy array들을 합치는 방법

In [None]:
a = np.zeros(9, dtype=int).reshape(3, 3)
b = np.ones(9, dtype=int).reshape(3, 3)

# concatenate
hor = np.hstack((a, b))
ver = np.vstack((a, b))

print('a:\n', a)
print('b:\n', b)
print('Horizontal Stack:\n', hor)
print('Vertical Stack:\n', ver)

In [None]:
print(ver == np.concatenate((a,b),0))
print(ver.shape)
print(hor == np.concatenate((a,b),1))
print(hor.shape)

In [None]:
# stack
print(np.stack((a,b),0).shape)
print(np.stack((a,b),1).shape)
print(np.stack((a,b),2).shape)

- Broadcasting
  - pytorch 연산에서 굉장히 많이 사용하게 되므로, 많이 연습해보는 것이 좋습니다.

In [None]:
a = np.ones((3,4,5))
a

In [None]:
b = np.ones((3,1,5))
b

In [None]:
a+b # "1" 인 곳이 broadcast 되어 (3,4,5) 의 모든 곳에 더해지게 됨

In [None]:
c = np.ones((3,4,5))
d = np.ones((1,1,5)) 
c+d == a+b # "1"인 dimension이 여러개면 여러 dimension이 모두 broadcast 됨

In [None]:
e = np.ones((3,4,5))
f = np.ones((5))

c+d == e+f[None,None,:] # None을 입력하면 "1" 인 dimension이 생기게 됨.

# Pandas Tutorial

In [None]:
import pandas as pd

- DataFrame 생성 

In [None]:
pd.DataFrame([1,2,3])

In [None]:
pd.DataFrame([[1,2,3],[4,5,6]])

In [None]:
a = np.arange(6).reshape(2,3) # (row, column)
pd.DataFrame(a)

In [None]:
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

- 데이터 읽고 쓰기

In [None]:
df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

In [None]:
df.to_csv('savename.csv')

In [None]:
pd.read_csv('savename.csv') # index 가 저장되었으나, csv format은 이를 구분할 방법이 없습니다. 

In [None]:
df.to_csv('savename.csv', index=False)

In [None]:
pd.read_csv('savename.csv')

In [None]:
df.to_excel('savename.xlsx', index=False)

In [None]:
pd.read_excel('savename.xlsx')

In [None]:
df.to_parquet('savename.parquet') # parquet은 column based DB 포맷으로 빠르고 효율적인 저장방식 중 하나입니다.

In [None]:
pd.read_parquet('savename.parquet') 

In [None]:
df2 = df.copy()
df2.columns = ['hdf5','pandas']

df.to_hdf("savename.h5", "df") #hdf5 형식은 Hierarchical Data Format으로 하나의 파일에 여러개의 dataframe을 저장할 수도 있다는 장점이 있습니다. 마찬가지로 빠르고 효율적인 저장 방식 중 하나입니다.
df2.to_hdf("savename.h5", "pandas")

In [None]:
pd.read_hdf('savename.h5','df')

In [None]:
pd.read_hdf('savename.h5','pandas')

In [None]:
df.to_pickle('savename.pickle')

In [None]:
pd.read_pickle('savename.pickle')

In [None]:
import pickle
with open('savename.pickle','rb') as f:
  df = pickle.load(f)
df

- data 추가, 변경, 삭제

In [None]:
df

In [None]:
df.columns = ['Hi','Pandas']
df

In [None]:
df.index = ['Pa','nd','as']
df

In [None]:
df['c'] = [6,8,5]
df

In [None]:
df['c'] = [2,1,3]
df

In [None]:
df.iloc[0] = [1,2,3]
df

In [None]:
df.loc['nd'] = [3,3,3]
df

In [None]:
df.values # pandas dataframe은 numpy를 기반으로 구성되어있습니다.

- missing data 처리

In [None]:
df = df.astype(float)

In [None]:
df['Pandas'][1] = np.nan
df

In [None]:
df.fillna(0) # pandas의 대부분의 연산은 inplace 연산이 아닙니다.

In [None]:
df # 주의사항: pandas의 대부분의 연산은 inplace 연산이 아닙니다.

In [None]:
df.fillna(method='bfill')

In [None]:
df.fillna(method='ffill')

In [None]:
df.interpolate()

In [None]:
df.dropna()

In [None]:
df.dropna(1)

In [None]:
df.mean() # 자동으로 nan을 제외하고 계산합니다.

In [None]:
np.mean(df.values,0) # numpy 연산에서는 mean이 아닌 np.nanmean을 써주어야 같은 연산이 됩니다.

In [None]:
np.nanmean(df.values,0)

- merging

In [None]:
df1 = pd.DataFrame({'a':[1,2,3],'b':[2,3,4]})
df1

In [None]:
df2 = pd.DataFrame({'c':[1,2,5],'b':[2,4,4]})
df2

In [None]:
pd.concat((df1,df2))

In [None]:
pd.concat((df1,df2),1)

In [None]:
pd.concat((df1,df2),ignore_index=True)

In [None]:
# ignore_index가 필요한 이유: index가 같은 값들이 있으면 loc 메서드에서 여러개가 검색됩니다. 따라서 구분이 필요한 경우 ignore_index를 해주면 좋습니다.
df = pd.concat((df1,df2))
df

In [None]:
df.loc[0]

- Pandas 를 이용한 데이터 분석에 유용한 함수들

In [None]:
df = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6], "grade": ["a", "b", "b", "a", "a", "e"]}
)
df

In [None]:
df.head(3)

In [None]:
df.tail(2)

In [None]:
# date_range를 통해 시간을 간단하게 표현할 수 있습니다.
dfl = pd.DataFrame(np.random.randn(5, 4),
                   columns=list('ABCD'),
                   index=pd.date_range('20130101', periods=5))


dfl

In [None]:
dfl.loc['20130102':'20130104'] # daterange로 구성된 index는 string을 이용한 datetime 표기로 인덱싱가능합니다.`

In [None]:
# sort index
df = pd.DataFrame(list('abcde'), index=[0, 3, 2, 5, 4])
df

In [None]:
df.sort_index()

In [None]:
# pivot
df = pd.DataFrame({'a':np.random.randn((6)),'b':[1,2,3,1,2,3],'c':['ABC','BCD','ABC','BCD','ABC','BCD']})
df

In [None]:
df.pivot(index='c', columns='b')['a']

In [None]:
df.pivot(index='b', columns='c')['a']

In [None]:
# melt
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

In [None]:
pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

In [None]:
pd.melt(df, id_vars=['A'], value_vars=['B', 'C'], ignore_index=False)

- pandas 는 데이터 분석에 필요한 그래프를 시각화하는 기능도 지원합니다.

In [None]:
df1 = pd.DataFrame(np.random.randn(100, 3),
                   index=pd.date_range('1/1/2018', periods=100),
                   columns=['A', 'B', 'C']).cumsum()
df1.tail()

In [None]:
df1.plot()

In [None]:
df1.hist()

In [None]:
df1.mean().plot.bar()

- apply를 이용한 함수의 다중적용

In [None]:
df = pd.DataFrame(np.arange(10000000))
df

In [None]:
def f(x):
    return x**2

df[0].map(f) # map 은 하나의 칼럼(하나의 series)에 대해서만 적용 가능합니다.

In [None]:
df[0].apply(f) # apply도 마찬가지로 하나의 칼럼에 대해 적용할 수 있지만, 전체 데이터프레임에 적용할수도 있습니다.

In [None]:
df.apply(f)

In [None]:
df.map(f) # map은 전체 데이터프레임에 적용할 수 없어서 에러가 납니다.

In [None]:
df.applymap(f) # map과 반대로 applymap은 전체 데이터프레임에만 적용가능하고, 하나의 칼럼에는 정의되지 않습니다.

In [None]:
%timeit df.applymap(f)

In [None]:
%timeit df.apply(f) # apply는 전체 데이터프레임에 적용시 병렬처리되어 가장 빠르게 작동합니다. 따라서, 가능하다면 apply를 이용하여 연산하는 것이 좋습니다.

In [None]:
%timeit df[0].apply(f) # 하나의 series에 정의된 apply는 applymap과 동일합니다.

In [None]:
%timeit df[0].map(f)