# Lab_01-1 Numpy, Pandas 실습

### Context
#### Numpy
+ Scalar, Vector
+ Matrix 
+ Functions

#### Pandas
+ Series
+ DataFrame
+ Functions

In [None]:
import time
import os
from os.path import join

import numpy as np
import pandas as pd

# Numpy
## Numpy란?
넘파이(Numpy)는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리입니다. <br>
데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공합니다.

### 1. Scalar, Vector
#### Scalar
Scalar는 방향은 없지만, 실수 공간에서 크기를 나타내는 값을 말합니다. <br>
간단하게 상수를 생각하시면 됩니다. 

$ a\ \in \mathbf{R}$

In [None]:
a = np.array([0])
a

#### Vector
Vector는 n차원 공간에서 방향과 크기를 갖는 단위를 말합니다. <br>
n차원 공간에서의 벡터 x는 다음과 같이 표기하며, n개의 원소를 가지고 있습니다.<br>
정형 데이터에서 어떤 샘플의 데이터를 '특성 벡터'라고도 말합니다.

$ \vec{x}\ = \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix} $

Numpy의 `np.array()` 배열 객체(ndarray)를 사용해 벡터를 생성할 수 있습니다. 

In [None]:
x1 = np.array([1, 2, 3])
x1

In [None]:
x1.shape

In [None]:
x2 = np.array([[1], [2], [3]])
x2

In [None]:
x2.shape

Numpy는 1차원 배열 객체도 벡터로 인정하지만, <br> x2처럼 열 벡터(Column Vector)로 나타낸 2차원 배열 객체로 표현한 방식이 올바른 표기입니다.

### 2. Matrix
Matrix는 행과 열로 이루어진 구조를 이야기하는데, 선형대수학에서는 열 벡터를 모아놓은 것으로도 이야기합니다. <br>
mxn 행렬은 다음과 같이 표기하며 m*n개의 원소를 가지고 있습니다. 

$ \matrix{A}\ = \begin{bmatrix} {x_{11} \\ x_{21}\\ .. \\ x_{m1}} & { x_{12} \\ .. \\ .. \\ .. } & {.. \\ .. \\ .. \\ .. }& {x_{1n} \\ .. \\ .. \\ x_{mn}} \end{bmatrix} $

벡터와 동일하게 Numpy의 `np.array()` 배열 객체를 사용해 행렬을 생성할 수 있습니다.

In [None]:
A = np.array([[1, 2, 3], 
              [4, 5, 6]])
A

### 3. Functions
자주 사용되는 Numpy의 기능에 대해 알아보겠습니다. 

#### 1) np.shape, np.reshape
##### np.shape
행렬의 차원을 확인할 수 있는 메소드이며, `np.shape(행렬)` 뿐만아니라 `행렬.shape` 방식으로도 사용 가능합니다.<br><br>

##### np.reshape
행렬의 차원을 변경하는 메소드로 변경 이전 차원의 곱과 변경 이후 차원의 곱이 같다면, 변환이 가능합니다.<br>

예를 들어 (2, 8) 차원을 가진 행렬 A는 (4, 4) 차원을 가진 행렬로 변환이 가능합니다. 2x8 = 16, 4x4 = 16이기 때문입니다. <br>
하지만 (3, 5) 차원을 가진 행렬로는 변환이 불기능합니다. 3x5 = 15이기 때문에 차원이 일치하지 않습니다. 

`np.reshape(행렬, 변환할 차원)`으로 차원을 변경할 수도 있고, `행렬.reshape(변환할 차원)`으로 변경할 수도 있습니다.

In [None]:
A = np.array([[1, 2, 3, 4, 5, 6, 7, 8], [8, 7, 6, 5, 4, 3, 2, 1]])
A

In [None]:
A.shape

In [None]:
np.reshape(A, (4, 4))

In [None]:
try:
    np.reshape(A, (3, 5))
    print('(3, 5) 행렬로 차원을 변환하였습니다.')
except:
    print('(2, 8) 차원의 행렬을 (3, 5) 차원의 행렬로 변환할 수 없습니다.')

reshape를 사용해 (n,) 차원으로 구성된 벡터를 (n, 1) 차원으로 구성된 행렬로 변경할 수 있습니다 

In [None]:
A.shape

In [None]:
A = np.array([i for i in range(8)]).reshape(2, 4)
A.shape

In [None]:
# 여기에서 -1은 n개의 차원 중 n-1개는 사용자가 지정하고 나머지는 알아서 가능한 차원에 맞추라는 의미입니다. 
# 해당 예제의 경우 2개의 차원 중 마지막 차원에 1을 할당했으므로 -1에는 8이 들어가 (8, 1) 차원 행렬이 됩니다. 
A.reshape(-1, 1).shape

#### 2) np.concatenate()
여러 개의 Numpy 행렬을 특정 방향으로 이어붙이고 싶은 경우에는 np.concatenate() 함수를 사용할 수 있습니다.<br>
ndarray.shape로 차원을 확인하고, 차원을 지정해서 행렬을 이어붙일 수 있습니다. 

In [None]:
sample_arr = np.reshape(A, (4, 2))
sample_arr

In [None]:
# 행 방향으로 붙이기
np.concatenate([sample_arr, sample_arr, sample_arr], axis=0).shape

In [None]:
# 열 방향으로 붙이기
np.concatenate([sample_arr, sample_arr, sample_arr], axis=1).shape

#### 3) np.sum, np.mean, np.var, np.std, np.max, np.min, np.unique
더하기, 평균, 분산, 표준 편차 등 기초 통계량을 계산하는 메소드 입니다. 동일한 기능을 하는 파이썬 내장 함수가 있지만, <br>
Numpy의 메소드 들은 axis 인자를 할당함으로써 특정 축을 기준으로 연산할 수 있다는 특징이 있습니다.<br>
ex) `np.sum(x, axis=0)` `np.mean(x, axis=1)` `np.var(x, axis=2)` `np.std(x, axis=3)` `np.max(x, axis=1)` `np.min(x, axis=2)` `np.unique(x, axis=0)`

In [None]:
A = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
A

In [None]:
A.shape

##### (1) np.sum()
`np.sum(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 합계를 계산해 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 모든 원소들의 합
np.sum(A, axis=0)

In [None]:
# 1번째 차원 방향으로 모든 원소들의 합
np.sum(A, axis=1)

##### (2) np.mean()
`np.mean(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 평균을 계산해 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 모든 원소들의 평균
np.mean(A, axis=0)

In [None]:
# 1번째 차원 방향으로 모든 원소들의 평균
np.mean(A, axis=1)

##### (3) np.var()
`np.var(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 분산을 계산해 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 모든 원소들의 분산
np.var(A, axis=0)

In [None]:
# 1번째 차원 방향으로 모든 원소들의 분산
np.var(A, axis=1)

##### (4) np.std()
`np.std(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 표준편차를 계산해 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 모든 원소들의 표준편차
np.std(A, axis=0)

In [None]:
# 0번째 차원 방향으로 모든 원소들의 표준편차
np.std(A, axis=1)

##### (5) np.max()
`np.max(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 최대값을 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 원소들의 최대값
np.max(A, axis=0)

In [None]:
# 1번째 차원 방향으로 원소들의 최대값
np.max(A, axis=1)

##### (6) np.min()
`np.min(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 최소값을 반환하는 함수입니다.

In [None]:
# 0번째 차원 방향으로 원소들의 최소값
np.min(A, axis=0)

In [None]:
# 1번째 차원 방향으로 원소들의 최소값
np.min(A, axis=1)

##### (7) np.unique()
`np.unique(행렬)` 은 주어진 행렬에 대해 중복을 제거하여 모든 원소 값을 반환하는 함수입니다.

In [None]:
A = np.array([[0, 0, 0, 0], [1, 2, 2, 0], [3, 4, 5, 4]])
A

In [None]:
# 원소들 중 고유한 값
np.unique(A)

#### 4) np.log, np.exp
값에 자연 로그를 취하거나 자연 상수의 지수곱을 수행하는 함수입니다.<br>

일반적으로 데이터가 치우친(Skew) 분포를 가지고 있을 경우 로그 변환을 수행하게 되는데, np.log는 이 때 사용하는 메소드 입니다. <br>
자연 로그의 역함수로 사용되는 메소드로 np.exp가 있습니다. 

In [None]:
a = 2.714
b = np.log(a)
b

In [None]:
np.exp(b)

# Pandas
## Pandas란?
판다스(Pandas)는 데이터 조작 및 분석을 위해 사용하는 라이브러리입니다. <br>
특히, 숫자 테이블 및 시계열 데이터를 위한 데이터 구조 및 함수를 제공합니다.

### 1. Series
시리즈(Series)는 Pandas의 대표적인 데이터 객체 표현으로 라벨(컬럼 이름)을 가진 1차원 배열입니다. <br>
간단하게 하나의 열(Column)을 생각하시면 됩니다. 

$ Series\ = {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름} $

In [None]:
S = pd.Series(np.array([1, 2, 3, 4, 5, 6, 7, 8]), name='변수 이름')
S

### 2. DataFrame
데이터 프레임(DataFrame)는 Pandas의 대표적인 데이터 객체 표현으로 라벨(컬럼 이름)을 가진 2차원 배열입니다. <br>
간단하게 엑셀 데이터를 생각하시면 됩니다. 

$ DataFrame\ = {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름1}  {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름2}  {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름3}$

In [None]:
DF = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['Var1', 'Var2', 'Var3'])
DF

### 3. Functions
자주 사용되는 Pandas의 기능에 대해 알아보겠습니다. 

#### 1) DataFrame.shape
Numpy의 np.shape 처럼 동일하게 차원을 확인할 수 있는 속성입니다. <br>
차원을 변경할 수 있는 reshape 함수는 따로 존재하지 않기 때문에 <br>
차원을 변경하고자 할 때는 Numpy 행렬로 변경한 후에 np.reshape 메소드를 사용하여 변경합니다.

##### DataFrame.shape
Pandas의 DataFrame의 행과 열의 수를 확인할 수 있는 메소드입니다.

In [None]:
# 3개의 행과 3개의 열로 구성된 것을 확인할 수 있습니다. 
DF.shape

#### 2) .head()
`.head(개수)` 는 Series나 DataFrame 객체가 가진 값의 일부분을 반환하는 메소드 입니다. <br>
기본 값으로 5개를 반환하며, 전달한 인자의 숫자에 따라 개수를 조절할 수 있습니다.

In [None]:
DF.head()

In [None]:
DF.head(1)

#### 2) .info()
`.info()` 는 Series나 DataFrame 객체가 가진 변수들의 정보를 보여줍니다. <br>
일반적으로 변수들의 자료형(수치형 or 범주형)을 확인하기 위해 사용하기도 합니다.

In [None]:
DF.info()

#### 3) .describe()
`.describe()` 는 Series나 DataFrame 객체가 가진 변수들의 기초 통계량 값을 출력합니다. <br>
수치형 변수의 경우 최대, 최소, 중간, 평균, 표준편차 등을 출력하며, 범주형 변수의 경우 범주의 수, 최빈값, 최빈값의 빈도수 등을 확인할 수 있습니다.<br>

In [None]:
DF.describe()

#### 4) .values
`.values` 속성은 Series나 DataFrame에서 값을 Numpy 배열(ndarray)로 반환해줍니다. <br>
주로 대용량 데이터 처리 시 Pandas 자체 연산보다는 Numpy 배열 연산이 빠르기 때문에 Numpy 배열로 변환 후 연산할 때 사용합니다.

In [None]:
DF.values

#### 5) pd.read_csv()
`pd.read_csv(파일명)` 메소드는 csv(comma-separated variables) 파일로 이루어진 데이터를 DataFrame으로 읽어오는 기능을 수행합니다. <br>
주로 정형 데이터를 읽어올 때 사용됩니다. <br><br>

샘플 데이터 경로: `data/sample_adult_data.csv`

In [None]:
from os.path import join

In [None]:
filename = join('data', 'sample_adult_data.csv')
DF = pd.read_csv(filename)

In [None]:
DF.head()

In [None]:
DF.info()

In [None]:
DF.describe(include='all')

In [None]:
DF.values

#### 6) Pandas.concat()

Pandas.concat() 함수를 사용해 지정한 축으로 Pandas 객체를 연결할 수 있습니다. 

In [None]:
S.shape

In [None]:
# 행 방향으로 DataFrame 붙이기
result = pd.concat([S, S], axis=0)

result.shape, type(result)

In [None]:
# 열 방향으로 Series 붙이기 -> DataFrame으로 변환됨
result = pd.concat([S, S], axis=1)

result.shape, type(result)

In [None]:
DF.shape

In [None]:
# 행 방향으로 DataFrame 붙이기
pd.concat([DF, DF], axis=0).shape

In [None]:
# 열 방향으로 DataFrame 붙이기
pd.concat([DF, DF], axis=1).shape

#### 7) DataFrame.loc DataFrame.iloc
DataFrame을 제대로 사용하기 위해서는 필수로 익혀야하는 메소드 2가지 입니다. <br>
간단하게 생각하면, 특정 조건에 맞는 행과 열을 추출한다고 말할 수 있습니다.<br>
iloc 메소드 보다는 loc 메소드가 더 자주 사용됩니다.

##### DataFrame.loc[]
`DataFrame.loc[행 조건, 열 조건]`으로 해당 조건에 맞는 행과 열을 찾아냅니다. <br>
예를 들어 age 컬럼의 값이 39인 행과 'age, workclass, fnlwgt, education, marital-status' 열로 구성된 데이터만을 추출하고 싶은 경우 <br>
DF.loc[DF['age'] == 39, ['age', 'workclass', 'fnlwgt', 'education', 'marital-status']] 와 같이 작성할 수 있습니다.

In [None]:
DF['age'] == 39

In [None]:
DF.loc[DF['age'] == 39, ['age', 'workclass', 'fnlwgt', 'education', 'marital-status']]

##### DataFrame.iloc[]
`DataFrame.iloc[행 인덱스, 열 인덱스]`으로 인덱스에 맞는 행과 열을 찾아냅니다.

In [None]:
DF.iloc[[0,2,4,6,8], [1,3,5,7,9]]

#### 8) map, apply, applymap

##### Series.map()
map 함수는 Pandas Series(column)에 사용할 수 있는 함수로 Series의 `각 원소에 연산을 적용` 할 수 있습니다. 각 원소를 입력으로 받아 단일 값을 반환합니다.<br>
예를들어 나이 컬럼인 'agr' 컬럼에 log 연산을 적용하고 싶은 경우 다음과 같이 할 수 있습니다. 

In [None]:
DF.head()

In [None]:
# Age 컬럼의 값에 log 연산을 적용
# 1. Lambda 식을 사용하는 방법, 주로 사용자 정의 함수를 직접 기재할 때:
DF['log_age'] = DF['age'].map(lambda x: np.log(x))

# 2. 함수를 전달하는 방법, 주로 이미 존재하는 함수를 사용하는 방법:
# DF['log_age'] = DF['age'].map(np.log)

In [None]:
DF.head()

##### DataFrame.apply()
apply, applymap 함수는 Pandas DataFrame에 사용할 수 있는 함수로 apply는 `행 또는 열 같은 축에 대해 연산을 적용` 할 수 있습니다. 행 또는 열을 입력으로 받아 단일 값을 반환합니다. <br>
예를들어 행에 존재하는 모든 수치형 열의 값을 더해서 새로운 열을 만들고자 한다면 다음과 같이 할 수 있습니다.

In [None]:
# 1. 자료형으로 리스트를 만드는 방법
DF['sum_num_var'] = DF.apply(lambda x: sum([value for value in x if isinstance(value, (int,float))]),
                             axis=1)
# 2. 수치형 컬럼을 명시적으로 적용하는 방법: 'age', 'fnlwgt', 'education-num', 'capital-gain', 'hours-per-week', 'log_age'
# DF.apply(lambda x: x['age'] + x['fnlwgt'] + x['education-num'] + x['capital-gain'] + x['hours-per-week'] + x['log_age'],
#                              axis=1)

In [None]:
DF.head()

##### DataFrame.applymap()
Pandas DataFrame에 사용할 수 있는 함수로 applymap은 Series의 map과 동일하게 `각 원소에 연산을 적용`할 수 있습니다. 각 원소를 입력으로 받아 단일 값을 반환합니다.<br>
예를들어 모든 수치형 값에 log를 취한다면 다음과 같이 할 수 있습니다. 

In [None]:
DF.applymap(lambda x: np.log1p(x) if isinstance(x, (int, float)) else x)

#### 9) inplace 인자
몇몇 Pandas 함수들의 인자를 살펴보면 inplace 인자가 있습니다. <br>
inplace란 말 그대로 내부에서 연산을 하고 객체를 반환하지않는 것을 의미합니다. <br>
일반적으로 Pandas 함수들은 연산 후 연산이 적용된 새로운 객체를 생성해서 반환하는데, inplace 인자를 True로 전달하면 객체를 반환하지 않습니다.

In [None]:
sample_DF = DF.sample(5)
sample_DF

In [None]:
sample_DF.reset_index()

In [None]:
sample_DF.reset_index(drop=True)

In [None]:
sample_DF.reset_index(inplace=True, drop=True)

In [None]:
sample_DF

#### Numpy와 Pandas의 브로드캐스팅
- 브로드캐스팅이란? Numpy와 Pandas 자료형에 대해 대부분 단항 또는 이항 연산들은 브로드캐스팅을 지원하는데, 차원에 맞게 연산이 알아서 적용되는 것을 말합니다.

1. (4, 4) 짜리 행렬 A에 단항 연산인 다음과 같이 로그를 씌우면 np.log(A), 알아서 A의 각 원소에 로그가 적용됩니다.
2. (4, 4) 짜리 행렬 A에 (4, 1) 행렬 B를 다음과 같이 빼면 행렬 A의 행 방향으로 B 만큼 값이 감소하게 됩니다. 

In [None]:
A = np.random.randint(2, 10, size=(4, 5))
A

In [None]:
np.log(A)

In [None]:
B = np.random.randint(2, 10, size=(5, ))
B

In [None]:
A - B

### 추천 이론 강의
- Edwith 인공지능을 위한 선형 대수, 주재걸 교수님: https://www.edwith.org/ai251
- k-mooc R을 활용한 통계학개론, 김충락 교수님: http://www.kmooc.kr/courses/course-v1:PNUk+RS_C01+2021_KM_010/about

### Reference
- Numpy Docs:  https://numpy.org/doc/stable/
- Pandas Docs: https://pandas.pydata.org/docs/