# Lab_01-1 Numpy, Pandas 실습

### Context
#### Numpy
+ Scalar, Vector
+ Matrix 
+ Functions

#### Pandas
+ Series
+ DataFrame
+ Functions

In [2]:
import time
import os
from os.path import join

import numpy as np
import pandas as pd

# Numpy
## Numpy란?
넘파이(Numpy)는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리입니다. <br>
데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공합니다.

### 1. Scalar, Vector
#### Scalar
Scalar는 방향은 없지만, 실수 공간에서 크기를 나타내는 값을 말합니다. <br>
간단하게 상수를 생각하시면 됩니다. 

$ a\ \in \mathbf{R}$

In [3]:
a = np.array([0])
a

array([0])

#### Vector
Vector는 n차원 공간에서 방향과 크기를 갖는 단위를 말합니다. <br>
n차원 공간에서의 벡터 x는 다음과 같이 표기하며, n개의 원소를 가지고 있습니다.<br>
정형 데이터에서 어떤 샘플의 데이터를 '특성 벡터'라고도 말합니다.

$ \vec{x}\ = \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix} $

Numpy의 `np.array()` 배열 객체(ndarray)를 사용해 벡터를 생성할 수 있습니다. 

In [4]:
x1 = np.array([1, 2, 3])
x1

array([1, 2, 3])

In [5]:
x1.shape

(3,)

In [6]:
x2 = np.array([[1], [2], [3]])
x2

array([[1],
       [2],
       [3]])

In [7]:
x2.shape

(3, 1)

Numpy는 1차원 배열 객체도 벡터로 인정하지만, <br> x2처럼 열 벡터(Column Vector)로 나타낸 2차원 배열 객체로 표현한 방식이 올바른 표기입니다.

### 2. Matrix
Matrix는 행과 열로 이루어진 구조를 이야기하는데, 선형대수학에서는 열 벡터를 모아놓은 것으로도 이야기합니다. <br>
mxn 행렬은 다음과 같이 표기하며 m*n개의 원소를 가지고 있습니다. 

$ \matrix{A}\ = \begin{bmatrix} {x_{11} \\ x_{21}\\ .. \\ x_{m1}} & { x_{12} \\ .. \\ .. \\ .. } & {.. \\ .. \\ .. \\ .. }& {x_{1n} \\ .. \\ .. \\ x_{mn}} \end{bmatrix} $

벡터와 동일하게 Numpy의 `np.array()` 배열 객체를 사용해 행렬을 생성할 수 있습니다.

In [8]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

### 2.1 행렬의 특수한 형태 
#### 1) 전치 행렬
전치 행렬은 주어진 행렬에 대해 행과 열을 바뀐 행렬을 말합니다.

$ \matrix{A} 의\ 전치행렬\ = \matrix{A^T} $<br><br>
$ \matrix{A^T}\ = \begin{bmatrix} {x_{11} \\ x_{12}} & {x_{21} \\ x_{22}} \end{bmatrix} $

Numpy에서는 배열 객체의 `T` 속성을 사용하여 전치 행렬을 구할 수 있습니다.

In [9]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

#### 2) 대각 행렬
대각 행렬은 대각 성분에만 값이 있는 행렬을 말합니다. <br>

$ \matrix{D}\ = \begin{bmatrix} {x_{11} \\ 0} & {0 \\ x_{22}} \end{bmatrix} $

Numpy의 `np.diag(대각 성분 리스트)` 메소드를 사용하여 대각 행렬을 생성할 수 있습니다.

In [10]:
D = np.diag([1, 2, 3])
D

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

#### 3) 단위 행렬
대각 행렬의 특수한 경우인 단위 행렬은 대각 성분이 1인 행렬을 말합니다. <br>

$ \matrix{I}\ = \begin{bmatrix} {1 \\ 0} & {0 \\ 1} \end{bmatrix} $

Numpy의 `np.eye(차원의 수)` 메소드 또는 `np.identity(차원의 수)` 메소드를 사용하여 단위 행렬을 생성할 수 있습니다. 

In [11]:
I = np.eye(2)
I

array([[1., 0.],
       [0., 1.]])

In [12]:
I = np.identity(2)
I

array([[1., 0.],
       [0., 1.]])

#### 4) 대칭 행렬
대칭 행렬은 행렬의 대각 성분을 기준으로 대칭 관계인 행렬을 말합니다. 

$ \matrix{S}\ = \begin{bmatrix} {1 \\ 2 \\ 3} & {2 \\ 4 \\ 5} & {3 \\ 5 \\ 7} \end{bmatrix} $

대칭 행렬을 생성하는 메소드는 따로 존재하지 않습니다. 

In [13]:
S = np.array([[1, 2, 3], [2, 4, 5], [3, 5, 7]])
S

array([[1, 2, 3],
       [2, 4, 5],
       [3, 5, 7]])

### 3. Functions
자주 사용되는 Numpy의 기능에 대해 알아보겠습니다. 

#### 1) np.shape, np.reshape
##### np.shape
행렬의 차원을 확인할 수 있는 메소드이며, `np.shape(행렬)` 뿐만아니라 `행렬.shape` 방식으로도 사용 가능합니다.<br><br>

##### np.reshape
행렬의 차원을 변경하는 메소드로 변경 이전 차원의 곱과 변경 이후 차원의 곱이 같다면, 변환이 가능합니다.<br>

예를 들어 (2, 8) 차원을 가진 행렬 A는 (4, 4) 차원을 가진 행렬로 변환이 가능합니다. 2x8 = 16, 4x4 = 16이기 때문입니다. <br>
하지만 (3, 5) 차원을 가진 행렬로는 변환이 불기능합니다. 3x5 = 15이기 때문에 차원이 일치하지 않습니다. 

`np.reshape(행렬, 변환할 차원)`으로 차원을 변경할 수도 있고, `행렬.reshape(변환할 차원)`으로 변경할 수도 있습니다.

In [14]:
A = np.array([[1, 2, 3, 4, 5, 6, 7, 8], [8, 7, 6, 5, 4, 3, 2, 1]])
A

array([[1, 2, 3, 4, 5, 6, 7, 8],
       [8, 7, 6, 5, 4, 3, 2, 1]])

In [15]:
A.shape

(2, 8)

In [16]:
np.reshape(A, (4, 4))

array([[1, 2, 3, 4],
       [5, 6, 7, 8],
       [8, 7, 6, 5],
       [4, 3, 2, 1]])

In [17]:
try:
    np.reshape(A, (3, 5))
    print('(3, 5) 행렬로 차원을 변환하였습니다.')
except:
    print('(2, 8) 차원의 행렬을 (3, 5) 차원의 행렬로 변환할 수 없습니다.')

(2, 8) 차원의 행렬을 (3, 5) 차원의 행렬로 변환할 수 없습니다.


reshape를 사용해 (n,) 차원으로 구성된 벡터를 (n, 1) 차원으로 구성된 행렬로 변경할 수 있습니다 

In [18]:
A = np.array([i for i in range(8)])
A.shape

(8,)

In [19]:
# 여기에서 -1은 n개의 차원 중 n-1개는 사용자가 지정하고 나머지는 알아서 가능한 차원에 맞추라는 의미입니다. 
# 해당 예제의 경우 2개의 차원 중 마지막 차원에 1을 할당했으므로 -1에는 8이 들어가 (8, 1) 차원 행렬이 됩니다. 
A.reshape(-1, 1).shape

(8, 1)

#### 2) np.concatenate()
여러 개의 Numpy 행렬을 특정 방향으로 이어붙이고 싶은 경우에는 np.concatenate() 함수를 사용할 수 있습니다.<br>
ndarray.shape로 차원을 확인하고, 차원을 지정해서 행렬을 이어붙일 수 있습니다. 

In [20]:
sample_arr = np.reshape(A, (4, 2))
sample_arr

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [21]:
sample_arr.shape

(4, 2)

In [22]:
# 행 방향으로 붙이기
np.concatenate([sample_arr, sample_arr, sample_arr], axis=0).shape

(12, 2)

In [23]:
# 열 방향으로 붙이기
np.concatenate([sample_arr, sample_arr, sample_arr], axis=1).shape

(4, 6)

#### 3) np.sum, np.mean, np.var, np.std, np.max, np.min, np.unique
더하기, 평균, 분산, 표준 편차 등 기초 통계량을 계산하는 메소드 입니다. 동일한 기능을 하는 파이썬 내장 함수가 있지만, <br>
Numpy의 메소드 들은 axis 인자를 할당함으로써 특정 축을 기준으로 연산할 수 있다는 특징이 있습니다.<br>
ex) `np.sum(x, axis=0)` `np.mean(x, axis=1)` `np.var(x, axis=2)` `np.std(x, axis=3)` `np.max(x, axis=1)` `np.min(x, axis=2)` `np.unique(x, axis=0)`

In [24]:
A = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
A

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

##### (1) np.sum()
`np.sum(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 합계를 계산해 반환하는 함수입니다.

In [25]:
# 0번째 차원 방향으로 모든 원소들의 합
np.sum(A, axis=0)

array([15, 18, 21, 24])

In [26]:
# 1번째 차원 방향으로 모든 원소들의 합
np.sum(A, axis=1)

array([10, 26, 42])

##### (2) np.mean()
`np.mean(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 평균을 계산해 반환하는 함수입니다.

In [27]:
# 0번째 차원 방향으로 모든 원소들의 평균
np.mean(A, axis=0)

array([5., 6., 7., 8.])

In [28]:
# 1번째 차원 방향으로 모든 원소들의 평균
np.mean(A, axis=1)

array([ 2.5,  6.5, 10.5])

##### (3) np.var()
`np.var(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 분산을 계산해 반환하는 함수입니다.

In [29]:
# 0번째 차원 방향으로 모든 원소들의 분산
np.var(A, axis=0)

array([10.66666667, 10.66666667, 10.66666667, 10.66666667])

In [30]:
# 1번째 차원 방향으로 모든 원소들의 분산
np.var(A, axis=1)

array([1.25, 1.25, 1.25])

##### (4) np.std()
`np.std(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 표준편차를 계산해 반환하는 함수입니다.

In [31]:
# 0번째 차원 방향으로 모든 원소들의 표준편차
np.std(A, axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

In [32]:
# 0번째 차원 방향으로 모든 원소들의 표준편차
np.std(A, axis=1)

array([1.11803399, 1.11803399, 1.11803399])

##### (5) np.max()
`np.max(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 최대값을 반환하는 함수입니다.

In [33]:
# 0번째 차원 방향으로 원소들의 최대값
np.max(A, axis=0)

array([ 9, 10, 11, 12])

In [34]:
# 1번째 차원 방향으로 원소들의 최대값
np.max(A, axis=1)

array([ 4,  8, 12])

##### (6) np.min()
`np.min(행렬, 축)` 은 주어진 행렬과 축 방향에 대해 최소값을 반환하는 함수입니다.

In [35]:
# 0번째 차원 방향으로 원소들의 최소값
np.min(A, axis=0)

array([1, 2, 3, 4])

In [36]:
# 1번째 차원 방향으로 원소들의 최소값
np.min(A, axis=1)

array([1, 5, 9])

##### (7) np.unique()
`np.unique(행렬)` 은 주어진 행렬에 대해 중복을 제거하여 모든 원소 값을 반환하는 함수입니다.

In [37]:
A = np.array([[0, 0, 0, 0], [1, 2, 2, 0], [3, 4, 5, 4]])
A

array([[0, 0, 0, 0],
       [1, 2, 2, 0],
       [3, 4, 5, 4]])

In [38]:
# 원소들 중 고유한 값
np.unique(A)

array([0, 1, 2, 3, 4, 5])

#### 4) np.log, np.exp
값에 자연 로그를 취하거나 자연 상수의 지수곱을 수행하는 함수입니다.<br>

일반적으로 데이터가 치우친(Skew) 분포를 가지고 있을 경우 로그 변환을 수행하게 되는데, np.log는 이 때 사용하는 메소드 입니다. <br>
자연 로그의 역함수로 사용되는 메소드로 np.exp가 있습니다. 

In [39]:
a = 2.714
b = np.log(a)
b

0.9984235614126774

In [40]:
np.exp(b)

2.714

#### 5) np.apply_along_axis
행렬에 특정 축을 기준으로 함수를 적용할 수 있도록 해주는 메소드입니다.<br>
Pandas에서 `apply()` 라는 동일한 기능을 가진 메소드가 있지만,<br>
크기가 큰 정형 데이터에는 성능이 좋지않아 빠르게 연산을 적용하고자할 때 해당 메소드를 사용합니다.

In [41]:
Big_A = np.random.uniform(5, size=(10000, 10000))
Big_A.shape

(10000, 10000)

In [42]:
Big_A_DF = pd.DataFrame(Big_A)
Big_A_DF.shape

(10000, 10000)

In [43]:
Big_A_DF.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,9990,9991,9992,9993,9994,9995,9996,9997,9998,9999
0,3.203464,3.908143,3.593418,3.779961,3.256661,3.389769,1.876763,4.790104,3.516097,2.370766,...,3.658305,3.954302,3.041649,4.15641,1.233379,3.814806,2.509314,4.602282,3.493763,2.270837
1,2.951756,2.44815,4.662837,4.606834,1.24086,1.900395,1.792776,3.844104,2.702997,3.053427,...,2.965751,1.051694,3.034396,3.163281,4.303975,2.930383,4.298125,1.260565,3.867476,4.219275
2,2.672699,4.02091,1.150542,1.893138,4.69137,4.713585,2.278657,3.451084,4.671018,4.764451,...,2.203918,3.201497,1.382628,4.766908,4.572294,4.526735,2.13872,4.640135,1.787221,3.068611
3,3.967349,1.105422,3.300448,1.16696,2.244555,1.951236,4.519145,4.959211,1.404797,1.053022,...,2.36832,1.371394,2.726128,2.861302,4.859071,2.18266,1.845274,4.476898,4.442595,2.522536
4,1.921336,3.994663,3.65106,3.398135,2.881353,3.825791,3.270315,1.739626,3.373921,1.075053,...,3.919999,2.232838,1.409814,2.678806,3.598715,4.340065,3.159808,3.723178,1.314883,3.523176


In [44]:
start = time.time()
Big_A_DF.apply(lambda x : np.max(x) - np.min(x), axis=0)
end = time.time()
print('Pandas DataFrame.apply(), 소요된 시간: {:.3}s'.format(end-start))

Pandas DataFrame.apply(), 소요된 시간: 5.53s


In [45]:
start = time.time()
np.apply_along_axis(lambda x : np.max(x) - np.min(x), axis=0, arr=Big_A_DF.values)
end = time.time()
print('Numpy np.apply_along_axis, 소요된 시간: {:.3}s'.format(end-start))

Numpy np.apply_along_axis, 소요된 시간: 2.67s


#### 6) np.random 모듈
난수를 생성할 수 있는 모듈입니다. 일반적으로 임의의 정수를 생성하거나 실수를 생성할 때 사용됩니다. <br>
특정 분포에서 난수를 생성할 수도 있습니다. 대표적인 분포로는 균등 분포(Uniform), 정규 분포(Normal) 등이 있습니다. <br>

##### (1) np.random.randint()
`np.random.randint(최소, 최대, 개수)`는 '최소 <= x < 최대' 범위에서 임의의 정수를 생성하는 메소드 입니다.

In [46]:
# 0 ~ 4 범위에서 임의의 정수 1개를 반환합니다.
np.random.randint(5)

1

In [47]:
# 1 ~ 9 범위에서 임의의 정수 1개를 반환합니다.
np.random.randint(1, 10)

3

In [48]:
# 3 ~ 9 범위에서 임의의 정수 10개를 행렬로 반환합니다.
np.random.randint(3, 10, 10)

array([6, 4, 7, 5, 4, 6, 9, 5, 8, 4])

##### (2) np,random.uniform()
`np.random.uniform(최소, 최대, 개수)` 는 '최소 <= x < 최대' 범위에서 임의의 실수를 생성하는 메소드 입니다. 

In [49]:
# 0 ~ 4 범위에서 임의의 실수 1개를 반환합니다.
np.random.uniform(5)

1.1907541885585826

In [50]:
# 1 ~ 9 범위에서 임의의 실수 1개를 반환합니다.
np.random.uniform(1, 10)

5.382295075743357

In [51]:
# 3 ~ 9 범위에서 임의의 실수 10개를 행렬로 반환합니다.
np.random.uniform(3, 10, 10)

array([8.6006941 , 7.03100609, 8.23283313, 6.50036096, 4.98282191,
       9.69864555, 7.33717624, 7.78778076, 7.92232234, 3.76561921])

##### (3) np,random.normal()
`np.random.normal(평균, 표준편차, 개수)` 는 인자로 전달한 평균과 표준편차를 가진 정규분포에서 임의의 실수를 생성하는 메소드 입니다. 

In [52]:
# 평균이 5이고, 표준편차가 1인 정규분포에서 임의의 실수 1개를 반환합니다.
np.random.normal(5)

5.90509556296786

In [53]:
# 평균이 1이고 표준편차가 10인 정규분포에서 임의의 실수 1개를 반환합니다.
np.random.normal(1, 10)

9.003691019595156

In [54]:
# 평균이 3이고 표준편차가 3인 정규분포에서 임의의 실수 10개를 행렬로 반환합니다.
np.random.normal(3, 3, 10)

array([ 2.67669212,  0.29511586,  8.37945999, -1.33140437,  2.07755381,
       -1.02066114,  1.52276836,  6.73694818,  0.68671769,  9.35668038])

# Pandas
## Pandas란?
판다스(Pandas)는 데이터 조작 및 분석을 위해 사용하는 라이브러리입니다. <br>
특히, 숫자 테이블 및 시계열 데이터를 위한 데이터 구조 및 함수를 제공합니다.

### 1. Series
시리즈(Series)는 Pandas의 대표적인 데이터 객체 표현으로 라벨(컬럼 이름)을 가진 1차원 배열입니다. <br>
간단하게 하나의 열(Column)을 생각하시면 됩니다. 

$ Series\ = {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름} $

In [55]:
S = pd.Series(np.array([1, 2, 3, 4, 5, 6, 7, 8]), name='변수 이름')
S

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
Name: 변수 이름, dtype: int32

### 2. DataFrame
데이터 프레임(DataFrame)는 Pandas의 대표적인 데이터 객체 표현으로 라벨(컬럼 이름)을 가진 2차원 배열입니다. <br>
간단하게 엑셀 데이터를 생각하시면 됩니다. 

$ DataFrame\ = {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름1}  {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름2}  {\begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ ... \\ x_n \end{bmatrix}}_{변수 이름3}$

In [56]:
DF = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['Var1', 'Var2', 'Var3'])
DF

Unnamed: 0,Var1,Var2,Var3
0,1,2,3
1,4,5,6
2,7,8,9


### 3. Functions
자주 사용되는 Pandas의 기능에 대해 알아보겠습니다. 

#### 1) DataFrame.shape
Numpy의 np.shape 처럼 동일하게 차원을 확인할 수 있는 속성입니다. <br>
차원을 변경할 수 있는 reshape 함수는 따로 존재하지 않기 때문에 <br>
차원을 변경하고자 할 때는 Numpy 행렬로 변경한 후에 np.reshape 메소드를 사용하여 변경합니다.

##### DataFrame.shape
Pandas의 DataFrame의 행과 열의 수를 확인할 수 있는 메소드입니다.

In [57]:
# 3개의 행과 3개의 열로 구성된 것을 확인할 수 있습니다. 
DF.shape

(3, 3)

#### 2) .head()
`.head(개수)` 는 Series나 DataFrame 객체가 가진 값의 일부분을 반환하는 메소드 입니다. <br>
기본 값으로 5개를 반환하며, 전달한 인자의 숫자에 따라 개수를 조절할 수 있습니다.

In [58]:
DF.head()

Unnamed: 0,Var1,Var2,Var3
0,1,2,3
1,4,5,6
2,7,8,9


In [59]:
DF.head(1)

Unnamed: 0,Var1,Var2,Var3
0,1,2,3


#### 2) .info()
`.info()` 는 Series나 DataFrame 객체가 가진 변수들의 정보를 보여줍니다. <br>
일반적으로 변수들의 자료형(수치형 or 범주형)을 확인하기 위해 사용하기도 합니다.

In [60]:
DF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Var1    3 non-null      int32
 1   Var2    3 non-null      int32
 2   Var3    3 non-null      int32
dtypes: int32(3)
memory usage: 164.0 bytes


#### 3) .describe()
`.describe()` 는 Series나 DataFrame 객체가 가진 변수들의 최대, 최소, 중간, 평균, 표준편차 등 기초 통계량 값을 확인할 수 있습니다.<br>

In [61]:
DF.describe()

Unnamed: 0,Var1,Var2,Var3
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


#### 4) .values
`.values` 속성은 Series나 DataFrame에서 값을 Numpy 배열(ndarray)로 반환해줍니다. <br>
주로 대용량 데이터 처리 시 Pandas 자체 연산보다는 Numpy 배열 연산이 빠르기 때문에 Numpy 배열로 변환 후 연산할 때 사용합니다.

In [62]:
DF.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### 5) pd.read_csv()
`pd.read_csv(파일명)` 메소드는 csv(comma-separated variables) 파일로 이루어진 데이터를 DataFrame으로 읽어오는 기능을 수행합니다. <br>
주로 정형 데이터를 읽어올 때 사용됩니다. <br><br>

샘플 데이터 경로: `data/sample_adult_data.csv`

In [63]:
filename = join('data', 'sample_adult_data.csv')
DF = pd.read_csv(filename)

In [64]:
DF.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [65]:
DF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   fnlwgt          48842 non-null  int64 
 3   education       48842 non-null  object
 4   education-num   48842 non-null  int64 
 5   marital-status  48842 non-null  object
 6   occupation      48842 non-null  object
 7   relationship    48842 non-null  object
 8   race            48842 non-null  object
 9   sex             48842 non-null  object
 10  capital-gain    48842 non-null  int64 
 11  capital-loss    48842 non-null  int64 
 12  hours-per-week  48842 non-null  int64 
 13  native-country  48842 non-null  object
 14  income          48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


In [66]:
DF.describe()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
count,48842.0,48842.0,48842.0,48842.0,48842.0,48842.0
mean,38.643585,189664.1,10.078089,1079.067626,87.502314,40.422382
std,13.71051,105604.0,2.570973,7452.019058,403.004552,12.391444
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117550.5,9.0,0.0,0.0,40.0
50%,37.0,178144.5,10.0,0.0,0.0,40.0
75%,48.0,237642.0,12.0,0.0,0.0,45.0
max,90.0,1490400.0,16.0,99999.0,4356.0,99.0


In [67]:
DF.values

array([[39, ' State-gov', 77516, ..., 40, ' United-States', '<=50K'],
       [50, ' Self-emp-not-inc', 83311, ..., 13, ' United-States',
        '<=50K'],
       [38, ' Private', 215646, ..., 40, ' United-States', '<=50K'],
       ...,
       [38, ' Private', 374983, ..., 50, ' United-States', '<=50K'],
       [44, ' Private', 83891, ..., 40, ' United-States', '<=50K'],
       [35, ' Self-emp-inc', 182148, ..., 60, ' United-States', '>50K']],
      dtype=object)

In [68]:
DF

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,39,Private,215419,Bachelors,13,Divorced,Prof-specialty,Not-in-family,White,Female,0,0,36,United-States,<=50K
48838,64,?,321403,HS-grad,9,Widowed,?,Other-relative,Black,Male,0,0,40,United-States,<=50K
48839,38,Private,374983,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,50,United-States,<=50K
48840,44,Private,83891,Bachelors,13,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,5455,0,40,United-States,<=50K


#### 6) Series,DataFrame.append(), Pandas.concat()

##### Series,DataFrame.append()
Series나 DataFrame에 행 방향으로 Series나 DataFrame을 추가하고 싶은 경우에는 append() 메소드를 사용할 수 있습니다. 

In [69]:
# Series에 하나의 값을 추가할 때
S

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
Name: 변수 이름, dtype: int32

In [70]:
S.append(S)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
Name: 변수 이름, dtype: int32

In [71]:
# DataFrame에 행 방향으로 추가할 때
tmp_DF = DF.iloc[0:1, :]
tmp_DF

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K


In [72]:
tmp_DF.append(tmp_DF)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K


##### Pandas.concat()
append()는 행 방향으로만 추가가 가능합니다. 정해진 방향이 아닌 방향을 지정해서 추가하고 싶은 경우에는 Pandas.concat() 함수를 사용하면 됩니다. 

In [73]:
# 행 방향으로 붙이기 append()와 동일
pd.concat([DF, DF], axis=0).shape

(97684, 15)

In [74]:
# 열 방향으로 붙이기
pd.concat([DF, DF], axis=1).shape

(48842, 30)

#### 7) DataFrame.loc DataFrame.iloc
DataFrame을 제대로 사용하기 위해서는 필수로 익혀야하는 메소드 2가지 입니다. <br>
간단하게 생각하면, 특정 조건에 맞는 행과 열을 추출한다고 말할 수 있습니다.<br>
iloc 메소드 보다는 loc 메소드가 더 자주 사용됩니다.

##### DataFrame.loc[]
`DataFrame.loc[행 조건, 열 조건]`으로 해당 조건에 맞는 행과 열을 찾아냅니다. <br>
예를 들어 age 컬럼의 값이 39인 행과 'age, workclass, fnlwgt, education, marital-status' 열로 구성된 데이터만을 추출하고 싶은 경우 <br>
DF.loc[DF['age'] == 39, ['age', 'workclass', 'fnlwgt', 'education', 'marital-status']] 와 같이 작성할 수 있습니다.

In [75]:
DF.loc[DF['age'] == 39, ['age', 'workclass', 'fnlwgt', 'education', 'marital-status']]

Unnamed: 0,age,workclass,fnlwgt,education,marital-status
0,39,State-gov,77516,Bachelors,Never-married
28,39,Private,367260,HS-grad,Divorced
129,39,Private,365739,Some-college,Divorced
166,39,Federal-gov,235485,Assoc-acdm,Never-married
297,39,?,157443,Masters,Married-civ-spouse
...,...,...,...,...,...
48703,39,Federal-gov,263690,Masters,Married-civ-spouse
48732,39,Private,357118,Bachelors,Never-married
48751,39,Private,139057,Prof-school,Married-civ-spouse
48814,39,Private,229647,Bachelors,Never-married


##### DataFrame.iloc[]
`DataFrame.iloc[행 인덱스, 열 인덱스]`으로 인덱스에 맞는 행과 열을 찾아냅니다. <br>
예를 들어 짝수 인덱스를 갖는 행과 홀수 열로 구성된 데이터만을 추출하고 싶은 경우 <br>
DF.iloc[[int(2\*i) for i in range(int(DF.shape[0]/2))], [int(2\*i) for i in range(int(DF.shape[1]/2))]] 와 같이 작성할 수 있습니다.

In [76]:
DF.iloc[[int(2*i) for i in range(int(DF.shape[0]/2))], [int(2*i) for i in range(int(DF.shape[1]/2))]]

Unnamed: 0,age,fnlwgt,education-num,occupation,race,capital-gain,hours-per-week
0,39,77516,13,Adm-clerical,White,2174,40
2,38,215646,9,Handlers-cleaners,White,0,40
4,28,338409,13,Prof-specialty,Black,0,40
6,49,160187,5,Other-service,Black,0,16
8,31,45781,14,Prof-specialty,White,14084,50
...,...,...,...,...,...,...,...
48832,61,89686,9,Sales,White,0,48
48834,25,350977,9,Other-service,White,0,40
48836,33,245211,13,Prof-specialty,White,0,40
48838,64,321403,9,?,Black,0,40


#### 8) map, apply, applymap

##### Series.map()
map 함수는 Pandas Series(column)에 사용할 수 있는 함수로 Series의 `각 원소에 연산을 적용` 할 수 있습니다. 각 원소를 입력으로 받아 단일 값을 반환합니다.<br>
예를들어 인종 컬럼인 'race' 컬럼에 라벨 인코딩을 적용하고 싶은 경우 다음과 같이 할 수 있습니다. 

In [77]:
DF.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [78]:
# race 컬럼에 존재하는 값들로 리스트 생성
race_lst = DF['race'].unique().tolist()
race_lst

[' White', ' Black', ' Asian-Pac-Islander', ' Amer-Indian-Eskimo', ' Other']

In [79]:
# race 값 리스트의 인덱스 값으로 new_race 컬럼 생성
DF['new_race'] = DF['race'].map(lambda x: race_lst.index(x))

In [80]:
DF['race'].map(lambda x: race_lst.index(x))

0        0
1        0
2        0
3        1
4        1
        ..
48837    0
48838    1
48839    0
48840    2
48841    0
Name: race, Length: 48842, dtype: int64

In [81]:
DF.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income,new_race
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,1
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,1


##### DataFrame.apply()
apply, applymap 함수는 Pandas DataFrame에 사용할 수 있는 함수로 apply는 `행 또는 열 같은 축에 대해 연산을 적용` 할 수 있습니다. 행 또는 열을 입력으로 받아 단일 값을 반환합니다. <br>
예를들어 행에 존재하는 모든 수치형 열의 값을 더해서 새로운 열을 만들고자 한다면 다음과 같이 할 수 있습니다.

In [82]:
# 수치형 컬럼 'age', 'fnlwgt', 'education-num', 'capital-gain', 'hours-per-week' 
DF['sum_num_var'] = DF.apply(lambda x: x['age'] + x['fnlwgt'] + x['education-num'] + x['capital-gain'] + x['hours-per-week'], axis=1)

In [83]:
DF.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income,new_race,sum_num_var
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0,79782
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0,83387
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0,215733
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,1,234821
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,1,338490


##### DataFrame.applymap()
Pandas DataFrame에 사용할 수 있는 함수로 applymap은 Series의 map과 동일하게 `각 원소에 연산을 적용`할 수 있습니다. 각 원소를 입력으로 받아 단일 값을 반환합니다.<br>
예를들어 모든 수치형 값에 log를 취한다면 다음과 같이 할 수 있습니다. 

In [84]:
DF[['age', 'fnlwgt', 'education-num', 'capital-gain', 'hours-per-week']].applymap(lambda x: np.log(x))

  """Entry point for launching an IPython kernel.


Unnamed: 0,age,fnlwgt,education-num,capital-gain,hours-per-week
0,3.663562,11.258240,2.564949,7.684324,3.688879
1,3.912023,11.330336,2.564949,-inf,2.564949
2,3.637586,12.281393,2.197225,-inf,3.688879
3,3.970292,12.366153,1.945910,-inf,3.688879
4,3.332205,12.732011,2.564949,-inf,3.688879
...,...,...,...,...,...
48837,3.663562,12.280340,2.564949,-inf,3.583519
48838,4.158883,12.680451,2.197225,-inf,3.688879
48839,3.637586,12.834636,2.564949,-inf,3.912023
48840,3.784190,11.337274,2.564949,8.604288,3.688879


#### 9) inplace 인자
몇몇 Pandas 함수들의 인자를 살펴보면 inplace 인자가 있습니다. <br>
inplace란 말 그대로 내부에서 연산을 하고 객체를 반환하지않는 것을 의미합니다. <br>
일반적으로 Pandas 함수들은 연산 후 연산이 적용된 새로운 객체를 생성해서 반환하는데, inplace 인자를 True로 전달하면 객체를 반환하지 않습니다.

In [85]:
rrow_DF = pd.DataFrame(DF, index=[i for i in range(DF.shape[0]-1, -1, -1)])
rrow_DF.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income,new_race,sum_num_var
48841,35,Self-emp-inc,182148,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,60,United-States,>50K,0,182256
48840,44,Private,83891,Bachelors,13,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,5455,0,40,United-States,<=50K,2,89443
48839,38,Private,374983,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,50,United-States,<=50K,0,375084
48838,64,?,321403,HS-grad,9,Widowed,?,Other-relative,Black,Male,0,0,40,United-States,<=50K,1,321516
48837,39,Private,215419,Bachelors,13,Divorced,Prof-specialty,Not-in-family,White,Female,0,0,36,United-States,<=50K,0,215507


In [86]:
rrow_DF.reset_index(drop=True)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income,new_race,sum_num_var
0,35,Self-emp-inc,182148,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,60,United-States,>50K,0,182256
1,44,Private,83891,Bachelors,13,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,5455,0,40,United-States,<=50K,2,89443
2,38,Private,374983,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,50,United-States,<=50K,0,375084
3,64,?,321403,HS-grad,9,Widowed,?,Other-relative,Black,Male,0,0,40,United-States,<=50K,1,321516
4,39,Private,215419,Bachelors,13,Divorced,Prof-specialty,Not-in-family,White,Female,0,0,36,United-States,<=50K,0,215507
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,1,338490
48838,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,1,234821
48839,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0,215733
48840,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0,83387


In [87]:
rrow_DF.reset_index(inplace=True, drop=True)

#### Numpy와 Pandas의 브로드캐스팅
- 브로드캐스팅이란? Numpy와 Pandas 자료형에 대해 대부분 단항 또는 이항 연산들은 브로드캐스팅을 지원하는데, 차원에 맞게 연산이 알아서 적용되는 것을 말합니다.

1. (4, 4) 짜리 행렬 A에 단항 연산인 다음과 같이 로그를 씌우면 np.log(A), 알아서 A의 각 원소에 로그가 적용됩니다.
2. (4, 4) 짜리 행렬 A에 (4, 1) 행렬 B를 다음과 같이 빼면 행렬 A의 행 방향으로 B 만큼 값이 감소하게 됩니다. 

In [88]:
A = np.random.randint(2, 10, size=(4, 4))
A

array([[4, 9, 5, 9],
       [7, 8, 3, 3],
       [3, 3, 6, 6],
       [6, 2, 9, 3]])

In [89]:
np.log(A)

array([[1.38629436, 2.19722458, 1.60943791, 2.19722458],
       [1.94591015, 2.07944154, 1.09861229, 1.09861229],
       [1.09861229, 1.09861229, 1.79175947, 1.79175947],
       [1.79175947, 0.69314718, 2.19722458, 1.09861229]])

In [90]:
B = np.random.randint(2, 10, size=(4, 1))
B

array([[3],
       [7],
       [6],
       [7]])

In [91]:
A, (A - B)

(array([[4, 9, 5, 9],
        [7, 8, 3, 3],
        [3, 3, 6, 6],
        [6, 2, 9, 3]]),
 array([[ 1,  6,  2,  6],
        [ 0,  1, -4, -4],
        [-3, -3,  0,  0],
        [-1, -5,  2, -4]]))

### Reference
- Numpy Docs:  https://numpy.org/doc/stable/
- Pandas Docs: https://pandas.pydata.org/docs/
- map, apply, applymap: http://www.leejungmin.org/post/2018/04/21/pandas_apply_and_map/

### 풀어보기

#### 1) DataFrame 컬럼 순서 바꾸기 (서로 다른 종류 3가지 이상)
- iloc, loc, append, concat 함수 또는 컬럼 인덱싱으로 DataFrame의 컬럼 순서를 바꿔보세요. Numpy 행렬로 변환했다가 DataFrame으로 만드셔도 됩니다.

In [92]:
import os
from os.path import join

In [93]:
filename1 = join('data',join('MDC01','train.csv'))
filename1
mdc01_train = pd.read_csv(filename1)

In [94]:
#pd.concat(mdc01_train)
pd.concat([mdc01_train,mdc01_train.iloc[:,3:4]],axis=1)

Unnamed: 0,id,rho,650_src,660_src,670_src,680_src,690_src,700_src,710_src,720_src,...,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na,660_src.1
0,0,25,0.37950,0.42993,0.52076,0.57166,0.67818,0.75476,0.83580,0.93623,...,0.000000e+00,,1.067504e-18,5.998949e-18,4.378513e-17,5.59,4.32,8.92,4.29,0.42993
1,1,10,0.00000,0.00000,0.01813,0.00000,0.00000,0.01974,0.00321,0.00000,...,6.112685e-09,2.130547e-09,,9.710091e-09,,0.00,2.83,7.25,4.64,0.00000
2,2,25,0.00000,0.03289,0.02416,0.03610,0.05843,0.09015,0.14944,0.18578,...,0.000000e+00,0.000000e+00,0.000000e+00,1.329725e-18,,10.64,3.00,8.40,5.16,0.03289
3,3,10,0.27503,0.31281,0.32898,0.41041,0.46587,0.52769,0.64369,0.73562,...,1.299511e-10,7.782625e-11,,4.088921e-10,,5.67,4.01,5.05,4.35,0.31281
4,4,15,1.01521,1.00872,0.98930,0.98874,1.01773,1.01632,1.00009,0.98217,...,8.769053e-14,,1.330237e-13,,,11.97,4.41,10.78,2.42,1.00872
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9995,15,0.23929,0.30265,0.39929,0.51000,0.64072,0.77328,0.86722,0.95891,...,0.000000e+00,5.516467e-16,9.690979e-16,1.391635e-15,5.460702e-14,12.68,4.11,12.31,0.10,0.30265
9996,9996,20,0.02583,0.00946,0.03650,0.01380,0.04093,0.04363,0.03260,0.05282,...,1.117148e-16,7.352416e-17,,5.825347e-16,4.226436e-15,8.46,4.11,10.46,3.12,0.00946
9997,9997,10,0.57589,0.62976,0.70571,0.77248,0.85402,0.92796,0.97691,0.98933,...,3.110419e-11,8.119095e-12,,1.504115e-10,4.003657e-10,9.84,3.20,10.45,2.06,0.62976
9998,9998,15,1.01477,1.01504,0.99125,0.98747,1.00717,1.01434,0.99529,1.01322,...,0.000000e+00,4.475946e-14,,2.818857e-12,1.408742e-11,6.38,4.06,11.28,4.03,1.01504


In [95]:
pd.concat([mdc01_train,mdc01_train.loc[:,'700_src']],axis=1)

Unnamed: 0,id,rho,650_src,660_src,670_src,680_src,690_src,700_src,710_src,720_src,...,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na,700_src.1
0,0,25,0.37950,0.42993,0.52076,0.57166,0.67818,0.75476,0.83580,0.93623,...,0.000000e+00,,1.067504e-18,5.998949e-18,4.378513e-17,5.59,4.32,8.92,4.29,0.75476
1,1,10,0.00000,0.00000,0.01813,0.00000,0.00000,0.01974,0.00321,0.00000,...,6.112685e-09,2.130547e-09,,9.710091e-09,,0.00,2.83,7.25,4.64,0.01974
2,2,25,0.00000,0.03289,0.02416,0.03610,0.05843,0.09015,0.14944,0.18578,...,0.000000e+00,0.000000e+00,0.000000e+00,1.329725e-18,,10.64,3.00,8.40,5.16,0.09015
3,3,10,0.27503,0.31281,0.32898,0.41041,0.46587,0.52769,0.64369,0.73562,...,1.299511e-10,7.782625e-11,,4.088921e-10,,5.67,4.01,5.05,4.35,0.52769
4,4,15,1.01521,1.00872,0.98930,0.98874,1.01773,1.01632,1.00009,0.98217,...,8.769053e-14,,1.330237e-13,,,11.97,4.41,10.78,2.42,1.01632
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9995,15,0.23929,0.30265,0.39929,0.51000,0.64072,0.77328,0.86722,0.95891,...,0.000000e+00,5.516467e-16,9.690979e-16,1.391635e-15,5.460702e-14,12.68,4.11,12.31,0.10,0.77328
9996,9996,20,0.02583,0.00946,0.03650,0.01380,0.04093,0.04363,0.03260,0.05282,...,1.117148e-16,7.352416e-17,,5.825347e-16,4.226436e-15,8.46,4.11,10.46,3.12,0.04363
9997,9997,10,0.57589,0.62976,0.70571,0.77248,0.85402,0.92796,0.97691,0.98933,...,3.110419e-11,8.119095e-12,,1.504115e-10,4.003657e-10,9.84,3.20,10.45,2.06,0.92796
9998,9998,15,1.01477,1.01504,0.99125,0.98747,1.00717,1.01434,0.99529,1.01322,...,0.000000e+00,4.475946e-14,,2.818857e-12,1.408742e-11,6.38,4.06,11.28,4.03,1.01434


In [102]:
tmp = mdc01_train.iloc[:,3]
tmp

0       0.42993
1       0.00000
2       0.03289
3       0.31281
4       1.00872
         ...   
9995    0.30265
9996    0.00946
9997    0.62976
9998    1.01504
9999    0.28182
Name: 660_src, Length: 10000, dtype: float64

In [103]:
mdc01_train.iloc[:,3] = mdc01_train.iloc[:,1]

In [104]:
mdc01_train.head()

Unnamed: 0,id,rho,650_src,660_src,670_src,680_src,690_src,700_src,710_src,720_src,...,940_dst,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na
0,0,25,0.3795,25,0.52076,0.57166,0.67818,0.75476,0.8358,0.93623,...,,0.0,,1.067504e-18,5.9989490000000004e-18,4.3785130000000007e-17,5.59,4.32,8.92,4.29
1,1,10,0.0,10,0.01813,0.0,0.0,0.01974,0.00321,0.0,...,1.343132e-08,6.112685e-09,2.130547e-09,,9.710091e-09,,0.0,2.83,7.25,4.64
2,2,25,0.0,25,0.02416,0.0361,0.05843,0.09015,0.14944,0.18578,...,0.0,0.0,0.0,0.0,1.329725e-18,,10.64,3.0,8.4,5.16
3,3,10,0.27503,10,0.32898,0.41041,0.46587,0.52769,0.64369,0.73562,...,2.245998e-10,1.299511e-10,7.782625e-11,,4.088921e-10,,5.67,4.01,5.05,4.35
4,4,15,1.01521,15,0.9893,0.98874,1.01773,1.01632,1.00009,0.98217,...,1.457955e-13,8.769053e-14,,1.330237e-13,,,11.97,4.41,10.78,2.42


In [105]:
mdc01_train.iloc[:,1] = tmp

In [106]:
mdc01_train.head()

Unnamed: 0,id,rho,650_src,660_src,670_src,680_src,690_src,700_src,710_src,720_src,...,940_dst,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na
0,0,0.42993,0.3795,25,0.52076,0.57166,0.67818,0.75476,0.8358,0.93623,...,,0.0,,1.067504e-18,5.9989490000000004e-18,4.3785130000000007e-17,5.59,4.32,8.92,4.29
1,1,0.0,0.0,10,0.01813,0.0,0.0,0.01974,0.00321,0.0,...,1.343132e-08,6.112685e-09,2.130547e-09,,9.710091e-09,,0.0,2.83,7.25,4.64
2,2,0.03289,0.0,25,0.02416,0.0361,0.05843,0.09015,0.14944,0.18578,...,0.0,0.0,0.0,0.0,1.329725e-18,,10.64,3.0,8.4,5.16
3,3,0.31281,0.27503,10,0.32898,0.41041,0.46587,0.52769,0.64369,0.73562,...,2.245998e-10,1.299511e-10,7.782625e-11,,4.088921e-10,,5.67,4.01,5.05,4.35
4,4,1.00872,1.01521,15,0.9893,0.98874,1.01773,1.01632,1.00009,0.98217,...,1.457955e-13,8.769053e-14,,1.330237e-13,,,11.97,4.41,10.78,2.42


In [122]:
mdc01_train = mdc01_train.rename(columns={'rho':'new_660_src','660_src':'new_rho'})

In [123]:
mdc01_train.head()

Unnamed: 0,id,new_660_src,650_src,new_rho,670_src,680_src,690_src,700_src,710_src,720_src,...,940_dst,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na
0,0,0.42993,0.3795,25,0.52076,0.57166,0.67818,0.75476,0.8358,0.93623,...,,0.0,,1.067504e-18,5.9989490000000004e-18,4.3785130000000007e-17,5.59,4.32,8.92,4.29
1,1,0.0,0.0,10,0.01813,0.0,0.0,0.01974,0.00321,0.0,...,1.343132e-08,6.112685e-09,2.130547e-09,,9.710091e-09,,0.0,2.83,7.25,4.64
2,2,0.03289,0.0,25,0.02416,0.0361,0.05843,0.09015,0.14944,0.18578,...,0.0,0.0,0.0,0.0,1.329725e-18,,10.64,3.0,8.4,5.16
3,3,0.31281,0.27503,10,0.32898,0.41041,0.46587,0.52769,0.64369,0.73562,...,2.245998e-10,1.299511e-10,7.782625e-11,,4.088921e-10,,5.67,4.01,5.05,4.35
4,4,1.00872,1.01521,15,0.9893,0.98874,1.01773,1.01632,1.00009,0.98217,...,1.457955e-13,8.769053e-14,,1.330237e-13,,,11.97,4.41,10.78,2.42


In [133]:
mdc01_train[['id','na','ca']]

Unnamed: 0,id,na,ca
0,0,4.29,8.92
1,1,4.64,7.25
2,2,5.16,8.40
3,3,4.35,5.05
4,4,2.42,10.78
...,...,...,...
9995,9995,0.10,12.31
9996,9996,3.12,10.46
9997,9997,2.06,10.45
9998,9998,4.03,11.28


#### 2) 주어진 행렬의 각 원소를 해당 열(axis=0)의 평균 값으로 나누기
- Numpy.mean() 함수와 브로드캐스팅 기능 사용

In [131]:
(mdc01_train - np.mean(mdc01_train,axis=0)).describe()

Unnamed: 0,id,new_660_src,650_src,new_rho,670_src,680_src,690_src,700_src,710_src,720_src,...,940_dst,950_dst,960_dst,970_dst,980_dst,990_dst,hhb,hbo2,ca,na
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,...,7982.0,7987.0,7992.0,7931.0,8081.0,8013.0,10000.0,10000.0,10000.0,10000.0
mean,0.0,2.213341e-16,4.408918e-16,-1.293188e-15,-6.32383e-17,-1.369926e-15,-1.224976e-15,-2.373213e-16,-1.10667e-16,-3.524292e-16,...,-1.5948770000000002e-25,-3.189829e-26,-3.6225380000000004e-27,-5.699839e-26,2.088168e-25,-4.781606e-25,1.847624e-14,-7.426948e-15,-1.395222e-14,-1.353513e-14
std,2886.89568,0.2886609,0.2728591,5.595847,0.3063403,0.3248494,0.3423616,0.3577,0.370451,0.3790536,...,3.831916e-10,2.293432e-10,1.63915e-10,2.134495e-10,5.179299e-10,1.058272e-09,2.970818,0.9978285,2.979453,1.881872
min,-4999.5,-0.2035285,-0.1802125,-7.568,-0.229804,-0.2591581,-0.2899746,-0.3222444,-0.354101,-0.3844918,...,-7.51119e-11,-4.270426e-11,-2.498465e-11,-4.047717e-11,-1.153774e-10,-2.364072e-10,-7.990686,-3.929146,-9.019226,-3.042651
25%,-2499.75,-0.1940085,-0.172895,-2.568,-0.218534,-0.2454306,-0.2736246,-0.3027344,-0.3278835,-0.3472568,...,-7.51119e-11,-4.270426e-11,-2.498465e-11,-4.047717e-11,-1.153774e-10,-2.364071e-10,-2.000686,-0.679146,-2.019226,-1.402651
50%,0.0,-0.1389285,-0.1281875,2.432,-0.151239,-0.1638031,-0.1703396,-0.1736544,-0.172196,-0.1652318,...,-7.511124e-11,-4.270417e-11,-2.498462e-11,-4.047705e-11,-1.15374e-10,-2.3639e-10,0.019314,0.000854,-0.029226,-0.062651
75%,2499.75,0.07342399,0.040905,7.432,0.109271,0.1583194,0.2209404,0.2849056,0.343984,0.3969982,...,-7.416156e-11,-4.238557e-11,-2.486115e-11,-4.018128e-11,-1.12985e-10,-2.29465e-10,2.019314,0.690854,2.000774,1.287349
max,4999.5,0.8164415,0.8397775,7.432,0.790126,0.7607219,0.7300254,0.6977256,0.665869,0.6354482,...,1.335621e-08,6.418819e-09,5.748883e-09,5.489463e-09,1.001724e-08,2.658648e-08,13.59931,3.680854,11.05077,7.267349
