<a href="https://colab.research.google.com/github/ollpp/Data-AIB/blob/main/Section1_2_Feature_Engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Science / Section 1 / #2 / Feature Engineering

# Feature Engineering

## 학습 목표
- Feature Engineering 의 목적을 이해 할 수 있다.
- Pandas 를 통해 문자열(String)을 다룰 수 있다.
- 데이터프레임에 `.apply()`를 사용하여 행을 수정하거나 새로 작업 할 수 있다.

## Feature Engineering 이란

### 개요

Feature Engineering 은 도메인 지식과 창의성을 바탕으로 데이터셋에 존재하는 **기존의 Feuature**들을 재조합하여 **새로운 Feature**들을 만드는 것이다.

<img src='https://i.imgur.com/0IW7xm8.png' width = 500>

위 예시와 같이 기존 Feature1, Feature2를 바탕으로 New Feature을 만들어 이를 분석에 사용한다.

<br/>
통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지의 대부분의 분석은 데이터의 패턴을 인식하고, 해당 패턴들을 바탕으로 예측하기 때문에 더 좋은 퍼포먼스를 위해 더 새롭고 의미있는 패턴을 제공하는것이 궁극적인 Feature Engineering의 목적이라고 할 수 있다.

<br/><br/>
## Data Frame

그 전에 Pandas의 Dataframe에 대한 설명을 간단히 해보자.

우선은 **테이블 형태의 데이터** 정도로만 이해하고 있으면 충분하다.

<br/>

<img src='https://i.imgur.com/w694Hye.png' width = 500>

<br/>

일반적으로 하나의 행에는 하나의 데이터 혹은 관측치
하나의 열에는 하나의 feature를 기반으로
저장하고 있다.

이를 tidy 형태라고 부르리도 하며, 라이브러리들과의 호환성을 위함이라고 생각하면 된다. 


<br/><br/>

### Dataset

Feature Engineering에서 사용할 데이터는 kt&g의 일부 재무정보 데이터 이며 형태는 다음과 같다.

<img src='https://i.imgur.com/fHop57h.png' width = 500>

<https://finance.naver.com/item/coinfo.nhn?code=033780&target=finsum_more>

In [1]:
import pandas as pd

# 위의 재무정보를 tidy 형식으로 바꾸어 놓은 데이터
df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g.csv')

df

Unnamed: 0,분기,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,부채총계,자본총계,자본총계(지배),자본총계(비지배),자본금,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름,영업이익률,순이익률,ROE(%),ROA(%),부채비율,자본유보율,EPS(원),PER(배)
0,19/6,12578,3991,3991,4452,3245,3228,17,108464,25940,82524,81965,,9550,4641,-1878,-4919,31.73,25.8,12.35,9.37,31.43,803.22,2351,13.77
1,19/9,13222,3825,3825,4503,3221,3208,13,106314,20691,85623,85049,,9550,-2278,-83,-329,28.93,24.36,12.67,9.95,24.17,836.86,2337,13.87
2,19/12,11982,2523,2523,1794,1183,1198,-15,107121,20062,87059,86506,,9550,837,-501,-129,21.06,9.87,12.39,9.96,23.04,850.82,873,12.42
3,20/3,11784,3150,3150,4156,2939,2930,9,108594,24862,83732,83170,562.0,9550,2336,-1392,-86,26.73,24.94,13.05,9.79,29.69,823.16,2134,9.71
4,20/6,13188,3947,3947,4020,2935,2931,4,110282,23386,86896,86330,566.0,9550,7855,-214,-5501,29.93,22.25,12.2,9.4,26.91,837.4,2135,10.46


In [2]:
# Data Frame의 Feature type 확인

df.dtypes

분기             object
매출액            object
영업이익           object
영업이익(발표기준)     object
세전계속사업이익       object
당기순이익          object
당기순이익(지배)      object
당기순이익(비지배)      int64
자산총계           object
부채총계           object
자본총계           object
자본총계(지배)       object
자본총계(비지배)     float64
자본금            object
영업활동현금흐름       object
투자활동현금흐름       object
재무활동현금흐름       object
영업이익률         float64
순이익률          float64
ROE(%)        float64
ROA(%)        float64
부채비율          float64
자본유보율         float64
EPS(원)         object
PER(배)        float64
dtype: object

데이터는 전부 숫자이지만
그 형태가 `object`, `float64`, `int64` 등으로 다르게 표현되어 있다.

In [3]:
df['자본총계(비지배)']

0      NaN
1      NaN
2      NaN
3    562.0
4    566.0
Name: 자본총계(비지배), dtype: float64

일단 자본총계(비지배) 부분을 집중해서 보면, `float64`로 표현되어 있습니다.

Python 특히 Pandas에서는 결측치를 표현할 때 Not a Number의 줄임말인 `NaN`으로 표현한다.

이 때, NaN은 프로그래밍상 float라는 type을 갖는다. 

이 때문에 562, 566은 기존의 int -> float로 형 변환(type cast) 되었다.

### Feature Engineering

|순이익률|ROE(%)|ROA(%)|
|:-:|:-:|:-:|
|25.80|12.35|9.37|
|24.36|12.67|9.95|
|9.87|12.39|9.96|
|24.94|13.05|9.79|
|22.25|12.20|9.40|

위 데이터를 기반으로 새로운 투자지표

"J-value" = `ROE` + `ROA`

를 만들어 보자.

In [5]:
df['J-value'] = df['ROE(%)']+df['ROA(%)']
df

Unnamed: 0,분기,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,부채총계,자본총계,자본총계(지배),자본총계(비지배),자본금,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름,영업이익률,순이익률,ROE(%),ROA(%),부채비율,자본유보율,EPS(원),PER(배),J-value
0,19/6,12578,3991,3991,4452,3245,3228,17,108464,25940,82524,81965,,9550,4641,-1878,-4919,31.73,25.8,12.35,9.37,31.43,803.22,2351,13.77,21.72
1,19/9,13222,3825,3825,4503,3221,3208,13,106314,20691,85623,85049,,9550,-2278,-83,-329,28.93,24.36,12.67,9.95,24.17,836.86,2337,13.87,22.62
2,19/12,11982,2523,2523,1794,1183,1198,-15,107121,20062,87059,86506,,9550,837,-501,-129,21.06,9.87,12.39,9.96,23.04,850.82,873,12.42,22.35
3,20/3,11784,3150,3150,4156,2939,2930,9,108594,24862,83732,83170,562.0,9550,2336,-1392,-86,26.73,24.94,13.05,9.79,29.69,823.16,2134,9.71,22.84
4,20/6,13188,3947,3947,4020,2935,2931,4,110282,23386,86896,86330,566.0,9550,7855,-214,-5501,29.93,22.25,12.2,9.4,26.91,837.4,2135,10.46,21.6


In [6]:
df['자산'] = df['부채총계'] + df['자본총계']
df

Unnamed: 0,분기,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,부채총계,자본총계,자본총계(지배),자본총계(비지배),자본금,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름,영업이익률,순이익률,ROE(%),ROA(%),부채비율,자본유보율,EPS(원),PER(배),J-value,자산
0,19/6,12578,3991,3991,4452,3245,3228,17,108464,25940,82524,81965,,9550,4641,-1878,-4919,31.73,25.8,12.35,9.37,31.43,803.22,2351,13.77,21.72,2594082524
1,19/9,13222,3825,3825,4503,3221,3208,13,106314,20691,85623,85049,,9550,-2278,-83,-329,28.93,24.36,12.67,9.95,24.17,836.86,2337,13.87,22.62,2069185623
2,19/12,11982,2523,2523,1794,1183,1198,-15,107121,20062,87059,86506,,9550,837,-501,-129,21.06,9.87,12.39,9.96,23.04,850.82,873,12.42,22.35,2006287059
3,20/3,11784,3150,3150,4156,2939,2930,9,108594,24862,83732,83170,562.0,9550,2336,-1392,-86,26.73,24.94,13.05,9.79,29.69,823.16,2134,9.71,22.84,2486283732
4,20/6,13188,3947,3947,4020,2935,2931,4,110282,23386,86896,86330,566.0,9550,7855,-214,-5501,29.93,22.25,12.2,9.4,26.91,837.4,2135,10.46,21.6,2338686896


## String

### 개요

추가된 컬럼에 대한 값을 확인해 보면
`25,970` + `82,524` = `108,464` 가 되어야 한다.

하지만 결과가 `25,97082,524` 가 되었다.

<img src='https://i.imgur.com/80AOnF5.png' width = 500>

### 프로세스 소개

<img src='https://i.imgur.com/WYQhrs8.png' width = 300>

앞서 발생한 문제를 해결 하기 위해서, 다음과 같은 단계를 거쳐야한다.

1. 문자를 숫자로 바꾸기 위해 **숫자가 아닌 부분을 제거**

2. 문자를 숫자로 **형변환**

일반적으로 머신러닝 모델링에서는 문자열로 이루어진 값은 사용하지 않는다. (매우 복잡한 문제)

### string replace

replace ref : <https://www.w3schools.com/python/ref_string_replace.asp>

`replace`의 사용법은 다음과 같습니다.

**string variable**.replace(“삭제할 글자“, ‘’) 의 형태로 사용 ( 공백으로 대치 )

`s.replace(',', '')`

### 🔥 <https://www.w3schools.com/python/python_strings.asp>


In [7]:
testString = '25,970'

In [8]:
# ',' -> ''
testString.replace(',','')

'25970'

In [10]:
# 원래 변수의 값은 변하지 않는다.
testString

'25,970'

In [11]:
# int로 형변환 해준다.

testString = testString.replace(',','')
int(testString)

25970

### Type casting

<img src='https://i.imgur.com/Y15ZJoL.png' width = 400>

### as Function

위의 변환 과정을 함수로 정의해보자


In [12]:
# 입력된 문자열에 대해 같은 작업을 반복할 수 있는 함수 작성

def toInt(str):
    return int(str.replace(',',''))

In [14]:
# 예시 데이터를 바탕으로 함수 테스트

toInt('25,970')

25970

In [15]:
type(toInt('25,970'))

int

## Apply

### 개요

<img src='https://i.imgur.com/n4vvIDr.png' width = 500>

데이터의 모든 문자열(컬럼 내內 값)에 대해 함수를 반복하기에는 한계가 있다.

이에, `column` 단위로 함수를 적용시킬 수 있는 apply()함수를 사용하자.


### apply 사용법

1. apply 안에 들어갈 함수를 선언
2. column에 apply 적용.

In [17]:
df['자산2'] = df['자산'].apply(toInt)

df

Unnamed: 0,분기,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,부채총계,자본총계,자본총계(지배),자본총계(비지배),자본금,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름,영업이익률,순이익률,ROE(%),ROA(%),부채비율,자본유보율,EPS(원),PER(배),J-value,자산,자산2
0,19/6,12578,3991,3991,4452,3245,3228,17,108464,25940,82524,81965,,9550,4641,-1878,-4919,31.73,25.8,12.35,9.37,31.43,803.22,2351,13.77,21.72,2594082524,2594082524
1,19/9,13222,3825,3825,4503,3221,3208,13,106314,20691,85623,85049,,9550,-2278,-83,-329,28.93,24.36,12.67,9.95,24.17,836.86,2337,13.87,22.62,2069185623,2069185623
2,19/12,11982,2523,2523,1794,1183,1198,-15,107121,20062,87059,86506,,9550,837,-501,-129,21.06,9.87,12.39,9.96,23.04,850.82,873,12.42,22.35,2006287059,2006287059
3,20/3,11784,3150,3150,4156,2939,2930,9,108594,24862,83732,83170,562.0,9550,2336,-1392,-86,26.73,24.94,13.05,9.79,29.69,823.16,2134,9.71,22.84,2486283732,2486283732
4,20/6,13188,3947,3947,4020,2935,2931,4,110282,23386,86896,86330,566.0,9550,7855,-214,-5501,29.93,22.25,12.2,9.4,26.91,837.4,2135,10.46,21.6,2338686896,2338686896


In [18]:
df['부채총계'] = df['부채총계'].apply(toInt)
df['자본총계'] = df['자본총계'].apply(toInt)

df['자산'] = df['부채총계'] + df['자본총계']

df

Unnamed: 0,분기,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,부채총계,자본총계,자본총계(지배),자본총계(비지배),자본금,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름,영업이익률,순이익률,ROE(%),ROA(%),부채비율,자본유보율,EPS(원),PER(배),J-value,자산,자산2
0,19/6,12578,3991,3991,4452,3245,3228,17,108464,25940,82524,81965,,9550,4641,-1878,-4919,31.73,25.8,12.35,9.37,31.43,803.22,2351,13.77,21.72,108464,2594082524
1,19/9,13222,3825,3825,4503,3221,3208,13,106314,20691,85623,85049,,9550,-2278,-83,-329,28.93,24.36,12.67,9.95,24.17,836.86,2337,13.87,22.62,106314,2069185623
2,19/12,11982,2523,2523,1794,1183,1198,-15,107121,20062,87059,86506,,9550,837,-501,-129,21.06,9.87,12.39,9.96,23.04,850.82,873,12.42,22.35,107121,2006287059
3,20/3,11784,3150,3150,4156,2939,2930,9,108594,24862,83732,83170,562.0,9550,2336,-1392,-86,26.73,24.94,13.05,9.79,29.69,823.16,2134,9.71,22.84,108594,2486283732
4,20/6,13188,3947,3947,4020,2935,2931,4,110282,23386,86896,86330,566.0,9550,7855,-214,-5501,29.93,22.25,12.2,9.4,26.91,837.4,2135,10.46,21.6,110282,2338686896
