# 데이터 전처리 및 피처 엔지니어링

In [0]:
root= '/FileStore/tables/bin'
retail = root+'/retail-data/by-day/*.csv'
simple_ml_int = root+'/simple-ml-integers'
simple_ml = root+'/simple-ml'
simple_ml_scale = root+'/simple-ml-scaling'

In [0]:
sales = spark.read.format('csv')\
.option('header', 'true')\
.option('inferSchema', 'true')\
.load(retail)
.coalesce(5)
.where("Descriptions is not null")


In [0]:
fakeIntDF = spark.read.parquet(simple_ml_int)
simpleDF = spark.read.parquet(simple_ml)
scaleDF = spark.read.parquet(simple_ml_scale)

In [0]:
sales.cache()
sales.show()

## 사용 목적에 따라 모델 서식 지정하기
- 데이터를 전처리하기 위해서는 우선 <strong>최종 목표</strong>를 검토해야함
- MLlib의 각 고급 분석 작업을 위한 입력 데이터 구조 관련 요구사항
  - 대부분의 <strong>분류 및 회귀 알고리즘</strong>의 경우 데이터를 <strong>Double</strong>타입의 컬럼으로 가져와서 레이블을 표시하고 <strong>Vector</strong>타입(밀도가 높거나 희소한)의 컬럼을 사용하여 특징을 나타내야함
  - <strong>추천 알고리즘</strong>의 경우 데이터를 사용자 컬럼, 영화 또는 서적 등을 나타내는 아이템 컬럼 그리고 사용자 평점 등을 나타내는 등급 컬럼으로 표현해야함
  - <strong>비지도 학습 알고리즘</strong>의 경우 입력 데이터로 사용할 특징을 <strong>Vector</strong>타입의 컬럼으로 표현해야함
  - <strong>그래프 분석</strong>의 경우 정점과 에지가 각각 <strong>DataFrame</strong>으로 구성되어야함

## 변환자
- <strong>다양한 방식으로 원시 데이터를 변환</strong>시키는 함수
  - 주로 데이터 전처리 또는 특징 생성을 위해 사용
  - 모든 변환자는 입력과 출력의 컬럼 이름을 나타내는 'inputCol'과 'outputCol'을 지정해야함
    - set 메서드로
- 새로운 상호작용 변수를 생성(두 개의 다른 변수로)하거나 컬럼을 정규화하거나 모델에 입력하기 위한 변수 타입 변경 등
- ex) Tokenizer
  - 문자열을 토큰화하고 주어진 문자로 분할함

## 전처리 추정자
- 수행하려는 변환이 입력 컬럼에 대한 데이터 또는 정보로 초기화되어야 할 때 필요
- 추정자는 <strong>특정 입력 데이터에 따라 구성되는 변환자</strong>라고 볼 수 있음
- ex) StandardScaler
  - 입력 컬럼에 적재된 모든 값의 범위를 고려하여 크기를 조정하여 평균이 0, 분산이 1이 되도록 스케일링 수행

## 고수준 변환자
- 일반적으로 <strong>오류 위험을 최소화</strong>하고, 구현 과정의 세세한 부분보다 <strong>비즈니스 문제에 집중하기 위해</strong> 가능한 한 최상위 수준의 변환자를 사용해야함
- <strong>RFormula</strong> 같은 고수준 변환자를 사용하면 하나의 변환에서 <strong>여러 가지 변환을 간결하게 지정</strong>할 수 있음
- 고수준 변환자는 '상위 수준'에서 동작하며 데이터 조작 및 변환을 하나하나 수행하지 않도록 해줌

### RFormula
- R언어에서 빌려온 변환자로서 데이터에 대한 변환을 선언적으로 간단히 지정할 수 있게 해줌
  - 문법만 이해하면 매우 쉽게 사용 가능
- 숫자컬럼은 Double타입으로 변환되지만 원-핫 인코딩은 되지 않음
- 또한 레이블 컬럼이 String인 경우 먼저 StringIndexer를 사용해서 Double타입으로 변환됨

## 연속형 특징 처리하기

## 범주형 특징 처리하기

## 텍스트 데이터 변환자

## 특징 조작하기

## 특징 선택

## 고급 주제