# 데이터 변환
## 목차
- python-weka-wrapper
- CSV 형식에서 ARFF 데이터 변환
- 데이터 불러오기
- Train data와 Test data 분리

# [python-weka-wrapper](https://fracpete.github.io/python-weka-wrapper/index.html)
- Python에서 `Weka`를 사용할 수 있습니다.
- 이 라이브러리는 Weka 프로세스가 실행되는 Java 가상머신을 시작, 통신 및 종료하는 데 javabridge 라이브러리를 사용합니다.

## `wrapper` 모듈 (작성한 코드)
- python-weka-wrapper API를 좀 더 편히 쓰기 위해 만든 모듈

```python
def csv2arff(fname_csv, header)
def load_data(dfile)
def save_train_test_split(dfile, percentage, rng=None)
def scatter_plots(dfile, outpath='./assets/scatter_plot/')
...
```

## CSV 형식에서 ARFF 데이터 변환
- `Weka`의 API를 사용하기 위해 데이터의 형식을 ARFF로 변환합니다.
- ARFF는 데이터는 CSV와 동일하고, 헤더에 `Attribute`(특징) 정보를 입력해야합니다.
- `iris.arff`의 예입니다.

```csv
% Comment(주석)
@RELATION iris

@ATTRIBUTE sepallength	NUMERIC
@ATTRIBUTE sepalwidth 	NUMERIC
@ATTRIBUTE petallength    NUMERIC
@ATTRIBUTE petalwidth	 NUMERIC
@ATTRIBUTE class 	     {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
... (데이터) ...
```

- `wrapper.csv2arff`  
   csv 파일을 arff로 변환하는 함수입니다. (헤더 정보가 필요합니다.)

```python
# wrapper.csv2arff
def csv2arff(fname_csv, header):
    """arff header 정보로 csv로 부터 csv와 동일한 경로에 arff 파일을 생성한다.
    e.g. /data/path/to/iris.csv로 부터 /data/path/to/iris.arff 파일 생성
    
    Parameters
    ----------
    fname_csv : str, csv filename
    header : str, arff 파일을 만들기 위한 헤더 정보[1].
    
    References
    ----------
    .. [1] `WEKA, Attribute-Relation File Format (ARFF), 
           <https://www.cs.waikato.ac.nz/ml/weka/arff.html>`_
    """
```

In [1]:
import wrapper
# ./datasets/housing.data로 부터 ./datasets/housing.arff 생성

header = """
% 1. Title: Boston Housing Data
% 
% 2. Sources:
%    (a) Origin:  This dataset was taken from the StatLib library which is
%                 maintained at Carnegie Mellon University.
%    (b) Creator:  Harrison, D. and Rubinfeld, D.L. 'Hedonic prices and the 
%                  demand for clean air', J. Environ. Economics & Management,
%                  vol.5, 81-102, 1978.
%    (c) Date: July 7, 1993
% 
% 3. Past Usage:
%    -   Used in Belsley, Kuh & Welsch, 'Regression diagnostics ...', Wiley, 
%        1980.   N.B. Various transformations are used in the table on
%        pages 244-261.
%     -  Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning.
%        In Proceedings on the Tenth International Conference of Machine 
%        Learning, 236-243, University of Massachusetts, Amherst. Morgan
%        Kaufmann.
% 
% 4. Relevant Information:
% 
%    Concerns housing values in suburbs of Boston.
% 
% 5. Number of Instances: 506
% 
% 6. Number of Attributes: 13 continuous attributes (including "class"
%                          attribute "MEDV"), 1 binary-valued attribute.
% 
% 7. Attribute Information:
% 
%     1. CRIM      per capita crime rate by town
%     2. ZN        proportion of residential land zoned for lots over 
%                  25,000 sq.ft.
%     3. INDUS     proportion of non-retail business acres per town
%     4. CHAS      Charles River dummy variable (= 1 if tract bounds 
%                  river; 0 otherwise)
%     5. NOX       nitric oxides concentration (parts per 10 million)
%     6. RM        average number of rooms per dwelling
%     7. AGE       proportion of owner-occupied units built prior to 1940
%     8. DIS       weighted distances to five Boston employment centres
%     9. RAD       index of accessibility to radial highways
%     10. TAX      full-value property-tax rate per $10,000
%     11. PTRATIO  pupil-teacher ratio by town
%     12. B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks 
%                  by town
%     13. LSTAT    % lower status of the population
%     14. MEDV     Median value of owner-occupied homes in $1000's
% 
% 8. Missing Attribute Values:  None.
@RELATION "Boston Housing"

@ATTRIBUTE CRIM  NUMERIC
@ATTRIBUTE ZN    NUMERIC
@ATTRIBUTE INDUS NUMERIC
@ATTRIBUTE CHAS  {0,1}
@ATTRIBUTE NOX NUMERIC
@ATTRIBUTE RM NUMERIC
@ATTRIBUTE AGE NUMERIC
@ATTRIBUTE DIS NUMERIC
@ATTRIBUTE RAD NUMERIC
@ATTRIBUTE TAX NUMERIC
@ATTRIBUTE PTRATIO NUMERIC
@ATTRIBUTE B NUMERIC
@ATTRIBUTE LSTAT NUMERIC
@ATTRIBUTE MEDV NUMERIC

@DATA
""".strip()

fname_csv = "./datasets/housing.data"
wrapper.csv2arff(fname_csv, header)

## Train data와 Test data 분리
- `wrapper.load_data`  
  arff형식의 파일명을 입력받아 Weka API를 사용할 수 있는 data 클래스로 반환합니다.
- `wrapper.save_train_test_split`  
  arff형식의 파일명을 입력받아 데이터를 비율(`percentage`)을 입력받아 train과 test 데이터 파일 분리하여 파일을 생성합니다.
  
```python
def load_data(dfile):
    """arff 형식의 데이터 파일경로를 입력받아 Weka API의 사용할 data 클래스를 반환한다.

    Parameters
    ----------
    dfile: str, 데이터 파일경로, arff 형식의 데이터
    
    Note
    ----------
    예측 클래스를 마지막 Attribute(열, column)으로 설정한다.
    `jvm`이 시작 상태여야 한다.
    
    Return
    ----------
    data: Weka API를 사용할 수 있는 data 클래스
    """
    loader = Loader(classname="weka.core.converters.ArffLoader")
    data = loader.load_file(dfile)
    data.class_is_last()  # 예측 클래스를 마지막 Attribute로 설정.
    return data


def save_train_test_split(dfile, percentage, rng=None):
    """dfile(arff 형식의 데이터 파일경로)를 입력받아, train과 test 데이터를 분리하여
    dfile과 동일한 경로에 train.arff와 test.arff 파일을 생성한다.
    e.g. /data/path/to/iris.arff로 부터 /data/path/to/iris_train.arff와
         /data/path/to/iris_test.arff 파일 생성
    
    Parameters
    ----------
    dfile: str, 데이터 파일경로, arff 형식의 데이터
    
    Note
    ----------
    `jvm`이 시작 상태여야 한다.
    """
```

In [1]:
import weka.core.jvm as jvm
import wrapper
from weka.core.classes import Random
# "./dataset/housing.arff"로 부터 ./dataset/housing_train.arff
#                               ./dataset/housing_test.arff 생성

# python-weka-wrapper를 사용하기 위한 jvm 실행
# jvm이 다시 시작이 안되는 경우 커널을 재시작 해주세요
jvm.start()

# 실험 재현을 위한 rng(random number generator) 설정
# arff 데이터를 입력받아 train 70%, test 나머지로 분리
rng = Random(777)
dfile = "./datasets/housing.arff"
wrapper.save_train_test_split(dfile, 70, rng)

jvm.stop()

DEBUG:weka.core.jvm:Adding bundled jars
DEBUG:weka.core.jvm:Classpath=['/opt/conda/envs/py36/lib/python3.6/site-packages/javabridge/jars/rhino-1.7R4.jar', '/opt/conda/envs/py36/lib/python3.6/site-packages/javabridge/jars/runnablequeue.jar', '/opt/conda/envs/py36/lib/python3.6/site-packages/javabridge/jars/cpython.jar', '/opt/conda/envs/py36/lib/python3.6/site-packages/weka/lib/weka.jar', '/opt/conda/envs/py36/lib/python3.6/site-packages/weka/lib/python-weka-wrapper.jar']
DEBUG:weka.core.jvm:MaxHeapSize=default
DEBUG:weka.core.jvm:Package support disabled
