# 약품 처방 금액 예측

### Data

* 이 문제에 사용되는 데이터는 실제 국민건강보험의 처방내역을 바탕으로 합니다.
* 처방번호, 약품코드, 가입자번호는 원본을 유추할 수 없도록 전처리되어있습니다.
* 같이 처방된 약품은 처방 번호가 같은 개별 행으로 구분되어 주어집니다.
    * 예를 들어 감기약, 해열제, 진해거담제, 위장약을 함께 처방받았다면 처방번호가 같은 row가 4개 생깁니다.
    
##### train.csv

* 처방번호: 약의 처방 번호 입니다. 특정 지을 수 없도록 익명화되어 있습니다.
* 약품코드: 개별 약품의 코드를 의미합니다. 약품을 특정 지을 수 없도록 익명화되어 있습니다.
* 일련번호: 처방번호가 같은 처방에서의 일련번호 입니다. 같은 약품이 용량 등의 이유로 중복 처방되기도 하는데 이 값으로 구분합니다.
* 가입자번호: 처방받은 사람의 국민건강보험 가입자번호로 익명화 되어 있습니다.
* 성별코드: 1 = 남자, 2 = 여자를 의미합니다.
* 연령대코드(5세단위): 5세 단위의 연령대코드 입니다.
* 시도코드: 시도 단위 코드로 숫자로 되어 있습니다.
* 요양개시일자: 요양개시일자로 연월일로 되어 있습니다.
* 1회 투약량
* 1일투약량
* 총투여일수
* 금액: 처방내역에 따른 금액입니다.

##### test.csv

* id 컬럼이 있으며, 금액 컬럼이 없습니다. 
* 그 외에는 train.csv에 있는 모든 컬럼이 동일하게 있습니다.

### 초기 코드 선택

Python, R 중 본인의 선호 언어에 따라 초기 코드를 선택하세요. Python을 선호한다면 Python 초기 코드를, R을 선호한다면 R 초기 코드만 남기면 됩니다. 언어를 변경하는 방법이나 사용할 수 있는 라이브러리는 상단의 도움말 버튼에 나와있습니다.

In [None]:
# 초기코드 - python
import pandas as pd

# 데이터 로드
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv', index_col='id')

train.head()

In [None]:
# 초기코드 - R

# 데이터 로드
train <- read.csv('./data/train.csv')
test <- read.csv('./data/test.csv')

head(train)

# 문제

train 데이터를 활용해 test 데이터의 처방 금액을 예측하는 것이 이번 과제의 목표입니다.

### 할 일

train.csv 처방정보의 금액 정보를 바탕으로 나머지 test.csv 데이터의 처방 금액을 예측해 주세요.

| id | 금액 |
|----|------|
| 0  | 0    |
| 1  | 0    |
| 2  | 0    |
| 3  | 0    |
| 4  | 0    |

<br/>
<center><예측 결과 예시></center>

*주의* 

1. 보편적인 분석 과정에 입각하여 **데이터 전처리 - EDA - 피처 엔지니어링 - 모델링 - 평가** 순으로 코드를 작성해주세요. 
    * 작성하신 코드와 주석은 정성 평가 시 참고 자료로 활용됩니다.
2. 예측 결과를 재현할 수 있도록 random seed 값을 고정시켜주세요.
3. 면접관이 코드를 이해할 수 있도록 적절한 주석이나, 마크다운으로 설명을 작성해주세요.

In [None]:
# 여기에 코드를 작성하세요.
# 보편적인 분석 과정에 입각하여 **데이터 전처리 - EDA - 피처 엔지니어링 - 모델링 - 평가** 순으로 코드를 작성해주세요.

##### 2. 예측 결과 저장

채점을 위해 위에서 예측한 데이터를 현재 파일과 같은 디렉토리(.ipynb 파일이 있는 디렉토리)에 `submission.csv`라는 이름으로 저장해주세요. 저장할 파일 포맷은 다음 표와 data 디렉토리의 `submission(sample).csv` 파일을 참고하세요.


| id | 금액 |
|----|------|
| 0  | 0    |
| 1  | 0    |
| 2  | 0    |
| 3  | 0    |
| 4  | 0    |

<br/>
<center><파일 저장 예시></center>

*주의* 

1. csv 파일의 컬럼은 반드시 id-금액 순이어야 합니다.
2. id는 오름차 순으로 정렬되어있어야 합니다.

### 여기에 코드를 작성하세요.

In [None]:
# csv 파일 저장 예시 - python
test.to_csv('submission.csv')

In [None]:
# csv 파일 저장 예시 - R
write.csv(test, file='submission.csv')

# 축구 선수 체력 검사 자료를 이용한 포지션 예측

* 본 자료는 가상의 데이터이므로 실제 축구 선수들과는 무관함을 밝혀둡니다.

### Data

##### train.csv

* 각행은 축구선수의 체력검사 자료이며 모두 400명의 가상의 축구선수들의 데이터입니다.
* 선수들은 각 포지션마다 체력검사 결과가 일정 부분 경향성으로 보입니다.
* 여러분들이 해야 할 일은 이 선수들의 데이터를 학습시켜서 일부 선수들의 포지션도 예측하는 모델을 만드는 것입니다.
* train set 은 다음의 데이터로 구성되어 있습니다.
    * player_no          : 선수 고유번호
    * Height[cm]         : 선수들의 신장 데이터
    * Back_strengh[N]    : 선수들의 배근력 검사 데이터
    * Sargent_jump[cm]   : 선수들의 제자리 높이뛰기 데이터
    * Reaction_time[msec]: 선수들의 반응 속도 데이터
    * Side_step[m/s]     : 선수들의 사이드 스텝 속도 데이터
    * Flexibility[cm]    : 선수들의 유연성 데이터
    * Positon            : 선수들의 포지션 (GoalKeeper, Midfield, Defender, Forward 중 하나)
    
    
 <table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>player_no</th>
      <th>Height[cm]</th>
      <th>Back_strengh[N]</th>
      <th>Sargent_jump[cm]</th>
      <th>Reaction_time[msec]</th>
      <th>Side_step[m/s]</th>
      <th>Flexibility[cm]</th>
      <th>Position</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>0</td>
      <td>164.73</td>
      <td>139.92</td>
      <td>59.53</td>
      <td>177.07</td>
      <td>41.82</td>
      <td>21.69</td>
      <td>Midfield</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1</td>
      <td>164.78</td>
      <td>105.77</td>
      <td>65.46</td>
      <td>217.62</td>
      <td>38.94</td>
      <td>11.03</td>
      <td>Defender</td>
    </tr>
    <tr>
      <th>2</th>
      <td>2</td>
      <td>166.03</td>
      <td>123.22</td>
      <td>56.50</td>
      <td>203.20</td>
      <td>39.11</td>
      <td>8.17</td>
      <td>Forward</td>
    </tr>
    <tr>
      <th>3</th>
      <td>3</td>
      <td>167.06</td>
      <td>111.32</td>
      <td>65.91</td>
      <td>211.16</td>
      <td>40.51</td>
      <td>24.18</td>
      <td>Midfield</td>
    </tr>
    <tr>
      <th>4</th>
      <td>4</td>
      <td>167.33</td>
      <td>127.71</td>
      <td>62.01</td>
      <td>163.10</td>
      <td>41.05</td>
      <td>20.68</td>
      <td>Midfield</td>
    </tr>
  </tbody>
</table>
    
##### test.csv

* test.csv 파일에는 train.csv에 있는 컬럼과 같은 내용의 컬럼이 있지만 Position이 없습니다.

### 초기 코드 선택

Python, R 중 본인의 선호 언어에 따라 초기 코드를 선택하세요. Python을 선호한다면 Python 초기 코드를, R을 선호한다면 R 초기 코드만 남기면 됩니다. 언어를 변경하는 방법이나 사용할 수 있는 라이브러리는 상단의 도움말 버튼에 나와있습니다.

In [None]:
# 초기코드 - python
import pandas as pd

# 데이터 로드
train = pd.read_csv('./data/train.csv', index_col='player_no')
test = pd.read_csv('./data/test.csv', index_col='player_no')

test.head()

In [None]:
# 초기코드 - R

# 데이터 로드
train <- read.csv('./data/train.csv')
test <- read.csv('./data/test.csv')

head(train)

# 과제

train set의 선수들의 데이터를 이용해 test set의 선수들의 Position을 유추하는 것이 이번 과제의 목표입니다.

### 할 일

##### 1. 예측

본 문제에는 train 데이터와 test 데이터가 주어집니다.

1. train 데이터:
    * data/train.csv
2. test 데이터:
    * data/test.csv

train 데이터를 이용해 test 데이터에 있는 선수들의 Position을 유추해주세요. Position은 GoalKeeper, Midfield, Defender, Forward 중에 하나여야 합니다. 예를 들어, 다음과 같이 결과를 예측해주시면 됩니다.

| player_no | Position |
|-----------|----------|
| 400       | Midfield |
| 401       | Midfield |
| 402       | Midfield |
| 403       | Midfield |

<br/>
<center><예측 결과 예시, 모든 플레이어를 Midfield로 예측한 경우></center>

*주의*

1. 보편적인 분석 과정에 입각하여 코드와 주석을 작성해주세요(전처리, 피쳐 엔지니어링, 모델링, 평가 등)
2. 예측 결과를 재현할 수 있도록 random seed 값을 고정시켜주세요.
3. 면접관이 코드를 이해할 수 있도록 적절한 주석이나, 마크다운으로 설명을 작성해주세요.

In [None]:
# 여기에 코드를 작성하세요.
# 보편적인 분석 과정에 입각하여 코드와 주석을 작성해주세요(전처리, 피쳐 엔지니어링, 모델링, 평가 등)

##### 2. 예측 결과 저장

채점을 위해 위에서 예측한 데이터를 현재 파일과 같은 디렉토리(.ipynb 파일이 있는 디렉토리)에 `submission.csv`라는 이름으로 저장해주세요. 저장할 파일 포맷은 다음 표와 data 디렉토리의 `submission(sample).csv` 파일을 참고하세요.

| player_no | Position |
|-----------|----------|
| 400       | Midfield |
| 401       | Midfield |
| 402       | Midfield  |
| 403       | Midfield |

<br/>
<center><파일 저장 예시></center>

*주의* 

1. csv 파일의 컬럼은 반드시 player_no-Position 순이어야 합니다.
2. **index 순서(player_no)는 꼭 오름차 순이어야 합니다.**
3. 대소문자나 띄어쓰기에 주의해주세요. 예를 들어 Midfield를 midfield와 같이 작성하면 점수를 얻을 수 없습니다.

In [None]:
# 여기에 코드를 작성하세요.

In [None]:
# csv 파일 저장 예시 - python
test.to_csv('submission.csv')

In [None]:
# csv 파일 저장 예시 - R
write.csv(test, file='submission.csv')