# Data Generator

This notebook is used for generating some fake data

## Data description

### Target：判斷這個人是否要當兵（常備役）

根據中華民國憲法第二十條
>「人民有依法律服兵役之義務」。

兵役法第一條
>「中華民國男子依法皆有服兵役之義務」。

兵役法規定
> 男子年滿十八歲之翌年一月一日起役，至屆滿四十五歲之年十二月三十一日除役時止

基本上，所有18歲以上的的 “男生” 都需要當兵（常備役）。

但是也有一些例外，根據[身高體重體位區分標準表](http://servap3.docms.gov.taipei/pdf/102121101.pdf)，BMI不符合標準的可以不用當常備役兵。

> 常備役體位
> 17≦BMI≦31


### Dataset Attributes

1. 性別（Sex）：男生（1），女生（0）
2. 年齡（Age）：<100 的 Integer
3. BMI指數（BMI）：< 100 的 Integer
4. 扁平足（flat feet）：有扁平足（1)，無扁平足（0）
5. 是否需要當兵（Target）：需要當兵（1），不需要當兵（0）


### Data Generation

1. 性別
    
    爲了避免unbalanced data，產生70%男生和30%女生
    

2. 年齡
    
    在14~22歲之間以uniform distribution生成
    
    
3. BMI
    
    根據[衛服部統計資料](https://www.mohw.gov.tw/dl-13424-64eb6290-6a45-4a5d-aa6a-77b5c3deb327.html)

    > 臺灣男性（19~44歲）BMI：平均值 24.5，標準誤 0.3，樣本數426

    > 臺灣女性（19~44歲）BMI：平均值 23.0，標準誤 0.3，樣本數510
    
    用以下公式轉換：
    
    $$標準差（SD） =  標準誤 × \sqrt{樣本數}$$
    
    得出結果：
    
    > 男性標準差：6.19
    
    > 女性標準差：6.77
   
    
4. 扁平足
    
    根據[wiki扁平足](https://zh.wikipedia.org/wiki/%E6%89%81%E5%B9%B3%E8%B6%B3)
    
    > 有15~30%的世界人口有一定程度的扁平足
    
    因爲找不到臺灣的統計資料，假設 **20%** 的臺灣人有扁平足
    
    
5. 是否需要當兵
    
    如果以下四個條件都成立，則判斷需要當兵
    
    
    1. 性別 = 1 （男生）
    2. 年齡 >= 18
    3. 17 <= BMI <= 31
    4. 扁平足 = 0（無扁平足）
    
    

In [1]:
import numpy as np
import pandas as pd

np.random.seed(11)

data_size = 10000
male_size = round(data_size * 0.7)
female_size = data_size - male_size
# Generate sex, 70% male, 30% female
male = np.ones(round(male_size))
female = np.zeros(round(female_size))
sex = np.concatenate((male, female))

# Generate age, from 14 to 22, uniform
age = np.random.randint(14, 22 + 1, data_size)

# Generate BMI
male_BMI = np.random.normal(24.5, 6.19, round(male_size))
female_BMI = np.random.normal(23.0, 6.77, round(female_size))

BMI = np.concatenate((male_BMI, female_BMI))

# Generate Flat Feet patient
flat_feet = np.random.choice([0, 1], data_size, p=[0.8, 0.2])

data = pd.DataFrame()
data['sex'] = sex
data['age'] = age
data['BMI'] = BMI.round(3)
data['flat_feet'] = flat_feet
data['target'] = np.zeros(data_size)

for index, row in data.iterrows():
    sex = row['sex']
    age = row['age']
    BMI = row['BMI']
    flat_feet = row['flat_feet']
    target = row['target']
    if sex == 1 and age >= 18 and BMI <= 31 and BMI >= 17 and flat_feet == 0:
        data.at[index,'target'] = 1



In [2]:
data.describe()

Unnamed: 0,sex,age,BMI,flat_feet,target
count,10000.0,10000.0,10000.0,10000.0,10000.0
mean,0.7,18.017,23.974477,0.1966,0.2381
std,0.45828,2.577397,6.350713,0.397447,0.425942
min,0.0,14.0,-3.505,0.0,0.0
25%,0.0,16.0,19.78275,0.0,0.0
50%,1.0,18.0,24.04,0.0,0.0
75%,1.0,20.0,28.2735,0.0,0.0
max,1.0,22.0,46.688,1.0,1.0


In [3]:
from sklearn.utils import shuffle
data = shuffle(data)
data.head()

Unnamed: 0,sex,age,BMI,flat_feet,target
6399,1.0,17,19.876,1,0.0
9484,0.0,14,22.735,0,0.0
1452,1.0,22,19.519,1,0.0
7284,0.0,14,16.809,1,0.0
9271,0.0,14,21.596,0,0.0


In [4]:
data.to_csv('./data.csv', index=False)