# Preprocessing of 30-year Thai lottery numbers

In [134]:
import numpy as np
import pandas as pd

## Read in csv file and create dataframe from it

In [135]:
csvFile = pd.read_csv("30Y.csv")
dataFrame = pd.DataFrame(data=csvFile)

## Extract digits

In [136]:
dataFrame.columns

Index(['Day', 'Month', 'Year', '1St', '2ตัวบน', '3ตัวบน', '2ตัวล่าง',
       '3ตัวหน้า1', '3ตัวหน้า2', '3ตัวล่าง1', '3ตัวล่าง'],
      dtype='object')

In [137]:
c_names = dataFrame.columns
C_OFFSET = 4

In [138]:
for name in c_names[C_OFFSET:]:
    hundred = (dataFrame[name] / 100) % 10
    ten = (dataFrame[name] / 10) % 10
    one = (dataFrame[name] / 1) % 10
    
    dataFrame[name+'_100'] = hundred.astype(int)
    dataFrame[name+'_10'] = ten.astype(int)
    dataFrame[name+'_1'] = one.astype(int)

## Check results

In [139]:
name = '3ตัวล่าง'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,3ตัวล่าง,3ตัวล่าง_100,3ตัวล่าง_10,3ตัวล่าง_1
0,517,5,1,7
1,984,9,8,4
2,255,2,5,5
3,245,2,4,5
4,980,9,8,0


In [140]:
name = '3ตัวล่าง1'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,3ตัวล่าง1,3ตัวล่าง1_100,3ตัวล่าง1_10,3ตัวล่าง1_1
0,72,0,7,2
1,834,8,3,4
2,208,2,0,8
3,62,0,6,2
4,45,0,4,5


In [141]:
name = '3ตัวหน้า2'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,3ตัวหน้า2,3ตัวหน้า2_100,3ตัวหน้า2_10,3ตัวหน้า2_1
0,828,8,2,8
1,776,7,7,6
2,741,7,4,1
3,598,5,9,8
4,464,4,6,4


In [142]:
name = '3ตัวหน้า1'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,3ตัวหน้า1,3ตัวหน้า1_100,3ตัวหน้า1_10,3ตัวหน้า1_1
0,377,3,7,7
1,93,0,9,3
2,368,3,6,8
3,154,1,5,4
4,189,1,8,9


In [143]:
name = '2ตัวล่าง'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,2ตัวล่าง,2ตัวล่าง_100,2ตัวล่าง_10,2ตัวล่าง_1
0,70,0,7,0
1,84,0,8,4
2,46,0,4,6
3,40,0,4,0
4,38,0,3,8


In [144]:
name = '3ตัวบน'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,3ตัวบน,3ตัวบน_100,3ตัวบน_10,3ตัวบน_1
0,303,3,0,3
1,994,9,9,4
2,661,6,6,1
3,404,4,0,4
4,51,0,5,1


In [145]:
name = '2ตัวบน'
dataFrame[[name, name+'_100', name+'_10', name+'_1']].head()

Unnamed: 0,2ตัวบน,2ตัวบน_100,2ตัวบน_10,2ตัวบน_1
0,3,0,0,3
1,94,0,9,4
2,61,0,6,1
3,4,0,0,4
4,51,0,5,1


## Save to another csv file

### Complete file csv

In [146]:
dataFrame.to_csv('30Y_preproc.csv')

### Training file

In [147]:
training = dataFrame.sample(frac=0.9)
training.to_csv('30Y_preproc_training.csv')

### Evalluation file

In [148]:
evaluation = dataFrame.drop(labels=training.index)
evaluation.to_csv('30Y_preproc_eval.csv')

### Complete file json

In [149]:
dataFrame.to_json('30Y_preproc.json')