# This code is to process data 

In [1]:
# Load the Pandas libraries with alias 'pd' 
import pandas as pd
import numpy as np
#import math


# Read data from file 'filename.csv' 
# (in the same directory that your python process is based)
# Control delimiters, rows, column names with read_csv (see later) 

predefined_head = ['province', 'district', 'one_aye', 'one_aye100', 'one_nay', 'one_nay100', \
                   'two_aye', 'two_aye100', 'two_nay', 'two_nay100'];
table = pd.read_csv("tabula-results2.csv", names = predefined_head) 
# Preview the first 5 lines of the loaded data 
table.head()

Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100
0,จงหวด,อําเภอ/เขต,ประเดนท ่1 รํางรฐธรรมนูญ,ประเดนท ่2 คําถํามเพ่ิมเตม,,,,,,
1,,,เหนชอบ,รอยละ,ไมเหนชอบ,รอยละ,เหนชอบ,รอยละ,ไมเหนชอบ,รอยละ
2,กรุงเทพมหานคร,คลองเตย,23475,70.28,9928,29.72,22171,67.13,10858,32.87
3,คลองสาน,20990,72.54,7947,27.46,19660,68.63,8987,31.37,
4,คลองสามวา,50073,68.6,22921,31.4,46745,65.17,24983,34.83,


Process the data by
1. re-adjust the cell to the correct table structure

In [2]:
# Drop a row by condition

table2 = table[~((table.one_nay).isna() | (table.district).isna() | (table.province.isna() & table.two_nay100.isna()))].copy()
table2 = table2.iloc[0:-1]

table3 = table2.copy()
table3.loc[table3.two_nay100.isna()] = table2.loc[table2.two_nay100.isna()].shift(periods=1, axis='columns')

table3.tail(100)



Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100
1118,,สระใคร,4779,50.02,4775,49.98,4139,47.02,4664,52.98
1119,,สังคม,4536,43.12,5983,56.88,3864,39.72,5863,60.28
1120,,นอกเขตจงหวดั หนองคาย,482,68.27,224,31.73,438,63.11,256,36.89
1121,,หนองคําย ผลรวม,86557,44.29,108874,55.71,74924,40.96,108005,59.04
1122,หนองบวลาภ,นากลาง,13231,37.99,21596,62.01,11649,35.26,21384,64.74
1123,,นาวงั,5642,38.48,9021,61.52,4816,35.21,8860,64.79
1124,,โนนสัง,8632,35.42,15735,64.58,7443,32.58,15401,67.42
1125,,เมองหนองบวลาภ,24006,43.59,31067,56.41,20842,40.26,30927,59.74
1126,,ศรีบญเรือง,16336,40.12,24377,59.88,14095,37.16,23839,62.84
1127,,สุวรรณคูหา,9022,37.52,15021,62.48,7769,34.47,14769,65.53


2. mark if the row is summation / out-site

In [3]:
# check if it is a summation row?
sum_row = table3['district'].str.find('ผลรวม')
sum_row[sum_row<0] = 0
table3['sum_row'] = sum_row
table3['sum_row'] = table3['sum_row'].astype('bool')

# check if it is a out-site row?
ext_row = table3['district'].str.find('อกเขตจงหว')
ext_row[ext_row<0] = 0
table3['ext_row'] = ext_row
table3['ext_row'] = table3['ext_row'].astype('bool')



3. re-label the summation row and out-site

In [4]:
table3.loc[table3[table3['ext_row']==1].index,'district'] = 'นอกเขต'
table3.loc[table3[table3['sum_row']==1].index,'district'] = 'ผลรวม'

#table3.tail(100)

Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100,sum_row,ext_row
1118,,สระใคร,4779,50.02,4775,49.98,4139,47.02,4664,52.98,False,False
1119,,สังคม,4536,43.12,5983,56.88,3864,39.72,5863,60.28,False,False
1120,,นอกเขต,482,68.27,224,31.73,438,63.11,256,36.89,False,True
1121,,ผลรวม,86557,44.29,108874,55.71,74924,40.96,108005,59.04,True,False
1122,หนองบวลาภ,นากลาง,13231,37.99,21596,62.01,11649,35.26,21384,64.74,False,False
1123,,นาวงั,5642,38.48,9021,61.52,4816,35.21,8860,64.79,False,False
1124,,โนนสัง,8632,35.42,15735,64.58,7443,32.58,15401,67.42,False,False
1125,,เมองหนองบวลาภ,24006,43.59,31067,56.41,20842,40.26,30927,59.74,False,False
1126,,ศรีบญเรือง,16336,40.12,24377,59.88,14095,37.16,23839,62.84,False,False
1127,,สุวรรณคูหา,9022,37.52,15021,62.48,7769,34.47,14769,65.53,False,False


4. repeat the province cells

In [5]:
table3.fillna(method='ffill', inplace=True)
#table3.tail(100)

Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100,sum_row,ext_row
1118,หนองคาย,สระใคร,4779,50.02,4775,49.98,4139,47.02,4664,52.98,False,False
1119,หนองคาย,สังคม,4536,43.12,5983,56.88,3864,39.72,5863,60.28,False,False
1120,หนองคาย,นอกเขต,482,68.27,224,31.73,438,63.11,256,36.89,False,True
1121,หนองคาย,ผลรวม,86557,44.29,108874,55.71,74924,40.96,108005,59.04,True,False
1122,หนองบวลาภ,นากลาง,13231,37.99,21596,62.01,11649,35.26,21384,64.74,False,False
1123,หนองบวลาภ,นาวงั,5642,38.48,9021,61.52,4816,35.21,8860,64.79,False,False
1124,หนองบวลาภ,โนนสัง,8632,35.42,15735,64.58,7443,32.58,15401,67.42,False,False
1125,หนองบวลาภ,เมองหนองบวลาภ,24006,43.59,31067,56.41,20842,40.26,30927,59.74,False,False
1126,หนองบวลาภ,ศรีบญเรือง,16336,40.12,24377,59.88,14095,37.16,23839,62.84,False,False
1127,หนองบวลาภ,สุวรรณคูหา,9022,37.52,15021,62.48,7769,34.47,14769,65.53,False,False


# correct the typos
## correct provinces

In [36]:
from fuzzywuzzy import process


def match_names(wrong, correct):
    names_array = []
    ratio_array = []
    for row in wrong:
        x=process.extractOne(row, correct)
        names_array.append(x[0])
        ratio_array.append(x[1])
    return names_array, ratio_array

## correct the provinces
# wrong data set

table4 = table3.copy()
wrong_names = table4['province'].values



In [37]:
# correct data set
choices_df  = pd.read_csv('../district/prov_list.csv')
correct_names=choices_df['PRV_NAME_TH'].values

array(['กระบี่', 'กรุงเทพมหานคร', 'กาญจนบุรี', 'กาฬสินธุ์', 'กำแพงเพชร',
       'ขอนแก่น', 'จันทบุรี', 'ฉะเชิงเทรา', 'ชลบุรี', 'ชัยนาท', 'ชัยภูมิ',
       'ชุมพร', 'เชียงราย', 'เชียงใหม่', 'ตรัง', 'ตราด', 'ตาก', 'นครนายก',
       'นครปฐม', 'นครพนม', 'นครราชสีมา', 'นครศรีธรรมราช', 'นครสวรรค์',
       'นนทบุรี', 'นราธิวาส', 'น่าน', 'บุรีรัมย์', 'ปทุมธานี',
       'ประจวบคีรีขันธ์', 'ปราจีนบุรี', 'ปัตตานี', 'พระนครศรีอยุธยา',
       'พะเยา', 'พังงา', 'พัทลุง', 'พิจิตร', 'พิษณุโลก', 'เพชรบุรี',
       'เพชรบูรณ์', 'แพร่', 'ภูเก็ต', 'มหาสารคาม', 'มุกดาหาร',
       'แม่ฮ่องสอน', 'ยโสธร', 'ยะลา', 'ร้อยเอ็ด', 'ระนอง', 'ระยอง',
       'ราชบุรี', 'ลพบุรี', 'เลย', 'ลำปาง', 'ลำพูน', 'ศีรสะเกษ', 'สกลนคร',
       'สงขลา', 'สตูล', 'สมุทรปราการ', 'สมุทรสงคราม', 'สมุทรสาคร',
       'สระแก้ว', 'สระบุรี', 'สิงห์บุรี', 'สุโขทัย', 'สุพรรณบุรี',
       'สุราษฎร์ธานี', 'สุรินทร์', 'หนองคาย', 'หนองบัวลำภู', 'อ่างทอง',
       'อำนาจเจริญ', 'อุดรธานี', 'อุตรดิตถ์', 'อุทัยธานี', 'อุบลราชธานี'],
      dtype=objec

In [38]:
name_match, ratio_match = match_names(wrong_names, correct_names)

table4['province'] = pd.Series(name_match, index=table3.index)

#table4.tail()


Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100,sum_row,ext_row
1217,อุบลราชธานี,สาโรง,10859,42.16,14899,57.84,8837,36.17,15595,63.83,False,False
1218,อุบลราชธานี,สิรินธร,10668,56.5,8215,43.5,9067,52.08,8343,47.92,False,False
1219,อุบลราชธานี,เหล่าเสือโกก,7305,64.2,4073,35.8,7197,57.82,5251,42.18,False,False
1220,อุบลราชธานี,นอกเขต,1080,66.3,549,33.7,944,58.16,679,41.84,False,True
1221,อุบลราชธานี,ผลรวม,413901,54.77,341848,45.23,353493,49.83,355885,50.17,True,False


## correct districts

In [39]:
## correct the districts
# wrong data set
wrong_names = table3[~(table3['sum_row'] | table3['ext_row'])]['district'].values

# correct data set
choices_df  = pd.read_csv('../district/dist_list.csv')
correct_names=choices_df['AMP_NAME_TH'].values


name_match, ratio_match = match_names(wrong_names, correct_names)

ind = table3[~(table3['sum_row'] | table3['ext_row'])]['district'].index
table4.loc[ind, 'district'] = pd.Series(name_match, index=ind)

## show data
table4.sample(10)

Unnamed: 0,province,district,one_aye,one_aye100,one_nay,one_nay100,two_aye,two_aye100,two_nay,two_nay100,sum_row,ext_row
701,ยโสธร,ไทยเจริญ,4491,35.58,8131,64.42,3852,32.42,8030,67.58,False,False
458,น่าน,นอกเขต,352,63.54,202,36.46,305,54.95,250,45.05,False,True
139,ขอนแก่น,สีชมพู,10271,38.48,16421,61.52,8824,35.71,15885,64.29,False,False
4,กรุงเทพมหานคร,คลองสามวา,50073,68.6,22921,31.4,46745,65.17,24983,34.83,False,False
755,ระยอง,เมืองระยอง,85193,79.88,21460,20.12,78997,76.39,24409,23.61,False,False
219,ชุมพร,พะโต๊ะ,9798,88.71,1247,11.29,9237,85.93,1513,14.07,False,False
504,ปทุมธานี,นอกเขต,4019,56.47,3098,43.53,3661,51.72,3417,48.28,False,True
990,สระบุรี,หนองโดน,3686,53.6,3191,46.4,3361,50.96,3235,49.04,False,False
957,สมุทรสงคราม,อัมพวา,17805,76.7,5410,23.3,16281,73.02,6015,26.98,False,False
1100,สุรินทร์,รัตนบุรี,13867,41.95,19186,58.05,11730,37.94,19189,62.06,False,False


# Export CSV

In [48]:
ind2 = table3[~table3['sum_row']]['district'].index
table4.loc[ind2, predefined_head].to_csv(r'results_by_districts.csv', index = None, header=True)

ind2 = table3[table3['sum_row']]['district'].index
table4.loc[ind2, predefined_head].to_csv(r'results_by_prov.csv', index = None, header=True)