Manage Declaration 2020
===

In [3]:
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
import io
import pandas as pd
from data import get_data
from time import time
import joblib
from collections import Counter
pd.set_option('display.max_rows', 20, 
              'display.max_columns', 100)

In [2]:
def load_excel(files,sheets):
    '''
    # example
    
    files = "data/master_declaration.xlsx"
    sheets = 'deci'
'''
    df = pd.read_excel(files, sheet_name=sheets)
    
    return df

def print_df_info(df):
    print("Original Dataframe:")
    print(df.shape)
    print("\nDuplicate rows of DataFrame:")
    print(df.duplicated().sum())
    print("\nNaN values of DataFrame")
    print(df.isnull().sum())

def drop_df(df,subsets=None, keeps='last'):
    
    data = df.drop_duplicates(subset=subsets, keep=keeps)
    
    return data

def drop_nan(df,axiss=0):
    df = df.dropna(axis=axiss) 
    
    return df

def save_df(df,files = 'data/temp.pkl'):
    print("Save DataFrame...")

    joblib.dump(df,files, compress=1)
    
    print('success')

def load_df(files = 'data/temp.pkl'):
    print("Load DataFrame...")

    df = joblib.load(files)
    
    print('Load data success')
    return df


In [13]:
files = "data/master_declaration.xlsx"
sheets = 'deci'

master = load_excel(files,sheets)

master.sample(20)

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description_th,description,year
38701,A0010611102694,0,73209010,แหนบหลังทั้งชุด,"SPRING ASSY, RR",61
57668,A0010620711676,0,40169911,ชิ้นส่วนทำด้วยยาง,"STOPPER, BACK DOOR, LWR",62
354590,A0010630704515,0,62171090,ผ้าผูกผม,M76199 BB BAND.MNG L.GO.,63
429737,A0010630711944,0,73079990,ข้อต่อสำหรับเครื่องฉีดพลาสติกทำจากเหล็ก,BUSHING SBU03-020F 3/8-1/4,63
295813,A0010630616269,0,85444299,สายลั่นชัตเตอร์กล้องถ่ายรูป,S-F3 REMOTE SHUTTER CORD,63
18432,A0010601104359,0,87089510,ถุงลมนิรภัยด้านหน้า,"AIR BAG ASSY, INSTR PNL PASS L/DOOR 739600K020",60
316691,A0010630700944,0,39249090,อุปกรณ์ของใช้ในบ้าน,ACCESSORIES (PLASTIC),63
391920,A0010630707951,0,87083029,ส่วนประกอบเบรกรถยนต์,"CYLINDER ASSY, BRAKE MASTER",63
148698,A0010630601785,0,39173999,ท่อพลาสติก,SHRINK TUBE SUMITUBE F4(Z)2*0.1*200M BLACK(382...,63
180580,A0010630604372,0,39269099,ชิ้นส่วนทำด้วยพลาสติก,"SEAL,RR PLR INN",63


In [14]:
df = master.copy()
print_df_info(df)


Original Dataframe:
(499542, 6)

Duplicate rows of DataFrame:
181164

NaN values of DataFrame
DeclarationNo       0
DocumentType        0
TariffCode          0
description_th    269
description       295
year                0
dtype: int64


In [15]:
df = drop_df(df)
df = drop_nan(df)
df.shape

(318018, 6)

In [16]:
df

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description_th,description,year
0,A0010520406858,0,87084023,ส่วนประกอบเกียร์รถยนต์,"TOYOTA CKD COMPONENT PARTS.TRANSAXLE ASSY, AUT...",52
1,A0010520406858,0,87084023,ส่วนประกอบเกียร์รถยนต์,"TRANSAXLE ASSY, AUTO W/TORQUE CONVERTER",52
2,A0010520406858,0,39263000,อุปกรณ์ติดตั้งสำหรับตัวถังรถยนต์ทำด้วยพลาสติก,"HANDLE SUB-ASSY, FR DOOR, INSIDE RH",52
3,A0010520406858,0,39263000,อุปกรณ์ติดตั้งสำหรับตัวถังรถยนต์ทำด้วยพลาสติก,"HANDLE SUB-ASSY, FR DOOR, INSIDE LH",52
7,A0010520406858,0,87082993,ส่วนประกอบตัวถังรถยนต์,"PLUG, DOOR INSIDE HANDLE BEZEL, RH",52
...,...,...,...,...,...,...
499534,A0010630902061,0,87089999,ท่อหัวฉีดซึมรั่ว,"PIPE SUB-ASSY, NOZZLE LEAKAGE",63
499535,A0010630902061,0,87089980,ชุดท่อจ่ายน้ำมันแป๊ปหัวฉีด,"RAIL ASSY, COMMON",63
499536,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #1,"PIPE, FUEL, NO.1",63
499539,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #4,"PIPE, FUEL, NO.4",63


In [17]:
Counter(df["year"])

Counter({52: 368,
         53: 102,
         54: 33,
         55: 13,
         56: 540,
         57: 243,
         58: 292,
         59: 2596,
         60: 13429,
         61: 12643,
         62: 18659,
         63: 269100})

In [18]:
df = df[df['year']==63]
df

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description_th,description,year
78053,A0010630100020,0,85287111,แอปเปิ้ลทีวี,APPLE TV HD (32GB)-THA A1625,63
78054,A0010630100020,0,85287111,แอปเปิ้ลทีวี,APPLE TV 4K (64GB)-THA A1842,63
78056,A0010630100302,0,83082000,หมุดย้ำทำด้วยอลูมิเนียม,MGLP-B8-6 TUBULAR & BREAK MANDREL BLIND RIVETA...,63
78057,A0010630200545,0,25232990,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 11...,SUPER CEMENT 40 KG. IN PRE-SLING,63
78058,A0010630200545,0,25232990,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 1...,TIGER PLASTERING CEMENT IN PRE-SLING,63
...,...,...,...,...,...,...
499534,A0010630902061,0,87089999,ท่อหัวฉีดซึมรั่ว,"PIPE SUB-ASSY, NOZZLE LEAKAGE",63
499535,A0010630902061,0,87089980,ชุดท่อจ่ายน้ำมันแป๊ปหัวฉีด,"RAIL ASSY, COMMON",63
499536,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #1,"PIPE, FUEL, NO.1",63
499539,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #4,"PIPE, FUEL, NO.4",63


In [19]:
df = df[[ 'TariffCode', 'description','description_th']]
df.columns = ['tariff', 'description','description_th']
df

Unnamed: 0,tariff,description,description_th
78053,85287111,APPLE TV HD (32GB)-THA A1625,แอปเปิ้ลทีวี
78054,85287111,APPLE TV 4K (64GB)-THA A1842,แอปเปิ้ลทีวี
78056,83082000,MGLP-B8-6 TUBULAR & BREAK MANDREL BLIND RIVETA...,หมุดย้ำทำด้วยอลูมิเนียม
78057,25232990,SUPER CEMENT 40 KG. IN PRE-SLING,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 11...
78058,25232990,TIGER PLASTERING CEMENT IN PRE-SLING,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 1...
...,...,...,...
499534,87089999,"PIPE SUB-ASSY, NOZZLE LEAKAGE",ท่อหัวฉีดซึมรั่ว
499535,87089980,"RAIL ASSY, COMMON",ชุดท่อจ่ายน้ำมันแป๊ปหัวฉีด
499536,87089999,"PIPE, FUEL, NO.1",ท่อน้ำมันเชื้อเพลิง #1
499539,87089999,"PIPE, FUEL, NO.4",ท่อน้ำมันเชื้อเพลิง #4


In [10]:
files =  'data/temp.pkl'

save_df(df,files)

Save DataFrame...
success


In [20]:
files =  'data/temp.pkl'
decx = load_df(files)

Load DataFrame...
Load data success


In [21]:
writer = pd.ExcelWriter("data/declaration_2020.xlsx")

df.to_excel(writer,"deci", index=True)
decx.to_excel(writer,"decx", index=True)
writer.save()
print('success')

success


In [None]:
# Concat

data = pd.concat([decx, df], ignore_index=True)
data

In [22]:
df.columns

Index(['DeclarationNo', 'DocumentType', 'TariffCode', 'description',
       'description_th', 'year'],
      dtype='object')

In [20]:
Counter(data["year"])

Counter({55: 53,
         56: 65,
         58: 41,
         59: 8,
         60: 271,
         61: 212,
         62: 1896,
         63: 337336,
         53: 2,
         57: 2})

In [21]:
decx = data[data['year']==63]
decx

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description,description_th,year
2288,A0011630100114,1,21069099,MEAL,อาหารสำเร็จรูป,63
2289,A0011630100114,1,22029990,MISCELLANEOUS,เครื่องดื่มและอื่นๆ,63
2290,A0011630100126,1,21069099,MEAL,อาหารสำเร็จรูป,63
2291,A0011630100126,1,22029990,MISCELLANEOUS,เครื่องดื่มและอื่นๆ,63
2292,A0011630100270,1,40111000,RADIAL TIRE 4011100000,ยางเรเดียล,63
...,...,...,...,...,...,...
499578,A0021630403242,1,87089980,"BRACKET,RR BUMPER SIDE,LH",ขายึดมุมกันชนหลัง ซ้าย,63
499579,A0021630403242,1,83023090,"LATCH,RR BODY RR GATE,RH",กลอนฝากระบะท้าย,63
499580,A0021630403242,1,87082100,"COVER,2ND SEAT BELT SASH GUIDE",ฝาครอบน๊อต,63
499581,A0021630403242,1,87082920,"SEAT BELT,RR SEAT,INR LH",ตัวล็อคเข็มขัดนิรภัย,63


In [14]:
deci = data.copy()
deci

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description_th,description,year
0,A0010520406858,0,87084023,ส่วนประกอบเกียร์รถยนต์,"TOYOTA CKD COMPONENT PARTS.TRANSAXLE ASSY, AUT...",52
1,A0010520406858,0,87084023,ส่วนประกอบเกียร์รถยนต์,"TRANSAXLE ASSY, AUTO W/TORQUE CONVERTER",52
2,A0010520406858,0,39263000,อุปกรณ์ติดตั้งสำหรับตัวถังรถยนต์ทำด้วยพลาสติก,"HANDLE SUB-ASSY, FR DOOR, INSIDE RH",52
3,A0010520406858,0,39263000,อุปกรณ์ติดตั้งสำหรับตัวถังรถยนต์ทำด้วยพลาสติก,"HANDLE SUB-ASSY, FR DOOR, INSIDE LH",52
4,A0010520406858,0,39263000,อุปกรณ์ติดตั้งสำหรับตัวถังรถยนต์ทำด้วยพลาสติก,"HANDLE ASSY, FR DOOR, OUTSIDE RH",52
...,...,...,...,...,...,...
499534,A0010630902061,0,87089999,ท่อหัวฉีดซึมรั่ว,"PIPE SUB-ASSY, NOZZLE LEAKAGE",63
499535,A0010630902061,0,87089980,ชุดท่อจ่ายน้ำมันแป๊ปหัวฉีด,"RAIL ASSY, COMMON",63
499536,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #1,"PIPE, FUEL, NO.1",63
499537,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #4,"PIPE, FUEL, NO.4",63


In [22]:
deci = deci[deci['year']==63]
deci

Unnamed: 0,DeclarationNo,DocumentType,TariffCode,description_th,description,year
78053,A0010630100020,0,85287111,แอปเปิ้ลทีวี,APPLE TV HD (32GB)-THA A1625,63
78054,A0010630100020,0,85287111,แอปเปิ้ลทีวี,APPLE TV 4K (64GB)-THA A1842,63
78055,A0010630100302,0,83082000,หมุดย้ำทำด้วยอลูมิเนียม,MGLP-B8-6 TUBULAR & BREAK MANDREL BLIND RIVETA...,63
78057,A0010630200545,0,25232990,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 11...,SUPER CEMENT 40 KG. IN PRE-SLING,63
78058,A0010630200545,0,25232990,ปูนซิเมนต์ผสม //FORM D No. 20120097 Date : 1...,TIGER PLASTERING CEMENT IN PRE-SLING,63
...,...,...,...,...,...,...
499534,A0010630902061,0,87089999,ท่อหัวฉีดซึมรั่ว,"PIPE SUB-ASSY, NOZZLE LEAKAGE",63
499535,A0010630902061,0,87089980,ชุดท่อจ่ายน้ำมันแป๊ปหัวฉีด,"RAIL ASSY, COMMON",63
499536,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #1,"PIPE, FUEL, NO.1",63
499537,A0010630902061,0,87089999,ท่อน้ำมันเชื้อเพลิง #4,"PIPE, FUEL, NO.4",63


In [3]:
files = "data/declaration_2020.xlsx"
sheets = 'decx'

In [4]:
decx = load_excel(files,sheets)
decx

Unnamed: 0,no.,section,chapter,heading,sub-heading,tariff,description,description_th
0,1,4,21,2106,210690,21069099,MEAL,อาหารสำเร็จรูป
1,2,4,22,2202,220299,22029990,MISCELLANEOUS,เครื่องดื่มและอื่นๆ
2,3,4,21,2106,210690,21069099,MEAL,อาหารสำเร็จรูป
3,4,4,22,2202,220299,22029990,MISCELLANEOUS,เครื่องดื่มและอื่นๆ
4,5,7,40,4011,401110,40111000,RADIAL TIRE 4011100000,ยางเรเดียล
...,...,...,...,...,...,...,...,...
330661,330662,17,87,8708,870899,87089980,"BRACKET,RR BUMPER SIDE,LH",ขายึดมุมกันชนหลัง ซ้าย
330662,330663,15,83,8302,830230,83023090,"LATCH,RR BODY RR GATE,RH",กลอนฝากระบะท้าย
330663,330664,17,87,8708,870821,87082100,"COVER,2ND SEAT BELT SASH GUIDE",ฝาครอบน๊อต
330664,330665,17,87,8708,870829,87082920,"SEAT BELT,RR SEAT,INR LH",ตัวล็อคเข็มขัดนิรภัย


In [5]:
Counter(decx["section"])

Counter({4: 21853,
         7: 55885,
         9: 1485,
         18: 7389,
         16: 77038,
         15: 40872,
         6: 16124,
         8: 1628,
         14: 7392,
         11: 11137,
         17: 62871,
         13: 5425,
         2: 3029,
         20: 9808,
         10: 3416,
         12: 1900,
         5: 2875,
         21: 145,
         3: 392,
         19: 2})

In [None]:
!pip3  pythainlp

In [4]:
from pythainlp.util import isthai
def check_isthai(text):
    r = isthai(text)
    return r

ModuleNotFoundError: No module named 'pythainlp'

In [46]:
txt = "กาลเวลา, การเวลา-ก,  3.75$"
a = check_isthai(txt)
print(type(a))
a

<class 'bool'>


True

In [7]:
txt = decx['description_th']
txt

0                    อาหารสำเร็จรูป
1               เครื่องดื่มและอื่นๆ
2                    อาหารสำเร็จรูป
3               เครื่องดื่มและอื่นๆ
4                        ยางเรเดียล
                    ...            
330661       ขายึดมุมกันชนหลัง ซ้าย
330662              กลอนฝากระบะท้าย
330663                   ฝาครอบน๊อต
330664         ตัวล็อคเข็มขัดนิรภัย
330665    ยางรองคิ้วขอบบังโคลน ซ้าย
Name: description_th, Length: 330666, dtype: object

In [95]:
import re
def clean_str(str):
    """
    Cleans a ticker for easier use throughout MoneyTree

    Splits by space and only keeps first bit. Also removes
    any characters that are not letters. Returns as lowercase. / uppercase

    >>> clean_ticker('^VIX')
    'vix'
    >>> clean_ticker('SPX Index')
    'spx'
    """
    x = re.findall("\D", str)
    #res = pattern.sub('', ticker.split(' ')[0])
   
    
   
    return x
  



    def clean_strs(strs):
        """
        Maps clean_ticker over tickers. (แยก ticker ออกมาทีละ 1 digit)
        """
        return [clean_str(x) for x in strs]

In [110]:
txt[0] = 'อาหารสำเร็จรูป'

In [99]:
x = re.findall("\D", txt)

TypeError: expected string or bytes-like object

In [111]:
a = txt[0]
x = re.findall("\D", a)
c = countthai((x)
c

True

In [49]:
check_isthai(x)

True

In [1]:
txt = '''
จากสมการ3.1 เรามาทำความเข้าใจหลักการทำงานของสมการ Gradient Descentกัน เริ่มต้นจากทางซ้ายตัว \theta_{่j} ในกรณีของเราคือ \theta_{0} และ \theta_{1} ซึ่งเราต้องอัพเดทค่า \theta_{่j} ทางซ้ายไปพร้อมๆกับทางขวาของเครื่องหมาย := เราเรียกว่า “Simultaneous update” โดยเราต้องคิด \theta_{0} และ \theta_{1} ที่ละตัวดังสมการ(3.2 และ 3.3) แต่อัพเดทค่าทั้งสองหลังจากที่คำนวณครบทั้งสองค่าแล้ว ถัดมาสัญลักษณ์ \alpha เรียกว่า “Learning rate” ซึ่งเป็นตัวที่กำหนดความเร็วในการ Train หรือ ถ้านึกถึงตัวอย่างข้างต้นเรื่องการเดินลงจากยอดเขา \alpha ก็ระยะห่างของก้าวแต่ละก้าว ถ้าค่า \alpha มาก ก้าวที่ก้าวก็จะใหญ่ที่จะเดินลงจากยอดเขา แต่ก็ไม่ใช่ว่ายิ่งเราใช้ค่า \alpha มากระบบของเราจะหาจุด Opimum ได้เร็วเพราะถ้าค่า \alpha มากเกินไปก็จะทำให้ระบบข้ามจุดที่ต่ำที่สุดไปได้นึกถึงการกระโดดไปมาบนปากหลุมแต่ลงไปไม่ได้เพราะก้าวใหญ่เกิน \alpha มากระบบของเราจะหาจุด Opimum ได้เร็วเพราะถ้าค่า \alpha มากเกินไปก็จะทำให้ระบบข้ามจุดที่ต่ำที่สุดไปได้นึกถึงการกระโดดไปมาบนปากหลุมแต่ลงไปไม่ได้เพราะก้าวใหญ่เกิน และก็ไม่ควรจะให้ค่าน้อยเกินไปเพราะจะทำให้ระบบของเราใช้เวลาการ Train ช้ามาก ซึ่งแม้ \alpha จะเป็นค่าคงที่แต่ก้าวแต่ละก้าวจะมีความห่างที่ไม่เท่ากัน จากรูปที่ 3.3A และ 3.3B ซึ่งก้าวที่เข้าใกล้จุด Optimum จะค่อยๆเล็กลงเรื่อยๆ จนถึงจุด convergence ก็จะได้จุด minimize ของ Squared error Cost function
'''

In [2]:
from pythainlp.util import countthai

c = countthai((txt)) 

ModuleNotFoundError: No module named 'pythainlp'

In [12]:
from pythainlp.util import countthai

results = []
a = ""

for i in range(len(txt)):
    a = (txt[i])
    
    c = countthai((a)) 
    results.append(c)
                   
results    
    

[100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 88.46153846153845,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 72.22222222222221,
 72.22222222222221,
 68.42105263157895,
 68.42105263157895,
 72.22222222222221,
 68.42105263157895,
 68.42105263157895,
 68.42105263157895,
 72.22222222222221,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 100.0,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 83.87096774193549,
 100.0,
 85.58558558558559,
 79.83870967741935,
 81.06060606060606,
 100.0,
 100.0,
 100.0,
 100.0,
 85.71428571428571,
 100.0,
 100.0,
 85.71428571428571,
 85.71428571

In [16]:
min(results)

0.0

## Writer Multi Sheet to Excel

In [25]:
writer = pd.ExcelWriter("data/decl_2020.xlsx")

deci.to_excel(writer,"deci", index=True)
decx.to_excel(writer,"decx", index=True)
writer.save()
print('success')

success
