# หัดใช้ profile module

## Python 102
บทความสอน [cProfile](https://www.blog.pythonlibrary.org/2014/03/20/python-102-how-to-profile-your-code/)

In [None]:
import hashlib
import random, re
from collections import Counter
import cProfile

In [None]:
cProfile.run("hashlib.md5(b'abcdefghijkl').digest()")

         5 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 {built-in method _hashlib.openssl_md5}
        1    0.000    0.000    0.000    0.000 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 {method 'digest' of '_hashlib.HASH' objects}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}




In [None]:
import time

def fast():
    """"""
    print("I run fast!")

def slow():
    """"""
    time.sleep(3)
    print("I run slow!")

def medium():
    """"""
    time.sleep(0.5)
    print("I run a little slowly...")

def main():
    """"""
    fast()
    slow()
    medium()

In [None]:
cProfile.run("main()")

I run fast!
I run slow!
I run a little slowly...
         105 function calls in 3.509 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.501    0.501 <ipython-input-3-0f18e5e566c3>:12(medium)
        1    0.000    0.000    3.509    3.509 <ipython-input-3-0f18e5e566c3>:17(main)
        1    0.000    0.000    0.005    0.005 <ipython-input-3-0f18e5e566c3>:3(fast)
        1    0.000    0.000    3.003    3.003 <ipython-input-3-0f18e5e566c3>:7(slow)
        1    0.000    0.000    3.509    3.509 <string>:1(<module>)
        9    0.005    0.001    0.005    0.001 iostream.py:180(schedule)
        6    0.000    0.000    0.000    0.000 iostream.py:284(_is_master_process)
        6    0.000    0.000    0.000    0.000 iostream.py:297(_schedule_flush)
        6    0.000    0.000    0.005    0.001 iostream.py:342(write)
        9    0.000    0.000    0.000    0.000 iostream.py:87(_event_pipe)
        9    0.0

## A look analytics
[บทความ](https://blog.alookanalytics.com/2017/03/21/python-profiling-basics/)

In [None]:
pr = cProfile.Profile()
pr.enable()

# call_function()

pr.disable()

pr.print_stats(sort='time')

         10 function calls in 0.000 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 {built-in method builtins.compile}
        1    0.000    0.000    0.000    0.000 interactiveshell.py:2852(run_code)
        1    0.000    0.000    0.000    0.000 codeop.py:132(__call__)
        1    0.000    0.000    0.000    0.000 <ipython-input-5-f7bc752c1c70>:6(<module>)
        1    0.000    0.000    0.000    0.000 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}
        1    0.000    0.000    0.000    0.000 hooks.py:139(__call__)
        1    0.000    0.000    0.000    0.000 interactiveshell.py:1067(user_global_ns)
        1    0.000    0.000    0.000    0.000 hooks.py:204(pre_run_code_hook)
        1    0.000    0.000    0.000    0.000 ipstruct.py:125(__getattr__)




In [None]:
data = [random.randint(0, 99) for p in range(0, 10000000)]

In [None]:
len(data)

10000000

### ใช้ dict

In [None]:
def calculate_occurences_list(data):

    result = {}
    for i in range(0, 100):
        result[i] = 0

    for element in data:
        result[element] += 1

    return result

In [None]:
pr = cProfile.Profile()
pr.enable()

calculate_occurences_list(data)

pr.disable()
pr.print_stats(sort='time')

         20 function calls in 0.957 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.957    0.957    0.957    0.957 <ipython-input-8-faba46ebb883>:1(calculate_occurences_list)
        2    0.000    0.000    0.000    0.000 {built-in method builtins.compile}
        2    0.000    0.000    0.957    0.479 interactiveshell.py:2852(run_code)
        2    0.000    0.000    0.000    0.000 codeop.py:132(__call__)
        1    0.000    0.000    0.957    0.957 <ipython-input-9-11b97b1b504c>:4(<module>)
        2    0.000    0.000    0.957    0.479 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 <ipython-input-9-11b97b1b504c>:6(<module>)
        2    0.000    0.000    0.000    0.000 hooks.py:139(__call__)
        2    0.000    0.000    0.000    0.000 ipstruct.py:125(__getattr__)
        2    0.000    0.000    0.000    0.000 interactiveshell.py:1067(user_global_ns)
        1    0.000    0.000 

### ใช้ Counter

In [None]:
pr = cProfile.Profile()
pr.enable()

Counter(data).items()

pr.disable()
pr.print_stats(sort='time')

         29 function calls in 0.631 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.630    0.630    0.630    0.630 {built-in method _collections._count_elements}
        1    0.000    0.000    0.631    0.631 __init__.py:586(update)
        2    0.000    0.000    0.000    0.000 {built-in method builtins.compile}
        2    0.000    0.000    0.631    0.315 interactiveshell.py:2852(run_code)
        1    0.000    0.000    0.631    0.631 <ipython-input-10-fadca3c512a0>:4(<module>)
        2    0.000    0.000    0.000    0.000 codeop.py:132(__call__)
        1    0.000    0.000    0.631    0.631 __init__.py:517(__init__)
        1    0.000    0.000    0.000    0.000 abc.py:178(__instancecheck__)
        1    0.000    0.000    0.000    0.000 <ipython-input-10-fadca3c512a0>:6(<module>)
        2    0.000    0.000    0.000    0.000 hooks.py:139(__call__)
        2    0.000    0.000    0.000    0.000 ipstruct.py:125

## Context manager
ช่วยให้ call ง่ายขึ้น

In [None]:
import contextlib

@contextlib.contextmanager
def profile(*args, **kwargs):
    profile = cProfile.Profile(*args, **kwargs)
    profile.enable()
    yield
    profile.disable()
    profile.print_stats(sort='time')

In [None]:
with profile():
  Counter(data).items()

         14 function calls in 0.644 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.643    0.643    0.643    0.643 {built-in method _collections._count_elements}
        1    0.001    0.001    0.644    0.644 __init__.py:586(update)
        1    0.000    0.000    0.644    0.644 __init__.py:517(__init__)
        1    0.000    0.000    0.000    0.000 contextlib.py:85(__exit__)
        1    0.000    0.000    0.000    0.000 abc.py:178(__instancecheck__)
        2    0.000    0.000    0.000    0.000 _weakrefset.py:70(__contains__)
        1    0.000    0.000    0.000    0.000 {built-in method builtins.isinstance}
        1    0.000    0.000    0.000    0.000 <ipython-input-11-6f04be3c0b85>:3(profile)
        1    0.000    0.000    0.000    0.000 {method 'items' of 'dict' objects}
        2    0.000    0.000    0.000    0.000 {built-in method builtins.len}
        1    0.000    0.000    0.000    0.000 {built-in meth

# Test ตัดคำ
ดูว่า onecut ช้ากว่า multicut เพราะอะไร เดาว่า เพราะ list ช้ากว่า string และยังเป็น depth first อยู่ น่าจะปรับเป็น breadth first แทน

In [None]:
!pip install -q marisa_trie
!wget -nv https://github.com/PyThaiNLP/pythainlp/raw/dev/pythainlp/corpus/thaiword.txt

2018-02-03 12:38:14 URL:https://raw.githubusercontent.com/PyThaiNLP/pythainlp/dev/pythainlp/corpus/thaiword.txt [1245519/1245519] -> "thaiword.txt" [1]


In [None]:
import re
from collections import defaultdict
from heapq import heappush, heappop  # for priority queue
from marisa_trie import Trie

wordlist = [li.strip() for li in open('thaiword.txt')]
trie = Trie(wordlist)

# ช่วยตัดพวกภาษาอังกฤษ เป็นต้น
pat_eng = re.compile(r'''(?x)
[-a-zA-Z]+|   # english
\d[\d,\.]*|   # number
[ \t]+|       # space
\r?\n         # newline
''')

In [None]:
# TCC
pat_tcc = """\
เc็c
เcctาะ
เccีtยะ
เccีtย(?=[เ-ไก-ฮ]|$)
เccอะ
เcc็c
เcิc์c
เcิtc
เcีtยะ?
เcืtอะ?
เc[ิีุู]tย(?=[เ-ไก-ฮ]|$)
เctา?ะ?
cัtวะ
c[ัื]tc[ุิะ]?
c[ิุู]์
c[ะ-ู]t
c็
ct[ะาำ]?
แc็c
แcc์
แctะ
แcc็c
แccc์
โctะ
[เ-ไ]ct
""".replace('c','[ก-ฮ]').replace('t', '[่-๋]?').split()

def tcc(w):
    p = 0
    pat = re.compile("|".join(pat_tcc))
    while p<len(w):
        m = pat.match(w[p:])
        if m:
            n = m.end()
        else:
            n = 1
        yield w[p:p+n]
        p += n

def tcc_pos(text):
    p_set = set()
    p = 0
    for w in tcc(text):
        p += len(w)
        p_set.add(p)
    return p_set

In [None]:
def serialize(words_at, p, p2):
  # find path ทั้งหมด แบบ depth first
  if p in words_at:
    for w in words_at[p]:
      p_ = p + len(w)
      if p_== p2:
        yield [w]
      elif p_ < p2:
        for path in serialize(words_at, p_, p2):
          yield [w]+path

In [None]:
def onecut(text):
  global words_at, graph
  words_at = defaultdict(list)  # main data structure
  # graph = defaultdict(list)
  allow_pos = tcc_pos(text)     # ตำแหน่งที่ตัด ต้องตรงกับ tcc

  q = [0]       # min-heap queue
  last_p = 0    # last position for yield
  while q[0] < len(text):
      p = heappop(q)

      for w in trie.prefixes(text[p:]):
          p_ = p + len(w)
          if p_ in allow_pos:  # เลือกที่สอดคล้อง tcc
            words_at[p].append(w)
            if p_ not in q:
              heappush(q, p_)

      # กรณี length 1 คือ ไม่กำกวมแล้ว ส่งผลลัพธ์ก่อนนี้คืนได้
      if len(q)==1:
          paths = serialize(words_at, last_p, q[0])
          for w in min(paths, key=len):
            yield w
          last_p = q[0]

      # กรณี length 0  คือ ไม่มีใน dict
      if len(q)==0:
          m = pat_eng.match(text[p:])
          if m: # อังกฤษ, เลข, ว่าง
              i = p + m.end()
          else: # skip น้อยที่สุด ที่เป็นไปได้
              for i in range(p+1, len(text)):
                  if i in allow_pos:   # ใช้ tcc ด้วย
                      ww = trie.prefixes(text[i:])
                      m = pat_eng.match(text[i:])
                      if ww or m:
                          break
              else:
                  i = len(text)
          w = text[p:i]
          words_at[p].append(w)
          yield w
          last_p = i
          heappush(q, i)

# ช่วยให้ไม่ต้องพิมพ์ยาวๆ
def mmcut(text):
  return list(onecut(text))

In [None]:
text = 'สวัสดีครับ สบายดีไหมครับ จะไปเที่ยวที่ไหนดี'
with profile():
  mmcut(text)

         5373 function calls (5229 primitive calls) in 0.005 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
       66    0.001    0.000    0.001    0.000 sre_compile.py:250(_optimize_charset)
    29/25    0.001    0.000    0.002    0.000 sre_parse.py:470(_parse)
     53/1    0.000    0.000    0.003    0.003 sre_compile.py:64(_compile)
      446    0.000    0.000    0.000    0.000 sre_parse.py:232(__next)
       53    0.000    0.000    0.000    0.000 sre_parse.py:111(__init__)
      313    0.000    0.000    0.000    0.000 sre_parse.py:163(__getitem__)
     1170    0.000    0.000    0.000    0.000 {method 'append' of 'list' objects}
      212    0.000    0.000    0.000    0.000 {method 'find' of 'bytearray' objects}
1076/1052    0.000    0.000    0.000    0.000 {built-in method builtins.len}
       66    0.000    0.000    0.002    0.000 sre_compile.py:223(_compile_charset)
      352    0.000    0.000    0.000    0.000 sre_pa

In [None]:
%%timeit
mmcut(text)

10000 loops, best of 3: 124 µs per loop


In [None]:
words_at

defaultdict(list,
            {0: ['ส', 'สวัสดี'],
             1: [],
             6: ['ครับ'],
             10: [' '],
             11: ['ส', 'สบาย', 'สบายดี'],
             12: ['บา', 'บาย'],
             14: [],
             15: ['ดี'],
             17: ['ไห', 'ไหม'],
             19: [],
             20: ['ครับ'],
             24: [' '],
             25: ['จะ'],
             27: ['ไป', 'ไปเที่ยว'],
             29: ['เที่ยว'],
             35: ['ที่', 'ที่ไหน'],
             38: ['ไห', 'ไหน'],
             40: ['น'],
             41: ['ดี']})

## เปรียบเทียบ serialize
serialize แบบไหนเร็ว/ช้า

## Breadth First Search
จะได้ตัวสั้นสุดโดยไม่ต้องมา sort ใหม่ เอาตัวอย่างจาก [เว็บนี้](http://eddmann.com/posts/depth-first-search-and-breadth-first-search-in-python/)

In [None]:
def bfs_paths(graph, start, goal):
    queue = [(start, [start])]
    while queue:
        (vertex, path) = queue.pop(0)
        for next in graph[vertex] - set(path):
            if next == goal:
                yield path + [next]
            else:
                queue.append((next, path + [next]))

# list(bfs_paths(graph, 'A', 'F'))

In [None]:
def bfs_paths(words_at, start, goal):
  queue = [(start, [start])]
  while queue:
    (vertex, path) = queue.pop(0)
    for w in words_at[vertex]:
      next = vertex + len(w)
      if next == goal:
        yield path + [next]
      else:
        queue.append((next, path+[next]))

In [None]:
mmcut('สวัสดีครับ สบายดีไหมครับ')

['สวัสดี', 'ครับ', ' ', 'สบายดี', 'ไหม', 'ครับ']

In [None]:
words_at

defaultdict(list,
            {0: ['ส', 'สวัสดี'],
             6: ['ครับ'],
             10: [' '],
             11: ['ส', 'สบาย', 'สบายดี'],
             12: ['บา', 'บาย'],
             15: ['ดี'],
             17: ['ไห', 'ไหม'],
             20: ['ครับ']})

In [None]:
print(mmcut('ตากลม'))
words_at

['ตากลม']


defaultdict(list, {0: ['ตา', 'ตาก', 'ตากลม'], 2: ['กล', 'กลม'], 3: ['ลม']})

In [None]:
next(bfs_paths_1(words_at, 0, 5))

[0, 5]

In [None]:
mmcut(text)
words_at

defaultdict(list,
            {0: ['ส', 'สวัสดี'],
             1: [],
             6: ['ครับ'],
             10: [' '],
             11: ['ส', 'สบาย', 'สบายดี'],
             12: ['บา', 'บาย'],
             14: [],
             15: ['ดี'],
             17: ['ไห', 'ไหม'],
             19: [],
             20: ['ครับ'],
             24: [' '],
             25: ['จะ'],
             27: ['ไป', 'ไปเที่ยว'],
             29: ['เที่ยว'],
             35: ['ที่', 'ที่ไหน'],
             38: ['ไห', 'ไหน'],
             40: ['น'],
             41: ['ดี']})

In [None]:
words_at

defaultdict(list,
            {0: ['ส', 'สวัสดี'],
             1: [],
             6: ['ครับ'],
             10: [' '],
             11: ['ส', 'สบาย', 'สบายดี'],
             12: ['บา', 'บาย'],
             14: [],
             15: ['ดี'],
             17: ['ไห', 'ไหม'],
             19: [],
             20: ['ครับ'],
             24: [' '],
             25: ['จะ'],
             27: ['ไป', 'ไปเที่ยว'],
             29: ['เที่ยว'],
             35: ['ที่', 'ที่ไหน'],
             38: ['ไห', 'ไหน'],
             40: ['น'],
             41: ['ดี']})

In [None]:
dd = defaultdict(list)
dd

defaultdict(list, {})

In [None]:
dd[1]
dd

defaultdict(list, {1: []})

In [None]:
def onecut_bfs(text):
  global words_at, pp, last_p, q
  words_at = defaultdict(list)  # main data structure
  allow_pos = tcc_pos(text)     # ตำแหน่งที่ตัด ต้องตรงกับ tcc

  q = [0]       # min-heap queue
  last_p = 0    # last position for yield
  while q[0] < len(text):
      p = heappop(q)

      for w in trie.prefixes(text[p:]):
          p_ = p + len(w)
          if p_ in allow_pos:  # เลือกที่สอดคล้อง tcc
            words_at[p].append(w)
            if p_ not in q:
              heappush(q, p_)

      # กรณี length 1 คือ ไม่กำกวมแล้ว ส่งผลลัพธ์ก่อนนี้คืนได้
      if len(q)==1:
          pp = next(bfs_paths(words_at, last_p, q[0]))
          for p in pp[1:]:
            yield text[last_p:p]
            last_p = p
          # สุดท้าย p == q[0] เอง

      # กรณี length 0  คือ ไม่มีใน dict
      if len(q)==0:
          m = pat_eng.match(text[p:])
          if m: # อังกฤษ, เลข, ว่าง
              i = p + m.end()
          else: # skip น้อยที่สุด ที่เป็นไปได้
              for i in range(p+1, len(text)):
                  if i in allow_pos:   # ใช้ tcc ด้วย
                      ww = trie.prefixes(text[i:])
                      m = pat_eng.match(text[i:])
                      if ww or m:
                          break
              else:
                  i = len(text)
          w = text[p:i]
          words_at[p].append(w)
          yield w
          last_p = i
          heappush(q, i)

In [None]:
[1,2,3].pop(0)

1

In [None]:
text = "กฎหมายมหาชน คือ กฎหมายที่บัญญัติให้อำนาจและหน้าที่แก่รัฐ แก่หน่วยงานของรัฐ แก่เจ้าหน้าที่ของรัฐ และแก่ประชาชน ในการบริหาร การปกครองประเทศ และการบริการสาธารณะ ซึ่งหลักการ สำคัญของกฎหมายมหาชนนอกจากจะบัญญัติให้อำนาจและหน้าที่แก่หน่วยงานของรัฐหรือเจ้าหน้าที่ดังที่กล่าวมาแล้ว การใช้อำนาจหน้าที่ที่กฎหมายบัญญัติยังสามารถควบคุมตรวจสอบได้ ตามหลักเกณฑ์และกระบวนการของกฎหมายมหาชนจุ๋มสบายดีไหมที่รัก"
len(text)

389

In [None]:
%%timeit
ww = list(onecut(text))

1000 loops, best of 3: 1.44 ms per loop


In [None]:
%%timeit
ww = list(onecut_bfs(text))   # เร็วขึ้น 7% แต่ขี้เกียจทำต่อแล้ว

1000 loops, best of 3: 1.35 ms per loop


In [None]:
%%timeit
ww = list(onecut_bfs(text))   # ใช้ pp.pop(0) แทน pp[1:]

1000 loops, best of 3: 1.36 ms per loop


In [None]:
list(bfs_paths(words_at, last_p, q[0]))

[[0, 6, 11],
 [0, 2, 6, 11],
 [0, 6, 9, 11],
 [0, 2, 6, 9, 11],
 [0, 6, 9, 10, 11],
 [0, 2, 5, 7, 9, 11],
 [0, 2, 6, 9, 10, 11],
 [0, 2, 5, 7, 9, 10, 11]]

## Graph แทน words_at
อาจจะ debug ยากขึ้นหน่อย แต่น่าจะเร็วกว่า

In [None]:
def bfs_paths_graph(graph, start, goal):
  queue = [(start, [start])]
  while queue:
    (vertex, path) = queue.pop(0)
    for next in graph[vertex]:
      if next == goal:
        yield path + [next]
      else:
        queue.append((next, path+[next]))

In [None]:
def onecut_graph(text):
  # global graph, pp, last_p, q
  graph = defaultdict(list)  # main data structure
  allow_pos = tcc_pos(text)     # ตำแหน่งที่ตัด ต้องตรงกับ tcc

  q = [0]       # min-heap queue
  last_p = 0    # last position for yield
  while q[0] < len(text):
      p = heappop(q)

      for w in trie.prefixes(text[p:]):
          p_ = p + len(w)
          if p_ in allow_pos:  # เลือกที่สอดคล้อง tcc
            graph[p].append(p_)
            if p_ not in q:
              heappush(q, p_)

      # กรณี length 1 คือ ไม่กำกวมแล้ว ส่งผลลัพธ์ก่อนนี้คืนได้
      if len(q)==1:
          pp = next(bfs_paths_graph(graph, last_p, q[0]))
          # เริ่มต้น last_p = pp[0] เอง
          for p in pp[1:]:
            yield text[last_p:p]
            last_p = p
          # สุดท้าย last_p == q[0] เอง

      # กรณี length 0  คือ ไม่มีใน dict
      if len(q)==0:
          m = pat_eng.match(text[p:])
          if m: # อังกฤษ, เลข, ว่าง
              i = p + m.end()
          else: # skip น้อยที่สุด ที่เป็นไปได้
              for i in range(p+1, len(text)):
                  if i in allow_pos:   # ใช้ tcc ด้วย
                      ww = trie.prefixes(text[i:])
                      m = pat_eng.match(text[i:])
                      if ww or m:
                          break
              else:
                  i = len(text)
          w = text[p:i]
          graph[p].append(i)
          yield w
          last_p = i
          heappush(q, i)

In [None]:
%%timeit
ww = list(onecut_graph(text))   # เอา global ออก เร็วขึ้นนิดนึง

1000 loops, best of 3: 1.33 ms per loop


In [None]:
list(onecut_graph(text))

['กฎหมาย',
 'มหาชน',
 ' ',
 'คือ',
 ' ',
 'กฎหมาย',
 'ที่',
 'บัญญัติ',
 'ให้อำนาจ',
 'และ',
 'หน้าที่',
 'แก่',
 'รัฐ',
 ' ',
 'แก่',
 'หน่วยงาน',
 'ของ',
 'รัฐ',
 ' ',
 'แก่',
 'เจ้าหน้าที่',
 'ของ',
 'รัฐ',
 ' ',
 'และ',
 'แก่',
 'ประชาชน',
 ' ',
 'ใน',
 'การบริหาร',
 ' ',
 'การปกครอง',
 'ประเทศ',
 ' ',
 'และ',
 'การ',
 'บริการ',
 'สาธารณะ',
 ' ',
 'ซึ่ง',
 'หลักการ',
 ' ',
 'สำคัญ',
 'ของ',
 'กฎหมาย',
 'มหาชน',
 'นอกจาก',
 'จะ',
 'บัญญัติ',
 'ให้อำนาจ',
 'และ',
 'หน้าที่',
 'แก่',
 'หน่วยงาน',
 'ของ',
 'รัฐ',
 'หรือ',
 'เจ้าหน้าที่',
 'ดัง',
 'ที่กล่าวมา',
 'แล้ว',
 ' ',
 'การ',
 'ใช้',
 'อำนาจหน้าที่',
 'ที่',
 'กฎหมาย',
 'บัญญัติ',
 'ยัง',
 'สามารถ',
 'ควบคุม',
 'ตรวจสอบ',
 'ได้',
 ' ',
 'ตาม',
 'หลักเกณฑ์',
 'และ',
 'กระบวนการ',
 'ของ',
 'กฎหมาย',
 'มหาชน',
 'จุ๋ม',
 'สบายดี',
 'ไหม',
 'ที่รัก']

# เขียนใหม่
เริ่มจากแต่แรกใหม่ แต่จะ test ไปด้วยว่าต้อง efficient ทุกอย่าง

## Import

In [None]:
import numpy as np
!pip install -q bitarray
from bitarray import bitarray
from random import randint

## Test เรื่องที่คาใจ
มีหลายประเด็นที่ assume เอา ลอง test ก่อนเลยให้สบายใจ

### Test in-set membership
ว่า ใช้ set เร็วกว่า list, อันนี้ค่อนข้างมั่นใจ เลย test ก่อนเลย

In [None]:
int_set = {random.randint(1,10) for _ in range(10)}
int_set

{1, 2, 5, 6, 8}

In [None]:
%%timeit
3 in int_set

The slowest run took 28.81 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 40.5 ns per loop


In [None]:
%%timeit
5 in int_set

10000000 loops, best of 3: 40.3 ns per loop


In [None]:
int_list = [random.randint(1,10) for _ in range(10)]
int_list

[6, 10, 2, 8, 6, 4, 6, 4, 3, 4]

In [None]:
%%timeit
5 in int_list

The slowest run took 6.99 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 173 ns per loop


In [None]:
%%timeit
7 in int_list

The slowest run took 8.59 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 185 ns per loop


สรุปว่า test membership นี่ set เร็วกว่า list ราว 2-5 เท่า

In [None]:
# เทียบ bitarray บ้าง
int_ba = bitarray([randint(0,1) for _ in range(10)])
int_ba

bitarray('0101101010')

In [None]:
%%timeit
int_ba[5]  # กลายเป็นว่าช้า

The slowest run took 30.36 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 156 ns per loop


In [None]:
# เทียบ list of bool
int_listbool = [bool(randint(0,1)) for _ in range(10)]
int_listbool

[False, False, True, False, True, True, False, True, True, True]

In [None]:
%%timeit
int_listbool[5]  # เร็วขึ้นนิด แต่ก็ยังช้ากว่า set

The slowest run took 24.76 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 40.9 ns per loop


In [None]:
# frozen set จะเร็วขึ้นไหม   ก็แค่พอกัน
int_fset = frozenset(random.randint(1,10) for _ in range(10))
int_fset

frozenset({2, 3, 4, 5, 6, 9, 10})

In [None]:
%%timeit
4 in int_fset

The slowest run took 40.06 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 40.2 ns per loop


In [None]:
%%timeit
3 in int_fset

The slowest run took 26.59 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 40.5 ns per loop


### Test list of string vs int
ว่าจะเก็บ words_at เป็นอะไรจะเร็วกว่า

In [None]:
words = 'hello hi howwday hiiiiiiiii h'.split()

In [None]:
%%timeit
res = []
for w in words:
  res.append(w[:])

The slowest run took 4.28 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 780 ns per loop


In [None]:
%%timeit
res = []
for w in words:
  res.append(len(w))  # len ก็พอๆ กับสร้าง string ใหม่

The slowest run took 4.41 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 824 ns per loop


ตอนเก็บ words_at น่าจะดีกว่า เพราะเอา int ไปใช้ breadth-first searcha ได้

### Test สร้าง list หรือ join string

In [None]:
%%timeit
s = ''
for w in words:
  s += '/' + w
n = s.count('/')

The slowest run took 4.60 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 893 ns per loop


In [None]:
%%timeit
l = []
for w in words:
  l.append(w)
n = len(w)   # ใช้ list เร็วกว่าแฮะ

The slowest run took 8.37 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 600 ns per loop


### min vs index

In [None]:
it = iter(['hello'])

In [None]:
%%timeit
min(iter(['hello']), key=len)

The slowest run took 10.57 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 574 ns per loop


In [None]:
%%timeit
list(iter(['hello']))[0]   # เร็วกว่าหน่อย

The slowest run took 8.50 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 469 ns per loop


In [None]:
graph = {
    0:[1,2,6],

}

In [None]:
q = []
heappop(q)

IndexError: ignored

In [None]:
text = "กฎหมายมหาชน คือ กฎหมายที่บัญญัติให้อำนาจและหน้าที่แก่รัฐ แก่หน่วยงานของรัฐ แก่เจ้าหน้าที่ของรัฐ และแก่ประชาชน ในการบริหาร การปกครองประเทศ และการบริการสาธารณะ ซึ่งหลักการ สำคัญของกฎหมายมหาชนนอกจากจะบัญญัติให้อำนาจและหน้าที่แก่หน่วยงานของรัฐหรือเจ้าหน้าที่ดังที่กล่าวมาแล้ว การใช้อำนาจหน้าที่ที่กฎหมายบัญญัติยังสามารถควบคุมตรวจสอบได้ ตามหลักเกณฑ์และกระบวนการของกฎหมายมหาชนจุ๋มสบายดีไหมที่รัก"
len(text)

389

In [None]:
#text = 'มหาชนจุกปปปปxxxa;dfoijsl;สำ่ดรนำด่ฟนสด่ดร'
mmcut(text)

['กฎหมาย',
 'มหาชน',
 ' ',
 'คือ',
 ' ',
 'กฎหมาย',
 'ที่',
 'บัญญัติ',
 'ให้อำนาจ',
 'และ',
 'หน้าที่',
 'แก่',
 'รัฐ',
 ' ',
 'แก่',
 'หน่วยงาน',
 'ของ',
 'รัฐ',
 ' ',
 'แก่',
 'เจ้าหน้าที่',
 'ของ',
 'รัฐ',
 ' ',
 'และ',
 'แก่',
 'ประชาชน',
 ' ',
 'ใน',
 'การบริหาร',
 ' ',
 'การปกครอง',
 'ประเทศ',
 ' ',
 'และ',
 'การ',
 'บริการ',
 'สาธารณะ',
 ' ',
 'ซึ่ง',
 'หลักการ',
 ' ',
 'สำคัญ',
 'ของ',
 'กฎหมาย',
 'มหาชน',
 'นอกจาก',
 'จะ',
 'บัญญัติ',
 'ให้อำนาจ',
 'และ',
 'หน้าที่',
 'แก่',
 'หน่วยงาน',
 'ของ',
 'รัฐ',
 'หรือ',
 'เจ้าหน้าที่',
 'ดัง',
 'ที่กล่าวมา',
 'แล้ว',
 ' ',
 'การ',
 'ใช้',
 'อำนาจหน้าที่',
 'ที่',
 'กฎหมาย',
 'บัญญัติ',
 'ยัง',
 'สามารถ',
 'ควบคุม',
 'ตรวจสอบ',
 'ได้',
 ' ',
 'ตาม',
 'หลักเกณฑ์',
 'และ',
 'กระบวนการ',
 'ของ',
 'กฎหมาย',
 'มหาชน',
 'จุ๋ม',
 'สบายดี',
 'ไหม',
 'ที่รัก']

In [None]:
words_at

defaultdict(list,
            {0: ['มหา', 'มหาชน'],
             3: ['ช', 'ชน'],
             4: ['น'],
             5: ['จุ', 'จุก'],
             7: [],
             8: ['ปปปป'],
             12: ['xxxa'],
             16: [';'],
             17: ['dfoijsl'],
             24: [';'],
             25: ['สำ่'],
             28: ['ดร'],
             30: ['นำ'],
             32: ['ด่ฟ'],
             35: ['น'],
             36: ['ส'],
             37: ['ด่'],
             39: ['ดร']})

# Next