### Errata:

* I will show you cool things, in random order
* I am very very biased toward the English language
* May need to run for ipywidgets
    * ```jupyter nbextension enable --py widgetsnbextension```

### Topics Covered: 
* Discuss challenges with tokenization
* Refresher/Intro to Regex
* Demo using ipywidgets


### Execises:
* Write a regex for proper nouns as best you can.
* Write a regex tokenizer, and ipywidget that shows results

# Word Tokenization and Sentence Segmentation

What is a word? [Dictionary entries + alternate word forms]

### Basic, Deterministic Approach:
* words: split on white space
* sentences: split on punctuation

#### Regex Examples:

Regex | Matches | Example
--- | --- 
Jupyter | Instances of "Jupyter" | Welcome to **Jupyter**Con 2017!
[JCe] |  Single instances of the characters of "J", "C", "e" | W**e**lcom**e** to **J**upyt**e**r**C**on 2017! 
[A-Z] | Any single capital letter. | **W**elcome to **J**upyter**C**on 2017!
[\w]+ | Any sequence of alphanumeric characters | **Welcome** **to** **JupyterCon** **2017**!
^Welcome | "Welcome" that occurs at beginning of line. | **Welcome** to JupyterCon 2017!
[^A-Za-z0-9] | Anything that is not a character or number | Welcome to JupyterCon**?**
2017!? | "2017", and optionally followed by one instance of "!"  | Welcome to JupyterCon **2017!**
[ ?] | Instances of "?" or " ". | Welcome** **to** **JupyterCon 2017**?**
[\\[] | Instances of "[" | Welcome to JupyterCon **[**2017]


### Build a Regex Preview
* Regex Box
* Pattern Box
* Results

In [1]:
#%matplotlib notebook
from ipywidgets import Button, Textarea, Layout, Box, Label
from IPython.display import display, Markdown, clear_output
import re
import sys

class RegexFinder(object):
    def __init__(self, init_text="", init_pattern=""):
        
        
        self.text_field = Textarea(init_text, layout=Layout(height='100px'))
        self.pattern_field = Textarea(init_pattern, layout=Layout(height='20px'))
        self.text_box = Box([Label(value='Text Box'), self.text_field])
        self.pattern_box = Box([Label(value='Pattern Box'), self.pattern_field])
        
        self.match_button = Button(description='Match Pattern', )
        self.match_button.on_click(self.match_pattern)
        
        display(self.text_box)
        display(self.pattern_box)
        display(self.match_button)
        self.match_pattern(None)
        
    @property
    def pattern(self):
        return re.compile(self.pattern_field.value)
    
    @property
    def text(self):
        return self.text_field.value    
    
    def match_pattern(self, b):
        clear_output()
        try:
            result = self.format_match_markdown(self.text, self.pattern)
        except:
            print("Issue with regex pattern: {}".format(sys.exc_info()[1]))
            result = self.text
        display(Markdown(result))
        
    def format_match_markdown(self, text, pattern):

        new_string = ""
        last = 0

        for i in pattern.finditer(text):
            start, stop = i.span()
            new_string += text[last:start] + "<b style='color:blue;'><u>" + text[start:stop] +  "</u></b>"
            last = stop

        new_string += text[last:]
        return new_string
        
    
    
r = RegexFinder(init_text="Welcome to JupyterCon 2017!")

<b style='color:blue;'><u></u></b>W<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>J<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>C<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>2<b style='color:blue;'><u></u></b>0<b style='color:blue;'><u></u></b>1<b style='color:blue;'><u></u></b>7<b style='color:blue;'><u></u></b>!<b style='color:blue;'><u></u></b>

### Exercise: Match all proper nouns

In [11]:
!pip3 install wikipedia >> pip-wiki.txt
import wikipedia
wiki = wikipedia.WikipediaPage('Noam Chomsky')
intro_paragraph = wiki.content.split('\n')[0]
finder = RegexFinder(intro_paragraph)

<b style='color:blue;'><u></u></b>A<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>N<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>C<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>(<b style='color:blue;'><u></u></b>U<b style='color:blue;'><u></u></b>S<b style='color:blue;'><u></u></b>:<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>/<b style='color:blue;'><u></u></b>æ<b style='color:blue;'><u></u></b>ˈ<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>ɑ<b style='color:blue;'><u></u></b>ː<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>ˈ<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>ʊ<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>ˈ<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>ʃ<b style='color:blue;'><u></u></b>ɒ<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>/<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>-<b style='color:blue;'><u></u></b>V<b style='color:blue;'><u></u></b>R<b style='color:blue;'><u></u></b>A<b style='color:blue;'><u></u></b>H<b style='color:blue;'><u></u></b>M<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>C<b style='color:blue;'><u></u></b>H<b style='color:blue;'><u></u></b>O<b style='color:blue;'><u></u></b>M<b style='color:blue;'><u></u></b>-<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>;<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>b<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>D<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>b<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>7<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>1<b style='color:blue;'><u></u></b>9<b style='color:blue;'><u></u></b>2<b style='color:blue;'><u></u></b>8<b style='color:blue;'><u></u></b>)<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>A<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>.<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>S<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>b<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>"<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>"<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>C<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>j<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>.<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>H<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>I<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>P<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>E<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>M<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>I<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>T<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>(<b style='color:blue;'><u></u></b>M<b style='color:blue;'><u></u></b>I<b style='color:blue;'><u></u></b>T<b style='color:blue;'><u></u></b>)<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>w<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>w<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>1<b style='color:blue;'><u></u></b>9<b style='color:blue;'><u></u></b>5<b style='color:blue;'><u></u></b>5<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>f<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>v<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>1<b style='color:blue;'><u></u></b>0<b style='color:blue;'><u></u></b>0<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>b<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>k<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>u<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>w<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>p<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>.<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>I<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b>,<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>g<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>w<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>h<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>-<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>y<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b>d<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>b<b style='color:blue;'><u></u></b>e<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>t<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>r<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>n<b style='color:blue;'><u></u></b> <b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>o<b style='color:blue;'><u></u></b>c<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>a<b style='color:blue;'><u></u></b>l<b style='color:blue;'><u></u></b>i<b style='color:blue;'><u></u></b>s<b style='color:blue;'><u></u></b>m<b style='color:blue;'><u></u></b>.<b style='color:blue;'><u></u></b>

In [47]:
import re

def sent_segmenter(doc):
    sent_pattern = re.compile('[\.\?\!]')
    for sent in sent_pattern.split(doc):
        yield sent
        
        
def word_segmenter(sent):
    word_pattern = re.compile('[\s]')
    for word in word_pattern.split(sent):
        yield word
        
        
sentences = sent_segmenter(intro_paragraph)
for word in word_segmenter(next(sentences)):
    print(word)

Avram
Noam
Chomsky
(US:
/æˈvrɑːm
ˈnoʊm
ˈtʃɒmski/
a-VRAHM
nohm
CHOM-skee;
born
December
7,
1928)
is
an
American
linguist,
philosopher,
cognitive
scientist,
historian,
social
critic,
and
political
activist


#### Failures of Deterministic Approach:
* "Dr. White saw a patient." is one sentence, not two.
* Los Angeles -> One token!
* (US: ...) is probably best tokenized as "(", "US", ":", ... I.e we missed other forms of punctuation.
* Special cases: URLs, email addresses, phone numbers, etc
* What should we do hyphens?

#### Strategy 1
** Use additional special rules.** 

1) replace the following characters with spaces: ! ” # $%&∗<=>?@\|∼

2) remove the following characters if they are followed byaspace: . : ;,

3) remove the following pairs of brackets if the open bracket is preceded by a space and the close bracket is followed by a space: ( ) [ ]

4) remove the single quotation mark if it is preceded by a space or if it is followed by a space: ’

5) remove “’s” and “’t” if they are followed by a space 6) remove slash “/” if it is followed by a space

#### Strategy 2
**Begin with a liberal tokenizer, then "match" to join what should be joined.**

In [46]:
for i in range(1000):
    print(nlp.vocab.strings[i])


IS_ALPHA
IS_ASCII
IS_DIGIT
IS_LOWER
IS_PUNCT
IS_SPACE
IS_TITLE
IS_UPPER
LIKE_URL
LIKE_NUM
LIKE_EMAIL
IS_STOP
IS_OOV
FLAG14
FLAG15
FLAG16
FLAG17
FLAG18
FLAG19
FLAG20
FLAG21
FLAG22
FLAG23
FLAG24
FLAG25
FLAG26
FLAG27
FLAG28
FLAG29
FLAG30
FLAG31
FLAG32
FLAG33
FLAG34
FLAG35
FLAG36
FLAG37
FLAG38
FLAG39
FLAG40
FLAG41
FLAG42
FLAG43
FLAG44
FLAG45
FLAG46
FLAG47
FLAG48
FLAG49
FLAG50
FLAG51
FLAG52
FLAG53
FLAG54
FLAG55
FLAG56
FLAG57
FLAG58
FLAG59
FLAG60
FLAG61
FLAG62
FLAG63
ID
ORTH
LOWER
NORM
SHAPE
PREFIX
SUFFIX
LENGTH
CLUSTER
LEMMA
POS
TAG
DEP
ENT_IOB
ENT_TYPE
HEAD
SPACY
PROB
ADJ
ADP
ADV
AUX
CONJ
CCONJ
DET
INTJ
NOUN
NUM
PART
PRON
PROPN
PUNCT
SCONJ
SYM
VERB
X
EOL
SPACE
Animacy_anim
Animacy_inam
Animacy_hum
Aspect_freq
Aspect_imp
Aspect_mod
Aspect_none
Aspect_perf
Aspect_iter
Aspect_hab
Case_abe
Case_abl
Case_abs
Case_acc
Case_ade
Case_all
Case_cau
Case_com
Case_cmp
Case_dat
Case_del
Case_dis
Case_ela
Case_equ
Case_ess
Case_gen
Case_ill
Case_ine
Case_ins
Case_loc
Case_lat
Case_nom
Case_par
Case_sub

In [41]:
def tokenizer(doc):
    replace_pattern = re.compile('[!”#$%&∗<=>?@|~]')
    replace_pattern1 = re.compile('[.:;,] ')
    doc = replace_pattern.sub("", doc)
    doc = replace_pattern1.sub(" ", doc)
    return doc
    

tokenizer("I went to the store! and emailed join@google.com, which is normal~(0, 2)")

'I went to the store and emailed joingoogle.com which is normal(0 2)'

In [74]:
!python3 -m spacy download en >> spacy-download.log

In [13]:
import spacy
#nlp = spacy.load('en')
intro_paragraph = "Aren't you glad to see me? Go at the bread@dox.com to the store in Los Angeles"
print(list(nlp(intro_paragraph)))

[Are, n't, you, glad, to, see, me, ?, Go, at, the, bread@dox.com, to, the, store, in, Los, Angeles]


In [9]:
"n't" in nlp.vocab.strings

True

In [20]:
tweet = """
We shouldn't be looking for heroes, we should be looking for good ideas.” 
― Noam Chomsky
@allenmichael89 #NoamChomsky #Literature
"""

In [28]:
import spacy

### Extensions and Additional Concepts:
* Dictionary matching / Longest common substring
    * Generalized Prefix Tree