# Project
Tokenizer

In [1]:
import re
import time

class Tokenizer:
    def __init__(self, regex_rules, exception_lists):
        self.regex_rules = regex_rules
        self.exception_regex = exception_regex
        self.exception_lists = exception_lists
    
    def tokenize(self, text):
        if type(text) == type(""):
            text = [text]
        text = self._apply_exception_regex(text)
        text = self._apply_exception_lists(text)
        tokens = self._apply_regex_rules(text)
        return tokens
    
    def _apply_exception_regex(self, text):
        for subtext in text:
            for regex in self.exception_regex:
                a_list = re.findall(regex, subtext)
                for el in a_list: 
                    self.exception_lists[-1].append(el)
        return text
    
    def _apply_exception_lists(self, text):
        for exception_list in self.exception_lists:
            for exception in exception_list:
                for n in range(len(text)):
                    idx = n
                    if exception in text[n] and text[n] != exception.strip():
                        sublist = text[n].split(exception)
                        for item in sublist:
                            if text[n].startswith(exception):
                                a_list = [exception]
                            else:
                                a_list = []
                            for el in sublist:
                                a_list.append(el)
                                if el != sublist[-1]:
                                    a_list.append(exception)
                            if text[n].endswith(exception):
                                a_list.append(exception)                            
                        del text[idx]
                        for el in a_list:
                            text.insert(idx, el)
                            idx +=1
                    elif exception in text[n] and text[n] == exception.strip():
                        idx += 1              
        return text

    
    def _apply_regex_rules(self, text):
        for regex_rule in self.regex_rules:
            second_text = []
            for el in text:
                second_text.append(el)
            idx = 0
            for substring in second_text:
                new_subtext = ""
                new_subtext_list = []
                if self._check_exceptions(substring):
                    new_subtext = re.sub(regex_rule, r' \1 ', substring)
                    new_subtext_list = new_subtext.split()
                    del text[idx]
                    for el in new_subtext_list:
                        text.insert(idx, el)
                        idx +=1
                else:
                    idx +=1
                
                            
        return text
    
    def _check_exceptions(self, substring):
        for exception_list in self.exception_lists:
            for exception in exception_list:
                if exception not in substring:
                    value = True
                elif exception in substring:
                    return False
        return value
    


To tokenize a language other than English, you would need to provide the appropriate regular expression rules and exception lists. Here is an example of tokenization rules for Spanish:

In [2]:
# Regular expression rules
regex_rules = [
    r"""([.,;:!'"?()]\s)""", #lasciando il punto e la virgola qui, i decimali e le mail non vengono tokenizzati.
    r"([a-zA-Z]+[’\\']{1})", #articoli/preposizioni articolate con apostrofo, elisioni -> "Dell'Anda"viene separato
    r'([a-z][.][a-z][.])', 
]

# Exception lists
exception_lists = [
    # Abbreviations
    ['Ing.', 'Geom.', 'geom.', 'Avv.', 'prof.', 'dr.', 'dott.','racc.', 'c.a.'],
    # Acronyms
    ['U.S.A.', 'U.E.'],
    # Emoticons and emojis
    [':)', ':(', ';)', ':D', '<3',':P',':-)'],
    # Empty list
    []
]

exception_regex = [
    r"([dD][a-z]+[’\\']{1}[A-Z]{1}[a-z]+)", #preposizioni articolate nei cognomi (es.: Dell'Anda)
    r'([\d]+[,\\.]+[\d\\.,]+[%]?)', #numeri decimali (. e ,) e percentuali
    r'(http://www.[\w/]+.\w+)', #url (anche con percorsi interni del tipo /.../.../....it)
    r'([a-z]+[\\.][a-z]+@{1}[a-z]+[\\.]+[a-z]+)' #email
]

# Create tokenizer object
tokenizer = Tokenizer(regex_rules, exception_lists)


text = """Questo è un test di tokenizzazione, e vediamo come va, perché ci serve 
caro dott. Dell'Anda. Io credevo che la batteria Dell'automobile fosse 
ok; ma in realtà non lo è.
Le lascio il mio email f.tambu@unibo.it e la mia URL http://www.unibo.it 
così controlla.
Io sono l'Ing. Geom. geom. Avv. prof. dr. Pincopallo e andrò negli 
U.S.A. e vediamo se mi compri una S.r.l. e poi la mettiamo
alla c.a. di Luigi come p.es. la racc.

P.S.:
        Nuovo paragrafo EVVIVA! L’apprezzerò di più!
"Ma le quote come le gestisce?"
'Ma le quote 'come' le gestisce?'

dell'automobile
c'è c’è
e'
‘e’
citta' città’ citta’
l'Italia l’Italia
all'estero all’estero
l'hanno l’hanno
'città' aperta ‘città’ aperta
#Grisù presidente!
10.9 100,000,000
10,9 100.000.000
10.67% 10,67%
10,56,89 10.56.89
‘anch'io’ ‘anch’io’
mi stai proprio 'sui coglioni'!
mi “stai” proprio 'sui coglioni'
nato nel '73, bello!
l'84% di noi
un 'bel'22%
un 'bell'uomo
E c'è pure gli emoticon!!! :P
:-) ;) Viva viva <3 il regimentoooo!
un 'bell’uomo
"""
# Tokenize text

st = time.time()
time.sleep(1)
# get the end time
et = time.time()

# get the execution time
elapsed_time = et - st
print('Execution time:', elapsed_time, 'seconds')

tokens = tokenizer.tokenize(text)
print(tokens)

Execution time: 1.003758192062378 seconds
['Questo', 'è', 'un', 'test', 'di', 'tokenizzazione', ',', 'e', 'vediamo', 'come', 'va', ',', 'perché', 'ci', 'serve', 'caro', 'dott.', "Dell'Anda", '.', 'Io', 'credevo', 'che', 'la', 'batteria', "Dell'", 'automobile', 'fosse', 'ok', ';', 'ma', 'in', 'realtà', 'non', 'lo', 'è', '.', 'Le', 'lascio', 'il', 'mio', 'email', 'f.tambu@unibo.it', 'e', 'la', 'mia', 'URL', 'http://www.unibo.it', 'così', 'controlla', '.', 'Io', 'sono', "l'", 'Ing.', 'Geom.', 'geom.', 'Avv.', 'prof.', 'dr.', 'Pincopallo', 'e', 'andrò', 'negli', 'U.S.A.', 'e', 'vediamo', 'se', 'mi', 'compri', 'una', 'S.r.l', '.', 'e', 'poi', 'la', 'mettiamo', 'alla', 'c.a.', 'di', 'Luigi', 'come', 'p.es', '.', 'la', 'racc.', 'P.S.', ':', 'Nuovo', 'paragrafo', 'EVVIVA', '!', 'L’', 'apprezzerò', 'di', 'più', '!', '"Ma', 'le', 'quote', 'come', 'le', 'gestisce?', '"', "'Ma", 'le', 'quote', "'come", "'", 'le', 'gestisce?', "'", "dell'", 'automobile', "c'", 'è', 'c’', 'è', 'e', "'", '‘', 'e’', '