# <center>Tokenization Experiment</center>

## Report
The comparison should include:

- Brief description of each segmenter used.

- Quantitative evaluation: Accuracy percentage (how many sentence boundaries were detected correctly)

- Qualitative evaluation: What kind of mistakes does each segmenter make?



The wiki corpus I used is written Aragonese.
I did my research on this language but found no specific sentence tokenizer build for it.
It is a dialect in Spain and share many traits with Spanish.
So I try two sentence tokenizers support Spanish (NLTK's `casual_tokenize()` and spaCy's default `sentencizer`).

In [1]:
from nltk.tokenize import sent_tokenize
import en_core_web_sm
from functools import reduce
import random
import spacy

In [2]:
# first get 50 pharagrahs of the Aragonese wiki.text as suggested
# read in the whole text in a list of strings
with open('../00_Unix/wiki.txt', 'r') as f:
    raw = f.readlines()

In [3]:
# there are many '\n' and many strings are too short
raw[:10]

['\n',
 'Astronomia:\n',
 'Le astronomia [-mí-] (ab le greco "astro" pro "stella" e "nomia" de "nomos" pro "lege", tunc "astronomia" o "leges del stellas") es le scientia que studia le universo material ultra le atmosphera terrestre.\n',
 'Le astronomia es le scientia que tracta de lo que se refere al astros, e principalmente al leges de lor movimentos.\n',
 'Le astronomia se divide in varie specialitates, in function del objecto a studio, technica empleate, e aspecto del astros que se studia (Feinstein):\n',
 'Inter alteres, nos distingue specialitates como:\n',
 'Astronomia, que significa etymologicamente "leges del stellas", es le scientia cuje objecto es le observation e le explication de phenomenos que occurre o existe foras del terra. Quando se comprendeva que le elementos que forma le "objectos celestial" esseva le mesme que forma le terra, e que le mesme leges del physica se applica a illos, le astrophysica habeva nascite, como un application del physica al phenomenos observate

In [4]:
# get rid of "\n" and short paragraph
paragraphs = [p.strip('\n') for p in raw]

In [5]:
# get a list of strings that have a length at least of 100 characters
paragraphs = [p for p in paragraphs if len(p)>= 100]

In [6]:
# select 50 paragrah without out repetition
random.seed(47408)
paragraphs = random.sample(paragraphs, 50)

In [7]:
# concatenate the strings in the list together.
txt = reduce(lambda x, y: x + ' ' + y, paragraphs)

In [24]:
# now I compose a text of 50 paragraph from wiki.txt
# the length is 13765
# the boundary between sentences is reconstructed
txt[:2000]

'A membrana nuclear u carioteca, ye una capa porosa (con doble unidat de membrana lipidica) que delimita a o nuclio, a estructura caracteristica d\'as celulas eucariotas. Os textos replegatos amuestran a influencia de rasgos foneticos, sintacticos y lexicos de diversas luengas. Se dicen coordenatas cartesianas en honor a René Descartes (1596-1650), o famoso filosofo y matematico francés que querió alazetar o suyo pensamiento filosofico con a necesidat de prener un «punto de partida» sobre o que edificar tot o conoiximiento. Como creyador d\'a cheometría analitica, Descartes tamién prencipió prenendo un «punto de partida», o sistema de referencia cartesiano, ta poder representar a cheometría plana, que fa servir nomás dos rectas perpendiculars entre sí que se tallan en un punto dito «orichen de coordenatas». Henri Bergson, naixito de París (Francia) o 18 d\'octubre de 1859 y muerto tamién en París o 4 de chinero de 1941, estió un filosofo y escritor francés, que recibió por a suya obra 

In [9]:
# I did my research on Aragonese and found no specific sentence tokenizer
# The most similar language that widely-used is Spanish
# So here I try NLTK's sent_tokenize on Spanish
sents_nltk_sp = sent_tokenize(txt, language='spanish')

In [10]:
# also try english tokenzier
sents_nltk_en = sent_tokenize(txt, language='english')

In [11]:
# try 2 tokenizer with spacy
nlp_sp = spacy.load("es_core_news_sm")
nlp_en = spacy.load("en_core_web_sm")

In [33]:
sents_spacy_sp = [str(sent) for sent in list(nlp_sp(txt).sents)]
sents_spacy_en = [str(sent) for sent in list(nlp_en(txt).sents)]

In [27]:
sents_nltk_sp

["A membrana nuclear u carioteca, ye una capa porosa (con doble unidat de membrana lipidica) que delimita a o nuclio, a estructura caracteristica d'as celulas eucariotas.",
 'Os textos replegatos amuestran a influencia de rasgos foneticos, sintacticos y lexicos de diversas luengas.',
 'Se dicen coordenatas cartesianas en honor a René Descartes (1596-1650), o famoso filosofo y matematico francés que querió alazetar o suyo pensamiento filosofico con a necesidat de prener un «punto de partida» sobre o que edificar tot o conoiximiento.',
 "Como creyador d'a cheometría analitica, Descartes tamién prencipió prenendo un «punto de partida», o sistema de referencia cartesiano, ta poder representar a cheometría plana, que fa servir nomás dos rectas perpendiculars entre sí que se tallan en un punto dito «orichen de coordenatas».",
 "Henri Bergson, naixito de París (Francia) o 18 d'octubre de 1859 y muerto tamién en París o 4 de chinero de 1941, estió un filosofo y escritor francés, que recibió po

In [37]:
# How many sentences do the tokenizers get
len(sents_nltk_sp)

94

In [38]:
len(sents_spacy_sp)

93

In [39]:
# how many are the intersections
len(set(sents_nltk_sp).intersection(set(sents_spacy_sp)))

84

So two sentence tokenizers agree on 84 out of 93/94 sentences.
Let me focus on what they disagree.

In [44]:
# what are they disagree
set(sents_nltk_sp) - set(sents_spacy_sp)

{"A Universidat FUMEC (Universidade Fundação Mineira de Educação e Cultura) ye una institución d'amostranza superior en Brasil, con seu en a ciudat de Belo Horizonte, Estato de Minas Gerais, Brasil.",
 'Bonate Sopra es un municipalitate que se trova in le provincia de Bergamo, in le region del Lombardia, in Italia.',
 'Chesterton, inter multe alteres.',
 'Dimpués d\'a retirata esportiva d\'o suyo pai en l\'anyo 1991, a suya familia s\'establió en Zaragoza a on ella y a suya chirmana, naixita de Sevilla mientres o suyo pai chugaba de porter en o Sevilla FC, prencipiaron a practicar chimnasia ritmica en o "Club Escuela de Gimnasia Rítmica de Zaragoza".',
 'Escobar de Polendos es un municipalitate que se trova in le provincia de Segovia, in le communitate autonome de Castilia e Leon, Espania.',
 'Gran Bilbau (en vasco "Bilboaldea", en castellán "Gran Bilbao") ye una comarca situata en a provincia de Vizcaya (País Vasco).',
 'Le termino chalcogenido es plus communmente reservate pro sulfid

In [45]:
set(sents_spacy_sp)- set(sents_nltk_sp) 

{"A Universidat FUMEC (Universidade Fundação Mineira de Educação e Cultura) ye una institución d'amostranza superior en Brasil, con seu en a ciudat de Belo Horizonte, Estato de Minas Gerais, Brasil.  ",
 'Bonate Sopra es un municipalitate que se trova in le provincia de Bergamo, in le region del Lombardia, in Italia.  ',
 'Dimpués d\'a retirata esportiva d\'o suyo pai en l\'anyo 1991, a suya familia s\'establió en Zaragoza a on ella y a suya chirmana, naixita de Sevilla mientres o suyo pai chugaba de porter en o Sevilla FC, prencipiaron a practicar chimnasia ritmica en o "Club Escuela de Gimnasia Rítmica de Zaragoza".  ',
 'Escobar de Polendos es un municipalitate que se trova in le provincia de Segovia, in le communitate autonome de Castilia e Leon, Espania.  ',
 'Gran Bilbau (en vasco "Bilboaldea", en castellán "Gran Bilbao") ye una comarca situata en a provincia de Vizcaya (País Vasco).  ',
 'Le termino chalcogenido es plus communmente reservate pro sulfidos, seleniatos, e tellurato

By eye, the differences are in two categories:

- there are eight sentences that have extra spaces after the period. NLTK does not strip the spare spaces. But I think it's not a big problem grammatically.

- NLTK fails in one sentence that has two abbreviations in the middle of the sentence: "Nietzsche e G.K. Chesterton". I don't know the meaning of that clause, but Nietzsche and G.K. Chesterton are two different people who have [conversations in religious belief](https://www.youtube.com/watch?v=o4MHDEjar-M).

So the accuracy of Spacy is 100%. It even helps to remove spare spaces.
NLTK's accuracy is 98.9% gramatically.