# Analyzing a free-form literary Corpus for word frequencies

## Pt.1 - Getting the data

In [98]:
import re
from pathlib import Path
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize

In [99]:
stop_words = set(stopwords.words("Spanish"))

In [100]:
# import literature
# Thanks Project Gutenberg: http://www.gutenberg.org/cache/epub/2000/pg2000.txt
file_path = "cervantes_quijote.txt"
text = Path(file_path).read_text()

In [101]:
#print(text[:1000])

## Pt.2 - Getting the data in shape

First I will separate the companion info text from the actual novel.

In [102]:
# this final intro word is gleaned from checking out the text string
text_info_end = "Abela."
info_end_index = text.find(text_info_end)
info_end = info_end_index + len(text_info_end)
# creating a variable holding the text info
text_info = text[: info_end]
# and another one with the Spanish novel
dq_start = text.find("El ingenioso hidalgo")
don_quijote = text[dq_start:]

In [103]:
print(don_quijote[:500])

El ingenioso hidalgo don Quijote de la Mancha


TASA

Yo, Juan Gallo de Andrada, escribano de Cámara del Rey nuestro señor, de
los que residen en su Consejo, certifico y doy fe que, habiendo visto por
los señores dél un libro intitulado El ingenioso hidalgo de la Mancha,
compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho
libro a tres maravedís y medio; el cual tiene ochenta y tres pliegos, que
al dicho precio monta el dicho libro docientos y noventa maravedís y medio,
en q


I'll remove newlines while keeping "sentence" information. For this I will treat headings as "sentences" and as separate pieces of meaning.

In [104]:
# this regex pipe replaces all occurances of at least 2 consecutive newlines
# with a dot followed by a whitespace
# if the line before the first newline character ends with a letter (not a sentence delimiter)
regex =  re.compile(r"(?<=\w)\n{2,}")
don_quijote = re.sub(regex, ". ", don_quijote)
print(don_quijote[:500])

El ingenioso hidalgo don Quijote de la Mancha. TASA. Yo, Juan Gallo de Andrada, escribano de Cámara del Rey nuestro señor, de
los que residen en su Consejo, certifico y doy fe que, habiendo visto por
los señores dél un libro intitulado El ingenioso hidalgo de la Mancha,
compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho
libro a tres maravedís y medio; el cual tiene ochenta y tres pliegos, que
al dicho precio monta el dicho libro docientos y noventa maravedís y medio,
en qu


Looking good. Now I'll also remove the remaining newlines, replacing them simply with whitespaces.

In [105]:
don_quijote = don_quijote.replace("\n", " ")
don_quijote[:500]

'El ingenioso hidalgo don Quijote de la Mancha. TASA. Yo, Juan Gallo de Andrada, escribano de Cámara del Rey nuestro señor, de los que residen en su Consejo, certifico y doy fe que, habiendo visto por los señores dél un libro intitulado El ingenioso hidalgo de la Mancha, compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho libro a tres maravedís y medio; el cual tiene ochenta y tres pliegos, que al dicho precio monta el dicho libro docientos y noventa maravedís y medio, en qu'

## Pt.3 - Splitting the data in pieces (tokenization)

Since for this exercise I am treating the novel as a **Spanish corpus**, I now go to tokenize the text.

In [106]:
dq_sent_tokenized = nltk.sent_tokenize(don_quijote)
# I won't be using the tokenized sentences here, but let's see how many there are
print(len(dq_sent_tokenized))

9848


In [107]:
# looking for word frequencies, I'll need the words tokenized
dq_word_tokenized = nltk.word_tokenize(don_quijote)

## Pt.4 - Getting the word frequencies

[The NLTK book](http://www.nltk.org/book/ch01.html) provides a useful library for calculating word frequencies.

In [108]:
from nltk.book import FreqDist
fdist = FreqDist(dq_word_tokenized)

In [109]:
print(fdist)

<FreqDist with 26426 samples and 441946 outcomes>


In [110]:
fdist.most_common(20)

[(',', 40316),
 ('que', 20520),
 ('de', 17990),
 ('y', 17155),
 ('la', 10201),
 ('a', 9579),
 ('.', 8306),
 ('el', 7959),
 ('en', 7900),
 ('no', 5764),
 (';', 4802),
 ('se', 4691),
 ('los', 4681),
 ('con', 4048),
 ('por', 3758),
 ('las', 3423),
 ('lo', 3389),
 ('le', 3382),
 ('su', 3320),
 ('don', 2538)]

Okay, neat. Let's remove the stopwords and punctuation.

In [111]:
# removing stopwords and translating all words to lowercase
dq_real_words = [w.lower() for w in dq_word_tokenized if not w in stop_words]

In [112]:
# removing punctuation
dq_words = [w for w in dq_real_words if w.isalpha()]

In [113]:
fdist = FreqDist(dq_words)

In [114]:
print(fdist)

<FreqDist with 23176 samples and 183370 outcomes>


In [115]:
fdist.most_common(20)

[('don', 2646),
 ('si', 1895),
 ('quijote', 1655),
 ('sancho', 1626),
 ('tan', 1220),
 ('ser', 1056),
 ('bien', 990),
 ('señor', 979),
 ('así', 964),
 ('dijo', 929),
 ('y', 908),
 ('merced', 900),
 ('pues', 721),
 ('sino', 694),
 ('dos', 680),
 ('caballero', 646),
 ('decir', 578),
 ('hacer', 535),
 ('aunque', 527),
 ('señora', 508)]

And that's it. With inspecting the corpus and a bit of data wrangling here are the word frequencies of Cervantes' Don Quijote.