#  Cleaning Text Manually and with NLTK

We are not able to use raw text to fitting a machine learning or deep learning model. We need clean our text first, which means splitting it into words and handling punctuation and case. In fact, there is a whole suite of text preparation methods that we may need to use, and the choice of methods really depends on our natural language processing task. This notebook consists of the following parts:

1. How to get started by developing your own very simple text cleaning tools.
2. How to take a step up and use the more sophisticated methods in the NLTK library.


But, before starting let's select our dataset. In this notebook, I will use text from Jalil Mammadguluzadeh who is notable Azerbaijani writer, great dramatist and democrat man-of-letter. The file includes a piece from writer’s narrative "Kishmish oyunu" story. 

## 1. Manual Tokenization

Text cleaning is hard, but the text we have chosen to work with is pretty clean already. We could just write some Python code to clean it up manually, and this is a good exercise for those simple problems that we encounter. Tools like regular expressions and splitting strings can get us a long way.

### 1.1 Load Data and split by whitespace

Let’s load the text data so that we can work with it. The text is small and will load quickly and easily fit into memory. But in some cases, it is not useful and we have to write code to memory map the file. Working with large text files is so easier if you use NLTK. Please, be careful to open the file in text mode with the appropriate encoding.

In [6]:
#load text

filename = 'kishmish.txt'
file = open(filename, 'rt', encoding = 'utf-8')
text = file.read()
print(text)

Qış fəsli idi. Hava şiddətli soyuq idi. Biz iki nəfər seyid, İran əhli, Araz çayından Rusiya torpağına keçib axşam vaxtı özümüzü yetirdik “Zurnalı” kəndinə. Vətəndə günümüz məşəqqət və korluqla keçirdi. Rus məmləkətinə səfər eləməyimizin səbəbi bu idi ki, buranın müsəlman əhalisindən həmişə mehribanlıq görüb əhli-əyalımıza az-çox ruzi əxz edib, vətənimizə geri qayıtmışıq. Allah razı olsun bu vilayətin müsəlmanlarından; ayda bir dəfə bunlara qonaq oluruq.
Kəndə yetişib xəbərdar olduq ki, buranın camaatı axşamlar kəndin mötəbər ağası və ağsaqqalı Bala Sultanın tövlə otağına cəm olub uzun qış gecələrini orada söhbət ilə yola verirlər. Biz üz qoyduq həmin Bala Sultanın tövlə otağına.
Tövlənin bir tərəfi mal ilə dolu və qaranlıq idi, amma digər tərəfi uca və işıq idi və burada çox cəmiyyət əyləşib söhbətə məşğul idilər. Danışanlar bizi görcək səslərini kəsdilər və cümləsi birdən ayağa durub, bizə kəmali-ehtiram ilə yuxarı soruşmağa başladılar. Biz də onlardan əhvalpürsan olduq. Xülaseyi-kəl

Clean text often means a list of words or tokens that we can work with in our machine learning
models. This means converting the raw text into a list of words and saving it again. A very
simple way to do this would be to split the document by white space, including “ ” (space), new
lines, tabs and more. We can do this in Python with the split() function on the loaded string.

In [7]:
# split into words by white space
words = text.split()
print(words[:100])


['Qış', 'fəsli', 'idi.', 'Hava', 'şiddətli', 'soyuq', 'idi.', 'Biz', 'iki', 'nəfər', 'seyid,', 'İran', 'əhli,', 'Araz', 'çayından', 'Rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', '“Zurnalı”', 'kəndinə.', 'Vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi.', 'Rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki,', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'əhli-əyalımıza', 'az-çox', 'ruzi', 'əxz', 'edib,', 'vətənimizə', 'geri', 'qayıtmışıq.', 'Allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından;', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq.', 'Kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki,', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'Bala', 'Sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini', 'orada', 'söhbət', 'ilə', 'yola', 'verirlər.', 'Biz', 'üz', 'qoyduq', 'həmin', 'Bala', 'Sultanın', 'tövlə', 'otağına.', 'Tövlənin']


### 1.2 Select Words

In the result above, we able to see some words like 'idi.', 'verirlər.' wihch means that end of sentence punctuation is kept with the last word. For thos reason, now we will use regex model (re) and split the document into words by
selecting for strings of alphanumeric characters (a-z, A-Z, 0-9 and ‘ ’).

In [8]:
import re
# split based on words only
words = re.split(r'\W+', text)
print(words[:100])

['Qış', 'fəsli', 'idi', 'Hava', 'şiddətli', 'soyuq', 'idi', 'Biz', 'iki', 'nəfər', 'seyid', 'İran', 'əhli', 'Araz', 'çayından', 'Rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', 'Zurnalı', 'kəndinə', 'Vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi', 'Rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'əhli', 'əyalımıza', 'az', 'çox', 'ruzi', 'əxz', 'edib', 'vətənimizə', 'geri', 'qayıtmışıq', 'Allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq', 'Kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'Bala', 'Sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini', 'orada', 'söhbət', 'ilə', 'yola', 'verirlər', 'Biz', 'üz', 'qoyduq', 'həmin', 'Bala', 'Sultanın', 'tövlə']


### 1.3 Normalizing Case

It is common to convert all words to one case. This means that the vocabulary will shrink in
size, but some distinctions are lost. We can convert all words to lowercase by calling the lower() function on each
word.

In [9]:
words = [word.lower() for word in words]
print(words[:100])

['qış', 'fəsli', 'idi', 'hava', 'şiddətli', 'soyuq', 'idi', 'biz', 'iki', 'nəfər', 'seyid', 'i̇ran', 'əhli', 'araz', 'çayından', 'rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', 'zurnalı', 'kəndinə', 'vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi', 'rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'əhli', 'əyalımıza', 'az', 'çox', 'ruzi', 'əxz', 'edib', 'vətənimizə', 'geri', 'qayıtmışıq', 'allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq', 'kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'bala', 'sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini', 'orada', 'söhbət', 'ilə', 'yola', 'verirlər', 'biz', 'üz', 'qoyduq', 'həmin', 'bala', 'sultanın', 'tövlə']


Cleaning text is really hard, problem specific, and full of tradeoffs. Remember, simple is better.
Simpler text data, simpler models, smaller vocabularies. You can always make things more
complex later to see if it results in better model skill. Next, we’ll look at some of the tools in
the NLTK library that offer more than simple string splitting.


## 2. Tokenization and Cleaning with NLTK

The Natural Language Toolkit, or NLTK for short, is a Python library written for working and
modeling text. It provides good tools for loading and cleaning text that we can use to get our
data ready for working with machine learning and deep learning algorithms.

In [11]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

### 2.1  Split into Sentences

A good useful first step is to split the text into sentences. Some modeling tasks prefer input
to be in the form of paragraphs or sentences, such as Word2Vec. You could first split your
text into sentences, split each sentence into words, then save each sentence to file, one per line.
NLTK provides the sent tokenize() function to split text into sentences.

In [14]:
from nltk import sent_tokenize
# load again data

filename = 'kishmish.txt'
file = open(filename, 'rt', encoding = 'utf-8')
text = file.read()

# split into sentences
sentences = sent_tokenize(text)
print(sentences[:3])


['Qış fəsli idi.', 'Hava şiddətli soyuq idi.', 'Biz iki nəfər seyid, İran əhli, Araz çayından Rusiya torpağına keçib axşam vaxtı özümüzü yetirdik “Zurnalı” kəndinə.']


### 2.2  Split into Words

NLTK provides a function called word tokenize() for splitting strings into tokens (nominally
words). It splits tokens based on white space and punctuation. For example, commas and
periods are taken as separate tokens.

In [16]:
from nltk.tokenize import word_tokenize

# split into words
tokens = word_tokenize(text)
print(tokens[:100])

['Qış', 'fəsli', 'idi', '.', 'Hava', 'şiddətli', 'soyuq', 'idi', '.', 'Biz', 'iki', 'nəfər', 'seyid', ',', 'İran', 'əhli', ',', 'Araz', 'çayından', 'Rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', '“', 'Zurnalı', '”', 'kəndinə', '.', 'Vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi', '.', 'Rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki', ',', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'əhli-əyalımıza', 'az-çox', 'ruzi', 'əxz', 'edib', ',', 'vətənimizə', 'geri', 'qayıtmışıq', '.', 'Allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından', ';', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq', '.', 'Kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki', ',', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'Bala', 'Sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini']


Running the code, we can see that punctuation are now tokens that we could then decide to
specifically filter out. We have to filter out punctation.


### 2.3 Filter Out Punctuation

We can filter out all tokens that we are not interested in, such as all standalone punctuation. This
can be done by iterating over all tokens and only keeping those tokens that are all alphabetic.
Python has the function isalpha() that can be used.

In [17]:
tokens = word_tokenize(text)
# remove all tokens that are not alphabetic
words = [word for word in tokens if word.isalpha()]
print(words[:100])


['Qış', 'fəsli', 'idi', 'Hava', 'şiddətli', 'soyuq', 'idi', 'Biz', 'iki', 'nəfər', 'seyid', 'İran', 'əhli', 'Araz', 'çayından', 'Rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', 'Zurnalı', 'kəndinə', 'Vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi', 'Rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'ruzi', 'əxz', 'edib', 'vətənimizə', 'geri', 'qayıtmışıq', 'Allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq', 'Kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'Bala', 'Sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini', 'orada', 'söhbət', 'ilə', 'yola', 'verirlər', 'Biz', 'üz', 'qoyduq', 'həmin', 'Bala', 'Sultanın', 'tövlə', 'otağına', 'Tövlənin', 'bir', 'tərəfi']


### 2.4 Filter out Stop Words (and Pipeline)

Stop words are those words that do not contribute to the deeper meaning of the phrase. For some applications like documentation
classification, it may make sense to remove stop words. NLTK provides a list of commonly
agreed upon stop words for a variety of languages

In [18]:
from nltk.corpus import stopwords
stop_words = stopwords.words('azerbaijani')
print(stop_words)

['a', 'ad', 'altı', 'altmış', 'amma', 'arasında', 'artıq', 'ay', 'az', 'bax', 'belə', 'bəli', 'bəlkə', 'beş', 'bəy', 'bəzən', 'bəzi', 'bilər', 'bir', 'biraz', 'biri', 'birşey', 'biz', 'bizim', 'bizlər', 'bu', 'buna', 'bundan', 'bunların', 'bunu', 'bunun', 'buradan', 'bütün', 'ci', 'cı', 'çox', 'cu', 'cü', 'çünki', 'da', 'daha', 'də', 'dedi', 'dək', 'dən', 'dəqiqə', 'deyil', 'dir', 'doqquz', 'doqsan', 'dörd', 'düz', 'ə', 'edən', 'edir', 'əgər', 'əlbəttə', 'elə', 'əlli', 'ən', 'əslində', 'et', 'etdi', 'etmə', 'etmək', 'faiz', 'gilə', 'görə', 'ha', 'haqqında', 'harada', 'hə', 'heç', 'həm', 'həmin', 'həmişə', 'hər', 'ı', 'idi', 'iki', 'il', 'ildə', 'ilə', 'ilk', 'in', 'indi', 'isə', 'istifadə', 'iyirmi', 'ki', 'kim', 'kimə', 'kimi', 'lakin', 'lap', 'məhz', 'mən', 'mənə', 'mirşey', 'nə', 'nəhayət', 'niyə', 'o', 'obirisi', 'of', 'olan', 'olar', 'olaraq', 'oldu', 'olduğu', 'olmadı', 'olmaz', 'olmuşdur', 'olsun', 'olur', 'on', 'ona', 'ondan', 'onlar', 'onlardan', 'onların ', 'onsuzda', 'onu', 

You can see that they are all lower case and have punctuation removed. You could compare
your tokens to the stop words and filter them out, but you must ensure that your text is prepared
the same way. Let’s demonstrate this with a small pipeline of text preparation including:


In [20]:
import string
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
# load data
filename = 'kishmish.txt'
file = open(filename, 'rt', encoding = 'utf-8')
text = file.read()
file.close()
# split into words
tokens = word_tokenize(text)
# convert to lower case
tokens = [w.lower() for w in tokens]
# prepare regex for char filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
# remove punctuation from each word
stripped = [re_punc.sub('', w) for w in tokens]
# remove remaining tokens that are not alphabetic
words = [word for word in stripped if word.isalpha()]
# filter out stop words
stop_words = set(stopwords.words('azerbaijani'))
words = [w for w in words if not w in stop_words]
print(words[:100])


['qış', 'fəsli', 'hava', 'şiddətli', 'soyuq', 'nəfər', 'seyid', 'əhli', 'araz', 'çayından', 'rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', 'zurnalı', 'kəndinə', 'vətəndə', 'günümüz', 'məşəqqət', 'korluqla', 'keçirdi', 'rus', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'buranın', 'müsəlman', 'əhalisindən', 'mehribanlıq', 'görüb', 'əhliəyalımıza', 'azçox', 'ruzi', 'əxz', 'edib', 'vətənimizə', 'geri', 'qayıtmışıq', 'allah', 'razı', 'vilayətin', 'müsəlmanlarından', 'ayda', 'dəfə', 'bunlara', 'qonaq', 'oluruq', 'kəndə', 'yetişib', 'xəbərdar', 'olduq', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'ağsaqqalı', 'bala', 'sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini', 'orada', 'söhbət', 'yola', 'verirlər', 'üz', 'qoyduq', 'bala', 'sultanın', 'tövlə', 'otağına', 'tövlənin', 'tərəfi', 'mal', 'dolu', 'qaranlıq', 'digər', 'tərəfi', 'uca', 'işıq', 'burada', 'cəmiyyət', 'əyləşib', 'söhbətə', 'məşğul', 'idilər', 'danışanlar'

### 2.5 Stem Words
Some applications, like document classification, may
benefit from stemming in order to both reduce the vocabulary and to focus on the sense or
sentiment of a document rather than deeper meaning. There are many stemming algorithms,
although a popular and long-standing method is the Porter Stemming algorithm. This method
is available in NLTK via the PorterStemmer class. 

In [21]:
from nltk.tokenize import word_tokenize
from nltk.stem.porter import PorterStemmer

tokens = word_tokenize(text)
# stemming of words
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:100])


['qış', 'fəsli', 'idi', '.', 'hava', 'şiddətli', 'soyuq', 'idi', '.', 'biz', 'iki', 'nəfər', 'seyid', ',', 'i̇ran', 'əhli', ',', 'araz', 'çayından', 'rusiya', 'torpağına', 'keçib', 'axşam', 'vaxtı', 'özümüzü', 'yetirdik', '“', 'zurnalı', '”', 'kəndinə', '.', 'vətəndə', 'günümüz', 'məşəqqət', 'və', 'korluqla', 'keçirdi', '.', 'ru', 'məmləkətinə', 'səfər', 'eləməyimizin', 'səbəbi', 'bu', 'idi', 'ki', ',', 'buranın', 'müsəlman', 'əhalisindən', 'həmişə', 'mehribanlıq', 'görüb', 'əhli-əyalımıza', 'az-çox', 'ruzi', 'əxz', 'edib', ',', 'vətənimizə', 'geri', 'qayıtmışıq', '.', 'allah', 'razı', 'olsun', 'bu', 'vilayətin', 'müsəlmanlarından', ';', 'ayda', 'bir', 'dəfə', 'bunlara', 'qonaq', 'oluruq', '.', 'kəndə', 'yetişib', 'xəbərdar', 'olduq', 'ki', ',', 'buranın', 'camaatı', 'axşamlar', 'kəndin', 'mötəbər', 'ağası', 'və', 'ağsaqqalı', 'bala', 'sultanın', 'tövlə', 'otağına', 'cəm', 'olub', 'uzun', 'qış', 'gecələrini']


<hr>

Copyright &copy; 2020 Nijat Zeynalov. The basic idea of this notebook inspired by Jason Brownlee. The notebook are released under the terms of the [MIT License](https://bigdatauniversity.com/mit-license/).