# Text Normalisasi
Pengangantian token  ke dalam bentuk resmi sehingga kita dapat menggabungkannya kedalam berbagai macam variasi dari sebuah kata

Contohnya:
    
- lowercasing
- stemming
- American-to-British mapping
- synonym mapping

## Stemming
**Stemming** adalah proses untuk mereduksi kata ke dalam sederhana yang disebut stem



In [1]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print (stemmer.stem('cooking'))
print (stemmer.stem('cookery'))

cook
cookeri


Menggunakan algoritma PortStremer. Terdapat beberapa algoritma lain yang disediakan oleh NLTK seperti:
- LancasterStemmer yang berasala dari Lancaster University
- RegexpStemmer yang biasa berfungsi untuk menghapus prefix atau sufix yang sesuai dengan template 
- SnowballStemmer yang mendukung 13 bahasa non-inggris 


In [2]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print (stemmer.stem('cooking'))
print (stemmer.stem('cookery'))

cook
cookery


In [3]:
from nltk.stem import RegexpStemmer
stemmer = RegexpStemmer('ing')
print (stemmer.stem('cooking'))
print (stemmer.stem('cookery'))
print (stemmer.stem('ingleside'))



cook
cookery
leside


In [4]:
from nltk.stem import SnowballStemmer
SnowballStemmer.languages


('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [5]:
spanish_stemmer = SnowballStemmer('english')
spanish_stemmer.stem('hola')

'hola'

In [6]:
dutch_stemmer=SnowballStemmer('dutch')
dutch_stemmer.stem('hola')

'hola'

## Lemmatization 
Lemma adalah akar kata. Salah satu kamus yang dapat digunakan untuk mencari akar kata adalah Wordnet. 


In [7]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print (lemmatizer.lemmatize('running'))
print (lemmatizer.lemmatize('running', pos='v'))
print (lemmatizer.lemmatize('things'))


running
run
thing


Perbedaan antara stemmin dengan lematization adalah sebagai berikut:

In [8]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print (stemmer.stem('believes'))
print (lemmatizer.lemmatize('believes'))



believ
belief


## Penggantian Kata menggunakan matching regular expressions


In [9]:
import re
replacement_patterns = [
(r'won\'t', 'will not'),
(r'can\'t', 'cannot'),
(r'i\'m', 'i am'),
(r'ain\'t', 'is not'),
(r'(\w+)\'ll', '\g<1> will'),
(r'(\w+)n\'t', '\g<1> not'),
(r'(\w+)\'ve', '\g<1> have'),
(r'(\w+)\'s', '\g<1> is'),
(r'(\w+)\'re', '\g<1> are'),
(r'(\w+)\'d', '\g<1> would')
]


In [10]:
patterns = [(re.compile(regex), repl) for (regex, repl) in replacement_patterns]


In [11]:
source = "can't learn NLP"
for (pattern, repl) in patterns:
    source = re.sub(pattern, repl, source)
source

'cannot learn NLP'

## Spelling Checker 

Kita dapat menggunakan spelling checker untuk mendapatkan hasil yang lebih baik. Salah satunya dengan menggunakan ``enchant`` yang merupakan library spelling checker dari AbiWord (salah satu software open source)

In [12]:
from replacers import SpellingReplacer
replacer = SpellingReplacer()
replacer.replace('cookbok')

'cookbook'

In [13]:
import enchant
enchant.list_languages()

['en_US']

Perhatikan penggunaan kamus yang akan digunakan karenan setiap kamus akan memiliki nilai yang berbeda-beda.

In [17]:
import enchant
dUS = enchant.Dict('en_US')
print (dUS.check('theater'))
dGB = enchant.Dict('en_GB')
print (dGB.check('theater'))

True
True


In [19]:
us_replacer = SpellingReplacer('en_US')
print (us_replacer.replace('theater'))
gb_replacer = SpellingReplacer('en_GB')
print (gb_replacer.replace('theater'))

theater
theater


## Spelling checker menggunakan definisi kita

Kita dapat membuat kamus sendiri untuk melalukan penggantian kata seperti spelling checker. Dengan membuat class sebagai berikut:

``class WordReplacer(object):
    def __init__(self, word_map):
        self.word_map = word_map
    def replace(self, word):
        return self.word_map.get(word, word)``


In [20]:
from replacers import WordReplacer
replacer = WordReplacer({'yg': 'yang'})
print (replacer.replace('yg'))


SyntaxError: invalid syntax (<ipython-input-20-301b62921fd3>, line 3)