# Introduction to NLP Course

## Content:
1. Sentence Tokenization - Word Tokenization
2. Text Cleaning
3. Text Normalization
4. Stemming
5. Lemmaization
6. POSTagging
7. Named Entity Recognition

## 1. Sentence Tokenization

In [None]:
import nltk
# nltk.download('punkt')
from nltk import sent_tokenize

text = """Susmayın!
             Saat 16'da Kadıköy'de buluşalım.
            Şiddet canilik göstergesinin en üst sınırıdır.
            Ailede şiddet geleceği karartır.
            Kadına şisddet, insanlığa ihanettir.
            Her sessiz kalınan şiddet bir gün sizi bulur.
            Sevgi insanlığın, şiddet hayvanlığın kanunudur."""


sentences = sent_tokenize(text)
sentences

## 1. Word Tokenization

In [None]:
import nltk
from nltk import word_tokenize
sentences = ['Susmayın!',
 "Saat 16'da Kadıköy'de buluşalım.",
 'Şiddet canilik göstergesinin en üst sınırıdır.',
 'Ailede şiddet geleceği karartır.',
 'Kadına şisddet, insanlığa ihanettir.',
 'Her sessiz kalınan şiddet bir gün sizi bulur.',
 'Sevgi insanlığın, şiddet hayvanlığın kanunudur.']

words = []
for sentence in sentences:
    words.append(word_tokenize(sentence))

words

#### with Zemberek

In [None]:
from zemberek import (
 TurkishSpellChecker,
 TurkishSentenceNormalizer,
 TurkishSentenceExtractor,
 TurkishMorphology,
 TurkishTokenizer
)

tokenizer = TurkishTokenizer.DEFAULT
sentence = "İstanbul'a merhaba!"
tokens = tokenizer.tokenize(sentence)
for token in tokens:
 print('Content = ', token.content)
 print('Type = ', token.type_.name)
 print('Start = ', token.start)
 print('Stop = ', token.end, '\n')

## 2. Text Cleaning

In [None]:
# Removing punctuation and special letters.
import string
message = 'Dil işlemede kullanılan kütüphaneler: nltk, spacy, scikit-learn vb.'
print(message.translate(str.maketrans('', '', string.punctuation)))


In [1]:
# Cleaning ineffective words
stop_words = ['acaba', 've', 'bir', 'birçok', 'ama', 'için']
message = 'Acaba metindeki dolgu kelimelerini bulmak ve temizlemek için ne yapılmalı?'
S1 = set(stop_words)
S2 = set(message.lower().split())
print(S1.intersection(S2))

{'acaba', 've', 'için'}


## 3. Text Normalization
Text should have the same letter cases.

In [None]:
message = 'Metin içinde geçen kelime sayısı o metin için bir özniteliktir.'
message.lower()

In the Text,non-canonical words should converse.
Spellchecks should normalized.

## 4. Stemming
### NLTK Porter

In [None]:
import nltk
from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
word = 'civilizations'
stemmed_word = porter_stemmer.stem(word)

stemmed_word

## NLTK Snowball (2nd Porter Stemmer) for ENG


In [None]:
import nltk
from nltk.stem.snowball import SnowballStemmer
sb_stemmer = SnowballStemmer(language='english')
word = 'civilizations'
stemmed_word = sb_stemmer.stem(word)

stemmed_word

### NLTK Snowball (2nd Porter Stemmer) for TR

In [None]:
from snowballstemmer import TurkishStemmer

tr_stemmer = TurkishStemmer()
stemmed_word = tr_stemmer.stemWord('çiçekler')
stemmed_word

# In fact, it is mostly working for lemmatization
lemmatized_word = tr_stemmer.stemWord('çiçeklerler')
lemmatized_word


## 5. Lemmatization
### spaCy

In [None]:
import spacy

nlp = spacy.load('en_core_web_sm')

word = nlp('civilizations')

print (" ".join([token.lemma_ for token in word]))

#### with Zemberek

In [None]:
from zemberek import (
 TurkishSpellChecker,
 TurkishSentenceNormalizer,
 TurkishSentenceExtractor,
 TurkishMorphology,
 TurkishTokenizer
)

morphology = TurkishMorphology.create_with_defaults()
sentence_1 = "Ayının kürkü kahverengidir."
morph_analysis_1 = morphology.analyze(sentence_1)

sentence_2 = "Kitabımızı aldık."
morph_analysis_2 = morphology.analyze(sentence_2)

morph_analysis_1
morph_analysis_2.EMPTY_INPUT_RESULT

## 6. POSTagging

#### with NLTK

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')

tokens = nltk.word_tokenize("Can you buy me a red chili pepper from grocery?")
print("Part of Speech: ", nltk.pos_tag(tokens))

#### with spaCy

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp("I want an early upgrade")
for token in doc:
 print(token.text, token.pos_)

## 7. Named Entity Recognition

#### with NLTK

In [None]:
import nltk
# nltk.download('maxent_ne_chunker')
# nltk.download('words')

from nltk import ne_chunk
sentence = "Legendary scientist Albert Einstein is born in Ulm, Germany."
tokens = nltk.word_tokenize(sentence)
tagged_tokens = nltk.pos_tag(tokens)
entities = nltk.chunk.ne_chunk(tagged_tokens)
entities

#### with spaCY

In [None]:
import spacy
from spacy import displacy
from collections import Counter

nlp = spacy.load('en_core_web_sm')
sentence = nlp("Michael Jordan is a professor at Berkeley")
entities = sentence.ents

print([(entity.text, entity.label_)for entity in entities])