In [1]:
import nltk 

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# 1.Tokenization

## Sentence Tokenize

In [1]:
from nltk import sent_tokenize

text = """Susmayın!
Saat 16'da Kadikoy'de buluşalım.
Şiddet cahillik göstergelerinin en üst sınırıdır.
Ailede şiddet geleceği karartır.
Kadına şiddet, insanlığa ihanettir.
Her sessiz kalınan şiddet bir gün sizi bulur. 
Sevgi insanlığın, şiddet hayvanlığın kanunudur.
"""

sentences = sent_tokenize(text)

for i, sentence in enumerate(sentences):
    print(i," ",sentence)

0   Susmayın!
1   Saat 16'da Kadikoy'de buluşalım.
2   Şiddet cahillik göstergelerinin en üst sınırıdır.
3   Ailede şiddet geleceği karartır.
4   Kadına şiddet, insanlığa ihanettir.
5   Her sessiz kalınan şiddet bir gün sizi bulur.
6   Sevgi insanlığın, şiddet hayvanlığın kanunudur.


## Word Tokenize

In [2]:
from nltk import word_tokenize

sentences = [
    "Susmayın!",
    "Saat 16'da Kadikoy'de buluşalım.",
    "Şiddet cahillik göstergelerinin en üst sınırıdır.",
    "Ailede şiddet geleceği karartır.",
    "Kadına şiddet, insanlığa ihanettir.",
    "Her sessiz kalınan şiddet bir gün sizi bulur.",
    "Sevgi insanlığın, şiddet hayvanlığın kanunudur."
]

for sentence in sentences:
    print(word_tokenize(sentence))

['Susmayın', '!']
['Saat', "16'da", "Kadikoy'de", 'buluşalım', '.']
['Şiddet', 'cahillik', 'göstergelerinin', 'en', 'üst', 'sınırıdır', '.']
['Ailede', 'şiddet', 'geleceği', 'karartır', '.']
['Kadına', 'şiddet', ',', 'insanlığa', 'ihanettir', '.']
['Her', 'sessiz', 'kalınan', 'şiddet', 'bir', 'gün', 'sizi', 'bulur', '.']
['Sevgi', 'insanlığın', ',', 'şiddet', 'hayvanlığın', 'kanunudur', '.']


# 2.Stemming

In [3]:
from nltk.stem.porter import *
from nltk.stem.snowball import SnowballStemmer

In [4]:
porter_stemmer = PorterStemmer()
word = "civilizations"

print(porter_stemmer.stem(word))

civil


In [None]:
# Snowball Stemmer (Porter2 Stemmer)
snowball_stemmer = SnowballStemmer(language="english")

print(snowball_stemmer.stem(word))

civil


In [5]:
print("Snowball Stemmer Languages : ")
print(" ".join(SnowballStemmer.languages))

Snowball Stemmer Languages : 
arabic danish dutch english finnish french german hungarian italian norwegian porter portuguese romanian russian spanish swedish


In [10]:
#Turkish Stemmer
from snowballstemmer import TurkishStemmer

turkish_stemmer = TurkishStemmer()
word = "aydınlıktan"
word2 = "çiçeklikler"

print(turkish_stemmer.stemWord(word))

aydınlık


# 3.Lemmatization


In [12]:
import spacy

nlp = spacy.load("en_core_web_sm")
word = nlp("civilizations")

for token in word:
    print(token.lemma_)


civilization


# 4.Stop Words

## with spaCy

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
len(nlp.Defaults.stop_words)

326

In [None]:
sw_list = list(nlp.Defaults.stop_words)
print(sw_list[:10])

['least', 'down', 'one', 'becoming', 'latter', 'nowhere', 'at', 'nobody', 'him', 'your']


In [None]:
print(nlp.vocab["of"].is_stop)
print(nlp.vocab["civilizations"].is_stop)

True
False


In [None]:
nlp.Defaults.stop_words.add("civilizations")

In [None]:
print(nlp.vocab["civilizations"].is_stop)
print(len(nlp.Defaults.stop_words))

False
327


In [None]:
nlp.Defaults.stop_words.remove("civilizations")

In [None]:
print(nlp.vocab["civilizations"].is_stop)
print(len(nlp.Defaults.stop_words))

False
326


## with nltk

In [None]:
import nltk 
nltk.download("stopwords")

from nltk.corpus import stopwords

turkish_sw = stopwords.words("turkish")

print(len(turkish_sw))
print(turkish_sw[:])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
53
['acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'birkaç', 'birşey', 'biz', 'bu', 'çok', 'çünkü', 'da', 'daha', 'de', 'defa', 'diye', 'eğer', 'en', 'gibi', 'hem', 'hep', 'hepsi', 'her', 'hiç', 'için', 'ile', 'ise', 'kez', 'ki', 'kim', 'mı', 'mu', 'mü', 'nasıl', 'ne', 'neden', 'nerde', 'nerede', 'nereye', 'niçin', 'niye', 'o', 'sanki', 'şey', 'siz', 'şu', 'tüm', 've', 'veya', 'ya', 'yani']
