In [1]:
!pip3 install nltk



In [2]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

**Tokenization**

In [3]:
from nltk.tokenize import word_tokenize


text = "Doğal dil işleme, bilgisayarların insan dilini anlamasını sağlar."


tokens = word_tokenize(text)
print("Tokenlar:", tokens)


Tokenlar: ['Doğal', 'dil', 'işleme', ',', 'bilgisayarların', 'insan', 'dilini', 'anlamasını', 'sağlar', '.']


**Stopwords**

In [4]:
from nltk.corpus import stopwords


stop_words = set(stopwords.words("turkish"))


tokens = ["doğal", "dil", "işleme", "bilgisayarların", "ve", "insan", "dilini", "anlamasını", "sağlar"]

filtered_tokens = [word for word in tokens if word not in stop_words]
print("Filtrelenmiş Tokenlar:", filtered_tokens)

Filtrelenmiş Tokenlar: ['doğal', 'dil', 'işleme', 'bilgisayarların', 'insan', 'dilini', 'anlamasını', 'sağlar']


**Stemming**

In [5]:
from nltk.stem import PorterStemmer

ps = PorterStemmer()


words = ["running", "jumps", "easily", "faster"]


stemmed_words = [ps.stem(word) for word in words]
print("Stemmed Kelimeler:", stemmed_words)


Stemmed Kelimeler: ['run', 'jump', 'easili', 'faster']


**Lemmatization**

In [6]:
from nltk.stem import WordNetLemmatizer
import nltk

nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()


words = ["running", "jumps", "easily", "faster"]

lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
print("Lemmatized Kelimeler:", lemmatized_words)

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Lemmatized Kelimeler: ['running', 'jump', 'easily', 'faster']


**POS Tagging**

In [7]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

sentence = "Alice and Bob are playing soccer in the park on a sunny day."


tokens = nltk.word_tokenize(sentence)


pos_tags = nltk.pos_tag(tokens)

print("POS Tagging Results:")
for word, tag in pos_tags:
    print(f"{word}: {tag}")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...


POS Tagging Results:
Alice: NNP
and: CC
Bob: NNP
are: VBP
playing: VBG
soccer: NN
in: IN
the: DT
park: NN
on: IN
a: DT
sunny: JJ
day: NN
.: .


[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


**Kelime Frekansı Analizi**

In [8]:
from collections import Counter
from nltk.tokenize import word_tokenize

text = "Doğal dil işleme, bilgisayarların insan dilini anlamasını sağlar. Dilin karmaşıklığı NLP için bir zorluktur."

tokens = word_tokenize(text.lower())

word_freq = Counter(tokens)
print(word_freq)


Counter({'.': 2, 'doğal': 1, 'dil': 1, 'işleme': 1, ',': 1, 'bilgisayarların': 1, 'insan': 1, 'dilini': 1, 'anlamasını': 1, 'sağlar': 1, 'dilin': 1, 'karmaşıklığı': 1, 'nlp': 1, 'için': 1, 'bir': 1, 'zorluktur': 1})


**Metin Temizleme ve Ön İşleme**

In [9]:
import re


text = "Doğal dil işleme (NLP), bilgisayarların insan dilini anlamasını sağlar!!! 😊"

def temizle(metin):
    metin = metin.lower()
    metin = re.sub(r"[^\w\s]", "", metin)
    metin = re.sub(r"\s+", " ", metin)
    return metin.strip()

clean_text = temizle(text)
print("Temizlenmiş Metin:", clean_text)

Temizlenmiş Metin: doğal dil işleme nlp bilgisayarların insan dilini anlamasını sağlar


In [10]:
import re
from nltk.tokenize import word_tokenize


text = "Doğal dil işleme (NLP), bilgisayarların insan dilini anlamasını sağlar!"

def temizle(metin):
    metin = metin.lower()
    metin = re.sub(r"[^\w\s]", "", metin)
    metin = re.sub(r"\s+", " ", metin)
    return metin.strip()

cleaned_text = temizle(text)

tokens = word_tokenize(cleaned_text)

print("Temizlenmiş Metin:", cleaned_text)
print("Tokenlar:", tokens)
print("Kelime Sayısı:", len(tokens))

Temizlenmiş Metin: doğal dil işleme nlp bilgisayarların insan dilini anlamasını sağlar
Tokenlar: ['doğal', 'dil', 'işleme', 'nlp', 'bilgisayarların', 'insan', 'dilini', 'anlamasını', 'sağlar']
Kelime Sayısı: 9
