# Doğal Dil İşleme - (Natural Language Processing - NLP) / Hesaplamalı Bilim (Computional Linguistic)

**Hedefler**
* NLU (Natural Language Understanding)
* NLG (Natural Language Generation)

**Yaklaşımlar**
* Linguistic (Dilbilim) Yaklaşımı
    * Pragmatics (Kullanımbilim)
    * Semantics (Anlambilim)
    * Syntax (Sözdizim)
    * Morphology (Şekilbilim)
* İstatistiksel Yaklaşımlar
    * N-gram
    * TF-IDF
    * Word-Gram
    * BOW (Bag of Words, Kelime Çantaları)
* Hybrid (Hibrit) Yaklaşımlar

<br>

**Örnek: Yazar Tanıma**
* Linguistic (Dilbilim) Yaklaşımı
    * POS-Tagging (Part of Speech Tagging, Metin Parçası Etiketleme)
* İstatistiksel Yaklaşımlar
    * İstatistiksel Dağılım
* Hybrid (Hibrit) Yaklaşımlar
    * Metindeki kelime tiplerinin dağılımı ve cumle yapıları
    
<hr>

**Örnek: Metin Sınıflandırma (Örn. Çağrı merkezi, sosyal ağlar, mailler vb.)**
* Linguistic (Dilbilim) Yaklaşımı
    * Örüntü tanımı (isim tamlaması, sıfat tamlaması vb.)
* İstatistiksel Yaklaşımlar
    * İstatistiksel Dağılım
* Hybrid (Hibrit) Yaklaşımlar
    * Örüntü dağılımı sınıflandırma
        
<hr>

**Örnek: Duygusal Kutupsallık (Sentimental Polarity), Fikir Madenciliği(Opinion Mining)**
* Linguistic (Dilbilim) Yaklaşımı
    * Kelime anlam çıkarımı (olumlu veya olumsuz)
* İstatistiksel Yaklaşımlar
    * Kelime tanımlı sözlükler veya örüntüler
* Hybrid (Hibrit) Yaklaşımlar
    * Duygu analizi (Sentimental Analysis)
        
<hr>

**Örnek: Anomali Yakalama (Saldırgan, virüs veya tehdit)**
* Linguistic (Dilbilim) Yaklaşımı
* İstatistiksel Yaklaşımlar
    * Anomali yakalama ve kelime dağılımları
* Hybrid (Hibrit) Yaklaşımlar
    * Anahtar kelime çıkarımı
    
<br><br>

**Gerçek Uygulamalar**
* Duygu Analizi (Sentimental Analysis)
* Metin Sınıflandırma (Text Categorization)
* Metin Özetleme (Document Summarization)
* Soru Cevaplama (uestion Answering)
* Etiket Bulutları ve Anahtar Kelime Çıkarımı

<br><br>

**Bazı Yabancı DDİ Kütüphaneleri**
* NLTK: nltk.org
* SpaCy: spacy.io
* Stanford NLP
* OpenNLP: Apache: opennlp.apache.org
* Rapid Automatic Keyword Extraction (RAKE)
* Amueller Word Cloud
* Tensor Flow: Word2Vec

<br><br>

**Bazı Türkçe DDİ Kütüphaneleri**
* Zemberek (zembereknlp.blogspot.com)
* İTÜ (tools.nlp.itu.edu.tr)
* Tspell (tspell.sourceforge.net/hakkinda.html)
* Yıldız Teknik Üniversitesi: Kemik: (www.kemik.yildiz.edu.tr)
* Wordnet (Balkanet)
* TrMorph (coltekin.net/cagri/trmorph)
* TSCorpus (tscorpus.com)
* Metu-Sabancı Tree Bank ve İTÜ Doğrulama Kümesi (web.itu.edu.tr/gulsenc/treebanks.html)

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import nltk
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix

from warnings import filterwarnings
filterwarnings("ignore")

In [6]:
colons = ["Review","Liked"]
yorumlar = pd.read_csv("../Docs/Restaurant_Reviews.csv", names = colons)
yorumlar

Unnamed: 0,Review,Liked
0,Review,Liked
1,Wow... Loved this place.,1
2,Crust is not good.,0
3,Not tasty and the texture was just nasty.,0
4,Stopped by during the late May bank holiday of...,1
...,...,...
996,I think food should have flavor and texture an...,0
997,Appetite instantly gone.,0
998,Overall I was not impressed and would not go b...,0
999,The whole experience was underwhelming,and I think we'll just go to Ninja Sushi next...


In [7]:
ps = PorterStemmer()
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Tolga\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [17]:
?ps

[1;31mType:[0m        PorterStemmer
[1;31mString form:[0m <PorterStemmer>
[1;31mFile:[0m        c:\users\tolga\appdata\local\programs\python\python310\lib\site-packages\nltk\stem\porter.py
[1;31mDocstring:[0m  
A word stemmer based on the Porter stemming algorithm.

    Porter, M. "An algorithm for suffix stripping."
    Program 14.3 (1980): 130-137.

See https://www.tartarus.org/~martin/PorterStemmer/ for the homepage
of the algorithm.

Martin Porter has endorsed several modifications to the Porter
algorithm since writing his original paper, and those extensions are
included in the implementations on his website. Additionally, others
have proposed further improvements to the algorithm, including NLTK
contributors. There are thus three modes that can be selected by
passing the appropriate constant to the class constructor's `mode`
attribute:

- PorterStemmer.ORIGINAL_ALGORITHM

    An implementation that is faithful to the original paper.

    Note that Martin Porter has deprec

In [8]:
# Preprocessing (Önişleme)
derlem = []
for i in range(1000):
    yorum = re.sub('[^a-zA-Z]',' ',yorumlar['Review'][i])
    yorum = yorum.lower()
    yorum = yorum.split()
    yorum = [ps.stem(kelime) for kelime in yorum if not kelime in set(stopwords.words('english'))]
    yorum = ' '.join(yorum)
    derlem.append(yorum)

In [9]:
# Feautre Extraction ( Öznitelik Çıkarımı)
# Bag of Words (BOW)

cv = CountVectorizer(max_features = 2000)
# Bağımsız değişken
X = cv.fit_transform(derlem).toarray() 
# Bağımlı değişken
y = yorumlar.iloc[:,1].values 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)

gnb = GaussianNB()
gnb.fit(X_train,y_train)

y_pred = gnb.predict(X_test)

cm = confusion_matrix(y_test,y_pred)
print(cm)

ValueError: Found input variables with inconsistent numbers of samples: [1000, 1001]

In [3]:
?cv

Object `cv` not found.
