In [0]:
!pip install git+https://github.com/emres/turkish-deasciifier.git
!pip install TurkishStemmer

In [0]:
# Kullanacağımız kütüphaneler
import re
from turkish.deasciifier import Deasciifier
from TurkishStemmer import TurkishStemmer

## Format sorunları
Unicode, dijital ve geleneksel medyada her bir karakter ve sembolleri benzersiz bir rakam yardımıyla oluşturmak için geliştirilen bir metin standartıdır. Unicode’un geliştirilmesinin asıl amacı ASCII (American Standart Code for Information Interchange) karakter kodlamasının daha gelişmiş ve stratejik bir sürümünün oluşturulabilmesidir.

- ASCII yalnızca Latin alfabesi için kullanılabilir, unicode evrenseldir
- Python 'string' verisi unicode formatındadır.

*çiçek*   ->  *Ã§iÃ§ek* 

** Deasciifier **
- ASCII formatındaki metinleri unicode formatına çevirmek için
- İngilizce klavyeyle yazılmış metinleri düzeltmek / hatalı karakterleri Türkçe karakterlerle değiştirmek için

*Dogal Dil Isleme* -> *Doğal Dil İşleme*

In [0]:
def deasciify(text):
    deasciifier = Deasciifier(text)
    text = deasciifier.convert_to_turkish()
    return text

In [0]:
text = 'Dogal Dil Isleme'
deasciify(text)

'Doğal Dil İşleme'

## Metin Temizleme
İşlenecek metinler çoğunlukla 'pis' veridir.
- Sistematik hatalar (cümle başı ve sonlarındaki gereksiz boşluklar, vs.)
- Yazım hataları (gramer hataları, gereksiz boşluk kullanımı, vs.) -> ('Oluur')
- Birden fazla ünlem işareti
- Büyük/küçük harflerin yanlış kullanımı -> 'OKul'
- Rakam kullanımı

Başka problemler:
- Emoji kullanımı
- Yabancı sözcük kullanımı

Emoji ve yabancı sözcük kullanımı duruma bağlı olarak tolere edilebilir, hatta yararlı olabilir.

*Ne biliyim bende olur dedim :/:/* -> *Ne bileyim ben de olur dedim* 

In [0]:
# Örnek cümle
text = '''Ben;de    dedim  ki
olabilir1.
'''
text

'Ben;de    dedim  ki\nolabilir1.\n'

In [0]:
# Cümlenin başındaki ve sonundaki gereksiz boşlukları çıkar
text = text.strip()
text

'Ben;de    dedim  ki\nolabilir1.'

In [0]:
# Bütün karakterleri küçük harfe dönüştür
text = text.lower()
text

'ben;de    dedim  ki\nolabilir1.'

In [0]:
# Rakamları sil
text = re.sub(r'\d+', '', text)
text

'ben;de    dedim  ki\nolabilir.'

In [0]:
# Noktalama işaretleriyle harfler arasına boşluk ekle
text = re.sub( r'([a-zA-Z])([:;,.!?])', r'\1 \2', text)
text = re.sub( r'([:;,.!?])([a-zA-Z])', r'\1 \2', text)
text

'ben ; de    dedim  ki\nolabilir .'

In [0]:
# Gereksiz tümboşlukları sil
text = re.sub(r"\s+", ' ', text)
text

'ben ; de dedim ki olabilir .'

### Metin Temizleme: Özet
Yukarıdaki işlemleri tek bir fonksiyon altında toplayabiliriz.

In [0]:
def clean_text(text):
    text = text.strip()
    text = text.lower()
    text = re.sub(r'\d+', '', text)
    
    text = re.sub( r'([a-zA-Z])([:;,.!?])', r'\1 \2', text)
    text = re.sub( r'([:;,.!?])([a-zA-Z])', r'\1 \2', text)
    
    text = re.sub(r"\s+", ' ', text)
    return text

## Metin Ön-İşleme
Dil modellerini eğitirken performansı arttırmak ve metinleri standart hale getirmek için uygulayacabileceğimiz başka adımlar da var:

- Noktalama işaretlerinin tamamının veya bir kısmının kaldırılması
- Çok sık kullanılan 'dolgu' kelimelerin (stop words) kaldırılması
- Kısaltma kelimeleri (ünvanlar, vs.) tam haline getirmek
- Kelimeleri kök haline getirmek ('kitabı', 'kitaplarım' -> 'kitap')

Hangi ön-işleme adımlarını kullanacağımız eğittimiz dil modelinin özelliklerine ve kullanım amacımıza bağlı. Örneğin Word2Vec gibi bir kelime temsil modelinde noktalama işaretleri ve rakamları tutmamızın hem bir amacı olmaz hem de model performansını düşürür.

### Dolgu Kelimelerin Çıkarılması

In [1]:
with open('data/tr-stopwords', 'r') as f:
    stopwords = f.read().splitlines()

stopwords[:5]

['a', 'acaba', 'altı', 'altmış', 'ama']

In [21]:
def remove_stopwords(text):
  text = ' '.join([word for word in text.split() if word not in stopwords])
  return text

text = 'o filmi izlemedim ama çok övüyorlar'
remove_stopwords(text)

'filmi izlemedim övüyorlar'

### Kelime Kökü Bulma

In [28]:
stemmer = TurkishStemmer()
stemmer.stem("okuldakilerden")

'okul'