<span style="font-size:1.1em;">Colab'a Google drive'ı entegre ediyoruz. Kullanılacak olan veriseti Google Drive'da bulunmaktadır</span>

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
import pandas as pd 

<span style="font-size:1.1em;">Google Drive'ımızın root pathi</span> ```gdrive/My Drive``` <span style="font-size:1.1em;">oluyor. Proje için gerekli verisetini **mbti** adında bir klasör oluşturup içerisine yüklüyoruz. İlgili verisetinin pathi</span> ```gdrive/My Drive/mbti/all_users.csv``` <span style="font-size:1.1em;">oluyor.</span>

In [None]:
df = pd.read_csv("gdrive/My Drive/mbti/eliminated_all_users_v2.csv", sep = ';', header = 0) 

In [None]:
df

# Pre-Processing

<span style="font-size:1.1em;"> Entrylere ön işleme adımları uygulanır. Bu adımlar:</span>


1. <span style="font-size:1.1em;">Bütün harflerin küçük harf haline getirilmesi</span>


2. <span style="font-size:1.1em;">Entrylerden stop words'ler silinmelidir.</span>


3. <span style="font-size:1.1em;">Web sitelerinin temizlenmesi</span>


4. <span style="font-size:1.1em;">Noktalama işaretlerinin temizlenmesi</span>


5. <span style="font-size:1.1em;">Rakamların temizlenmesi</span>


6. <span style="font-size:1.1em;">Stemming kullanılması</span>


<span style="font-size:1.1em;">    
Temizlenme işlemlerinde empty string yerine space (' ') ile replace edilerek yapılmalıdır. Arından da fazla boşluklar vs trim edilmelidir.

```[+-]?([0-9]*)([.][0-9])?``` regex olarak kullanılacak hem rakamların silinmesinde hem de ondaklı sayıların silinmesinde --> buna gerek kalmadı

</span>


<span style="font-size:1.1em;"> Stop words, drive'da /mbti altındaki stop_words_tr.txt okunarak alınır</span>



In [None]:
file = open("gdrive/My Drive/mbti/stop_words_tr.txt")
stop_word_list = file.read().split('\n')
file.close()

In [None]:
stop_word_list

<span style="font-size:1.1em">Entrylerdeki harfler küçük harf haline getirilir</span>

In [None]:
df['entry'] = df['entry'].str.lower()
df['entry']


<span style="font-size:1.1em;">Entrylerden web site linkleri silinir.</span>

In [None]:
df['entry'] = df['entry'].str.replace(r'http\S+', ' ', regex=True)
df['entry'] = df['entry'].str.replace(r'www\S+', '', regex=True)
df['entry']

<span style="font-size:1.1em;">Entrylerden noktalama işaretleri temizlenir.</span>

In [None]:
import string

df['entry'] = df['entry'].apply(lambda x: x.translate(str.maketrans(string.punctuation, ' '*len(string.punctuation))))
df['entry']

<span style="font-size:1.1em">Entrylerden rakamlar silinir.</span>

In [None]:
df['entry'] = df['entry'].str.replace('\d+', ' ')
df['entry']

Entrylerden stop words'ler temizlenir.

In [None]:
df['entry'] = df['entry'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_word_list)]))
df['entry']

Fazla olan whitespace karakterleri temizlenir.

In [None]:
df['entry'] = df['entry'].replace('\s+', ' ', regex=True)

<span style="font-size:1.1em">Verisetinin stemmera sokmadan önceki ön işlemeden geçirilmiş hali kaydedilir. Buradaki amaç stemmerdan geçirilmiş ve geçirilmemiş halinin başarı açısından karşılaştırılmasının yapılabilmesi.</span>

In [None]:
df.to_csv("gdrive/My Drive/mbti/preprocessed_dataset_no_stemming.csv", sep=';', encoding='utf-8', index=False)

<span style="font-size:1.1em">SnowballStemmer içerisinde Türkçe dili için kullanabileceğimiz TurkishStemmer import edilir. Stemmer ile kelimelerin köklerine ulaşılır. Lemmatization işlemiyle kök bulunduğu zaman elde edilen kökler biçimsel açıdan da doğru olurken (yani mantıksal açıdan da) stemmer ile elde edilen köklerde böyle bir durum söz konusu değildir. Dolayısıyla stemming edilmis hallerine bakıldıgında mantıksal açıdan düzgün sonuclar vermeyebilir.</span>

<span style="font-size:1.1em">Google Colab'a snowballstemmer ile ilgil package'i indirmek için aşağıdaki komutu çalıştırıyoruz.</span>

In [None]:
!pip install snowballstemmer

In [None]:
from snowballstemmer import TurkishStemmer

In [None]:
stemmer = TurkishStemmer()
df['entry']

In [None]:
indexes = df.index

for i in range(len(indexes)):
    index = indexes[i]
    entry = df['entry'][index]
    entry_kokler = stemmer.stemWords(entry.split(" "))
    df['entry'][index] = " ".join(entry_kokler)


In [None]:
df['entry']

Entrylerden stop words'ler temizlenir. Stemming sonucunda ele edilen bazı cevapler stop words olabilir

In [None]:
df['entry'] = df['entry'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_word_list)]))
df['entry']

Fazla olan whitespace karakterleri temizlenir.

In [None]:
df['entry'] = df['entry'].replace('\s+', ' ', regex=True)

<span style="font-size:1.1em">Stemmera sokulmuş hali kaydedilir.</span>

In [None]:
df.to_csv("gdrive/My Drive/mbti/preprocessed_dataset_with_stemming.csv", sep=';', encoding='utf-8', index=False)