## Verisetinin Yüklenmesi

<span style="font-size:1.1em;">Colab'a Google drive'ı entegre ediyoruz. Kullanılacak olan veriseti Google Drive'da bulunmaktadır</span>

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
PREPROCESSED_DATASET_WITH_STEMMER = "gdrive/My Drive/mbti/preprocessed_dataset_with_stemming.csv"
PREPROCESSED_DATASET_WITHOUT_STEMMER = "gdrive/My Drive/mbti/preprocessed_dataset_no_stemming.csv"
PREPROCESSED_DATASET_ZEMBEREK = "gdrive/My Drive/mbti/preprocessed_dataset_zemberek.csv"
ELIMINATED_DATASET = "gdrive/My Drive/mbti/eliminated_all_users_v2.csv"
RAW_DATASET = "gdrive/My Drive/mbti/all_users_v2.csv"

<span style="font-size:1.1em;">Hangi veriseti kullanılarak işlem yapılacaksa yukardaki pathlerden biri seçilir ve parametre olarak verilir.</span>

In [None]:
import pandas as pd 
df = pd.read_csv(PREPROCESSED_DATASET_ZEMBEREK, sep = ';', header = 0)

In [None]:
df

Her tipten eşit sayıda entry alınabilmesi adına öncelikle bir sınıftaki en az olan entry sayısı bulunur

In [None]:
min_entry = df.groupby('typeClass', as_index = False).count().min().entry

min_entry


Eşit sayıda entry olacak şekilde yeni bir dataframe olusturulur

In [None]:
analysts_df = df[df['typeClass'] == 'analysts']
analysts_df = analysts_df.iloc[0 : min_entry]

analysts_df.shape[0]


In [None]:
explorers_df = df[df['typeClass'] == 'explorers']
explorers_df = explorers_df.iloc[0 : min_entry]

explorers_df.shape[0]

In [None]:
sentinels_df = df[df['typeClass'] == 'sentinels']
sentinels_df = sentinels_df.iloc[0 : min_entry]

sentinels_df.shape[0]

In [None]:
diplomats_df = df[df['typeClass'] == 'diplomats']

diplomats_df = diplomats_df.iloc[0 : min_entry]

diplomats_df.shape[0]

Yeni bir dataframe oluşturulur.

In [None]:
equal_entries_df = pd.concat([diplomats_df, sentinels_df, explorers_df, analysts_df]).reset_index(drop=True)
equal_entries_df

Oluşturulan dataframe shuffle edilir.

In [None]:
equal_entries_df = equal_entries_df.sample(frac=1).reset_index(drop=True)

In [None]:
equal_entries_df

# Feature Extraction

<span style="font-size:1.1em;">TF-IDF özellik vektörünün çıkartılmasında kullanılacak değişken aşağıda belirlenmiş olan parametrelerle oluşturulur.</span>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm='l2', encoding='utf-8', ngram_range=(1, 1), max_features=1000)

In [None]:
import numpy as np

df['entry'] = df['entry'].apply(lambda x: np.str_(x)) # ValueError: np.nan is an invalid document seklinde bir hata verdigi icin bunu asmak adina yapildi.

<span style="font-size:1.1em;">Burada tf-idf vektörlerinin çıkartılmasında kullanılacak olan vocabulary oluşturulur.</span>

In [None]:
tfidf_vectorizer.fit(equal_entries_df['entry'])

# Modelin Oluşturulması

## typeClass Tahmini

<span style="font-size:1.1em;">Veriseti train ve test olmak üzere ikiye ayrılır. Test %20 ve train %80'ini oluşturacak şekilde tüm veriseti bölünür. random_state parametresi ile tekrardan bölündüğünde bir öncekiyle aynı train ve test veri setlerinin oluşturulması sağlanır.</span>

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(equal_entries_df['entry'], equal_entries_df['typeClass'], random_state = 42, test_size = 0.20)

Train ve test datasetlerinden tf-idf vektörleri çıkartılır


In [None]:
X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

Multinominal Naive Bayes modeli oluşturulur. Oluşturulan bu model verisetinde "type" olarak belirtilen "analysts", "diplomats", "sentimenls", "explorers" sınıflarından hangilerine ait olduğunu tahmin etmek için kullanılır

In [None]:
from sklearn.naive_bayes import MultinomialNB

In [None]:
clf = MultinomialNB().fit(X_train_tfidf, y_train)
test_typeClass = y_test.values

predictions = clf.predict(X_test_tfidf)

In [None]:
predictions

<span style="font-size:1.1em">Yapılacak tahminlerle ilgili istatistiksel verileri tutmak için</span> ```predictions_result```<span style="font-size:1.1em"> adında bir değişken oluşturulur.</span>

<span style="font-size:1.1em">Bu değişkenin yapısı aşağıdaki gibidir.</span>

```json
{
    "predicted": {
        "analysts":  { "actual": {"analysts": 0, "diplomats": 0, "explorers": 0, "sentinels": 0} }
        "diplomats": { "actual": {"analysts": 0, "diplomats": 0, "explorers": 0, "sentinels": 0} }
        "explorers": { "actual": {"analysts": 0, "diplomats": 0, "explorers": 0, "sentinels": 0} }
        "sentinels": { "actual": {"analysts": 0, "diplomats": 0, "explorers": 0, "sentinels": 0} }
    }
}
```

* <span style="font-size:1.1em;">Yapılan tahminlerle ilgili verilere ulaşabilmek için</span>

    ```predictions_results['predicted']```


* <span style="font-size:1.1em;">Yapılan tahminin analyst ise:</span>

    ```predictions_results['predicted']['analysts']``` 


* <span style="font-size:1.1em;">Yapılan analyst tahmininin gerçek değerlerine erişmek için:</span>     

    ```predictions_results['predicted']['analysts']['actual']```  


* <span style="font-size:1.1em;">Test verisi, model tarafından analysts olarak tahmin edilmiştir ve bu verinin gerçek değeri de analysts'tir.</span>

    ```predictions_results['predicted']['analysts']['actual']['analysts']``` 

In [None]:
prediction_results = {'predicted': {}}  ## prediction_result['analysts'] means prediction is 'analysts'

prediction_results['predicted']['analysts']  = {'actual': {'analysts': 0, 'diplomats': 0, 'explorers': 0, 'sentinels': 0}}
prediction_results['predicted']['diplomats'] = {'actual': {'analysts': 0, 'diplomats': 0, 'explorers': 0, 'sentinels': 0}}
prediction_results['predicted']['explorers'] = {'actual': {'analysts': 0, 'diplomats': 0, 'explorers': 0, 'sentinels': 0}}
prediction_results['predicted']['sentinels'] = {'actual': {'analysts': 0, 'diplomats': 0, 'explorers': 0, 'sentinels': 0}}

## prediction_result['analysts']['diplomats'] means prediction is analysts but actual value is diplomats

```prediction_results```<span style="font-size:1.1em"> içerisinde tutulan sayaçların değerleri arttırılır.</span>

In [None]:
for i in range(len(predictions)):
  predicted_value = predictions[i]
  actual_value = test_typeClass[i]
  prediction_results['predicted'][predicted_value]['actual'][actual_value] += 1

<span style="font-size:1.1em">JSON formatına çevrilir </span>```dict``` <span style="font-size:1.1em">tipi. Bu sayede daha okunaklı bir şekilde print edilmiş olur. </span>

In [None]:
import json

print(json.dumps(prediction_results, indent = 2))

<span style="font-size:1.1em;">İlgili field extract edilir</span> ```dict``` <span style="font-size:1.1em;">yapısından.</span>

In [None]:
results = prediction_results['predicted']

<span style="font-size:1.1em;">Başarı oranı hesaplanır</span>

In [None]:
accuracy = (results['analysts']['actual']['analysts'] + results['diplomats']['actual']['diplomats'] + results['explorers']['actual']['explorers'] + results['sentinels']['actual']['sentinels']) / len(predictions)
accuracy

## I/E Tahmini

<span style="font-size:1.1em;">**I/E** boyutu tahmin edilir</span>

<span style="font-size:1.1em;">Her iki sınıfta da eşit entry dağılımı olması için öncelikle subsampling yapılır.</span>

<span style="font-size:1.1em;"> Her iki sınıfın içerdiği satırlar sayılır ve entry sayısı için min olan değer alınır.</span>

In [None]:
min_entry = df.groupby('I/E', as_index = False).count().min().entry

min_entry

<span style="font-size:1.1em;">Hesaplanan minimum entry sayısına göre iki sınıftan da entry alınır.</span>

In [None]:
I_df = df[df['I/E'] == 'I']
I_df = I_df.iloc[0 : min_entry]

I_df.shape[0]

In [None]:
E_df = df[df['I/E'] == 'E']
E_df = E_df.iloc[0 : min_entry]

E_df.shape[0]

<span style="font-size:1.1em;">Yeni bir dataframe oluşturulur.</span>

In [None]:
equal_entries_df = pd.concat([I_df, E_df]).reset_index(drop=True)
equal_entries_df

<span style="font-size:1.1em;">Oluşturulan dataframe shuffle edilir.</span>

In [None]:
equal_entries_df = equal_entries_df.sample(frac=1).reset_index(drop=True)

In [None]:
equal_entries_df

<span style="font-size:1.1em;">Verisetimizin niteliği değiştiği için tekrardan vocabulary oluşturulur</span>

In [None]:
tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm='l2', encoding='utf-8', ngram_range=(1, 1), max_features=1000)
tfidf_vectorizer.fit(equal_entries_df['entry'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(equal_entries_df['entry'], equal_entries_df['I/E'], random_state = 42)  ## Geri kalanlar S, T, J

X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

clf = MultinomialNB().fit(X_train_tfidf, y_train)
test_typeClass = y_test.values

predictions = clf.predict(X_test_tfidf)

In [None]:
predictions

In [None]:
predicted = {}
predicted['I'] = {'actual': {'I': 0, 'E': 0}}
predicted['E'] = {'actual': {'I': 0, 'E': 0}}
predicted

In [None]:
for i in range(len(predictions)):
  predicted[predictions[i]]['actual'][test_typeClass[i]] += 1


In [None]:
predicted

In [None]:
accuracy = (predicted['E']['actual']['E'] + predicted['I']['actual']['I']) / len(predictions)

In [None]:
accuracy

## S/N Boyut Tahmini

<span style="font-size:1.1em">**S/N** boyutu tahmin edilir.</span>

In [None]:
min_entry = df.groupby('S/N', as_index = False).count().min().entry

min_entry

In [None]:
S_df = df[df['S/N'] == 'S']
S_df = S_df.iloc[0 : min_entry]

S_df.shape[0]

In [None]:
N_df = df[df['S/N'] == 'N']
N_df = N_df.iloc[0 : min_entry]

N_df.shape[0]

In [None]:
equal_entries_df = pd.concat([S_df, N_df]).reset_index(drop=True)
equal_entries_df

In [None]:
equal_entries_df = equal_entries_df.sample(frac=1).reset_index(drop=True)

equal_entries_df

In [None]:
tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm='l2', encoding='utf-8', ngram_range=(1, 1), max_features=1000)
tfidf_vectorizer.fit(equal_entries_df['entry'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(equal_entries_df['entry'], equal_entries_df['S/N'], random_state = 42)  ## Geri kalan boyutlar: T, J

X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

clf = MultinomialNB().fit(X_train_tfidf, y_train)
test_typeClass = y_test.values

predictions = clf.predict(X_test_tfidf)

In [None]:
predicted['N'] = {'actual': {'N': 0, 'S': 0}}
predicted['S'] = {'actual': {'N': 0, 'S': 0}}

predicted

In [None]:
for i in range(len(predictions)):
  predicted[predictions[i]]['actual'][test_typeClass[i]] += 1

In [None]:
predicted

In [None]:
accuracy = (predicted['N']['actual']['N'] + predicted['S']['actual']['S']) / len(predictions)

In [None]:
accuracy

##  T/F Boyutu Tahmini

<span style="font-size:1.1em">**T/F** boyutu tahmin edilir.</span>

In [None]:
min_entry = df.groupby('T/F', as_index = False).count().min().entry

min_entry

In [None]:
T_df = df[df['T/F'] == 'T']
T_df = T_df.iloc[0 : min_entry]

T_df.shape[0]

In [None]:
F_df = df[df['T/F'] == 'F']
F_df = F_df.iloc[0 : min_entry]

F_df.shape[0]

In [None]:
equal_entries_df = pd.concat([T_df, F_df]).reset_index(drop=True)
equal_entries_df

In [None]:
equal_entries_df = equal_entries_df.sample(frac=1).reset_index(drop=True)

equal_entries_df

In [None]:
tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm='l2', encoding='utf-8', ngram_range=(1, 1), max_features=1000)
tfidf_vectorizer.fit(equal_entries_df['entry'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(equal_entries_df['entry'], equal_entries_df['T/F'], random_state = 42)  ##  J

X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

clf = MultinomialNB().fit(X_train_tfidf, y_train)
test_typeClass = y_test.values

predictions = clf.predict(X_test_tfidf)

In [None]:
predicted['T'] = {'actual': {'T': 0, 'F': 0}}
predicted['F'] = {'actual': {'T': 0, 'F': 0}}

predicted

In [None]:
for i in range(len(predictions)):
  predicted[predictions[i]]['actual'][test_typeClass[i]] += 1

In [None]:
predicted

In [None]:
accuracy = (predicted['F']['actual']['F'] + predicted['T']['actual']['T']) / len(predictions)

In [None]:
accuracy

## J/P Boyut Tahmini

<span style="font-size:1.1em">**J/P** boyutu tahmin edilir.</span>

In [None]:
min_entry = df.groupby('J/P', as_index = False).count().min().entry

min_entry

In [None]:
J_df = df[df['J/P'] == 'J']
J_df = J_df.iloc[0 : min_entry]

J_df.shape[0]

In [None]:
P_df = df[df['J/P'] == 'P']
P_df = P_df.iloc[0 : min_entry]

P_df.shape[0]

In [None]:
equal_entries_df = pd.concat([J_df, P_df]).reset_index(drop=True)
equal_entries_df

In [None]:
equal_entries_df = equal_entries_df.sample(frac=1).reset_index(drop=True)

equal_entries_df

In [None]:
tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm='l2', encoding='utf-8', ngram_range=(1, 1), max_features=1000)
tfidf_vectorizer.fit(equal_entries_df['entry'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(equal_entries_df['entry'], equal_entries_df['J/P'], random_state = 42) 

X_train_tfidf = tfidf_vectorizer.transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

clf = MultinomialNB().fit(X_train_tfidf, y_train)
test_typeClass = y_test.values

predictions = clf.predict(X_test_tfidf)

In [None]:
predicted['J'] = {'actual': {'J': 0, 'P': 0}}
predicted['P'] = {'actual': {'J': 0, 'P': 0}}

predicted

In [None]:
for i in range(len(predictions)):
  predicted[predictions[i]]['actual'][test_typeClass[i]] += 1

In [None]:
predicted

In [None]:
accuracy = (predicted['P']['actual']['P'] + predicted['J']['actual']['J']) / len(predictions)

In [None]:
accuracy

In [None]:
prediction_results['predicted'].update(predicted) 

prediction_results