# Feature Engineering
We already touched on linguistic characteristics, like word occurences, in the analysis part.
But let's investigate that further.

## Further Analysis

In [25]:
import pandas as pd 
import numpy as np
import warnings
warnings.filterwarnings('ignore')

#train = pd.read_csv('Joel\\datasets\\sds\\train.csv')
#test = pd.read_csv('Joel\\datasets\\sds\\test.csv')
df = pd.read_csv("Joel\\datasets\\sds\\full_edited.csv")
train = pd.read_csv('Joel\\datasets\\sds\\train_04.csv')
test = pd.read_csv('Joel\\datasets\\sds\\test_04.csv')

In [None]:
train.head(2)

Unnamed: 0,text,neuro_bin,extra_bin,off_bin,ver_bin,gew_bin,labels
0,Ich hab den Link von einer Freundin bekommen.....,1,0,1,1,1,"(1, 0, 1, 1, 1)"
1,TH Nürnberg. Heute im Team-Meeting.. 9 Stunden...,0,0,0,0,0,"(0, 0, 0, 0, 0)"


## Word occurences
Lets check, wether there are personality traces in the choice of words

Let's first convert everything to lowercase.We dont do this for training, because our embeddings do respect cased words to some extent and we dont want to lose potential features.

In [None]:
df["text_processed"] = df["text"].str.lower()
df.head(2)
#train["text_processed"] = train['text'].str.replace('[^\w\s]',' ')
#test["text_processed"] = test['text'].str.replace('[^\w\s]',' ')

#train["text_processed"] = train["text_processed"].str.lower()
#test["text_processed"] = test["text_processed"].str.lower()

Unnamed: 0,text,neuro_bin,extra_bin,off_bin,ver_bin,gew_bin,labels,text_processed
0,Arbeitskollegin. Auf einer Hochzeit. Seife gek...,0,1,1,1,1,"(0, 1, 1, 1, 1)",arbeitskollegin. auf einer hochzeit. seife gek...
1,Auf Empfehlung. Als ein Freund eine Story erzä...,0,1,1,1,1,"(0, 1, 1, 1, 1)",auf empfehlung. als ein freund eine story erzä...


#### Overall

In [None]:
df.text_processed.str.split(expand=True).stack().value_counts()[:20]

und      242
ich      214
ein       82
zu        76
die       74
wir       73
das       70
mit       69
habe      60
in        58
der       56
es        54
eine      53
mich      48
im        47
dann      45
einen     42
sehr      36
auf       35
mir       35
dtype: int64

#### Neuroticism

In [None]:
df[df.neuro_bin == 1].text_processed.str.split(expand=True).stack().value_counts()[:20]

und      145
ich      124
ein       49
zu        47
die       45
wir       42
das       41
mit       37
habe      34
eine      31
es        29
dann      29
in        28
mich      28
einen     28
der       28
mir       25
ist       23
im        21
bin       21
dtype: int64

# Extraversion

In [None]:
df[df.extra_bin == 1].text_processed.str.split(expand=True).stack().value_counts()[:20]

ich      120
und      105
ein       46
zu        36
habe      35
die       33
der       32
in        30
mit       29
das       29
es        27
mich      27
im        27
eine      25
auf       23
nicht     19
wir       19
dann      18
über      17
sehr      17
dtype: int64

#### Openness

In [None]:
df[df.off_bin == 1].text_processed.str.split(expand=True).stack().value_counts()[:20]

und      108
ich       97
ein       41
zu        34
mit       34
die       32
eine      24
es        24
habe      23
in        23
das       23
im        22
mich      22
der       21
auf       19
mir       19
dann      18
sehr      18
wir       17
einen     17
dtype: int64

#### Agreeableness

In [None]:
df[df.ver_bin == 1].text_processed.str.split(expand=True).stack().value_counts()[:20]

und      137
ich      122
ein       50
zu        47
mit       38
die       36
in        35
das       33
habe      33
der       33
es        32
mich      30
im        27
eine      25
sehr      25
einen     24
auf       23
wir       23
oder      22
bin       21
dtype: int64

#### Conscientousness

In [None]:
df[df.gew_bin == 1].text_processed.str.split(expand=True).stack().value_counts()[:20]

ich      114
und      114
ein       40
das       34
mit       32
habe      31
die       31
der       30
in        29
zu        28
es        28
wir       27
einen     24
im        24
dann      23
sehr      23
mich      22
nicht     20
auf       19
eine      18
dtype: int64

Wordcount on most dimensions seem to be similar. Obviously they are comprised mostly of common stop words. Let's again investigate without stopwords.

In [None]:
from nltk.corpus import stopwords
stop = stopwords.words('german')

In [None]:
df['text_without_stopwords'] = df['text_processed'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))

In [None]:
df.text_without_stopwords.str.split(expand=True).stack().value_counts()[:20]

gehen         28
essen         18
date          16
schon         15
menschen      14
beim          13
tag           13
treffen       12
zusammen      12
danach        11
einfach       11
heute         11
natur         11
dinge         11
immer         11
aufräumen.    10
gutes         10
freund        10
fühle         10
gut           10
dtype: int64

### Neuro

In [None]:
df[df.neuro_bin == 1].text_without_stopwords.str.split(expand=True).stack().value_counts()[:30]

gehen         14
date          12
tag           11
schon         10
essen         10
menschen       9
immer          9
treffen        8
einfach        8
zeit           7
freund         7
mal            7
vielleicht     6
zusammen       6
gute           6
versuche       6
gutes          6
dinge          6
gut            6
gemacht        6
wirklich       5
reden          5
guten          5
gedanken       5
film           5
perfekte       5
fühle          5
josephs.       5
freundin       5
beim           5
dtype: int64

Noticable: gehen, date, menschen, treffen, vielleicht, zusammen, schon, versuche

### Extra

In [None]:
df[df.extra_bin == 1].text_without_stopwords.str.split(expand=True).stack().value_counts()[:20]

essen       9
gutes       8
natur       8
dinge       7
josephs.    7
gute        7
beim        7
tag         7
abend       6
mal         6
habe.       6
gehen       6
zeit        6
immer       6
freund      6
gut         6
einfach     5
menschen    5
fühle       5
hat.        5
dtype: int64

Noticable: "gutes", natur, abend, zeit, josephs

Rather even distribution of words

### Open

In [None]:
df[df.off_bin == 1].text_without_stopwords.str.split(expand=True).stack().value_counts()[:20]

tag           10
gehen          9
beim           8
immer          8
einfach        8
essen          8
mal            7
zusammen       7
menschen       6
räume          6
hat.           6
gemacht        6
freund         6
aufräumen.     6
natur          6
gutes          6
freunden.      5
versuche       5
schon          5
gut            5
dtype: int64

tag (carpe diem) ?

### Agree

In [None]:
df[df.ver_bin == 1].text_without_stopwords.str.split(expand=True).stack().value_counts()[:30]

gehen         13
heute          9
menschen       9
freund         8
natur          8
josephs.       8
guten          8
essen          8
danach         7
gut            7
aufräumen.     7
tag            7
immer          7
dinge          7
treffen        7
gute           7
gutes          7
beim           7
mal            6
fühle          6
gemacht        6
räume          6
regelmäßig     6
versuche       6
zeit           6
:).            6
hat.           5
gemeinsam      5
glücklich      5
habe.          5
dtype: int64

heute (gleioch erledigen, niemanden verärgern),

high emoji/emoticon count: high agreeableness?


### Consc

In [None]:
df[df.gew_bin == 1].text_without_stopwords.str.split(expand=True).stack().value_counts()[:20]

gehen         13
essen          8
natur          8
heute          8
josephs.       7
gutes          7
menschen       7
aufräumen.     7
gut.           6
:).            6
essen,         6
immer          6
tag            6
gute           6
guten          6
gemacht        6
schon          6
danach         6
dinge          6
freund         5
dtype: int64

Noticible: 
- also high emoji count (which makes sense, since conscious people are often also agreeable in our dataset) 
- aufräumen (likewise agreeable and open but NOT in neuro and extra! Would make a lot of sense!)

## Punctuation count

In [None]:
import string
def count_punctuations(df):
    neuro_count = 0
    extra_count = 0
    openn_count = 0
    agree_count = 0
    consc_count = 0
    puncts = []
    punctuations = set(string.punctuation)
    count = lambda l1,l2: sum([1 for x in l1 if x in l2])
    for index, row in df.iterrows():
        puncts.append(count(row.text,punctuations))
        if row.neuro_bin == 1:
          neuro_count += count(row.text,punctuations)
        if row.extra_bin == 1:
          extra_count += count(row.text,punctuations)
        if row.off_bin == 1:
          openn_count += count(row.text,punctuations)
        if row.ver_bin == 1:
          agree_count += count(row.text,punctuations)
        if row.gew_bin == 1:
          consc_count += count(row.text,punctuations)
    print("Neuro: " + str(neuro_count))
    print("Extra: " + str(extra_count))
    print("Openn: " + str(openn_count))
    print("Agree: " + str(agree_count))
    print("Consc: " + str(consc_count))
    return np.array(puncts).reshape(-1,1)

In [None]:
count_punctuations(df)

Neuro: 607
Extra: 552
Openn: 494
Agree: 634
Consc: 575


array([[16],
       [ 6],
       [12],
       [ 6],
       [21],
       [20],
       [ 9],
       [10],
       [ 8],
       [13],
       [11],
       [ 8],
       [13],
       [11],
       [47],
       [18],
       [19],
       [22],
       [ 9],
       [ 6],
       [ 6],
       [ 9],
       [ 6],
       [ 6],
       [13],
       [17],
       [ 8],
       [12],
       [14],
       [ 8],
       [ 6],
       [ 6],
       [42],
       [15],
       [15],
       [ 9],
       [14],
       [ 7],
       [ 7],
       [ 9],
       [23],
       [ 8],
       [18],
       [ 6],
       [11],
       [14],
       [25],
       [25],
       [ 7],
       [ 6],
       [22],
       [ 9],
       [ 7],
       [ 6],
       [12],
       [26],
       [ 7],
       [ 6],
       [24],
       [ 6],
       [ 7],
       [14],
       [33],
       [22],
       [18],
       [12],
       [ 8],
       [23],
       [ 6],
       [ 6],
       [15],
       [24],
       [18],
       [17],
       [21],
       [22],
       [17],

## Engineering

In [2]:
from featurization import *
from utility import *
#train = pd.read_csv('Joel\\datasets\\sds\\train_more_balanced.csv')
#test = pd.read_csv('Joel\\datasets\\sds\\test_more_balanced.csv')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Max\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Feature Engineering TFIDF-Fasttext

In [46]:
train_features, test_features, feature_names = featurize(train, test, 'tfidf_glove')

Emoji re....
Num dots....
Punctuation....
Sentiment Scores....
Text Features....
Glove.....


  0%|          | 0/56 [00:00<?, ?it/s]

  0%|          | 0/24 [00:00<?, ?it/s]

DONE!


### Feature Weights

Let's investigate feature importances with the ELI5 library.

#### Neuroticism

In [None]:
y_train = np.where(train.neuro_bin.values == 1, 1, 0)
y_test = np.where(test.neuro_bin.values == 1, 1, 0)

In [None]:
from sklearn.linear_model import SGDClassifier
import eli5

# Train a Log Reg Classifier
log_reg = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg.fit(train_features, y_train)

In [None]:
run_log_reg(train_features, test_features, y_train, y_test, alpha = 5e-2)

F1: 0.747 | Pr: 0.698 | Re: 0.975 | AUC: 0.787 | Accuracy: 0.713 



In [None]:
#Pass the model instance along with the feature names to ELI5
eli5.show_weights(log_reg, feature_names = feature_names, top = 100)

Weight?,Feature
+0.387,fasttext_159
+0.349,fasttext_250
+0.313,fasttext_71
+0.291,fasttext_248
+0.284,fasttext_65
+0.270,fasttext_193
+0.259,fasttext_95
+0.255,fasttext_11
+0.254,fasttext_176
+0.254,fasttext_253


Analysis: The length of the text has a greater influence on the classification as "neuroticistic". This confirms the preliminary analysis, which showed that neuroticistic persons wrote the longest texts. The same is true for the number of dots, since neuroticistic persons more often end a sentence with "...". On the other hand, neuroticistic individuals use emojis less frequently. 

#### Extraversion

In [None]:
y_train_ext = np.where(train.extra_bin.values == 1, 1, 0)
y_test_ext = np.where(test.extra_bin.values == 1, 1, 0)

In [None]:
run_log_reg(train_features, test_features, y_train_ext, y_test_ext, alpha = 5e-2)

F1: 0.760 | Pr: 0.861 | Re: 0.843 | AUC: 0.902 | Accuracy: 0.806 



In [None]:
log_reg_ext = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg_ext.fit(train_features, y_train_ext)

In [None]:
eli5.show_weights(log_reg_ext, feature_names = feature_names, top = 100)

Weight?,Feature
+0.510,fasttext_97
+0.390,train_emoji_re
+0.353,fasttext_45
+0.283,fasttext_100
+0.266,fasttext_268
+0.256,fasttext_102
+0.254,fasttext_188
+0.253,fasttext_110
+0.247,fasttext_107
+0.242,fasttext_126


Analysis: As exptected through to pre-analysis, extravert people use more emojis, write shorter texts and use less punctuation.

#### Openness

In [58]:
y_train_open = np.where(train.off_bin.values == 1, 1, 0)
y_test_open = np.where(test.off_bin.values == 1, 1, 0)

In [70]:
run_log_reg(train_features, test_features, y_train_open, y_test_open, alpha = 5e-3)

F1: 0.595 | Pr: 0.468 | Re: 0.991 | AUC: 0.427 | Accuracy: 0.437 



In [None]:
log_reg_opn = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg_opn.fit(train_features, y_train_open)

In [None]:
eli5.show_weights(log_reg_opn, feature_names = feature_names, top = 100)

Weight?,Feature
+0.323,fasttext_135
+0.284,fasttext_244
+0.255,fasttext_231
+0.252,fasttext_246
+0.234,fasttext_238
+0.233,fasttext_13
+0.232,fasttext_161
+0.230,fasttext_266
+0.230,fasttext_166
+0.226,fasttext_114


Analysis: Open people's sentiment seems to be more neutral and less negative. Interestingly they seem to have the least text length and very little punctuation!

#### Agreeableness

In [None]:
y_train_agree = np.where(train.ver_bin.values == 1, 1, 0)
y_test_agree = np.where(test.ver_bin.values == 1, 1, 0)

In [None]:
run_log_reg(train_features, test_features, y_train_agree, y_test_agree, alpha = 5e-2)

F1: 0.682 | Pr: 0.610 | Re: 0.900 | AUC: 0.570 | Accuracy: 0.613 



In [None]:
log_reg_agree = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg_agree.fit(train_features, y_train_agree)

In [None]:
eli5.show_weights(log_reg_agree, feature_names = feature_names, top = 100)

Weight?,Feature
+0.429,fasttext_256
+0.358,fasttext_180
+0.292,fasttext_246
+0.288,fasttext_242
+0.283,fasttext_264
+0.263,fasttext_220
+0.255,fasttext_216
+0.248,fasttext_222
+0.244,fasttext_60
+0.241,fasttext_177


#### Conscientousness

In [None]:
y_train_con = np.where(train.gew_bin.values == 1, 1, 0)
y_test_con = np.where(test.gew_bin.values == 1, 1, 0)

In [None]:
run_log_reg(train_features, test_features, y_train_con, y_test_con, alpha = 5e-2)

F1: 0.667 | Pr: 0.568 | Re: 0.989 | AUC: 0.559 | Accuracy: 0.506 



In [None]:
log_reg_agree = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg_agree.fit(train_features, y_train_con)

In [None]:
eli5.show_weights(log_reg_agree, feature_names = feature_names, top = 300)

Weight?,Feature
+0.415,fasttext_234
+0.395,fasttext_256
+0.343,fasttext_271
+0.301,fasttext_5
+0.290,fasttext_295
+0.289,fasttext_216
+0.278,fasttext_174
+0.272,fasttext_38
+0.248,fasttext_53
+0.245,fasttext_267


+ mean word length, sentiment_neu
- length_in_chars, longest word length,sentiment_ne

### SHAP Force Plot

#### Neuroticism

In [None]:
import shap

log_reg = SGDClassifier(loss = 'log', n_jobs = -1, alpha = 5e-2)
log_reg.fit(train_features, y_train)

explainer = shap.LinearExplainer(log_reg, train_features, feature_dependence = 'independent')
shap_values = explainer.shap_values(test_features)

In [None]:
shap.initjs()
ind = 0
shap.force_plot(explainer.expected_value, shap_values[ind,:], test_features.toarray()[ind,:],
               feature_names = feature_names)

Let's predict some test entries.

In [None]:
print('Text: {}'.format(test.text.values[0]))
print('Text-Length: {}'.format(len(test.text.values[0])))
print('Label: {}'.format(test.neuro_bin.values[0]))
print('Prediction: {}'.format(log_reg.predict(test_features.tocsr()[0,:])[0])) 

Text: Du wurdest mir vom Frauenhoferinstitut empfohl. Als ich mit meiner Freundin über ihre Ordnung geredet habe. Ich habe Museen in Nürnberg erkundet. Ich schätze alles um mich rum wert und habe Energie. Astronomie, wegen der unendlichen Weiten, die niemals erkundet werden können. Unordnung die anfällt sofort zu verstecken oder gleich zu beseitigen. Kaffee trinken, etwas zu lachen haben, aber nicht überstürzen
Text-Length: 408
Label: 0
Prediction: 1


Unfortunately the precition (1) is wrong. But 408 characters is a pretty short sample. Lets try again...

In [None]:
shap.initjs()
ind = 1
shap.force_plot(explainer.expected_value, shap_values[ind,:], test_features.toarray()[ind,:],
               feature_names = feature_names)

In [None]:
print('Text: {}'.format(test.text.values[1]))
print('Text-Length: {}'.format(len(test.text.values[1])))
print('Label: {}'.format(test.neuro_bin.values[1]))
print('Prediction: {}'.format(log_reg.predict(test_features.tocsr()[1,:])[0])) 

Text: Über Familie. Als ich mit Freunden am See war und wir und gegenseitig ins Wasser geschmissen haben. Ich hab Latein gelernt. Es sind Ferien, wir waren am See, ich geh mit meinem Vater am Abend spazieren und war reiten.. Die hemimeterbole Verwandlung der Heuschrecke. Ich habe eine ordnungsfanatische Mutter. Wir reiten aus. Gehen Picknicken und sitzen da bis die Sonne untergeht. Dann essen wir in einem leckeren Restaurant zu Abend. Und schwimmen eine Runde während die Sonne untergeht im See. Wenn die Sonne untergegangen ist gehen wir nach Hause. Schauen daheim auf der.Couch einen schönen Film an. Und Essen dabei Popcorn.Während dem Film schlafen wir zsm ein.
Text-Length: 663
Label: 0
Prediction: 0


This time, the model predicted correctly (0). The sample was longer (663 characters)

In [None]:
shap.initjs()
ind = 2
shap.force_plot(explainer.expected_value, shap_values[ind,:], test_features.toarray()[ind,:],
               feature_names = feature_names)

In [None]:
print('Text: {}'.format(test.text.values[2]))
print('Text-Length: {}'.format(len(test.text.values[2])))
print('Label: {}'.format(test.neuro_bin.values[2]))
print('Prediction: {}'.format(log_reg.predict(test_features.tocsr()[2,:])[0])) 

Text: Ich habe da so einen Link bekommen.. Das will ich lieber nicht machen.. Ich habe schon eine Reise geplant heute.. Dann schaffe ich besonders viel von meiner Arbeit.. Das verrate ich Dir nicht.. Ich sorge dafür, dass jemand für mich aufräumt.. Nö, mag nicht.
Text-Length: 257
Label: 1
Prediction: 0


Again the model mis-predicted. But 257 characters is a very short sample

In [None]:
shap.initjs()
ind = 3
shap.force_plot(explainer.expected_value, shap_values[ind,:], test_features.toarray()[ind,:],
               feature_names = feature_names)

In [None]:
print('Text: {}'.format(test.text.values[3]))
print('Text-Length: {}'.format(len(test.text.values[3])))
print('Label: {}'.format(test.neuro_bin.values[3]))
print('Prediction: {}'.format(log_reg.predict(test_features.tocsr()[3,:])[0])) 

Text: Das Zukunftsmuseum (?) in nürnberg. Als ich ein lustiges video im internet gesehen habe. Ich habe geduscht, meine zähne geputzt, hab mich umgezogen und bin rausgegangen. Entspannt. Dinge die interessante Hintergrund geschichten oder details haben über die man lange videos oder Podcasts schauen/ hören kann, generell Fantasie welten in denen man sich verlieren kann.. Ich habe mir eine app (finch) runtergeladen die mir meine ziele für den tag organisiert mich motivieren soll diese auch einzuhalten. Hab mir nie wirklich gedanken darüber gemacht aber vielleicht nachdem man schon ne weile zusammen ist einfach zusammen kochen/ backen und dann zusammen nen film schauen und das dann halt essen oder so. Aber im grunde währen mir dates auch eher egal, einfach zusammen rumliegen und nichts tuhn hört sich schon ganz nice an.
Text-Length: 823
Label: 1
Prediction: 1


With this 823 character long entry, the model predicted (1) correctly.