# Feature Extraction

---
**Goal is to extract features automatically and create matrix for long-term data visualization!**

**Current status: Feature extraction for test purposes with GPT ONLY!**

**Next steps: use pre-trained model, aggregate psychology related data and fine-tune it. Then use instead of GPT for relevant features.**

---

Based on daily entries.
- upload text splitted to entries
- loop over entries, send each with feature extraction prompt to GPT
- concat pandas DataFrame with original one: df with features
    - summary, sentiment and emotion are examples and interchangeable with more relevant features.

What's not in this notebook:
- Analysis over whole journal and
- Embeddings 



### Feature list/ideas for later:
- NER (Named Entity Recognition) -> classify names, organizations, locations and their connections
- Emotion Detection
- Goals, Values

In [1]:
import pandas as pd
import os
import numpy as np
import openai

In [2]:
openai.api_key = os.getenv('OPENAI_API_KEY')

In [4]:
# define call function for openai
def get_completion(prompt, model="gpt-3.5-turbo", temperature=0):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model = model,
        messages = messages,
        temperature = temperature,
    )
    return response.choices[0].message["content"]

Upload embeddings as CSV-file:

In [4]:
# read in CSV for embeddings (chunks)
data_embeddings = pd.read_csv(f'test_embeddings.csv')
# and journal entries (! already splitted to single entries + formatted to CSV)
data_journals = pd.read_csv(f'test_journals.csv')

print(data_embeddings.shape)
print(data_journals.shape)

(11, 4)
(5, 3)


In [5]:
data_journals.head()

Unnamed: 0.1,Unnamed: 0,Date,Text
0,0,2023.04.13,Heute ist ein anstrengender Tag. Ich fühle mic...
1,1,2023.04.14,Heute geht es mir schon etwas besser. Ich habe...
2,2,2023.04.15,"Ich bin wirklich stolz auf mich, denn ich habe..."
3,3,2023.04.16,"Ich bin so froh, dass ich die letzten Tage so ..."
4,4,2023.04.17,Heute ist ein guter Tag. Ich fühle mich ausgeg...


In [165]:
entries = []
for name, values in data_journals['Text'].items():
    entries.append(values)

In [166]:
data_journals['Text'][0]

'Heute ist ein anstrengender Tag. Ich fühle mich seit ein paar Tagen sehr gestresst und kann kaum schlafen. In der Nacht wache ich ständig auf und meine Gedanken kreisen ununterbrochen um all die Dinge, die ich noch erledigen muss. Ich habe das Gefühl, dass ich keine Energie mehr habe und bin deshalb heute den ganzen Tag müde und unkonzentriert. \r\nIch hoffe, dass sich das bald ändert und ich wieder zu meiner alten Energie zurückfinde.'

In [172]:
print(f'{len(entries)} journal entries')
entries

5 journal entries


['Heute ist ein anstrengender Tag. Ich fühle mich seit ein paar Tagen sehr gestresst und kann kaum schlafen. In der Nacht wache ich ständig auf und meine Gedanken kreisen ununterbrochen um all die Dinge, die ich noch erledigen muss. Ich habe das Gefühl, dass ich keine Energie mehr habe und bin deshalb heute den ganzen Tag müde und unkonzentriert. \r\nIch hoffe, dass sich das bald ändert und ich wieder zu meiner alten Energie zurückfinde.',
 'Heute geht es mir schon etwas besser. Ich habe gestern Abend ein paar Entspannungsübungen gemacht und konnte dadurch besser schlafen. Meine Gedanken sind immer noch etwas chaotisch, aber ich habe das Gefühl, dass ich langsam wieder Kontrolle darüber bekomme. \r\nIch habe heute auch schon ein paar Dinge von meiner To-Do-Liste abhaken können, was mir ein gutes Gefühl gibt.',
 'Ich bin wirklich stolz auf mich, denn ich habe heute schon sehr viel geschafft. Ich fühle mich energiegeladen und produktiv. Die Entspannungsübungen scheinen zu helfen und ich 


**For testing longer single inputs:**

In [145]:
text = f"""
Jetzt ist es an der Zeit. Zeit für einen Umbruch. 
Eher einen Aufbruch. Einen Aufbruch in eine Welt, in eine Welt die ich mir schon lange erträume und erarbeite. 
Alle Leinen loslassen, alles alte hinter sich lassen und den Weg des Kriegers einschlagen. 
Auf die nächste Stufe zu steigen und sich neuen Herausforderungen geben. Neue Dinge zu lernen. 
Zu lernen, auch dann alles zu geben, wenn man überhaupt nicht mehr will. Sondern durchzuhalten. 
Immer wieder aufzustehen. Sich zu 100% auf etwas konzentrieren und alle Energie reinstecken. 
Den ganzen Tag, das ganze Leben danach auszurichten und der Beste darin zu werden. 
Sich Ziele zu setzen und volle Fahr voraus darauf zusteuern. 
Momentum aufzubauen, sodass man damit Mauern niederreißen wird. 
Alles aus dem Weg zu schaffen, was mich aufhalten könnte, sich all den Dingen stellen, die ich aufschiebe. 
Verantwortung zu übernehmen um am anderen Ende wieder raus zu kommen aus den Tiefen. 
Dort wo Erfolg und ein glückliches Leben wartet. Nicht wartet, bereits da ist. 
Denn diese Herausforderungen, der ganze Prozess ist es, was mich wachsen lässt. Der Weg ist das Ziel. 
Das ist das Schöne daran, man setzt sich zwar große Ziele, gibt alles um sie zu erreichen, und erreicht sie auch eines Tages, doch glücklich ist man von Tag 1 weg. 
Der ganze Weg, all das, was man lernt, das ist das Ziel. 
All die Erfahrungen und Erlebnisse sind die Gründe, warum man es macht. 
Es ist Zeit meine Energie zu bündeln und auf einen Punkt auszurichten. Und dieser Punkt wird mein Purpose.
"""

text_2 = f"""Vor allem die Situation jetzt zeigt mir wieder, wie wichtig Dinge im realen Leben sind. 
Mehr darauf konzentrieren etwas aufzubauen anstatt nur darauf zu hoffen durch investieren reich zu werden. 
Und was bleibt? 
Naja ich habe trotzdem noch eine Summe zur Verfügung, und auch im worst case wenn Bitcoin wieder auf 10k geht werde ich es überleben. 
Auch wenn ich wiedereinmal nichts aus dem Markt genommen habe, gibt es trotzdem wieder die Chance im Bärenmarkt groß zu investieren. 
Was wird kommen? Viele Alts werden zusammenbrechen und sich nie wieder erholen. 
Viele Projekte sind einfach zu hoch angepreist, vor allem wo noch wenig Wert dahinter steht. 
Das heißt in den nächsten Monaten heißt es auf ein wirkliches Tief zu warten und langfristige Projekte zu kaufen, wie Ethereum oder Avalanche. 
Projekte, bei denen Vertrauen da ist und die sich erholen werden. 
Vielleicht auch damit rechnen, dass sich der Cycle diesesmal nicht ganz so verhält wie letztes Mal. 
Die Frage ist nur, wieviel Bullshit ist noch im Markt? 
Wieviele Leute investieren noch weil sie glauben, das große Vermögen machen zu können, sich aber nicht im Markt auskennen. 
Was wenn etwas mit Tether passiert?
Fokus also jetzt: Top Projekte akkumulieren und im nächsten Jahr auf einen Bullrun im Gamingbereich abzielen.
"""

text_3 = f"""Ich fühle mich relativ oft gestresst. 
Gestresst nicht alles auf die Reihe zu bekommen, obwohl ich derzeit kaum Kurse an der Uni mache, oder zumindest nicht soviel wie normal. 
Und ich bringe einfach am Tag nicht meine 8 Stunden lernen zusammen, nicht mal in den seltensten Fällen. 
Warum? Wo geht die Zeit hin? Und trotzdem bräuchte ich noch viel mehr für alles andere. 
Ich habe heute weder etwas für den LifePurpose Kurs, noch etwas fürs Playbook gemacht. 
Und heute ist bereits Dienstag. Ich komme mir vor als brenne ich aus. 
Wozu sicher auch die Cryptos und meine Finanzen beitragen. 
Selber Fehler auch diesesmal wieder, einfach kein Geld rausgenommen, sondern zu 100% in Crypto. 
Warum schreibe ich mir nicht einfach mal die Learnings zusammen und halte mich daran? 
Bestes Beispiel auch letzte Woche wieder mit Kyber Network, rauf über 5$ und ich verkaufe keinen Cent. 
Warum? Einerseits Faulheit, der Aufwand dahinter, andererseits auch die Chance noch weiter zu gehen. 
Doch er hat schon soviel % in kurzer Zeit gemacht, und ich wollte sowieso mehr in USDC. Fuck. 
Wenn ich immer danach gehandelt hätte, also zu den guten Zeitpunkten verkauft, dann hätte ich bereits mehr als die Million. 
Doch will ich mich so weiterkämpfen? Der ständige Kampf und das auf und ab, die ganzen Emotionen, vom Markt getrieben. 
Warum nicht halten und nur große Trades machen zu den Zeitpunkten wenn etwas überdurchschnittlich steigt oder überdurchschnittlich fällt? 
Wie kann ich mehr Learnings mitnehmen? Auch die Videos, die ich schaue mehr analysieren, mehr mitschreiben und merken, damit ich mich auch in Zukunft an diese Prinzipien richten kann.
"""

texts = [text, text_2, text_3]

## Generate GPT output
- Prompt anpassen, welche konkreten Daten will ich? 
- Output spezifizieren (JSON,...)


! use either:
- len(texts), texts[i] for texts above or 
- len(entries), entries[i] for CSV-file

In [169]:
daily_features = ""

for i in range(len(entries)):
    prompt = f"""
    Your task is to perform the following actions:
    1 - Summarize the text delimited by <> with 1 sentence.
    2 - Sentiment
    3 - One predominant emotion in the text

    The output is a python dict that contains the following elements: summary, sentiment, emotion.

    Use the following format for the output:
    <dict with summary, sentiment and emotion>
    Use double quotes for seperation.

    Input text:
    <{entries[i]}>
    """
    response = get_completion(prompt)
    print(i, response, "\n")
    daily_features = daily_features + response + ", "

0 {"summary": "The author is feeling stressed and tired due to lack of sleep and constant thoughts about unfinished tasks.", "sentiment": "negative", "emotion": "anxiety"} 

1 {"summary": "The author feels better today after doing some relaxation exercises and getting better sleep, although their thoughts are still somewhat chaotic, they feel like they are slowly regaining control and have accomplished some tasks on their to-do list.", "sentiment": "positive", "emotion": "hopeful"} 

2 {"summary": "The author is proud of their productivity and energy, attributing it to relaxation exercises and being able to start a new project they've been looking forward to.", "sentiment": "positive", "emotion": "content"} 

3 {"summary": "The author is happy and grateful for having had a lot of energy in the past few days, which helped them tackle tasks they had been putting off and feel satisfied with their accomplishments.", "sentiment": "positive", "emotion": "contentment"} 

4 {"summary": "Heute 

In [173]:
# cut last 2 elements (", ")
daily_features = daily_features[:-2]

In [153]:
# testing with 1 entry

prompt = f"""
Your task is to perform the following actions:
1 - Summarize the text delimited by <> with 1 sentence.
2 - Sentiment
3 - Predominant emotion in the text

The output is a python dict that contains the following elements: summary, sentiment, emotions.

Use the following format for the output:
<dict with summary, sentiment and emotion>
Use double quotes for seperation.

Input text:
<{text}>
"""
response = get_completion(prompt)
print(response)

{"summary": "It's time for a change, to become a warrior and face new challenges, to set goals and focus all energy on achieving them, because the journey itself is the goal and the experiences gained along the way are the reasons why it's worth it.", "sentiment": "positive", "emotions": "determination"}


## Read in output
- string formatting as JSON object -> into python dict
- then pd.DataFrame

! Assuming string is properly formatted ! Otherwise preprocessing needed


In [151]:
import json

In [174]:
# output from GPT
daily_features

'{"summary": "The author is feeling stressed and tired due to lack of sleep and constant thoughts about unfinished tasks.", "sentiment": "negative", "emotion": "anxiety"}, {"summary": "The author feels better today after doing some relaxation exercises and getting better sleep, although their thoughts are still somewhat chaotic, they feel like they are slowly regaining control and have accomplished some tasks on their to-do list.", "sentiment": "positive", "emotion": "hopeful"}, {"summary": "The author is proud of their productivity and energy, attributing it to relaxation exercises and being able to start a new project they\'ve been looking forward to.", "sentiment": "positive", "emotion": "content"}, {"summary": "The author is happy and grateful for having had a lot of energy in the past few days, which helped them tackle tasks they had been putting off and feel satisfied with their accomplishments.", "sentiment": "positive", "emotion": "contentment"}, {"summary": "Heute ist ein gute

In [175]:
# Parse the string into a list of dictionaries
output_from_gpt = json.loads("[" + daily_features + "]")
# output: list of dict
output_from_gpt

[{'summary': 'The author is feeling stressed and tired due to lack of sleep and constant thoughts about unfinished tasks.',
  'sentiment': 'negative',
  'emotion': 'anxiety'},
 {'summary': 'The author feels better today after doing some relaxation exercises and getting better sleep, although their thoughts are still somewhat chaotic, they feel like they are slowly regaining control and have accomplished some tasks on their to-do list.',
  'sentiment': 'positive',
  'emotion': 'hopeful'},
 {'summary': "The author is proud of their productivity and energy, attributing it to relaxation exercises and being able to start a new project they've been looking forward to.",
  'sentiment': 'positive',
  'emotion': 'content'},
 {'summary': 'The author is happy and grateful for having had a lot of energy in the past few days, which helped them tackle tasks they had been putting off and feel satisfied with their accomplishments.',
  'sentiment': 'positive',
  'emotion': 'contentment'},
 {'summary': 

In [176]:
# convert list of dictionaries into a pandas DataFrame
df = pd.DataFrame(output_from_gpt)
print(df)

                                             summary sentiment      emotion
0  The author is feeling stressed and tired due t...  negative      anxiety
1  The author feels better today after doing some...  positive      hopeful
2  The author is proud of their productivity and ...  positive      content
3  The author is happy and grateful for having ha...  positive  contentment
4  Heute ist ein guter Tag und ich fühle mich aus...  positive     grateful


## Integrate into existing dataframe (concat), then save as CSV

In [201]:
data_embeddings.head()

Unnamed: 0.1,Unnamed: 0,Date,Text,embedding
0,0,2023.04.13,Heute ist ein anstrengender Tag. Ich fühle mic...,"[-0.014236047863960266, 0.0029547708109021187,..."
1,1,2023.04.13,keine Energie mehr habe und bin deshalb heute ...,"[-0.017953980714082718, 0.0027130120433866978,..."
2,2,2023.04.13,"Ich hoffe, dass sich das bald ändert und ich w...","[2.779317946988158e-05, -0.017156608402729034,..."
3,3,2023.04.14,Heute geht es mir schon etwas besser. Ich habe...,"[-0.01159717608243227, 0.009939546696841717, 0..."
4,4,2023.04.14,Ich habe heute auch schon ein paar Dinge von m...,"[-0.006502807606011629, -0.004583686590194702,..."


In [202]:
data_journals.head()

Unnamed: 0.1,Unnamed: 0,Date,Text
0,0,2023.04.13,Heute ist ein anstrengender Tag. Ich fühle mic...
1,1,2023.04.14,Heute geht es mir schon etwas besser. Ich habe...
2,2,2023.04.15,"Ich bin wirklich stolz auf mich, denn ich habe..."
3,3,2023.04.16,"Ich bin so froh, dass ich die letzten Tage so ..."
4,4,2023.04.17,Heute ist ein guter Tag. Ich fühle mich ausgeg...


In [203]:
for col in data_journals.columns:
    print(col)

Unnamed: 0
Date
Text


In [204]:
# delete 'Unnamed: 0' -> mistake in page_embeddings.py file?
if data_journals.keys()[0] == 'Unnamed: 0':
    del data_journals[data_journals.keys()[0]]

data_journals.head()

Unnamed: 0,Date,Text
0,2023.04.13,Heute ist ein anstrengender Tag. Ich fühle mic...
1,2023.04.14,Heute geht es mir schon etwas besser. Ich habe...
2,2023.04.15,"Ich bin wirklich stolz auf mich, denn ich habe..."
3,2023.04.16,"Ich bin so froh, dass ich die letzten Tage so ..."
4,2023.04.17,Heute ist ein guter Tag. Ich fühle mich ausgeg...


In [205]:
combined_df = pd.concat([data_journals, df], axis=1)
combined_df

Unnamed: 0,Date,Text,summary,sentiment,emotion
0,2023.04.13,Heute ist ein anstrengender Tag. Ich fühle mic...,The author is feeling stressed and tired due t...,negative,anxiety
1,2023.04.14,Heute geht es mir schon etwas besser. Ich habe...,The author feels better today after doing some...,positive,hopeful
2,2023.04.15,"Ich bin wirklich stolz auf mich, denn ich habe...",The author is proud of their productivity and ...,positive,content
3,2023.04.16,"Ich bin so froh, dass ich die letzten Tage so ...",The author is happy and grateful for having ha...,positive,contentment
4,2023.04.17,Heute ist ein guter Tag. Ich fühle mich ausgeg...,Heute ist ein guter Tag und ich fühle mich aus...,positive,grateful


In [207]:
# save as CSV
combined_df.to_csv('DataFrame_Features.csv')