In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import GaussianNB
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from pathlib2 import Path
import re
import random

import pickle

In [2]:
def remove_http_links(df) -> pd.DataFrame:
    df["text"] = df["text"].str.replace(r'https?://[^\s<>"]+|www\.[^\s<>"]+', "", regex=True)
    return df

def remove_emojies(df) -> pd.DataFrame:
    df["text"] = df["text"].str.replace(r'[^\w\s,]', "", regex=True)
    return df


def remove_http_links2(context) -> str:
    return re.sub(r'https?://[^\s<>"]+|www\.[^\s<>"]+', "", context)

def remove_emojies2(context) -> str:
    return re.sub(r'[^\sa-zA-Zåäö_,]', "", context)

def generate_synthetic_data():
    base_phrases = [
    "Jag mår skit.",
    "Jag har ångest idag.",
    "Allt känns meningslöst.",
    "Jag orkar inte mer.",
    "Det är tungt just nu.",
    "Jag känner mig ensam och tom.",
    "Jag vill bara sova bort allt.",
    "Inget spelar någon roll längre.",
    "Jag känner mig värdelös.",
    "Jag har tappat all motivation.",
    "Det gör ont inombords.",
    "Jag vill inte prata med någon.",
    "Jag känner bara ångest varje dag.",
    "Det känns som att allt går fel.",
    "Jag hatar hur jag känner mig.",
    "Jag har ingen energi kvar.",
    "Jag gråter varje kväll.",
    "Jag vill bara försvinna.",
    "Det finns inget ljus i mitt liv.",
    "Jag vaknar med ångest varje morgon.",
    "Jag känner mig svag och bräcklig.",
    "Jag är trött på att låtsas må bra.",
    "Jag klarar inte en dag till.",
    "Jag vill inte gå upp ur sängen.",
    "Mina tankar är mörka hela tiden.",
    "Jag känner ingen glädje längre.",
    "Livet känns överväldigande.",
    "Jag känner mig som en börda.",
    "Jag är rädd för mina egna tankar.",
    "Det är svårt att andas ibland.",
    "Jag känner mig totalt hopplös.",
    "Jag vill bara vara ifred hela tiden.",
    "Jag känner mig oälskad.",
    "Det känns som att jag förlorar mig själv.",
    "Jag har tappat kontrollen.",
    "Inget får mig att le längre.",
    "Jag är fast i mitt eget huvud.",
    "Jag har ingen vilja kvar.",
    "Det är som att jag drunknar inombords.",
    "Jag känner mig konstant stressad och ledsen.",
    "Jag vill bara skrika och gråta.",
    "Allt är för mycket just nu.",
    "Jag känner mig övergiven.",
    "Jag tvivlar på allt jag gör.",
    "Jag kan inte lita på mina egna känslor.",
    "Jag känner mig misslyckad.",
    "Jag önskar att jag kunde försvinna.",
    "Jag är utmattad både fysiskt och mentalt.",
    "Ingen förstår hur jag känner mig.",
    "Jag tappar mig själv mer varje dag.",
    "Jag känner mig helt tom inombords.",
    "Inget känns verkligt längre.",
    "Jag tappar greppet om mig själv.",
    "Jag önskar att jag kunde känna något.",
    "Jag är ständigt rädd för att bryta ihop.",
    "Jag känner att jag inte räcker till.",
    "Mina tankar äter upp mig inifrån.",
    "Jag har svårt att se något positivt.",
    "Jag känner mig isolerad från världen.",
    "Allt känns som en kamp just nu.",
    "Jag har ingen kontroll över mitt liv.",
    "Det känns som att ingen bryr sig.",
    "Jag bär på en tyngd som ingen ser.",
    "Jag är utmattad av att alltid kämpa.",
    "Jag skäms över hur jag mår.",
    "Jag kan inte sluta gråta.",
    "Jag känner mig ständigt nedstämd.",
    "Det känns som att jag är i vägen för alla.",
    "Jag önskar att jag kunde stänga av mina känslor.",
    "Jag hatar den jag blivit.",
    "Jag är fast i mitt mörker.",
    "Jag känner mig överväldigad av allt.",
    "Det är svårt att känna hopp.",
    "Jag vill bara gömma mig från världen.",
    "Jag tvivlar på mitt eget värde.",
    "Jag känner mig felplacerad i livet.",
    "Allt jag gör känns meningslöst.",
    "Jag känner mig trött på att vara stark.",
    "Jag har tappat tron på mig själv.",
    "Jag är rädd för framtiden.",
    "Jag är aldrig riktigt glad längre.",
    "Jag undviker människor för att inte bryta ihop.",
    "Jag känner mig som en främling i min egen kropp.",
    "Jag kan inte minnas när jag senast mådde bra.",
    "Jag känner mig som ett misslyckande.",
    "Jag är ständigt på gränsen till att ge upp.",
    "Jag vet inte hur jag ska orka fortsätta.",
    "Det känns som att jag kämpar i motvind varje dag.",
    "Jag ser inget syfte med något längre.",
    "Jag är rädd för att be om hjälp."
]

    # Generate variations by adding context, intensity, or combining statements
    additional_phrases = []
    for i in range(5000):
        for phrase in base_phrases:
            variations = [
                f"{phrase} Det har varit så i flera dagar.",
                f"{phrase} Och jag vet inte vad jag ska göra åt det.",
                f"{phrase} Det känns som att det aldrig kommer bli bättre.",
                f"{phrase} Jag har försökt men inget hjälper.",
                f"{phrase} Det är verkligen svårt just nu."
                f"{phrase} Jag känner mig helt överväldigad.",
                f"{phrase} Jag har ingen energi kvar.",
                f"{phrase} Det känns som att jag drunknar i mina känslor.",
                f"{phrase} Jag har ingen att prata med.",
                f"{phrase} Jag känner mig helt ensam i det här.",
                f"{phrase} Jag har ingen motivation kvar.",
                f"{phrase} Jag känner mig som en börda för alla omkring mig.",
                f"{phrase} Jag vill bara gömma mig från världen.",
                f"{phrase} Jag känner mig som en skugga av mitt forna jag.",
                f"{phrase} Jag har svårt att se något positivt i livet.",  
                f"{phrase} Jag har mycket ångest just nu.",
                f"{phrase} Jag känner mig helt tom inombords.",
                f"{phrase} Jag har ingen lust att göra något.",
                f"{phrase} Jag känner mig som en främling i mitt eget liv.",
                f"{phrase} Jag mår skit just nu.",
                f"{phrase} Jag känner mig helt förlorad.",
                f"{phrase} Jag mår piss just nu.",
                f"{phrase} Jag känner mig helt utmattad.",
            ]
            random_choice_variations = random.choice(variations)
            additional_phrases.append(random_choice_variations)
    return additional_phrases

def add_syntethic_data_to_df(df: pd.DataFrame, syntethic_data: list) -> pd.DataFrame:
    tmp_df = pd.DataFrame(columns=["text", "label"])
    for sentence in syntethic_data:
        tmp_df = tmp_df._append({"text": sentence, "label": 0}, ignore_index=True)
    df = pd.concat([df, tmp_df], ignore_index=True)
    df = df.sample(frac=1, random_state=42)
    return df

In [3]:

old_df = pd.read_csv("swe-sentiment-dataset-with-syntethic.csv")
df = pd.DataFrame()
df.head(1)