# Library Imports

In [1]:
import os
import time
import google.generativeai as genai
import ast
import re
import pandas as pd
from tqdm import tqdm
import time

# Preparation of the data

In [2]:
reddit_dataset = pd.read_csv("../Data/augmentation_data/reddit_dataset.csv")
youtube_data = pd.read_excel("../Data/augmentation_data/youtube_filtered_data.xlsx")
youtube_data2 = pd.read_csv("../Data/augmentation_data/youtube_filtered_data_2.csv")
youtube_data3 = pd.read_csv("../Data/augmentation_data/youtube_filtered_data_3.csv")

In [3]:
reddit_dataset["Label"].unique()

array(['agorafobi', 'anksiyete', 'distimi', 'fobi', 'panik bozukluk',
       'pmdd', 'Sosyal Anksiyete', 'Seçici Konuşmazlık', 'Normal'],
      dtype=object)

In [9]:
youtube_dataset = pd.concat([youtube_data, youtube_data2, youtube_data3], ignore_index=True)

In [10]:
youtube_dataset.Disorder.unique()

array(['Sosyal Anksiyete', 'Distimi', 'Depresyon', 'PMDD', 'Anksiyete',
       'Agorafobi', 'Seçici Dilsizlik'], dtype=object)

In [11]:
youtube_depresyon_dataset = youtube_dataset[youtube_dataset["Disorder"]=="PMDD"]

In [12]:
youtube_depresyon_dataset

Unnamed: 0,Text,Disorder
13098,10-15 gün kala bende belirtiler başlıyor. Ve z...,PMDD
13099,Adetime 2 gün var vallahi sinir stres icindeyi...,PMDD
13100,"Bu tarife yuzde yuz uyuyorum, eksigi var fazla...",PMDD
13101,7-10 gün öncesi başlıyor bazen 5 gün öncesi ba...,PMDD
13103,"Bir hafta kalalı hayat bana zindan oluyor, ade...",PMDD
...,...,...
47371,dr değiştirin benim de aynı oldu inanın biraz ...,PMDD
47372,Bu sadece zihinsel değil fiziksel de olunca in...,PMDD
47373,pmdb var ne yapmalıyım çözümü ne ki,PMDD
47374,Ben melisa çayı içiyorum çok iyi geliyor bende...,PMDD


# Configurations

In [None]:
safety_settings = [
    {
        "category": "HARM_CATEGORY_HARASSMENT",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_HATE_SPEECH",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
        "threshold": "BLOCK_NONE"
    }
]

In [None]:
genai.configure(api_key="AIzaSyAYkFQIXRAk5hhjc33UlHPakCksd64VIqA")

model = genai.GenerativeModel('gemini-1.5-flash', safety_settings=safety_settings)

# Data Augmentatiton

In [None]:
mistake_sentences = []

In [None]:
def submission_prediction(sentence: str):
    global mistake_sentences
    
    response = model.generate_content("""
    Sen verilen cümleyi genel anlam ve kelime anlamı olarak analiz edip bu cümleden esinlenerek benzer cümleler oluşturan bir sentetik
    veri üreticisisin.

    \n\n

    Aşağıda verilen cümleyi hem genel anlamı hem de kelime anlamı açısından analiz et ve anlamını belirle. 
    Anlamı kavradıktan sonra, bu cümleyi kuran kişinin benzer nitelikte nasıl cümleler oluşturabileceğini düşün. 
    Ardından, orijinal cümlenin uzunluğuna yakın beş benzer cümleyi yalnızca aşağıdaki Python listesi formatında yaz. Başka hiçbir şey yazma:
    Çıktı formatı: ["<cumle1>", "<cumle2>", "<cumle3>", "<cumle4>", "<cumle5>"]
    
    \n\n
    Cümle: """ + sentence)

    try:
        pattern = re.compile(r'\[.*?\]', re.DOTALL)
        # print(response.text)
        match = pattern.search(response.text)
        if match:
            response_json = ast.literal_eval(match.group(0))
            return response_json
        
        else:
            mistake_sentences.append(sentence)
            print("It could not be augmented.")
            return []
            
    except Exception as err:
        mistake_sentences.append(sentence)
        print("It could not be augmented. Err:", err)
        return []

In [None]:
agoraphobia_augmented_texts = []

In [None]:
def augmentation_process(agoraphobia_texts):
    for text in tqdm(agoraphobia_texts):
        if text not in agoraphobia_augmented_texts:
            agoraphobia_augmented_texts.append(text)
            
            augmented_text_list = submission_prediction(sentence=text)
        
            agoraphobia_augmented_texts.extend(augmented_text_list)
            time.sleep(4.1)

In [None]:
agoraphobia_texts1 =  agoraphobia_dataset1['Text'].values
augmentation_process(agoraphobia_texts1)

In [None]:
len(agoraphobia_augmented_texts)

In [None]:
agoraphobia_texts2 =  agoraphobia_dataset2['Text'].values
augmentation_process(agoraphobia_texts2)

In [None]:
len(agoraphobia_augmented_texts)

In [None]:
augmented_data_df = pd.DataFrame(agoraphobia_augmented_texts, columns=['Text'])

In [None]:
agoraphobia_texts3 =  agoraphobia_dataset3['Text'].values
augmentation_process(agoraphobia_texts3)

# Saving Augmented Data

In [None]:
len(agoraphobia_augmented_texts)

In [None]:
data = agoraphobia_dataset["Text"]

In [None]:
agoraphobia_augmented_texts = pd.Series(agoraphobia_augmented_texts)

In [None]:
agoraphobia_final_dataset = pd.DataFrame(agoraphobia_augmented_texts, columns=['Text'])

In [None]:
agoraphobia_final_dataset.info()

In [None]:
agoraphobia_final_dataset.drop_duplicates()

In [None]:
data = pd.DataFrame(data, columns=['Text'])

In [None]:
agoraphobia_final_dataset = pd.concat([agoraphobia_final_dataset, data], ignore_index=True)

In [None]:
agoraphobia_final_dataset

In [None]:
agoraphobia_final_dataset.drop_duplicates(inplace=True)

In [None]:
agoraphobia_final_dataset

agoraphobia_final_dataset.to_csv("agoraphobia_augmented_final_data.csv", index=False)