## Binary Disorder Tahmin Modelini İçeri Aktarma

Bu notebook'ta veriler HuggingFace Dataset haline getirilip Hub'a pushlanmıştır.

In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

loaded_model = AutoModelForSequenceClassification.from_pretrained("halilibr/dilbazlar-binary-disorder-detection-model-acc-96", num_labels=2)
tokenizer = AutoTokenizer.from_pretrained("halilibr/dilbazlar-binary-disorder-detection-model-acc-96")

# Move the model to the appropriate device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
loaded_model.to(device)

# Ensure model is in evaluation mode
loaded_model.eval()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(128000, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12

## Tahmin Fonksiyonunu Oluşturma

In [4]:
def predict(input_text):
    # Tokenize the input (ensure the tokenizer is appropriate for your model)
    inputs = tokenizer(input_text, max_length=150, padding="max_length", truncation=True, return_tensors="pt")
    
    # Move the inputs to the appropriate device
    inputs = {k: v.to(device) for k, v in inputs.items()}
    
    # Disable gradient computation for inference
    with torch.no_grad():
        # Forward pass to get outputs
        outputs = loaded_model(**inputs)
        
        # Get the prediction
        # Note: `AutoModel` might not include logits. Ensure you use the appropriate model class for your task.
        if hasattr(outputs, 'logits'):
            preds = torch.argmax(outputs.logits, dim=-1)
        else:
            # Handle the case where the model does not have logits (e.g., outputs are raw hidden states)
            preds = torch.argmax(outputs[0], dim=-1)
    
    # Convert prediction to numpy array and print (if needed)
    prediction = preds.cpu().numpy()[0]

    return prediction

## Son Veriyi içeri Aktarma

In [7]:
import pandas as pd
from tqdm import tqdm

df = pd.read_excel("../Data/Anxiety_Detection_Data/total_not_multi_label_augmented_data.xlsx")
df.head()

Unnamed: 0,text,labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,socialanxiety
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",socialanxiety
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,socialanxiety
3,Genellikle organize olduğum için kendimi çok k...,socialanxiety
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,socialanxiety


In [5]:
df['labels'].value_counts()

labels
selectivemutism    10955
agoraphobia         9719
socialanxiety       8752
panic               8326
phobia              7493
Name: count, dtype: int64

In [83]:
cleaned_data = pd.read_excel("../Data/Anxiety_Detection_Data/Anxiety_Augmented_Cleaned/new_phobia_tests.xlsx")
cleaned_data['Cümle'].values

array(["Sanırım Thalassophobia'm var, okyanus korkusu var ve bu çok garip çünkü her şey 2 yıl önce olduğu gibi deniz mayınlarının resimlerine baktığımda başladı. Bu resimlere bakarken bana sadece en garip ve ürkütücü duyguları verdiler. Sonra sadece okyanusun bu korkusunu körükleyen batık gemiler, sualtı gibi nesnelerin resimlerine baktım ve sonunda, sadece okyanusun bu korkusunu körükleyen ve açık olan bazı resimlere baktım.",
       'Thalassophobia, yani okyanus korkusu, bana garip geliyor çünkü 2 yıl önce deniz mayınlarının resimlerini gördüğümde başladı.',
       'Okyanusun derinliklerinin resimlerini gördüğümde, derin bir korku ve rahatsızlık hissetmeye başladım.',
       ...,
       'Korkularımdan kurtulmak için bu korku duygusunu üreten beyin bölgesini çıkarıp atmak istiyorum.',
       'Bu korku hissi tamamen mantıksız,  ama beni kontrol ediyor.',
       'Yaşadığım bu korkuların kökeninde ne olduğunu anlamış değilim ama onları ortadan kaldırmak istiyorum.'],
      dtype=object)

In [84]:
new_df = new_df[~new_df['labels'].isin(['phobia'])]

new_df = pd.concat([new_df, pd.DataFrame({"text": cleaned_data['Cümle'].values, "labels": "phobia"})], axis=0).reset_index(drop=True)

In [85]:
new_df['labels'].value_counts()

labels
selectivemutism    10954
socialanxiety       8752
panic               8326
agoraphobia         7805
phobia              7302
Name: count, dtype: int64

In [86]:
new_df = new_df.dropna().reset_index(drop=True)

In [87]:
new_df

Unnamed: 0,text,labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,socialanxiety
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",socialanxiety
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,socialanxiety
3,Genellikle organize olduğum için kendimi çok k...,socialanxiety
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,socialanxiety
...,...,...
43134,Çocukluktan beri korkularla boğuşuyorum. Mesel...,phobia
43135,Benim beyinde bazı şeyleri otomatik olarak kor...,phobia
43136,Korkularımdan kurtulmak için bu korku duygusun...,phobia
43137,"Bu korku hissi tamamen mantıksız, ama beni ko...",phobia


In [88]:
new_df.to_excel("../Data/Anxiety_Detection_Data/total_not_multi_label_augmented_data_cleaned_agoraphobia_phobia.xlsx", index=False)

## Son veri setini Hub'a Pushlama

In [89]:
one_hot_encoded = pd.get_dummies(new_df['labels'])

concat_df = pd.concat([new_df['text'], one_hot_encoded], axis=1)
concat_df = concat_df.dropna().reset_index(drop=True)

concat_df.iloc[:, 1:] = concat_df.iloc[:, 1:].astype(int)

concat_df['all_labels'] = concat_df.apply(lambda row: [label for label in one_hot_encoded.columns if row[label] == 1], axis=1)
concat_df = concat_df.loc[:, ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels']]

In [90]:
concat_df

Unnamed: 0,text,agoraphobia,panic,phobia,selectivemutism,socialanxiety,all_labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,0,0,0,0,1,[socialanxiety]
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",0,0,0,0,1,[socialanxiety]
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,0,0,0,0,1,[socialanxiety]
3,Genellikle organize olduğum için kendimi çok k...,0,0,0,0,1,[socialanxiety]
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,0,0,0,0,1,[socialanxiety]
...,...,...,...,...,...,...,...
43134,Çocukluktan beri korkularla boğuşuyorum. Mesel...,0,0,1,0,0,[phobia]
43135,Benim beyinde bazı şeyleri otomatik olarak kor...,0,0,1,0,0,[phobia]
43136,Korkularımdan kurtulmak için bu korku duygusun...,0,0,1,0,0,[phobia]
43137,"Bu korku hissi tamamen mantıksız, ama beni ko...",0,0,1,0,0,[phobia]


In [91]:
from datasets import Dataset, DatasetDict
Dataset.cleanup_cache_files
from sklearn.model_selection import train_test_split

train, test = train_test_split(concat_df, test_size = 0.25, random_state=42)

train_data = Dataset.from_pandas(train, preserve_index=False)
test_data = Dataset.from_pandas(test, preserve_index=False)

hg_data = DatasetDict({
    "train": train_data,
    "test": test_data
})

In [92]:
hg_data

DatasetDict({
    train: Dataset({
        features: ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels'],
        num_rows: 32354
    })
    test: Dataset({
        features: ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels'],
        num_rows: 10785
    })
})

In [95]:
!huggingface-cli login --token=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

hg_data.push_to_hub("halilibr/dilbazlar-anxiety-disorders-recognition-multilabel-augmented-cleaned-agoraphobiaphobia-trdataset")
print("Data was pushed :)")

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to C:\Users\halilibrahim.hatun\.cache\huggingface\token
Login successful


Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/33 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Data was pushed :)


In [96]:
hg_data.save_to_disk('../Data/Anxiety_Detection_Data/anxiety_multilabel_augmented_cleaned_agoraphobia_phobia_hg_dataset')

Saving the dataset (0/1 shards):   0%|          | 0/32354 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/10785 [00:00<?, ? examples/s]