## Define Binary Disorder Detection Model

In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

loaded_model = AutoModelForSequenceClassification.from_pretrained("halilibr/dilbazlar-binary-disorder-detection-model-acc-96", num_labels=2)
tokenizer = AutoTokenizer.from_pretrained("halilibr/dilbazlar-binary-disorder-detection-model-acc-96")

# Move the model to the appropriate device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
loaded_model.to(device)

# Ensure model is in evaluation mode
loaded_model.eval()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(128000, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12

In [4]:
def predict(input_text):
    # Tokenize the input (ensure the tokenizer is appropriate for your model)
    inputs = tokenizer(input_text, max_length=150, padding="max_length", truncation=True, return_tensors="pt")
    
    # Move the inputs to the appropriate device
    inputs = {k: v.to(device) for k, v in inputs.items()}
    
    # Disable gradient computation for inference
    with torch.no_grad():
        # Forward pass to get outputs
        outputs = loaded_model(**inputs)
        
        # Get the prediction
        # Note: `AutoModel` might not include logits. Ensure you use the appropriate model class for your task.
        if hasattr(outputs, 'logits'):
            preds = torch.argmax(outputs.logits, dim=-1)
        else:
            # Handle the case where the model does not have logits (e.g., outputs are raw hidden states)
            preds = torch.argmax(outputs[0], dim=-1)
    
    # Convert prediction to numpy array and print (if needed)
    prediction = preds.cpu().numpy()[0]

    return prediction

## Define Total_Data

In [7]:
import pandas as pd
from tqdm import tqdm

df = pd.read_excel("../Data/Anxiety_Detection_Data/total_not_multi_label_augmented_data.xlsx")
df.head()

Unnamed: 0,text,labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,socialanxiety
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",socialanxiety
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,socialanxiety
3,Genellikle organize olduğum için kendimi çok k...,socialanxiety
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,socialanxiety


In [5]:
df['labels'].value_counts()

labels
selectivemutism    10955
agoraphobia         9719
socialanxiety       8752
panic               8326
phobia              7493
Name: count, dtype: int64

In [53]:
dump_list = []

for text in tqdm(df[df['labels'] == 'panic']['text'].values):
    if predict(text) == 0:
        dump_list.append({
            "text": text
        })

  0%|▎                                                                               | 34/8326 [00:04<17:21,  7.97it/s]

KeyboardInterrupt



In [21]:
len(dumup)

3316

In [19]:
pd.DataFrame(agoraphobia_list).to_excel('../Data/Anxiety_Detection_Data/Anxiety_Dump/agoraphobia_dump.xlsx', index=False)

### Let's throw a glance at the Excel File

## After Human Level Evaluation

In [24]:
agoraphobia_dump = pd.read_excel('../Data/Anxiety_Detection_Data/Anxiety_Dump/agoraphobia_dump.xlsx')
agoraphobia_dump

Unnamed: 0.1,Unnamed: 0,text
0,1,bu arada şimdi çok şükür iyiyim elhamdülillah ...
1,2,"Şimdiye kadar iyiyim, sağlığım yerinde, elhamd..."
2,3,"Son zamanlarda kendimi iyi hissediyorum, okuma..."
3,4,"Şükürler olsun, iyileştim ve sorunlarım artık ..."
4,5,"Okuma dışında bir şey yapmadığım için, kendimi..."
...,...,...
1909,2257,Babam tam anlamıyla bir şey değişmezse beni ak...
1910,2258,Taşınmak zorunda olmak
1911,2259,Bu berbat. Bu konuda kendinizi çok fazla dövme...
1912,2260,"Dare, Barry mcdonagh tarafından. Ayrıca gerçek..."


In [28]:
new_agoraphobia_tests = []

for text in df[df['labels'] == 'agoraphobia']['text'].values:
    if text not in agoraphobia_dump['text'].values:
        new_agoraphobia_tests.append(text)

## Stop

In [39]:
new_df = df[~df['labels'].isin(['agoraphobia'])]

new_df = pd.concat([new_df, pd.DataFrame({"text": new_agoraphobia_tests, "labels": "agoraphobia"})], axis=0).reset_index(drop=True)

In [40]:
new_df['labels'].value_counts()

labels
selectivemutism    10955
socialanxiety       8752
panic               8326
agoraphobia         7805
phobia              7493
Name: count, dtype: int64

In [43]:
new_df = new_df.dropna().reset_index(drop=True)

In [45]:
new_df

Unnamed: 0,text,labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,socialanxiety
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",socialanxiety
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,socialanxiety
3,Genellikle organize olduğum için kendimi çok k...,socialanxiety
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,socialanxiety
...,...,...
43325,"Bir şeye bağlanmak, biriyle tanışmak ve onlarl...",agoraphobia
43326,Walmart'taki tavanlar özellikle beni rahatsız ...,agoraphobia
43327,"Telefonumdaki Google haritalarında, yürüyüşler...",agoraphobia
43328,Uzun zamandır toplu taşıma kaygısı ile ilgili ...,agoraphobia


In [46]:
new_df.to_excel("../Data/total_not_multi_label_augmented_data_cleaned_agoraphobia.xlsx", index=False)

## Convert and Push to Hub

In [47]:
one_hot_encoded = pd.get_dummies(new_df['labels'])

concat_df = pd.concat([new_df['text'], one_hot_encoded], axis=1)
concat_df = concat_df.dropna().reset_index(drop=True)

concat_df.iloc[:, 1:] = concat_df.iloc[:, 1:].astype(int)

concat_df['all_labels'] = concat_df.apply(lambda row: [label for label in one_hot_encoded.columns if row[label] == 1], axis=1)
concat_df = concat_df.loc[:, ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels']]

In [48]:
concat_df

Unnamed: 0,text,agoraphobia,panic,phobia,selectivemutism,socialanxiety,all_labels
0,Bir şekilde sarhoş olmadığım sürece sosyalleşe...,0,0,0,0,1,[socialanxiety]
1,"Son zamanlarda sosyal kaygılarla boğuşuyorum, ...",0,0,0,0,1,[socialanxiety]
2,İnsanlar benden nefret mi ediyor yoksa ben mi ...,0,0,0,0,1,[socialanxiety]
3,Genellikle organize olduğum için kendimi çok k...,0,0,0,0,1,[socialanxiety]
4,Son zamanlarda kendimi hayal kırıklığına uğrat...,0,0,0,0,1,[socialanxiety]
...,...,...,...,...,...,...,...
43325,"Bir şeye bağlanmak, biriyle tanışmak ve onlarl...",1,0,0,0,0,[agoraphobia]
43326,Walmart'taki tavanlar özellikle beni rahatsız ...,1,0,0,0,0,[agoraphobia]
43327,"Telefonumdaki Google haritalarında, yürüyüşler...",1,0,0,0,0,[agoraphobia]
43328,Uzun zamandır toplu taşıma kaygısı ile ilgili ...,1,0,0,0,0,[agoraphobia]


In [49]:
from datasets import Dataset, DatasetDict
Dataset.cleanup_cache_files
from sklearn.model_selection import train_test_split

train, test = train_test_split(concat_df, test_size = 0.25, random_state=42)

train_data = Dataset.from_pandas(train, preserve_index=False)
test_data = Dataset.from_pandas(test, preserve_index=False)

hg_data = DatasetDict({
    "train": train_data,
    "test": test_data
})

In [50]:
hg_data

DatasetDict({
    train: Dataset({
        features: ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels'],
        num_rows: 32497
    })
    test: Dataset({
        features: ['text', 'agoraphobia', 'panic', 'phobia', 'selectivemutism', 'socialanxiety', 'all_labels'],
        num_rows: 10833
    })
})

In [51]:
!huggingface-cli login --token=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

hg_data.push_to_hub("halilibr/dilbazlar-anxiety-disorders-recognition-multilabel-augmented-cleaned-agoraphobia-tr-dataset")
print("Data was pushed :)")

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to C:\Users\halilibrahim.hatun\.cache\huggingface\token
Login successful


Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/33 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Data was pushed :)


In [52]:
hg_data.save_to_disk('../Data/Anxiety_Detection_Data/anxiety_multilabel_augmented_cleaned_agoraphobia_hg_dataset')

Saving the dataset (0/1 shards):   0%|          | 0/32497 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/10833 [00:00<?, ? examples/s]