## Import Libraries

In [1]:
from tqdm import tqdm
from itertools import islice
from youtube_comment_downloader import *
import pandas as pd
from youtubesearchpython import VideosSearch

downloader = YoutubeCommentDownloader()

In [2]:
searches = ["sosyal fobi", "sosyal fobi belirtileri", "sosyal anksiyete", "sosyal anksiyete hikayem", "sosyal fobi hikayem", "distimi", 
            "depresyon", "depresyon hikayem", "adet öncesi sendromu", "anksiyete", "anksiyete hikayem", 
            "fobi", "agorafobi", "seçici dilsizlik"]

In [5]:
def identify_disorder(disorder: str):
    if "sosyal" in disorder:
        return "Sosyal Anksiyete"

    elif "distimi" in disorder:
        return "Distimi"

    elif "depresyon" in disorder:
        return "Depresyon"

    elif "seçici" in disorder:
        return "Seçici Dilsizlik"

    elif "adet" in disorder:
        return "PMDD"

    elif "agorafobi" in disorder:
        return "Agorafobi"

    elif "fobi" in disorder:
        return "Sosyal Anksiyete"

    elif "anksiyete" in disorder:
        return "Anksiyete"

    else: 
        return "Boş"

In [5]:
result_data = []

for search in tqdm(searches, desc="General progress"):
    videosSearch = VideosSearch(search, limit = 30)

    for video_dict in tqdm(videosSearch.result()['result'], desc=f"Progress for {search}"):
        video_id = video_dict['id']
        comments = downloader.get_comments_from_url(f'https://www.youtube.com/watch?v={video_id}', sort_by=SORT_BY_POPULAR)
        
        for text in comments:
            result_data.append(
                {
                "Disorder": identify_disorder(search),
                "Text": text
            }
            )


    pd.DataFrame(result_data).to_excel("../Data/youtube_pure_data.xlsx", index=False)
    print(f"{search} saved. Total data until now {len(result_data)}")

General progress:   0%|                                                                         | 0/14 [00:00<?, ?it/s]
Progress for sosyal fobi:   0%|                                                                  | 0/7 [00:00<?, ?it/s][A
Progress for sosyal fobi:  14%|████████▏                                                | 1/7 [01:45<10:35, 105.96s/it][A
Progress for sosyal fobi:  29%|████████████████▌                                         | 2/7 [02:17<05:11, 62.25s/it][A
Progress for sosyal fobi:  43%|████████████████████████▊                                 | 3/7 [02:24<02:26, 36.75s/it][A
Progress for sosyal fobi:  57%|█████████████████████████████████▏                        | 4/7 [02:25<01:07, 22.65s/it][A
Progress for sosyal fobi:  71%|█████████████████████████████████████████▍                | 5/7 [02:36<00:37, 18.61s/it][A
Progress for sosyal fobi:  86%|█████████████████████████████████████████████████▋        | 6/7 [02:40<00:13, 13.65s/it][A
Progress for sosyal

sosyal fobi saved. Total data until now 3108



Progress for sosyal fobi belirtileri:   0%|                                                      | 0/6 [00:00<?, ?it/s][A
Progress for sosyal fobi belirtileri:  17%|███████▋                                      | 1/6 [00:00<00:04,  1.01it/s][A
Progress for sosyal fobi belirtileri:  33%|███████████████▎                              | 2/6 [00:10<00:24,  6.18s/it][A
Progress for sosyal fobi belirtileri:  50%|███████████████████████                       | 3/6 [00:11<00:11,  3.76s/it][A
Progress for sosyal fobi belirtileri:  67%|██████████████████████████████▋               | 4/6 [00:14<00:06,  3.34s/it][A
Progress for sosyal fobi belirtileri:  83%|██████████████████████████████████████▎       | 5/6 [00:22<00:05,  5.10s/it][A
Progress for sosyal fobi belirtileri: 100%|██████████████████████████████████████████████| 6/6 [00:23<00:00,  3.91s/it][A
General progress:  14%|█████████▎                                                       | 2/14 [03:17<17:11, 85.98s/it]

sosyal fobi belirtileri saved. Total data until now 3607



Progress for sosyal anksiyete:   0%|                                                            | 0/20 [00:00<?, ?it/s][A
Progress for sosyal anksiyete:   5%|██▌                                                 | 1/20 [00:01<00:22,  1.20s/it][A
Progress for sosyal anksiyete:  10%|█████▏                                              | 2/20 [00:01<00:15,  1.13it/s][A
Progress for sosyal anksiyete:  15%|███████▊                                            | 3/20 [00:25<03:08, 11.07s/it][A
Progress for sosyal anksiyete:  20%|██████████▍                                         | 4/20 [00:25<01:50,  6.93s/it][A
Progress for sosyal anksiyete:  25%|█████████████                                       | 5/20 [00:26<01:09,  4.64s/it][A
Progress for sosyal anksiyete:  30%|███████████████▌                                    | 6/20 [00:26<00:45,  3.28s/it][A
Progress for sosyal anksiyete:  35%|██████████████████▏                                 | 7/20 [01:02<03:01, 13.99s/it][A
Progress for so

sosyal anksiyete saved. Total data until now 13438



Progress for sosyal anksiyete hikayem:   0%|                                                    | 0/17 [00:00<?, ?it/s][A
Progress for sosyal anksiyete hikayem:   6%|██▌                                         | 1/17 [00:45<12:05, 45.37s/it][A
Progress for sosyal anksiyete hikayem:  12%|█████▏                                      | 2/17 [01:57<15:19, 61.29s/it][A
Progress for sosyal anksiyete hikayem:  18%|███████▊                                    | 3/17 [02:17<09:52, 42.34s/it][A
Progress for sosyal anksiyete hikayem:  24%|██████████▎                                 | 4/17 [02:26<06:20, 29.29s/it][A
Progress for sosyal anksiyete hikayem:  29%|████████████▉                               | 5/17 [02:45<05:06, 25.54s/it][A
Progress for sosyal anksiyete hikayem:  35%|███████████████▌                            | 6/17 [02:49<03:19, 18.14s/it][A
Progress for sosyal anksiyete hikayem:  41%|██████████████████                          | 7/17 [02:58<02:31, 15.10s/it][A
Progress for so

sosyal anksiyete hikayem saved. Total data until now 23564



Progress for sosyal fobi hikayem:   0%|                                                         | 0/20 [00:00<?, ?it/s][A
Progress for sosyal fobi hikayem:   5%|██▍                                              | 1/20 [00:18<05:45, 18.20s/it][A
Progress for sosyal fobi hikayem:  10%|████▉                                            | 2/20 [01:13<12:00, 40.04s/it][A
Progress for sosyal fobi hikayem:  15%|███████▎                                         | 3/20 [01:55<11:35, 40.92s/it][A
Progress for sosyal fobi hikayem:  20%|█████████▊                                       | 4/20 [02:06<07:44, 29.03s/it][A
Progress for sosyal fobi hikayem:  25%|████████████▎                                    | 5/20 [05:20<22:06, 88.43s/it][A
Progress for sosyal fobi hikayem:  30%|██████████████▋                                  | 6/20 [05:41<15:20, 65.72s/it][A
Progress for sosyal fobi hikayem:  35%|█████████████████▏                               | 7/20 [06:48<14:18, 66.07s/it][A
Progress for so

sosyal fobi hikayem saved. Total data until now 36687



Progress for distimi:   0%|                                                                     | 0/20 [00:00<?, ?it/s][A
Progress for distimi:   5%|███                                                          | 1/20 [00:00<00:17,  1.09it/s][A
Progress for distimi:  10%|██████                                                       | 2/20 [00:04<00:41,  2.33s/it][A
Progress for distimi:  15%|█████████▏                                                   | 3/20 [00:07<00:50,  2.96s/it][A
Progress for distimi:  20%|████████████▏                                                | 4/20 [00:09<00:35,  2.22s/it][A
Progress for distimi:  25%|███████████████▎                                             | 5/20 [00:12<00:39,  2.60s/it][A
Progress for distimi:  30%|██████████████████▎                                          | 6/20 [00:13<00:28,  2.04s/it][A
Progress for distimi:  35%|█████████████████████▎                                       | 7/20 [00:14<00:22,  1.71s/it][A
Progress for di

distimi saved. Total data until now 38849



Progress for depresyon:   0%|                                                                   | 0/20 [00:00<?, ?it/s][A
Progress for depresyon:   5%|██▉                                                        | 1/20 [00:00<00:13,  1.40it/s][A
Progress for depresyon:  10%|█████▉                                                     | 2/20 [00:21<03:46, 12.56s/it][A
Progress for depresyon:  15%|████████▊                                                  | 3/20 [01:14<08:50, 31.19s/it][A
Progress for depresyon:  20%|███████████▊                                               | 4/20 [01:16<05:10, 19.40s/it][A
Progress for depresyon:  25%|██████████████▊                                            | 5/20 [01:30<04:24, 17.61s/it][A
Progress for depresyon:  30%|█████████████████▋                                         | 6/20 [01:32<02:53, 12.36s/it][A
Progress for depresyon:  35%|████████████████████▋                                      | 7/20 [01:33<01:50,  8.53s/it][A
Progress for de

depresyon saved. Total data until now 43925



Progress for depresyon hikayem:   0%|                                                           | 0/20 [00:00<?, ?it/s][A
Progress for depresyon hikayem:   5%|██▌                                                | 1/20 [00:11<03:36, 11.39s/it][A
Progress for depresyon hikayem:  10%|█████                                              | 2/20 [01:00<10:05, 33.66s/it][A
Progress for depresyon hikayem:  15%|███████▋                                           | 3/20 [01:05<05:51, 20.67s/it][A
Progress for depresyon hikayem:  20%|██████████▏                                        | 4/20 [01:06<03:26, 12.90s/it][A
Progress for depresyon hikayem:  25%|████████████▊                                      | 5/20 [01:14<02:43, 10.93s/it][A
Progress for depresyon hikayem:  30%|███████████████▎                                   | 6/20 [01:18<02:01,  8.67s/it][A
Progress for depresyon hikayem:  35%|█████████████████▊                                 | 7/20 [01:25<01:46,  8.19s/it][A
Progress for de

depresyon hikayem saved. Total data until now 53262



Progress for adet öncesi sendromu:   0%|                                                        | 0/20 [00:00<?, ?it/s][A
Progress for adet öncesi sendromu:   5%|██▍                                             | 1/20 [00:09<02:51,  9.03s/it][A
Progress for adet öncesi sendromu:  10%|████▊                                           | 2/20 [00:16<02:22,  7.90s/it][A
Progress for adet öncesi sendromu:  15%|███████▏                                        | 3/20 [00:16<01:18,  4.61s/it][A
Progress for adet öncesi sendromu:  20%|█████████▌                                      | 4/20 [00:18<00:52,  3.26s/it][A
Progress for adet öncesi sendromu:  25%|████████████                                    | 5/20 [00:19<00:38,  2.57s/it][A
Progress for adet öncesi sendromu:  30%|██████████████▍                                 | 6/20 [00:20<00:27,  1.97s/it][A
Progress for adet öncesi sendromu:  35%|████████████████▊                               | 7/20 [00:21<00:21,  1.64s/it][A
Progress for ad

adet öncesi sendromu saved. Total data until now 53704



Progress for anksiyete:   0%|                                                                   | 0/20 [00:00<?, ?it/s][A
Progress for anksiyete:   5%|██▉                                                        | 1/20 [00:15<04:45, 15.02s/it][A
Progress for anksiyete:  10%|█████▉                                                     | 2/20 [00:18<02:33,  8.51s/it][A
Progress for anksiyete:  15%|████████▊                                                  | 3/20 [00:19<01:23,  4.88s/it][A
Progress for anksiyete:  20%|███████████▊                                               | 4/20 [00:22<01:04,  4.02s/it][A
Progress for anksiyete:  25%|██████████████▊                                            | 5/20 [00:22<00:41,  2.77s/it][A
Progress for anksiyete:  30%|█████████████████▋                                         | 6/20 [00:41<01:53,  8.09s/it][A
Progress for anksiyete:  35%|████████████████████▋                                      | 7/20 [01:01<02:36, 12.04s/it][A
Progress for an

anksiyete saved. Total data until now 56270



Progress for anksiyete hikayem:   0%|                                                           | 0/20 [00:00<?, ?it/s][A
Progress for anksiyete hikayem:   5%|██▌                                                | 1/20 [00:09<03:04,  9.70s/it][A
Progress for anksiyete hikayem:  10%|█████                                             | 2/20 [02:53<30:03, 100.21s/it][A
Progress for anksiyete hikayem:  15%|███████▋                                           | 3/20 [03:00<16:17, 57.53s/it][A
Progress for anksiyete hikayem:  20%|██████████▏                                        | 4/20 [03:17<11:05, 41.59s/it][A
Progress for anksiyete hikayem:  25%|████████████▊                                      | 5/20 [03:26<07:29, 29.96s/it][A
Progress for anksiyete hikayem:  30%|███████████████▎                                   | 6/20 [03:49<06:28, 27.72s/it][A
Progress for anksiyete hikayem:  35%|█████████████████▊                                 | 7/20 [03:54<04:23, 20.28s/it][A
Progress for an

anksiyete hikayem saved. Total data until now 68658



Progress for fobi:   0%|                                                                        | 0/20 [00:00<?, ?it/s][A
Progress for fobi:   5%|███▏                                                            | 1/20 [00:00<00:13,  1.46it/s][A
Progress for fobi:  10%|██████▍                                                         | 2/20 [00:08<01:25,  4.75s/it][A
Progress for fobi:  15%|█████████▌                                                      | 3/20 [00:09<00:54,  3.23s/it][A
Progress for fobi:  20%|████████████▊                                                   | 4/20 [00:10<00:38,  2.43s/it][A
Progress for fobi:  25%|████████████████                                                | 5/20 [00:18<01:06,  4.43s/it][A
Progress for fobi:  30%|███████████████████▏                                            | 6/20 [00:21<00:52,  3.73s/it][A
Progress for fobi:  35%|██████████████████████▍                                         | 7/20 [00:22<00:39,  3.05s/it][A
Progress for fo

fobi saved. Total data until now 69258



Progress for agorafobi:   0%|                                                                   | 0/20 [00:00<?, ?it/s][A
Progress for agorafobi:   5%|██▉                                                        | 1/20 [00:03<01:06,  3.48s/it][A
Progress for agorafobi:  10%|█████▉                                                     | 2/20 [00:10<01:36,  5.37s/it][A
Progress for agorafobi:  15%|████████▊                                                  | 3/20 [00:11<00:56,  3.34s/it][A
Progress for agorafobi:  20%|███████████▊                                               | 4/20 [00:11<00:37,  2.36s/it][A
Progress for agorafobi:  25%|██████████████▊                                            | 5/20 [00:12<00:27,  1.81s/it][A
Progress for agorafobi:  30%|█████████████████▋                                         | 6/20 [00:13<00:21,  1.53s/it][A
Progress for agorafobi:  35%|████████████████████▋                                      | 7/20 [00:16<00:23,  1.81s/it][A
Progress for ag

agorafobi saved. Total data until now 71333



Progress for seçici dilsizlik:   0%|                                                            | 0/20 [00:00<?, ?it/s][A
Progress for seçici dilsizlik:   5%|██▌                                                 | 1/20 [00:01<00:19,  1.01s/it][A
Progress for seçici dilsizlik:  10%|█████▏                                              | 2/20 [00:02<00:19,  1.06s/it][A
Progress for seçici dilsizlik:  15%|███████▊                                            | 3/20 [00:03<00:17,  1.01s/it][A
Progress for seçici dilsizlik:  20%|██████████▍                                         | 4/20 [00:04<00:17,  1.12s/it][A
Progress for seçici dilsizlik:  25%|█████████████                                       | 5/20 [00:05<00:17,  1.19s/it][A
Progress for seçici dilsizlik:  30%|███████████████▌                                    | 6/20 [00:06<00:13,  1.06it/s][A
Progress for seçici dilsizlik:  35%|██████████████████▏                                 | 7/20 [00:07<00:12,  1.04it/s][A
Progress for se

seçici dilsizlik saved. Total data until now 71421





## LLM Filtering

In [1]:
import pandas as pd
from tqdm import tqdm
import re
import json

In [2]:
youtube_pure_data = pd.read_excel("../Data/youtube_pure_data.xlsx")
youtube_pure_data.head()

Unnamed: 0,Disorder,Text
0,Sosyal Anksiyete,Soru sormadan önce mutlaka aşağıdaki sayfayı o...
1,Sosyal Anksiyete,Uzaktan eğitimde ders esnasında sesimi açamaya...
2,Sosyal Anksiyete,Normalde yalnızken rahatça yapabildiğim şeyler...
3,Sosyal Anksiyete,Kimseye anlatamadığım için buraya yazmak isted...
4,Sosyal Anksiyete,Okul beni çok zorluyor.Bu durum sayesinde deva...


In [3]:
youtube_filtered_data = pd.read_excel("../Data/youtube_filtered_data.xlsx")
youtube_filtered_data.head()

Unnamed: 0,Result,Text
0,no,Soru sormadan önce mutlaka aşağıdaki sayfayı o...
1,yes,Uzaktan eğitimde ders esnasında sesimi açamaya...
2,yes,Normalde yalnızken rahatça yapabildiğim şeyler...
3,yes,Kimseye anlatamadığım için buraya yazmak isted...
4,yes,Okul beni çok zorluyor.Bu durum sayesinde deva...


In [7]:
youtube_filtered_data.shape

(5046, 2)

In [4]:
youtube_pure_data.shape

(71421, 2)

In [33]:
# deleted_indices = []
# for i, text in enumerate(youtube_pure_data['Text']):
#     if len(text.split()) <= 5:
#         deleted_indices.append(i)

In [5]:
import os
import time
import google.generativeai as genai

genai.configure(api_key="AIzaSyDKmlARpKo8VUfRkQECO0XjJQuGJW5h6wA")

model = genai.GenerativeModel('gemini-1.5-flash')

def submission_prediction(youtube_comment: str):
    response = model.generate_content("""
    Sen verilen youtube yorumlarının bir hastalık üzerine söylenmiş bir kişinin duygusu, anısı veya hikaye olup olmadığını tespit eden uzman
    bir psikologsun.

    \n\n

    Aşağıdaki üçlü tırnaklar arasında verilen youtube yorumunu analiz et. Aşağıdaki yönlendirmeler göre cevap ver:
    1. Eğer bu yorum bir hastanın hikaye, duygu veya davranışını *belirtiyorsa* cevap olarak aşğıdaki verilmiş formatta JSON olarak çıktıyı dön:
        {"Result":"yes", "Text": <comment>}

    2. Eğer bu yorum bir hastanın hikaye, duygu veya davranışını *belirtmiyorsa* cevap olarak aşğıdaki verilmiş formatta JSON olarak çıktıyı dön:
        {"Result":"no", "Text": <comment>}

    \n\n
    Youtube Yorum: """ + youtube_comment)

    try:
        pattern = re.compile(r'\{.*?\}', re.DOTALL)
        match = pattern.search(response.text)
    
        if match:
            response_json = json.loads(match.group(0))
            return response_json
        
        else:
            return {
                "Result":None,
                "Text":None
            }
            
    except Exception:
        return {
                "Result":None,
                "Text":None
            }

    

In [101]:
result_list = []

youtube_filtered_data = pd.read_excel("../Data/youtube_filtered_data.xlsx")
youtube_filtered_data

try: 
    for text in tqdm(youtube_pure_data['Text'].values[len(youtube_filtered_data):]):
        
        result_json = submission_prediction(text)
        result_list.append(result_json)

        time.sleep(4.1)
        
except Exception as err:
    merged_data =  pd.concat([youtube_filtered_data, pd.DataFrame(result_list)], axis=0)
    merged_data.to_excel('../Data/youtube_filtered_data.xlsx', index=False).reset_index(drop=True)
    raise ValueError(err)

  0%|                                                                                        | 0/45243 [00:08<?, ?it/s]


KeyboardInterrupt: 

In [91]:
merged_data =  pd.concat([youtube_filtered_data, youtube_filtered_data], axis=0).reset_index(drop=True)

In [86]:
len(youtube_filtered_data)

1452

## Youtube UnFiltered Data Filtering

In [27]:
youtube_unfiltered_data = youtube_pure_data.iloc[len(youtube_filtered_data):, :]

In [28]:
youtube_unfiltered_data

Unnamed: 0,Disorder,Text
5046,Sosyal Anksiyete,Hayatım bitti
5047,Sosyal Anksiyete,/Emir Şahin\ :(
5048,Sosyal Anksiyete,AYTEN RZAYEVA benim var ve öyle insanların be...
5049,Sosyal Anksiyete,Okulda her kesden iyim amma ders konusa bilmiy...
5050,Sosyal Anksiyete,@pitypandamsp2784 kabugumuza saklanmaktan ha...
...,...,...
71416,Seçici Dilsizlik,3. Yorum zaten 3 gün geçmesine rağmen 3 yorum ...
71417,Seçici Dilsizlik,1-Cİ YORUM 😱😱😲😲😲
71418,Seçici Dilsizlik,Bu çilek değil yani Zeynep Özkaya değil
71419,Seçici Dilsizlik,Hocam oğlum anaokuluna başladığında fark ettik...


In [29]:
youtube_unfiltered_data['Text']

5046                                         Hayatım bitti
5047                                       /Emir Şahin\ :(
5048     AYTEN RZAYEVA  benim var ve öyle insanların be...
5049     Okulda her kesden iyim amma ders konusa bilmiy...
5050      @pitypandamsp2784  kabugumuza saklanmaktan ha...
                               ...                        
71416    3. Yorum zaten 3 gün geçmesine rağmen 3 yorum ...
71417                                     1-Cİ YORUM 😱😱😲😲😲
71418              Bu çilek değil yani Zeynep Özkaya değil
71419    Hocam oğlum anaokuluna başladığında fark ettik...
71420    Biz daha gitmedik randevuyu bekliyoruz cocuk p...
Name: Text, Length: 66375, dtype: object

In [30]:
indices = []
for i, text in youtube_unfiltered_data['Text'].items():
    if len(text.split()) < 5:
        indices.append(i)

In [31]:
youtube_unfiltered_data.drop(index=indices, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  youtube_unfiltered_data.drop(index=indices, inplace=True)


In [32]:
youtube_unfiltered_data.shape

(51173, 2)

## Delete @ from the text

In [33]:
import time

In [34]:
youtube_filtered_data

Unnamed: 0,Result,Text
0,no,Soru sormadan önce mutlaka aşağıdaki sayfayı o...
1,yes,Uzaktan eğitimde ders esnasında sesimi açamaya...
2,yes,Normalde yalnızken rahatça yapabildiğim şeyler...
3,yes,Kimseye anlatamadığım için buraya yazmak isted...
4,yes,Okul beni çok zorluyor.Bu durum sayesinde deva...
...,...,...
5041,no,@system5404 siz de bu öneriyi sunmuşsunuz ama...
5042,yes,Berfin fobiluler olarak grup açsak nasil olu...
5043,yes,@merve2381 fobiluler olarak grup açsak nasil o...
5044,no,@system5404 Bilmem ki nerden Grup açıcaz?


In [36]:
from tqdm import tqdm

indices = []
for i, text in tqdm(youtube_unfiltered_data[youtube_unfiltered_data['Text'].apply(lambda x: "@" in x)]['Text'].items()):
    if len(text.split()) < 8:
        indices.append(i)
        time.sleep(0.00001)

youtube_unfiltered_data.drop(index=indices, inplace=True)

15598it [00:01, 9888.07it/s] 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  youtube_unfiltered_data.drop(index=indices, inplace=True)


In [37]:
youtube_unfiltered_data['Text'][:10].values

array(['AYTEN RZAYEVA  benim var ve öyle insanların beni yargılamasına ve rezil olmaktan kaçınmaya çalışırım çok korkunç bişi',
       'Okulda her kesden iyim amma ders konusa bilmiyom soru cevabda en iyim /:',
       '\xa0@pitypandamsp2784\xa0 kabugumuza saklanmaktan hayattan cok geri kaldik. kaldim. 4sene boyunca sosyalfobim vardi ama sonra artik kendimden bıktım. neden boyle hissediyorum neden boyle dusunuyorum neden kabugumdan cikamiyorum diye kendime kizdim ve korkularimin uzerine gittim. kalabaliktan cok korkardim. nolcak ölmem ya diyerek kalabalikta durdum ama bu adimi atmak herkes icin kolay olmuyor. arkadasiniz varsa onun yaninda daha rahat davranirsin... ve psikolog destegini al hic durma. çünkü sosyalfobi yuzunden kacirdigin kaybettigin zamani ve (eger dur demezsen devam edicek) geri alamazsin.',
       'Amin benden de var çok kötü bir şey',
       '\xa0@dunya-828\xa0 benimde var hemde cok kötü nasil basardiniz',
       '\xa0@ayferbaytekin6068\xa0 korkularimizin üzerine gitt

In [38]:
youtube_unfiltered_data.shape

(47476, 2)

In [39]:
youtube_unfiltered_data['Text'].values[:5]

array(['AYTEN RZAYEVA  benim var ve öyle insanların beni yargılamasına ve rezil olmaktan kaçınmaya çalışırım çok korkunç bişi',
       'Okulda her kesden iyim amma ders konusa bilmiyom soru cevabda en iyim /:',
       '\xa0@pitypandamsp2784\xa0 kabugumuza saklanmaktan hayattan cok geri kaldik. kaldim. 4sene boyunca sosyalfobim vardi ama sonra artik kendimden bıktım. neden boyle hissediyorum neden boyle dusunuyorum neden kabugumdan cikamiyorum diye kendime kizdim ve korkularimin uzerine gittim. kalabaliktan cok korkardim. nolcak ölmem ya diyerek kalabalikta durdum ama bu adimi atmak herkes icin kolay olmuyor. arkadasiniz varsa onun yaninda daha rahat davranirsin... ve psikolog destegini al hic durma. çünkü sosyalfobi yuzunden kacirdigin kaybettigin zamani ve (eger dur demezsen devam edicek) geri alamazsin.',
       'Amin benden de var çok kötü bir şey',
       '\xa0@dunya-828\xa0 benimde var hemde cok kötü nasil basardiniz'],
      dtype=object)

### Unfiltered Data Prediction

In [79]:
import os
import time
import google.generativeai as genai
import ast


genai.configure(api_key="AIzaSyAUuUp27Hpz2JbHi3gWvd_WCSwuuIH-ybo")

model = genai.GenerativeModel('gemini-1.5-flash')

def submission_prediction(youtube_comment: str):
    response = model.generate_content("""
    Sen verilen youtube yorumlarının bir hastalık üzerine söylenmiş kişilerin duyguları, anıları veya hikayeler olup olmadığını tespit eden uzman
    bir psikologsun.

    \n\n

    Aşağıdaki üçlü tırnaklar arasında verilen youtube yorumunlarını teker teker analiz et. Aşağıdaki yönlendirmeler göre cevap ver:
    1. Eğer yorumlar bir hastanın, bir hastalık üzerine potansiyel belirti içeren bir cevap olarak anlaşılıyorsa aşağıdaki verilmiş formatta JSON olarak çıktıyı dön:
        {"Result":"yes", "Text": <commen_n>}


    2. Eğer yorumlar bir hastanın, bir hastalık üzerine potansiyel belirti içeren bir cevap olarak anlaşılmıyorsa aşağıdaki verilmiş formatta JSON olarak çıktıyı dön:
        {"Result":"no", "Text": <commen_n>}


    Sonuç olarak her bir cümle için cümleleri yap ve aşağıda verilen örnekteki bir sadece bir liste şeklinde sun.
        [{"Result":"no", "Text": <comment1>},
        {"Result":"yes", "Text": <comment2>},
        {"Result":"yes", "Text": <comment3>},
        {"Result":"no", "Text": <comment4>},
        {"Result":"no", "Text": <comment5>},
        {"Result":"no", "Text": <comment6>},
        {"Result":"yes", "Text": <comment7>},
        {"Result":"no", "Text": <comment8>},
        {"Result":"yes", "Text": <comment9>},
        {"Result":"yes", "Text": <comment10>}]

    \n\n
    Youtube Yorum: """ + youtube_comment)

    try:
        pattern = re.compile(r'\[.*?\]', re.DOTALL)
        match = pattern.search(response.text)
        if match:
            response_json = ast.literal_eval(match.group(0))
            return response_json
        
        else:
            return {
                "Result":None,
                "Text":None
            }
            
    except Exception:
        return {
                "Result":None,
                "Text":None
            }

    

In [10]:
import pickle

with open('./filtered_list_1.pkl', 'rb') as file:
    filtered_data_1 = pickle.load(file)

with open('./filtered_list_2.pkl', 'rb') as file:
    filtered_data_2 = pickle.load(file)

In [12]:
len(filtered_data_1)

32879

In [13]:
len(filtered_data_2)

28908

In [16]:
import time

def remove_unnecessary_elements(filtered_data_list):
    indices_to_remove = []
    for i, text in enumerate(filtered_data_list):
        if not isinstance(text, dict):
            indices_to_remove.append(i)
        time.sleep(0.0000005)
    
    filtered_list = [item for idx, item in enumerate(filtered_data_list) if idx not in indices_to_remove]

    return filtered_list

filtered_data_1_new = remove_unnecessary_elements(filtered_data_1)
filtered_data_2_new = remove_unnecessary_elements(filtered_data_2)

In [20]:
for text in filtered_data_2_new:
    try:
        x = text['Text']
    
    except Exception as err:
        print(text)

In [23]:
len(filtered_list_text)

32879

In [90]:
filtered_list_text =  [x['Text'] for x in filtered_data_1_new]
y =  [x['Text'] for x in filtered_data_2_new]
filtered_list_text.extend(y)

In [75]:
new_youtube_unfiltered_data = [] 
for text in tqdm(youtube_unfiltered_data['Text'].values):
    if text not in filtered_list_text:
        new_youtube_unfiltered_data.append(text)

100%|███████████████████████████████████████████████████████████████████████████| 47476/47476 [01:20<00:00, 588.61it/s]


In [80]:
j= 0
part_filter_result_list = []

for i in tqdm(range(10,len(new_youtube_unfiltered_data),10), desc="Process..."):
    try:
        part_filter_result_list.extend(submission_prediction(str(new_youtube_unfiltered_data[j:i])))
        j+=10

    except Exception as err:
        print(err)

Process...: 100%|██████████████████████████████████████████████████████████████████| 819/819 [1:59:02<00:00,  8.72s/it]


In [82]:
len(part_filter_result_list)

7782

In [82]:
x[0]

{'Result': 'yes',
 'Text': 'AYTEN RZAYEVA  benim var ve öyle insanların beni yargılamasına ve rezil olmaktan kaçınmaya çalışırım çok korkunç bişi'}

In [88]:
len(filtered_list_text)

7670

In [84]:
filtered_list_text.extend(part_filter_result_list)

In [93]:
part_filter_result_list = remove_unnecessary_elements(part_filter_result_list)

In [95]:
total_filtered_data = []

total_filtered_data.extend(filtered_data_1_new)
total_filtered_data.extend(filtered_data_2_new)
total_filtered_data.extend(part_filter_result_list)

In [96]:
len(total_filtered_data)

69177

In [97]:
total_filtered_data

[{'Result': 'yes',
  'Text': 'AYTEN RZAYEVA  benim var ve öyle insanların beni yargılamasına ve rezil olmaktan kaçınmaya çalışırım çok korkunç bişi'},
 {'Result': 'no',
  'Text': 'Okulda her kesden iyim amma ders konusa bilmiyom soru cevabda en iyim /:'},
 {'Result': 'yes',
  'Text': '\xa0@pitypandamsp2784\xa0 kabugumuza saklanmaktan hayattan cok geri kaldik. kaldim. 4sene boyunca sosyalfobim vardi ama sonra artik kendimden bıktım. neden boyle hissediyorum neden boyle dusunuyorum neden kabugumdan cikamiyorum diye kendime kizdim ve korkularimin uzerine gittim. kalabaliktan cok korkardim. nolcak ölmem ya diyerek kalabalikta durdum ama bu adimi atmak herkes icin kolay olmuyor. arkadasiniz varsa onun yaninda daha rahat davranirsin... ve psikolog destegini al hic durma. çünkü sosyalfobi yuzunden kacirdigin kaybettigin zamani ve (eger dur demezsen devam edicek) geri alamazsin.'},
 {'Result': 'yes', 'Text': 'Amin benden de var çok kötü bir şey'},
 {'Result': 'yes',
  'Text': '\xa0@dunya-828\x

In [108]:
total_filtered_data[55]['Text'] in youtube_pure_data['Text'].values

True

In [110]:
total_filtered_data[53]['Text']

'Senin böyle güzel düşüncen varken bence bu hastalığı yenersin fikirlerin çok net ve aydınlatıcı .'

In [103]:
youtube_pure_data[youtube_pure_data['Text'] == total_filtered_data[0]['Text']]['Disorder'].values[0]

'Sosyal Anksiyete'

In [111]:
filtered_youtube_data_list = []
not_annotated_list = []

for filtered_dict in tqdm(total_filtered_data):
    if filtered_dict['Text'] in youtube_pure_data['Text'].values:
        row = {
            "Situation": filtered_dict['Result'],
            "Text": filtered_dict['Text'],
            "Disorder": youtube_pure_data[youtube_pure_data['Text'] == filtered_dict['Text']]['Disorder'].values[0]
        }
        filtered_youtube_data_list.append(row)

    else:
        not_annotated_list.append(filtered_dict)

100%|████████████████████████████████████████████████████████████████████████████| 69177/69177 [14:21<00:00, 80.27it/s]


In [115]:
len(not_annotated_list)

1622

## Preprocessing

In [118]:
filtered_youtube_data = pd.DataFrame(filtered_youtube_data_list)

filtered_youtube_data = filtered_youtube_data[filtered_youtube_data['Situation'] == 'yes']

In [120]:
filtered_youtube_data['Disorder'].value_counts()

Disorder
Sosyal Anksiyete    17911
Depresyon            8606
Anksiyete            4520
Distimi              1265
Agorafobi             650
PMDD                  413
Seçici Dilsizlik       43
Name: count, dtype: int64

In [127]:
filtered_youtube_data = filtered_youtube_data.reset_index(drop=True)

In [130]:
removed_hashtags_data = filtered_youtube_data.copy()

for i, text in enumerate(filtered_youtube_data['Text'].values):
    temp_list = []
    for word in text.strip().split():
        if "@" not in word:
            temp_list.append(word)
    
    removed_hashtags_data.loc[i, "Text"] = " ".join(temp_list)
            

In [133]:
removed_hashtags_data['Text']

0        AYTEN RZAYEVA benim var ve öyle insanların ben...
1        kabugumuza saklanmaktan hayattan cok geri kald...
2                      Amin benden de var çok kötü bir şey
3              benimde var hemde cok kötü nasil basardiniz
4        korkularimizin üzerine gittim, kendimi kotulem...
                               ...                        
33403    Merhaba oğlum da anasınıfına gidiyor kimseyle ...
33404                Benimki de oyle care bulabildiniZ mi?
33405    benim de 5 buçuk yaşında oğlum aile bireyleri ...
33406    merhaba benim oğlumda okulda çocuklarla sohbet...
33407    Benim kizimda aynı 3cuncu sınıfa gidiyor iki t...
Name: Text, Length: 33408, dtype: object

In [135]:
removed_hashtags_data.shape

(33408, 3)

In [136]:
removed_hashtags_data = removed_hashtags_data.drop_duplicates().reset_index(drop=True)

In [137]:
removed_hashtags_data.shape

(18131, 3)

In [138]:
removed_hashtags_data.to_excel("./youtube_filtered_data.xlsx", index=False)
print("Done")

Done
