In [15]:
import torch
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

import warnings
warnings.filterwarnings('ignore')

In [16]:
# Load the model and tokenizer
model_name = "Helsinki-NLP/opus-tatoeba-en-tr"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Move the model to GPU
device = "cpu"
model.to(device)

# Define a function for translation inference
def translate(text):
    global tokenizer
    global model
    global device
    inputs = tokenizer.encode(text, return_tensors="pt").to(device)
    outputs = model.generate(inputs, max_length=5000, num_beams=1, early_stopping=True)
    translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return translated_text



In [4]:
# Example text to translate from English to Turkish
text_to_translate = "Hello, how are you?"

# Perform translation
translated_text = translate(text_to_translate)
print(translated_text)


Merhaba, nasılsın?


## Read the Data

In [5]:
import pandas as pd

In [6]:
import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
os.environ["TORCH_USE_CUDA_DSA"] = "1"

In [7]:
data = pd.read_csv('../Data/selectivemutism_llm_filtered_en.csv')

In [8]:
from tqdm import tqdm

In [9]:
data['Text'][60]

"Hi everyone!\n\nI'm a pretty new teacher so I don't have a ton of experience. I teach English at a secondary vocational education in the Netherlands and starting today a new student (17 years old) will be joining one of my classes who has selective mutism. I'm looking for advice on what I can do to be the best teacher I can be for them?\n\nI have to prepare them for their exams, two of which are speaking based. As far as I know, the school won't allow them to skip those. To prepare for the speaking exams, I let students do small assignments in class (like introducing themselves, having a chat about their weekend in groups of 2, play a game with the irregular verbs).\n\nThe class is pretty small, 8 students in total. The students, from what I have seen, have welcomed them with open arms. They are in general a very friendly class with a happy and positive atmosphere. Their younger brother is in the same class as they are.\n\nI don't want to be insensitive so what can I do during my less

In [10]:
tr_data_list = []
errors = []

for text in tqdm(data['Text']):
    try:
        tr_data_list.append(translate(text))
    except Exception as err:
        error = {
            "Error": err,
            "Text": text,
        }
        errors.append(error)
        tr_data_list.append(None)

  3%|██▍                                                                             | 60/1977 [01:22<45:26,  1.42s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (698 > 512). Running this sequence through the model will result in indexing errors
 36%|████████████████████████████                                                   | 702/1977 [18:34<37:40,  1.77s/it]This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (512). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
100%|██████████████████████████████████████████████████████████████████████████████| 1977/1977 [56:20<00:00,  1.71s/it]


In [11]:
len(tr_data_list)

1977

In [12]:
len(errors)

10

In [13]:
data['Text_TR'] = tr_data_list

In [14]:
data.to_csv('selective_mutism_pure_tr.csv', index=False)

## Preprocessing

In [None]:
import matplotlib.pyplot as plt

In [28]:
new_data = pd.read_csv('selective_mutism_pure_tr.csv')

new_data = new_data.dropna().reset_index(drop=True)

new_data['Word_Countr_TR'] = new_data['Text_TR'].apply(lambda x: len(x))

In [31]:
new_data

Unnamed: 0,Result,Text,Text_TR,Word_Countr_TR
0,yes,I can speak 'normally' to 6 people. I feel anx...,6 kişiyle normal şekilde konuşabiliyorum. Onla...,167
1,yes,scared of raising their hand in class...scared...,Sınıfta ellerini kaldırmaktan korkar... elini ...,65
2,yes,I got denied medically transitioning today bec...,"Bugün, seçici mütizmim yüzünden tıbbi olarak g...",64
3,yes,"I cannot even talk to them with my full voice,...",Onlarla yalnızken bile onlarla tam olarak konu...,86
4,yes,I had selective mutism as a kid for 10 years w...,10 yıl boyunca seçici bir mutizm yaşadım ve ai...,186
...,...,...,...,...
1961,yes,I didn't start developing it until I was 12/13...,12/13 yaşına kadar geliştirmeye başlamadım. Ge...,229
1962,yes,Whenever I have to say...they have that extra ...,"Ne zaman söylemem gerekse... onlara karşı ""bu ...",91
1963,yes,I wish I could communicate with people in any ...,Keşke insanlarla herhangi bir şekilde telaşsız...,469
1964,yes,I struggle with SM and who eventually wants to...,SM ile mücadele ediyorum ve sonunda çocuk sahi...,68


In [32]:
new_data[['Text_TR']]

Unnamed: 0,Text_TR
0,6 kişiyle normal şekilde konuşabiliyorum. Onla...
1,Sınıfta ellerini kaldırmaktan korkar... elini ...
2,"Bugün, seçici mütizmim yüzünden tıbbi olarak g..."
3,Onlarla yalnızken bile onlarla tam olarak konu...
4,10 yıl boyunca seçici bir mutizm yaşadım ve ai...
...,...
1961,12/13 yaşına kadar geliştirmeye başlamadım. Ge...
1962,"Ne zaman söylemem gerekse... onlara karşı ""bu ..."
1963,Keşke insanlarla herhangi bir şekilde telaşsız...
1964,SM ile mücadele ediyorum ve sonunda çocuk sahi...


In [69]:
import pandas as pd
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from zeyrek import MorphAnalyzer
import nltk

# Download Turkish stopwords
nltk.download('stopwords')
nltk.download('punkt')

zeyrek = MorphAnalyzer()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\halilibrahim.hatun\AppData\Roaming\nltk_data.
[nltk_data]     ..
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\halilibrahim.hatun\AppData\Roaming\nltk_data.
[nltk_data]     ..
[nltk_data]   Package punkt is already up-to-date!


In [23]:
new_data.isnull().sum()

Result      0
Text        0
Text_TR    11
dtype: int64

In [24]:
new_data[new_data['Text_TR'].isnull()]

Unnamed: 0,Result,Text,Text_TR
60,no,Hi everyone!\n\nI'm a pretty new teacher so I ...,
72,no,https://imgur.com/a/1RDpH6s\nMy daughter was d...,
427,no,"Hello, readers of r/selectivemutism! I know th...",
702,yes,I was mute and physically slow. My teachers th...,
838,no,"Hello, r/SelectiveMutism community!\n\nI'm Chr...",
958,no,"An interesting idea, though I can't say I'd be...",
1033,yes,I have difficulty communicating and making fri...,
1166,no,"For the first time ever, r/selectivemutism is ...",
1197,no,The [2019 survey](https://www.reddit.com/r/sel...,
1370,no,"Hello everyone, it's me again. I'm about one w...",


In [None]:
# Function to preprocess text
def preprocess_text(text):
    # Remove punctuation
    text = re.sub(r'[^\w\s]', '', text)
    
    # Tokenize text
    words = word_tokenize(text)
    # Convert to lowercase
    words = [zeyrek.lemmatize(word.lower())[0][1][0]) for word in words]
    # Remove stopwords
    stop_words = set(stopwords.words('turkish'))
    words = [word for word in words if word not in stop_words]
    return words

# Apply preprocessing and count word frequencies
all_words = []
for text in tqdm(new_data['Text_TR']):
    words = preprocess_text(text)
    all_words.extend(words)

word_freq = Counter(all_words)
most_common_word = word_freq.most_common(200)

print("Most repetitive word:", most_common_word)
print("Frequency:", most_common_word)


  0%|                                                                                         | 0/1966 [00:00<?, ?it/s]APPENDING RESULT: <(kişi_Noun)(-)(kişi:noun_S + a3sg_S + pnon_S + yle:ins_ST)>
APPENDING RESULT: <(normal_Adj)(-)(normal:adjectiveRoot_ST)>
APPENDING RESULT: <(normal_Noun)(-)(normal:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(şekil_Noun)(-)(şekil:noun_S + a3sg_S + pnon_S + de:loc_ST)>
APPENDING RESULT: <(konuşmak_Verb)(-)(konuş:verbRoot_S + abil:vAble_S + verbRoot_S + iyor:vProgYor_S + um:vA1sg_ST)>
APPENDING RESULT: <(o_Pron_Demons_1)(-)(o:pronDemons_S + nlar:pA3pl_S + pPnon_S + la:pIns_ST)>
APPENDING RESULT: <(o_Pron_Pers)(-)(o:pronPers_S + nlar:pA3pl_S + pPnon_S + la:pIns_ST)>
APPENDING RESULT: <(on_Num_Card)(-)(on:numeralRoot_ST + numZeroDeriv_S + noun_S + lar:a3pl_S + pnon_S + la:ins_ST)>
APPENDING RESULT: <(konuşmak_Verb)(-)(konuş:verbRoot_S + ur:vAor_S + ken:vWhile_S + advRoot_ST)>
APPENDING RESULT: <(ve_Conj)(-)(ve:conjRoot_ST)>
APPENDING RESULT: <

In [39]:
most_common_word

[('bir', 1656),
 ('olarak', 300),
 ('sadece', 298),
 ('beni', 295),
 ('kadar', 274),
 ('kendimi', 270),
 ('seçici', 262),
 ('hissediyorum', 254),
 ('zaman', 240),
 ('var', 236),
 ('bile', 230),
 ('bana', 207),
 ('benim', 201),
 ('bunu', 162),
 ('iyi', 161),
 ('sosyal', 156),
 ('sm', 147),
 ('mutizm', 145),
 ('sonra', 145),
 ('olduğunu', 144),
 ('ben', 144),
 ('bazen', 143),
 ('gerçekten', 140),
 ('şekilde', 138),
 ('sessiz', 136),
 ('konuşmak', 128),
 ('fazla', 128),
 ('cevap', 125),
 ('zor', 124),
 ('hala', 117),
 ('hiçbir', 114),
 ('ediyorum', 110),
 ('konuşmaya', 110),
 ('kötü', 109),
 ('konuşma', 103),
 ('insanlarla', 102),
 ('istiyorum', 97),
 ('değil', 96),
 ('boyunca', 95),
 ('yüzden', 90),
 ('iletişim', 87),
 ('konuşamıyorum', 85),
 ('şimdi', 85),
 ('büyük', 83),
 ('olan', 81),
 ('okulda', 81),
 ('yok', 81),
 ('kendi', 79),
 ('tek', 79),
 ('benimle', 78),
 ('hakkında', 78),
 ('mücadele', 77),
 ('önce', 77),
 ('başka', 76),
 ('insanlar', 75),
 ('diğer', 73),
 ('beri', 73),
 ('ta

In [41]:
data_yes.isnull().sum()

Result     0
Text       0
Text_TR    2
dtype: int64

In [46]:
data = data.dropna().reset_index(drop=True)

In [47]:
data_yes = data[data['Result'] == 'yes']
data_yes['Word Count'] = data_yes['Text_TR'].apply(lambda x: len(x.split()))

In [1]:
data_yes.shape

NameError: name 'data_yes' is not defined

In [None]:
plt.figure(figsize=(10, 6))
plt.hist(data_yes['Word Count'], bins=5, edgecolor='k', alpha=0.7)
plt.title('Distribution of Word Count in Text_TR Feature')
plt.xlabel('Word Count')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()

In [37]:
data

Unnamed: 0,Result,Text,Text_TR
0,yes,I can speak 'normally' to 6 people. I feel anx...,6 kişiyle normal şekilde konuşabiliyorum. Onla...
1,yes,scared of raising their hand in class...scared...,Sınıfta ellerini kaldırmaktan korkar... elini ...
2,yes,I got denied medically transitioning today bec...,"Bugün, seçici mütizmim yüzünden tıbbi olarak g..."
3,yes,"I cannot even talk to them with my full voice,...",Onlarla yalnızken bile onlarla tam olarak konu...
4,yes,I had selective mutism as a kid for 10 years w...,10 yıl boyunca seçici bir mutizm yaşadım ve ai...
...,...,...,...
1972,yes,I didn't start developing it until I was 12/13...,12/13 yaşına kadar geliştirmeye başlamadım. Ge...
1973,yes,Whenever I have to say...they have that extra ...,"Ne zaman söylemem gerekse... onlara karşı ""bu ..."
1974,yes,I wish I could communicate with people in any ...,Keşke insanlarla herhangi bir şekilde telaşsız...
1975,yes,I struggle with SM and who eventually wants to...,SM ile mücadele ediyorum ve sonunda çocuk sahi...


In [36]:
for text in data_yes['Text_TR']:
    if text is not None and len(text.split()) <= 10:
        print(text)

Sınıfta ellerini kaldırmaktan korkar... elini kaldırmaktan korkar
Bugün, seçici mütizmim yüzünden tıbbi olarak geçişim reddedildi.
Onlarla yalnızken bile onlarla tam olarak konuşamıyorum fiziksel olarak konuşamıyorum.
Donuyorum ve zihnim bomboş. Nereden başlayacağımı bilmiyorum.
Yıllardır yabancılarla konuşamıyorum....ve benden daha fazlasını beklediklerini düşünüyorum.
Hiç tedavi görmedim ama şu anki terapistimle başlamak istiyorum.
Onlarla konuşmaya kendimi hazırlamam gerek.
Endişelendiğim zaman doğru düşünemiyorum.
Kendi kendime konuşmuyorum, diğer insanlar kadar sessizim.
Birçok insanın SM'si, sözsüz iletişim kurma yeteneklerini etkiler.
Endişeleniyorum ve bir yabancıyla konuşamıyorum.
Sınıfta konuşmuyor ve ses çıkmadan kelimeleri taklit ediyor.
Bunu ailemin önünde bile yapamam.
Kendimi korkunç suçlu hissediyorum ama hiç konuşamıyorum.
Ne arkadaşım var ne de insanlarla nasıl konuşacağımı bilmiyorum.
Kızım bir yıldır oyun terapisi görüyor, ama hâlâ konuşmuyorum.
Oğluma taşındıktan s