In [1]:
from wordcloud import WordCloud
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import neattext.functions as nfx
import matplotlib.pyplot as plt
import plotly.express as plx
from tqdm import tqdm


In [2]:
data=pd.read_csv('data/Suicide_Detection.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,text,class
0,2,Ex Wife Threatening SuicideRecently I left my ...,suicide
1,3,Am I weird I don't get affected by compliments...,non-suicide
2,4,Finally 2020 is almost over... So I can never ...,non-suicide
3,8,i need helpjust help me im crying so hard,suicide
4,9,"I’m so lostHello, my name is Adam (16) and I’v...",suicide


In [3]:
train_data,test_data=train_test_split(data,test_size=0.2,random_state=10)

In [4]:
def clean_text(text):
    text_length=[]
    cleaned_text=[]
    for sent in tqdm(text):
        sent=sent.lower() #Biến toàn bộ đoạn văn bản thành chữ thường
        sent=nfx.remove_special_characters(sent)#Gỡ bỏ các ký tự đặc biệt như dấu câu, ký tự không phải chữ cái hay số
        sent=nfx.remove_stopwords(sent)#Gỡ bỏ các từ không mang nghĩa như "and", "is",... Điều này giúp tập trung vào những từ quan trọng hơn trong văn bản
        # sent=nfx.remove_shortwords(sent)
        text_length.append(len(sent.split()))#Đo chiều dài của đoạn văn bản sau khi xử lý
        cleaned_text.append(sent)
    return cleaned_text,text_length

In [5]:
cleaned_train_text,train_text_length=clean_text(train_data.text)
cleaned_test_text,test_text_length=clean_text(test_data.text)

  0%|          | 0/185659 [00:00<?, ?it/s]

100%|██████████| 185659/185659 [00:09<00:00, 20335.21it/s]
100%|██████████| 46415/46415 [00:02<00:00, 20308.75it/s]


In [6]:
import numpy as np
from keras.preprocessing.text import Tokenizer

from keras.models import load_model

# Đường dẫn tới tệp mô hình đã lưu
model_filename = "model/Suicidal_0.h5"

# Tải mô hình
model = load_model(model_filename)

# Tạo tokenizer sử dụng cho việc chuyển đổi văn bản thành dãy số
tokenizer = Tokenizer()
tokenizer.fit_on_texts(cleaned_train_text)


In [11]:
# Hãy thử với việc nhập vài đoạn từ bàn phím

from keras.utils import pad_sequences
# Nhập đoạn văn bản từ bàn phím
input_text = input("Nhập đoạn văn bản: ")


# Chuyển đoạn văn bản thành dãy số sử dụng tokenizer

input_seq = tokenizer.texts_to_sequences([input_text])

# Padding đoạn văn bản để có cùng độ dài với dữ liệu huấn luyện
max_sequence_length = 40
input_seq_padded = pad_sequences(input_seq, maxlen=max_sequence_length, padding='post')

# Dự đoán sử dụng mô hình
prediction = model.predict(input_seq_padded)

# Ngưỡng để quyết định kết quả tùy chỉnh sao cho hợp lý
threshold = 0.7

if prediction > threshold:
    print("Đoạn văn bản có khả năng trầm cảm.")
else:
    print("Đoạn văn bản không có khả năng trầm cảm.")

Đoạn văn bản có khả năng trầm cảm.


In [9]:
# Test đã ok bây giờ đi phân loại thôi

from keras.utils import pad_sequences

# Đọc dữ liệu từ tệp CSV
csv_file = "data/data_da_chuyen_doi.csv"
data = pd.read_csv(csv_file)

# Lấy cột "Content"
content_data = data["Content"]

# Sử dụng hàm translate_to_english để xử lý dữ liệu
cleaned_content, _ = clean_text(content_data)

# Chuyển đổi dữ liệu văn bản thành dãy số sử dụng tokenizer
input_seq = tokenizer.texts_to_sequences(cleaned_content)

# Padding đoạn văn bản để có cùng độ dài với dữ liệu huấn luyện
max_sequence_length = 40
input_seq_padded = pad_sequences(input_seq, maxlen=max_sequence_length, padding='post')

# Dự đoán sử dụng mô hình
predictions = model.predict(input_seq_padded)

# Ngưỡng để quyết định kết quả
threshold = 0.6

# In kết quả phân loại cho từng đoạn văn bản
for i, prediction in enumerate(predictions):
    if prediction > threshold:
        print(f"Đoạn văn bản {i + 1}: Có khả năng trầm cảm.")
    else:
        print(f"Đoạn văn bản {i + 1}: Không có khả năng trầm cảm.")

100%|██████████| 66/66 [00:00<?, ?it/s]

Đoạn văn bản 1: Không có khả năng trầm cảm.
Đoạn văn bản 2: Không có khả năng trầm cảm.
Đoạn văn bản 3: Không có khả năng trầm cảm.
Đoạn văn bản 4: Không có khả năng trầm cảm.
Đoạn văn bản 5: Không có khả năng trầm cảm.
Đoạn văn bản 6: Không có khả năng trầm cảm.
Đoạn văn bản 7: Không có khả năng trầm cảm.
Đoạn văn bản 8: Không có khả năng trầm cảm.
Đoạn văn bản 9: Không có khả năng trầm cảm.
Đoạn văn bản 10: Không có khả năng trầm cảm.
Đoạn văn bản 11: Không có khả năng trầm cảm.
Đoạn văn bản 12: Không có khả năng trầm cảm.
Đoạn văn bản 13: Không có khả năng trầm cảm.
Đoạn văn bản 14: Không có khả năng trầm cảm.
Đoạn văn bản 15: Không có khả năng trầm cảm.
Đoạn văn bản 16: Không có khả năng trầm cảm.
Đoạn văn bản 17: Không có khả năng trầm cảm.
Đoạn văn bản 18: Không có khả năng trầm cảm.
Đoạn văn bản 19: Không có khả năng trầm cảm.
Đoạn văn bản 20: Không có khả năng trầm cảm.
Đoạn văn bản 21: Không có khả năng trầm cảm.
Đoạn văn bản 22: Không có khả năng trầm cảm.
Đoạn văn bản 23: Kh




In [10]:
# Để thuận tiện sau này thì lưu lại kết quả phân loại 

import pandas as pd
from keras.utils import pad_sequences
# Đọc dữ liệu từ tệp CSV
csv_file = "data/data_da_chuyen_doi.csv"
data = pd.read_csv(csv_file)

# Lấy cột "Content"
content_data = data["Content"]

# Sử dụng hàm translate_to_english để xử lý dữ liệu
cleaned_content, _ = clean_text(content_data)

# Chuyển đổi dữ liệu văn bản thành dãy số sử dụng tokenizer
input_seq = tokenizer.texts_to_sequences(cleaned_content)

# Padding đoạn văn bản để có cùng độ dài với dữ liệu huấn luyện
max_sequence_length = 40
input_seq_padded = pad_sequences(input_seq, maxlen=max_sequence_length, padding='post')

# Dự đoán sử dụng mô hình
predictions = model.predict(input_seq_padded)

# Ngưỡng để quyết định kết quả
threshold = 0.6

# Tạo cột mới "Suicide" với giá trị mặc định là 0
data["Suicide"] = 0

# Gán nhãn 1 cho các đoạn văn bản có khả năng trầm cảm
data.loc[:, "Suicide"] = np.where(predictions > threshold, 1, 0)

# Lưu dữ liệu đã cập nhật vào tệp CSV mới
output_csv_file = "data/data_da_chuyen_doi.csv"
data.to_csv(output_csv_file, index=False)

print("Đã gán nhãn và lưu dữ liệu vào tệp data_da_chuyen_doi_labeled.csv")


100%|██████████| 66/66 [00:00<?, ?it/s]

Đã gán nhãn và lưu dữ liệu vào tệp data_da_chuyen_doi_labeled.csv



