In [1]:
import pandas as pd
from gensim.models import Word2Vec

data = pd.read_excel('derlenmis_corpus.xlsx')
data.drop("Unnamed: 0",axis = 1, inplace = True)
data

Unnamed: 0,Cumle sayisi,Cleaned_Text
0,1,grip influenza virusuna bağlı bir solunum yolu...
1,2,hafif bir üst solunum yolu enfeksiyonundan ölü...
2,3,grip tipik olarak ani başlayan ateş titreme ba...
3,4,i̇nfluenza virusları orthomyxoviridae ailesi i...
4,5,i̇nsanlarda sık hastalık yapan tipler influenz...
...,...,...
10653,10654,bugün gelinen noktada pandemisinin gerçek boyu...
10654,10655,örneğin abdde salgının başlangıcından şubat ta...
10655,10656,enfeksiyon nedeniyle kaybedildiği hesaplanmakt...
10656,10657,değerlerin verildiği raporda enfekte olanların...


# En sık geçen 20 kelimeyi bulalım

In [2]:
corpus = [sentence.split() for sentence in data['Cleaned_Text'].tolist()]

# Toplam kelime frekanslarını bulalım
word_frequencies = {}
for sentence in corpus:
    for word in sentence:
        word_frequencies[word] = word_frequencies.get(word, 0) + 1

# En yüksek frekanstan başlayarak sıralayalım
sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
top_20_words = sorted_word_frequencies[:20]

# Kelime ve frekanslarını yazdıralım
for word, frequency in top_20_words:
    print(f"{word}: {frequency} kez geçmiştir.")


influenza: 2425 kez geçmiştir.
bir: 2363 kez geçmiştir.
olarak: 1646 kez geçmiştir.
grip: 1192 kez geçmiştir.
olan: 944 kez geçmiştir.
i̇nfluenza: 903 kez geçmiştir.
hn: 847 kez geçmiştir.
olduğu: 793 kez geçmiştir.
a: 781 kez geçmiştir.
aşı: 781 kez geçmiştir.
sağlık: 714 kez geçmiştir.
aşısı: 673 kez geçmiştir.
yaş: 643 kez geçmiştir.
yüksek: 610 kez geçmiştir.
solunum: 592 kez geçmiştir.
arasında: 518 kez geçmiştir.
mevsimsel: 497 kez geçmiştir.
hastalık: 488 kez geçmiştir.
virüs: 451 kez geçmiştir.
göre: 420 kez geçmiştir.


# Word2Vec modeli oluşturalım

In [3]:
model = Word2Vec(sentences=corpus, vector_size=300, window=10, min_count=1, workers=4, sg =1, epochs=23)

# En sık geçen 20 kelimeye en yakın 5 kelimeyi bulalım

In [4]:
def Nearest_word(word):
    return model.wv.most_similar(positive = [word],topn=5)

In [5]:
# 1. Kelime
Nearest_word("influenza")

[('a', 0.5254610180854797),
 ('saptamamıştır', 0.47739776968955994),
 ('ecdcnin', 0.4654465317726135),
 ('potansiyelini', 0.4600200355052948),
 ('kaynaklandıgı', 0.45818570256233215)]

In [6]:
# 2. Kelime
Nearest_word("bir")

[('herhangi', 0.4476170241832733),
 ('başka', 0.4419286549091339),
 ('çıkmaktadır', 0.4093347489833832),
 ('kendi', 0.3646841049194336),
 ('deyişle', 0.3596617579460144)]

In [7]:
# 3. Kelime
Nearest_word("olarak")

[('kabul', 0.3932833671569824),
 ('ek', 0.3525054454803467),
 ('tanımlanan', 0.3497081696987152),
 ('karşımıza', 0.3381895124912262),
 ('enfeksiyonununen', 0.32252037525177)]

In [8]:
# 4. Kelime
Nearest_word("grip")

[('aşısı', 0.5653066635131836),
 ('inflüenza', 0.46453389525413513),
 ('karıştırılabilecek', 0.4451853036880493),
 ('görüşlerine', 0.4445728659629822),
 ('yaptırmalarını', 0.4443323314189911)]

In [9]:
# 5. Kelime
Nearest_word("olan")

[('indirebilirler', 0.30760475993156433),
 ('influenzaenfeksiyonunun', 0.30550605058670044),
 ('yakalanırlar', 0.30358392000198364),
 ('isavirüs', 0.29836347699165344),
 ('olabilirken', 0.2982867956161499)]

In [10]:
# 6. Kelime
Nearest_word("i̇nfluenza")

[('a', 0.45729386806488037),
 ('nfluenza', 0.4416821002960205),
 ('ailesindendir', 0.43028947710990906),
 ('parainfluenzavirüs', 0.4249168038368225),
 ('coronavirüs', 0.41713184118270874)]

In [11]:
# 7. Kelime
Nearest_word("hn")

[('pdm', 0.58412104845047),
 ('suşunun', 0.535748302936554),
 ('saptamamıştır', 0.5272064805030823),
 ('sürdürmektedir', 0.5228305459022522),
 ('variant', 0.5222998261451721)]

In [12]:
# 8. Kelime
Nearest_word("olduğu")

[('olabileceği', 0.42278051376342773),
 ('belirtilmiştir', 0.42239120602607727),
 ('olmadığı', 0.406028151512146),
 ('gereksinimini', 0.4044923782348633),
 ('gösterilmiştir', 0.4023967981338501)]

In [13]:
# 9. Kelime
Nearest_word("a")

[('b', 0.5905647873878479),
 ('pdm', 0.5632952451705933),
 ('anın', 0.5501911640167236),
 ('variant', 0.5397542119026184),
 ('üçüncüsü', 0.5281604528427124)]

In [14]:
# 10. Kelime
Nearest_word("aşı")

[('yaptırmama', 0.5410998463630676),
 ('olmama', 0.49210411310195923),
 ('içeriğindeki', 0.48635002970695496),
 ('çocuğuna', 0.48383763432502747),
 ('içeriği', 0.4816538393497467)]

In [15]:
# 11. Kelime
Nearest_word("sağlık")

[('çalışanlarının', 0.7505239844322205),
 ('çalışanları', 0.7028568387031555),
 ('çalışanlarına', 0.6790400743484497),
 ('personeli', 0.6456841230392456),
 ('hizmeti', 0.6108683347702026)]

In [16]:
# 12. Kelime
Nearest_word("aşısı")

[('yaptırma', 0.5726078748703003),
 ('aşısını', 0.5696978569030762),
 ('grip', 0.5653066039085388),
 ('yapılma', 0.5576460361480713),
 ('yaptırmalarını', 0.5348092913627625)]

In [17]:
# 13. Kelime
Nearest_word("yaş")

[('üstü', 0.8028951287269592),
 ('üzeri', 0.7515841126441956),
 ('aralığındaki', 0.5997313857078552),
 ('aralığında', 0.5974768996238708),
 ('geriatrik', 0.5952654480934143)]

In [18]:
# 14. Kelime
Nearest_word("yüksek")

[('yüksektir', 0.43544748425483704),
 ('oranda', 0.42523589730262756),
 ('gruplardan', 0.4132946729660034),
 ('lipopolisakkaridin', 0.4124673008918762),
 ('koyabilme', 0.40224483609199524)]

In [19]:
# 15. Kelime
Nearest_word("solunum")

[('yolu', 0.8052195906639099),
 ('üst', 0.6679574251174927),
 ('sıkıntısı', 0.571664571762085),
 ('enfeksiyonlarıdır', 0.5397446751594543),
 ('acute', 0.5396109223365784)]

In [20]:
# 16. Kelime
Nearest_word("arasında")

[('yılları', 0.5254332423210144),
 ('fark', 0.5120289325714111),
 ('tarihleri', 0.4896101653575897),
 ('ilişki', 0.459562212228775),
 ('bulunmamıştır', 0.4555765688419342)]

In [21]:
# 17. Kelime
Nearest_word("mevsimsel")

[('inflüenza', 0.4905514121055603),
 ('görüşlerine', 0.443678617477417),
 ('önleyebilir', 0.42961663007736206),
 ('aşısı', 0.4267473816871643),
 ('yaptıranların', 0.4225445091724396)]

In [22]:
# 18. Kelime
Nearest_word("hastalık")

[('kontrol', 0.42871883511543274),
 ('belirtileri', 0.4222739636898041),
 ('semptomlarının', 0.39934587478637695),
 ('benzeri', 0.38817769289016724),
 ('milyonu', 0.37838035821914673)]

In [23]:
# 19. Kelime
Nearest_word("virüs")

[('parainfluenza', 0.4199526011943817),
 ('adenovirüs', 0.39682039618492126),
 ('orantılıdır', 0.3955867886543274),
 ('subtipine', 0.39469069242477417),
 ('partiküller', 0.3837336301803589)]

In [24]:
# 20. Kelime
Nearest_word("göre")

[('sürecini', 0.5063568949699402),
 ('kat', 0.486295223236084),
 ('verilerine', 0.4701150953769684),
 ('kültürel', 0.46981027722358704),
 ('altyapı', 0.45698827505111694)]

# Seçilen 5 farklı cümleye en benzer 3 er cümle bulalım

In [25]:
from nltk.tokenize import word_tokenize
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [26]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [27]:
def Nearest_sentence(selected_sentence):

    # Seçilen cümleyi tokenize edelim
    tokenized_selected_sentence = word_tokenize(selected_sentence)

    # Seçilen cümleyi vektörle temsil edelim
    selected_sentence_vector = np.mean([model.wv[word] for word in tokenized_selected_sentence if word in model.wv], axis=0)

    # Veri setindeki tüm cümleleri vektörle temsil edelim
    all_sentence_vectors = [np.mean([model.wv[word] for word in word_tokenize(sentence) if word in model.wv], axis=0)
                            for sentence in data['Cleaned_Text']]

    # Cosine Similarity kullanarak benzer cümleleri bulalım
    similarities = cosine_similarity([selected_sentence_vector], all_sentence_vectors)[0]

    # Benzerlik sırasına göre indeksleri alalım
    most_similar_indices = similarities.argsort()[-4:][::-1]

    print("Seçilen Cümle ve Ona En Benzer 3 Cümle:")
    for index in most_similar_indices:
        print(f"{data['Cumle sayisi'][index]}.Cümle: {data['Cleaned_Text'][index]}, Benzerlik: {similarities[index]}")



In [28]:
# 1. cümle
Nearest_sentence("sigara içenlerde sık görülmez fakat ağır seyreder")

Seçilen Cümle ve Ona En Benzer 3 Cümle:
878.Cümle: sigara içenlerde sık görülmez fakat ağır seyreder, Benzerlik: 1.0
9853.Cümle: riskli gruplarda influenza ağır seyreder komplikasyonları sık görülür, Benzerlik: 0.8503880500793457
10569.Cümle: i̇nfluenza pnömonisi sık olarak influenzayı ağır komplikasyonlu geçirme riski taşıyan küçük çocuklarda gelişmektedir, Benzerlik: 0.7785724401473999
1885.Cümle: i̇nfluenza pnömonisi sık olarak influenzayı ağır komplikasyonlu geçirme riski taşıyan küçük çocuklarda gelişmektedir, Benzerlik: 0.7785724401473999


In [29]:
# 2. cümle
Nearest_sentence("gebelikte hastalığın genellikle ciddi seyrettiği özellikle üçüncü trimestırdaki gebelerde hiv koinfeksiyon durumunda mortalitenin yüksek olduğu bildirilmiştir")

Seçilen Cümle ve Ona En Benzer 3 Cümle:
5203.Cümle: gebelikte hastalığın genellikle ciddi seyrettiği özellikle üçüncü trimestırdaki gebelerde hiv koinfeksiyon durumunda mortalitenin yüksek olduğu bildirilmiştir, Benzerlik: 1.000000238418579
8006.Cümle: başka çalışmalarda yaşlı hastalarda olgu fatalite hızlarının yüksek olduğu ayrıca altta yatan kronik hastalıkların obezitenin gebeliğin hastalığın seyrini ağırlaştırdığı saptanmıştır, Benzerlik: 0.8312697410583496
3492.Cümle: yılındaki hn salgınında hastalığın gebelerde ağır seyrettiği komplikasyon riskinin yüksek olduğunun ortaya konmasından itibaren influenza enfeksiyonu olan gebelere mutlaka antiviral tedavi önerilmektedir, Benzerlik: 0.8312034606933594
1988.Cümle: gebeliğin kendisi yüksek riskli bir durumdur influenzanın potansiyel olumsuz etkileri özellikle gebe kadınlarda ciddi hale gelebilir, Benzerlik: 0.8091965913772583


In [30]:
# 3. cümle
Nearest_sentence("öksürdükten hapşırdıktan sonra ellerinizi bol sabun suyla yıkayınız")

Seçilen Cümle ve Ona En Benzer 3 Cümle:
1175.Cümle: öksürdükten hapşırdıktan sonra ellerinizi bol sabun suyla yıkayınız, Benzerlik: 1.0000001192092896
1173.Cümle: mendili kullandıktan sonra çöp sepetine atınız, Benzerlik: 0.8807318210601807
4595.Cümle: bundan sonra uzak şarkta önleneceğini ümit ederim ifadelerini kullanmıştır, Benzerlik: 0.8423560261726379
4052.Cümle: zarftan soyunma uncoating aşamasından sonra endozom içine pinositozla penetre olur, Benzerlik: 0.8314599990844727


In [31]:
# 4. cümle
Nearest_sentence("bulaş i̇nfluenza virüslerinin aksırma öksürmeyle birlikte saçılan damlacık partikülleriyle kişiden kişiye geçişi görülmektedir")

Seçilen Cümle ve Ona En Benzer 3 Cümle:
7851.Cümle: bulaş i̇nfluenza virüslerinin aksırma öksürmeyle birlikte saçılan damlacık partikülleriyle kişiden kişiye geçişi görülmektedir, Benzerlik: 1.0
1019.Cümle: i̇nfluenza virüsleri hapşırma öksürükle saçılan damlacık partikülleri kişiden kişiye bulaşabilir cdc e, Benzerlik: 0.8998823165893555
1427.Cümle: i̇nfluenza virüsleri kişiden kişiye kolayca bulaşabilir, Benzerlik: 0.8773488402366638
10534.Cümle: i̇nfluenza enfeksiyonu kişiden kişiye damlacık yoluyla bulaşır ancak bulaşmada yüzeylerin rolü genellikle göz ardı edilmektedir, Benzerlik: 0.8680210709571838


In [32]:
# 5. cümle
Nearest_sentence("bir insan ömrü boyunca yaklaşık olarak nezle olur")

Seçilen Cümle ve Ona En Benzer 3 Cümle:
879.Cümle: bir insan ömrü boyunca yaklaşık olarak nezle olur, Benzerlik: 1.0000001192092896
458.Cümle: i̇nfluenza enfeksiyonu varlığında kişi önceden sağlıklı biriyse immünsüpresf bir durumu yoksa yaklaşık olarak haftalık bir sürede tamamen iyileşme olur ancak yaşlılar çocuklar diğer duyarlı gruplarda pnömoni ağır komplikasyonlar ortaya çıkabilir, Benzerlik: 0.738955557346344
2156.Cümle: bir aşı tipik olarak hastalık yaratan bir mikroorganizmaya benzeyen genellikle mikrop toksinler yüzey proteinlerinden birinin zayıflamış öldürülmüş biçimlerinden yapılmış bir ajan içerir, Benzerlik: 0.7383205890655518
9928.Cümle: ortalama bir grip sezonunda hastalığın yaygınlığı yaklaşık olarak gerçekleşmektedir, Benzerlik: 0.7361541986465454


# Duygu analizi yapalım

In [33]:
# ML modeli oluşturalım
from sklearn.cluster import KMeans

all_sentence_vectors = [np.mean([model.wv[word] for word in word_tokenize(sentence) if word in model.wv], axis=0)
                            for sentence in data['Cleaned_Text']]

kmeans_model = KMeans(n_clusters=2, random_state=42)
kmeans_model.fit(all_sentence_vectors)



In [34]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [35]:
def is_flu(text):

  clean_sentence = []

  # Parametre olarak alınan cümleyi önişleyelim
  text = re.sub(r'\d+', '', text)
  text = re.sub(r'[^\w\s]', '', text)
  stop_words = set(stopwords.words('turkish'))
  words = word_tokenize(text)
  filtered_words = [word.lower() for word in words if word.isalnum() and word.lower() not in stop_words]
  clean_sentence = " ".join(filtered_words)

  # Önişlenmiş cümleyi tokenize edelim ve modele gönderelim
  new_sentence_vector = sum([model.wv[word] for word in word_tokenize(clean_sentence.lower())])
  predicted_cluster = kmeans_model.predict([new_sentence_vector])

  if(predicted_cluster == 1):
    print("CÜMLE GRİP ÖZELLİĞİ TAŞIMAKTADIR")
  else:
    print("CÜMLE GRİP ÖZELLİĞİ TAŞIMAMAKTADIR.")

In [36]:
is_flu("16 yaşındaki hastada baş ağrısı, halsizlik gibi belirtiler var.")

CÜMLE GRİP ÖZELLİĞİ TAŞIMAKTADIR


In [37]:
is_flu("Hastamızın durumu iyi.")

CÜMLE GRİP ÖZELLİĞİ TAŞIMAMAKTADIR.
