# Python Kullanarak WhatsApp Sohbet Duygu Analizi

Bu proje, WhatsApp sohbet geçmişini analiz ederek her bir mesajın duygusal tonunu belirlemeyi amaçlar. Proje, Python programlama dili ve NLTK (Natural Language Toolkit) kütüphanesi kullanılarak gerçekleştirilmiştir. İşte projenin adım adım özeti:

1. Veri Okuma ve Hazırlama:

- WhatsApp sohbet geçmişi, belirli bir dosya yolundan okunur ve satır satır işlenir.
- Her bir mesajın tarih, saat, yazar ve içerik bilgileri ayrıştırılarak bir veri yapısına (liste) eklenir.
2. Verilerin Pandas DataFrame'e Dönüştürülmesi:

- Ayrıştırılan veriler, Pandas DataFrame'e dönüştürülerek daha kolay işlenebilir hale getirilir.
- 'Date' sütunundaki tarihler, datetime formatına çevrilir.
- Eksik veriler DataFrame'den çıkarılır.
3. Duygu Analizi:

- NLTK'nın VADER (Valence Aware Dictionary and sEntiment Reasoner) duygu analiz aracı kullanılarak her bir mesajın duygusal tonu analiz edilir.
- Analiz sonuçları, her bir mesaj için pozitif, negatif ve nötr skorlar olarak DataFrame'e eklenir.
4. Sonuçların Görselleştirilmesi ve Yazdırılması:

- Analiz sonuçlarının özet bilgileri (DataFrame'in ilk beş satırı) ekrana yazdırılır.

In [4]:
!pip install emoji
!pip install wordcloud

Collecting wordcloud
  Obtaining dependency information for wordcloud from https://files.pythonhosted.org/packages/f5/b0/247159f61c5d5d6647171bef84430b7efad4db504f0229674024f3a4f7f2/wordcloud-1.9.3-cp311-cp311-win_amd64.whl.metadata
  Downloading wordcloud-1.9.3-cp311-cp311-win_amd64.whl.metadata (3.5 kB)
Downloading wordcloud-1.9.3-cp311-cp311-win_amd64.whl (300 kB)
   ---------------------------------------- 0.0/300.2 kB ? eta -:--:--
   - -------------------------------------- 10.2/300.2 kB ? eta -:--:--
   -- ------------------------------------ 20.5/300.2 kB 320.0 kB/s eta 0:00:01
   ----- --------------------------------- 41.0/300.2 kB 279.3 kB/s eta 0:00:01
   ----------- --------------------------- 92.2/300.2 kB 521.8 kB/s eta 0:00:01
   ------------------- ------------------ 153.6/300.2 kB 702.7 kB/s eta 0:00:01
   -------------------------------- ----- 256.0/300.2 kB 983.0 kB/s eta 0:00:01
   ---------------------------------------- 300.2/300.2 kB 1.1 MB/s eta 0:00:00
Install

In [3]:
import re
import os
import pandas as pd
import numpy as np
import emoji
from collections import Counter
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

In [4]:
# Düzenli İfade (Regex) Deseninin Tanımlanması
def date_time(s):
    pattern = '^([0-9]+)(\/)([0-9]+)(\/)([0-9]+), ([0-9]+):([0-9]+)[ ]?(AM|PM|am|pm)? -'
    result = re.match(pattern, s)
    if result:
        return True
    return False

Bu satır, tarih ve saat formatını tanımlayan bir düzenli ifade (regex) deseni oluşturur. Bu desen şu bileşenlerden oluşur:

- ^: Satırın başını ifade eder.
- ([0-9]+): Bir veya daha fazla rakam (gün, ay veya yıl için).
- (\/): Eğik çizgi ("/") karakteri.
- ([0-9]+): Bir veya daha fazla rakam (gün, ay veya yıl için).
- (\/): Eğik çizgi ("/") karakteri.
- ([0-9]+): Bir veya daha fazla rakam (gün, ay veya yıl için).
- , : Virgül ve boşluk karakteri.
- ([0-9]+): Bir veya daha fazla rakam (saat için).
- :([0-9]+): İki nokta üst üste ve bir veya daha fazla rakam (dakika için).
- [ ]?: İsteğe bağlı bir boşluk karakteri.
- (AM|PM|am|pm)?: İsteğe bağlı olarak büyük veya küçük harflerle "AM" veya "PM".
- -: Bir boşluk ve ardından kısa çizgi karakteri.

In [5]:
# Yazarları veya Kişileri Bul
def find_author(s):
    s = s.split(":")
    if len(s)==2:
        return True
    else:
        return False

find_author(s) fonksiyonu, verilen bir metin satırının bir yazar adı (author) içerip içermediğini kontrol etmek için kullanılır. Bu, özellikle WhatsApp sohbet günlüklerinde her mesajın başındaki yazar adını tanımak için yararlı olabilir. Eğer metin : karakterine göre iki parçaya ayrılabiliyorsa, fonksiyon bu metnin bir yazar adı içerdiğini varsayar ve True döner. Aksi takdirde False döner.

In [6]:
# Mesajları Bulma
def getDatapoint(line):
    splitline = line.split(' - ')
    dateTime = splitline[0]
    date, time = dateTime.split(", ")
    message = " ".join(splitline[1:])
    if find_author(message):
        splitmessage = message.split(": ")
        author = splitmessage[0]
        message = " ".join(splitmessage[1:])
    else:
        author= None
    return date, time, author, message

getDatapoint(line) fonksiyonu, belirli bir formatta verilen bir metin satırını işleyerek tarih, saat, yazar adı (varsa) ve mesaj içeriğini ayırır. Fonksiyon, metni belirli parçalara böler ve gerekli bilgileri ayrıştırarak döndürür. Bu, özellikle sohbet verilerini analiz etmek için kullanışlı olabilir.

In [22]:
data = []
conversation = r'C:\Users\realb\Desktop\Python_kullanılarak_mesajlasma_analiz_etme\‎ilker ile WhatsApp Sohbeti.txt'
with open(conversation, encoding="utf-8") as fp:
    fp.readline()
    messageBuffer = []
    date, time, author = None, None, None
    while True:
        line = fp.readline()
        if not line:
            break
        line = line.strip()
        if date_time(line):
            if len(messageBuffer) > 0:
                data.append([date, time, author, ' '.join(messageBuffer)])
            messageBuffer.clear()
            date, time, author, message = getDatapoint(line)
            messageBuffer.append(message)
        else:
            messageBuffer.append(line)

Bu kod, WhatsApp sohbet dosyasını satır satır okuyarak her bir mesajın tarih, saat, yazar ve içerik bilgilerini ayrıştırır ve bunları bir listeye ekler. Sonuç olarak, her bir mesajın detaylı bilgilerini içeren bir data listesi elde edilir. Bu, özellikle sohbet verilerini analiz etmek veya işlemek için kullanışlıdır.

Sematik analaiz yapacak olan kütüpanenin indiriyorum ve bunun kontrölünü yapıyorum.

In [25]:
import nltk
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\realb\AppData\Roaming\nltk_data...


True

In [26]:
df = pd.DataFrame(data, columns=["Date", 'Time', 'Author', 'Message'])
df['Date'] = pd.to_datetime(df['Date'])

data = df.dropna()
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentiments = SentimentIntensityAnalyzer()
data["Positive"] = [sentiments.polarity_scores(i)["pos"] for i in data["Message"]]
data["Negative"] = [sentiments.polarity_scores(i)["neg"] for i in data["Message"]]
data["Neutral"] = [sentiments.polarity_scores(i)["neu"] for i in data["Message"]]
print(data.head())

Empty DataFrame
Columns: [Date, Time, Author, Message, Positive, Negative, Neutral]
Index: []


Bu kod, WhatsApp sohbet verilerini işleyerek her bir mesajın duygusal tonunu analiz eder. Bu analiz, mesajların pozitif, negatif ve nötr skorlarını içerir ve sonuçları bir Pandas DataFrame'e kaydeder. Bu, sohbet verilerinin duygusal dağılımını anlamak için kullanılabilir.

In [27]:
x = sum(data["Positive"])
y = sum(data["Negative"])
z = sum(data["Neutral"])

def sentiment_score(a, b, c):
    if (a>b) and (a>c):
        print("Positive 😊 ")
    elif (b>a) and (b>c):
        print("Negative 😠 ")
    else:
        print("Neutral 🙂 ")
sentiment_score(x, y, z)

Neutral 🙂 


Dönüşümü yapılan datafrema üzerinden işlem yapılarak duygu analizi yapılmasını sağlıyor.