In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn
import numpy as np
import re
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline

In [2]:
def cleaning(text):
    text = [txt.lower() for txt in re.findall(r'(?:^|(?<= ))[a-zA-Z]+(?= |$)', text)]

    return "no text" if len(text) == 0 else text

In [4]:
model = AutoModelForSequenceClassification.from_pretrained("kuzgunlar/electra-turkish-sentiment-analysis")
tokenizer = AutoTokenizer.from_pretrained("kuzgunlar/electra-turkish-sentiment-analysis")
sa = pipeline("sentiment-analysis", tokenizer=tokenizer, model=model)

In [3]:
def foo(text):
    p = sa(text)
    return p[0]['score'] if p[0]['label'] == 'Positive' else 1-p[0]['score']

In [16]:
df = pd.read_csv("dataV2.csv", encoding="utf-16")

In [17]:
df['num_favorites'] = df['num_favorites'].apply(lambda x : str(x).replace(".", ""))
df['num_will_read'] = df['num_will_read'].apply(lambda x : str(x).split(".")[0])
df['num_is_read'] = df['num_is_read'].apply(lambda x : str(x).split(".")[0])
df['num_did_read'] = df['num_did_read'].apply(lambda x : str(x).split(".")[0])
df['num_comments'] = df['num_comments'].apply(lambda x : str(x).split(".")[0])
df['num_purchases'] = df['num_purchases'].apply(lambda x : str(x).replace(".", ""))

In [18]:
df.book = df.book.apply(lambda x: re.sub("[(@*&?].*[)@*&?]", "", x))
df = df[df.star != 0]
df.drop_duplicates()

Unnamed: 0,id,book,writer,publisher,num_pages,num_comments,num_favorites,num_will_read,num_is_read,num_did_read,...,avg_rating,num_five_star,num_four_star,num_three_star,num_two_star,num_one_star,comment,price,type,star
0,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Son zamanlarda sıkıntılı günler yaşayan Nora i...,48.11,Roman (çeviri),5
1,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,“Her yaşam milyonlarca seçim ihtiva eder. Kimi...,48.11,Roman (çeviri),5
2,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,"Okunması çok rahat, kimi zaman genclik kitapla...",48.11,Roman (çeviri),5
3,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Okumanın bu kadar basit fakat verdiği mesajla...,48.11,Roman (çeviri),5
4,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Akıcı anlatımı ve sıra dışı hikayesiyle okuyuc...,48.11,Roman (çeviri),5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36515,345165,Can Veren Pervaneler,Hayati İnanç,BABIALİ KÜLTÜR YAYINCILIĞI,230,474,4157,588,108,752,...,95.2,911,121,42,7,9,"Ruha şifa veren, İslam'dan beslenen beyitler. ...",42.00,Divan Edebiyatı,5
36516,345165,Can Veren Pervaneler,Hayati İnanç,BABIALİ KÜLTÜR YAYINCILIĞI,230,474,4157,588,108,752,...,95.2,911,121,42,7,9,Lisedeyken tanışdığım ve o zamanlar anlamakta ...,42.00,Divan Edebiyatı,5
36517,345165,Can Veren Pervaneler,Hayati İnanç,BABIALİ KÜLTÜR YAYINCILIĞI,230,474,4157,588,108,752,...,95.2,911,121,42,7,9,"hayati baba, gönlünü dergah haline getirenleri...",42.00,Divan Edebiyatı,5
36518,345165,Can Veren Pervaneler,Hayati İnanç,BABIALİ KÜLTÜR YAYINCILIĞI,230,474,4157,588,108,752,...,95.2,911,121,42,7,9,"Hayati beyi sosyal medya sayesinde tanıdım, ki...",42.00,Divan Edebiyatı,4


In [19]:
df.head()

Unnamed: 0,id,book,writer,publisher,num_pages,num_comments,num_favorites,num_will_read,num_is_read,num_did_read,...,avg_rating,num_five_star,num_four_star,num_three_star,num_two_star,num_one_star,comment,price,type,star
0,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Son zamanlarda sıkıntılı günler yaşayan Nora i...,48.11,Roman (çeviri),5
1,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,“Her yaşam milyonlarca seçim ihtiva eder. Kimi...,48.11,Roman (çeviri),5
2,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,"Okunması çok rahat, kimi zaman genclik kitapla...",48.11,Roman (çeviri),5
3,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Okumanın bu kadar basit fakat verdiği mesajla...,48.11,Roman (çeviri),5
4,582550,Gece Yarısı Kütüphanesi,Matt Haig,DOMİNGO YAYINEVİ,283,782,25645,2,361,2,...,91.9,959,174,86,22,26,Akıcı anlatımı ve sıra dışı hikayesiyle okuyuc...,48.11,Roman (çeviri),5


In [20]:
df[['num_comments', 'num_favorites', 'num_will_read', 'num_is_read', 'num_did_read', 'num_purchases']] = df[['num_comments', 'num_favorites', 'num_will_read', 'num_is_read', 'num_did_read', 'num_purchases']].astype(int)

In [21]:
df.comment = df.comment.apply(cleaning)
df = df[df.comment != "no text"]

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 35964 entries, 0 to 36519
Data columns (total 22 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              35964 non-null  int64  
 1   book            35964 non-null  object 
 2   writer          35964 non-null  object 
 3   publisher       35964 non-null  object 
 4   num_pages       35964 non-null  int64  
 5   num_comments    35964 non-null  int32  
 6   num_favorites   35964 non-null  int32  
 7   num_will_read   35964 non-null  int32  
 8   num_is_read     35964 non-null  int32  
 9   num_did_read    35964 non-null  int32  
 10  num_purchases   35964 non-null  int32  
 11  num_ratings     35964 non-null  int64  
 12  avg_rating      35964 non-null  float64
 13  num_five_star   35964 non-null  int64  
 14  num_four_star   35964 non-null  int64  
 15  num_three_star  35964 non-null  int64  
 16  num_two_star    35964 non-null  int64  
 17  num_one_star    35964 non-null 

In [22]:
df["positivity"] = df.comment.apply(foo)

In [23]:
df.to_csv("dataV4.csv", encoding='utf-16', index=False)