# Text Data Analysis of YouTube


In [1]:
import pandas as pd #Datayı okumak, düzenlemek için.
import numpy as np #Data hakkında matematiksel işlemler yapmak için.
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
comments = pd.read_csv(r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\UScomments.csv",low_memory = False,on_bad_lines='skip')

In [3]:
# on_bad_lines='skip' ile okuma sırasında hatalı veri içeren satırları atladık, low_memory = False ile bellek optimizasyonlarını devre dışı bıraktık.

In [4]:
comments.head()

Unnamed: 0,video_id,comment_text,likes,replies
0,XpVt6Z1Gjjo,Logan Paul it's yo big day ‼️‼️‼️,4,0
1,XpVt6Z1Gjjo,I've been following you from the start of your...,3,0
2,XpVt6Z1Gjjo,Say hi to Kong and maverick for me,3,0
3,XpVt6Z1Gjjo,MY FAN . attendance,3,0
4,XpVt6Z1Gjjo,trending 😉,3,0


In [5]:
comments.isnull()

Unnamed: 0,video_id,comment_text,likes,replies
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
691395,False,False,False,False
691396,False,False,False,False
691397,False,False,False,False
691398,False,False,False,False


In [6]:
# False değerler null olmayan veriler anlamına geliyor.

In [7]:
comments.isnull().sum()

video_id         0
comment_text    26
likes            0
replies          0
dtype: int64

In [8]:
# comment_text    26 boş değer olduğunu gördük.

In [9]:
 comments.dropna(inplace=True) #Boş değerleri siler. inplace=True ile mevcut veri çerevesini değiştirir. Yeni oluşturmaz.

In [10]:
comments.isnull().sum()

video_id        0
comment_text    0
likes           0
replies         0
dtype: int64

In [11]:
# Şuanda hiç boş değerimiz yok.

  ## Sentiment Analysis (Duygu Analizi)

  ## Duygu özelliği çoğu zaman Polarity yani kutupluluk olarak adlandırılır. Bu kutuplar [-1,1] arasında olur. Bu genel bir ifadedir. Yeni özelliğimizin adı 'Polarity' olacak.

In [12]:
## TextBlob paketini yükleyelim.

In [13]:
!pip install textblob




In [14]:
from textblob import TextBlob 


In [15]:
comments.head()

Unnamed: 0,video_id,comment_text,likes,replies
0,XpVt6Z1Gjjo,Logan Paul it's yo big day ‼️‼️‼️,4,0
1,XpVt6Z1Gjjo,I've been following you from the start of your...,3,0
2,XpVt6Z1Gjjo,Say hi to Kong and maverick for me,3,0
3,XpVt6Z1Gjjo,MY FAN . attendance,3,0
4,XpVt6Z1Gjjo,trending 😉,3,0


In [16]:
comments.shape #Bu çok büyük bir veri

(691374, 4)

In [17]:
sample_df = comments[0:50]

In [18]:
sample_df.shape

(50, 4)

In [None]:
polarity = []
for comment in comments["comment_text"]:
    try:
        polarity.append(TextBlob(comment).sentiment.polarity)
    except:
        polarity.append(0)

In [None]:
comments['polarity'] = polarity

In [None]:
comments.head(15)

# Wordcloud Analysis (Kelime Bulutu)

## Wordcloud analizi, metin verilerinin görselleştirilmesi için kullanılan etkili bir yöntemdir. Metinlerde en sık geçen kelimelerin görsel olarak temsil edilmesini sağlar. Bu analiz, bir metnin içeriğini hızlıca görsel olarak anlamak için kullanılır ve genellikle metin madenciliği ve duygu analizi gibi alanlarda yaygın olarak kullanılır.


In [None]:
filter_positive = comments["polarity"]==1

In [None]:
positive = comments[filter_positive]

In [None]:
positive.head(5)

In [None]:
filter_negative = comments["polarity"]==-1

In [None]:
negative = comments[filter_negative]

In [None]:
negative.head(5)

In [None]:
from wordcloud import WordCloud, STOPWORDS #STOPWORDS burada is,the gibi anlamsız kelimelere karşılık geliyor. Bu kelimeler analizimize hiçbir anlam katmaz.

In [None]:
comments['comment_text']

In [None]:
type(comments['comment_text'])

In [None]:
#Word cloud analiz için stringe çevirmeliyiz, Series data tipindeler.

In [None]:
comments_string = positive['comment_text'].to_string(index=False)

In [None]:
comments_string_neg = negative['comment_text'].to_string(index=False)

In [None]:
print(comments_string[0:1000])

In [None]:
set(STOPWORDS)

In [None]:
font_path = r"C:\Users\eylem\AppData\Local\Microsoft\Windows\Fonts\KeeponTruckin.ttf" #fontu değiştirdik

In [None]:
word_cloud = WordCloud(stopwords=set(STOPWORDS),font_path=font_path,colormap='summer').generate(comments_string)

In [None]:
word_cloud_neg = WordCloud(stopwords=set(STOPWORDS),font_path=font_path,colormap='autumn').generate(comments_string_neg)

In [None]:
plt.imshow(word_cloud)
plt.axis('off') # Eksenleri kapatır

In [None]:
plt.imshow(word_cloud_neg)
plt.axis('off') # Eksenleri kapatır

# Perform Emoji's Analysis

##  Emoji analizi, metinlerde kullanılan emoji karakterlerinin anlamını ve duygusal içeriğini değerlendiren bir analiz türüdür. Metin madenciliği ve duygu analizi gibi alanlarda kullanılır. Emoji'ler genellikle duygusal ifadeleri ve mesajların tonunu iletmek için kullanılır ve metin analizinde önemli bir rol oynarlar.
## Bu kısımda emojilerin kaç defa geçtiğini analiz edip görselleştireceğiz.



In [None]:
import emoji

In [None]:
emoji.__version__

In [None]:
comments["comment_text"].head(6)

In [None]:
#Emojiyi string ifadenin içinden çıkarmamız gerekir. Örneğin 4 indexli yorumumuzda deneyelim.

In [None]:
# comment = "trending 😉"

In [None]:
"""emojis_list = []
for char in comment:
    if char in emoji.EMOJI_DATA:
        emojis_list.append(char)"""
        

In [None]:
# print(emojis_list)

In [None]:
emojis_list = []
for char in comments["comment_text"].dropna():
    if char in emoji.EMOJI_DATA:
        emojis_list.append(char)

In [None]:
emojis_list[0:10]

In [None]:
#Kaç defa geçtiğini görmek için daha verimli ve kullanımı kolay bir arayüz sunan collections modülünü kullanacağız.

In [None]:
from collections import Counter

In [None]:
Counter(emojis_list).most_common(10)

In [None]:
#Şimdi bunları 2 listeye bölmem gerek.

In [None]:
Counter(emojis_list).most_common(10)[0]

In [None]:
Counter(emojis_list).most_common(10)[0][0]

In [None]:
Counter(emojis_list).most_common(10)[1][0]

In [None]:
Counter(emojis_list).most_common(10)[2][0]

In [None]:
Counter(emojis_list).most_common(10)[0][1]

In [None]:
Counter(emojis_list).most_common(10)[1][1]

In [None]:
Counter(emojis_list).most_common(10)[2][1]

In [None]:
emojis = [Counter(emojis_list).most_common(10)[i][0] for i in range(10)]
freqs = [Counter(emojis_list).most_common(10)[i][1] for i in range(10)]
    

In [None]:
# Şimdi 2 ayrı listem var emojiler ve sıklıklar adında. Şimdi Bar Chart'ı kolayca oluşturabilirim.


In [None]:
import plotly.graph_objs as go

from plotly.offline import iplot

In [None]:
layout = go.Layout(
    title='Emoji Frequents',  # Grafik başlığı
    xaxis=dict(title='Emojiler'),  # X eksen başlığı
    yaxis=dict(title='Sıklıkları'),  # Y eksen başlığı
)

In [None]:
chart = go.Bar(x=emojis,y=freqs,marker=dict(color='rgb(255, 102, 102)',))

In [None]:
# Grafiği görüntüleme
iplot([chart])

# Collecting Entire Data of YouTube : Data Collection

 Python'da yerel bilgisayarımızdaki dosya sistemleriyle etkileşim kurmak için os modülünü kullanabiliriz.

In [None]:
import os

 Mevcut çalışma dizininde bulunan tüm dosya ve klasörlerin bir listesini döndüren listdir() fonksiyonuna bakalım.

In [None]:
files = os.listdir(r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\additional_data")

In [None]:
files

2 çeşit dosyamız var
1)JSON --> key:value ile ayrılmış datalar
2)CSV --> virgüller ile ayrılmış datalar
2 dosya da aynı içeriğe sahiptir.

In [None]:
files_csv = [file for file in files if '.csv' in file]

[yeni_öğe for öğe in liste if koşul]Bu yapı, bir listedeki dosya isimlerini filtrelemek için kullanılan bir Python listesi üreteci (list comprehension) yapısıdır. List comprehension, bir listeden yeni bir liste oluşturmak için kullanılan kısa ve okunaklı bir Python özelliğidir. Yani burada, csv formatlı dosyalarımızdan yeni bir liste oluşturduk.


In [None]:
files_csv

In [None]:
full_df = pd.DataFrame() # içi boş df
path = r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\additional_data"
for file in files_csv:
    current_df = pd.read_csv(path+"/"+file,encoding="iso-8859-1",on_bad_lines='skip')
    
    full_df = pd.concat([full_df,current_df],ignore_index = True)

Bu veri seti, çeşitli ülkelerden gelen metin içeriğini içermektedir. Örneğin; Türkçe metinlerde sıkça kullanılan İ, Ş, Ğ, Ç, Ü, Ö gibi Türk alfabesine özgü harfler, Latin alfabesinde doğrudan bulunmaz. Bu harfler, Türkçe metinlerin kodlanması için genellikle iso-8859-9 kodlaması kullanılır. İlgili dillerin metinlerinin doğru şekilde kodlanması için özel karakter kodlamaları gerektirebilir.

pd.concat() fonksiyonu, Pandas kütüphanesinde kullanılan ve veri birleştirme işlemlerini gerçekleştirmek için kullanılan bir fonksiyondur. ignore_index=True olarak ayarlandığında, birleştirilen verilerin dizin etiketleri yok sayılır ve yeni bir dizi etiketi oluşturulur.

In [None]:
full_df.duplicated() 

In [None]:
full_df = full_df.drop_duplicates()

In [None]:
full_df.shape

In [None]:
full_df[0:1000].to_csv(r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\export_data/youtube_sample.csv",index=False)

index=False yazdık çünkü DataFrame'deki satır indekslerinin CSV dosyasına yazılmasını istemiyoruz

In [None]:
full_df[0:1000].to_json(r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\export_data/youtube_sample.json")

In [None]:
from  sqlalchemy import create_engine 

SQL veritabanı için bir bağlantı oluşturmak için "create engine" ifadesi genellikle  SQLAlchemy kütüphanesi kullanılarak kullanılır.

In [None]:
engine = create_engine(r"sqlite:///C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\export_data/youtube_sample.sqlite")

create_engine() fonksiyonu ile bir SQLite veritabanı motoru oluşturuyoruz. 

In [None]:
full_df[0:1000].to_sql(name="Users",con=engine,if_exists = 'replace')

full_df DataFrame'inin ilk 1000 satırını "Users" adlı bir tabloya aktarıyoruz. Varolan bir tablo ile aynı isimde bir tablo bulunduğunda, if_exists='replace' parametresi sayesinde bu tabloyu değiştiriyoruz.

# Analysing The Most Liked Category


In [None]:
full_df.head(5)

En çok beğenilen kategoriyi analiz etmek için, kategori ismi adında bir sütuna sahip olmadığımızı görüyoruz. category_id adlı sütunumuz bize yol gösterecek.

In [None]:
full_df["category_id"].unique()

In [None]:
json_df = pd.read_json(r"C:\Users\eylem\Desktop\YoutubeTextDataAnalysis\additional_data/US_category_id.json")

In [None]:
json_df

In [None]:
json_df["items"]

In [None]:
json_df["items"][0]

In [None]:
json_df["items"][1]

In [None]:
blank_dict = {}

In [None]:
for item in json_df["items"].values:
    blank_dict[int(item["id"])] = item["snippet"]["title"]

In [None]:
blank_dict

In [None]:
full_df["category_name"] = full_df["category_id"].map(blank_dict)

In [None]:
full_df.head(5)

Şimdi bar grafiği ile en çok beğenilen kategoriyi bulalım.

In [None]:
total_likes_by_category = full_df.groupby('category_name')["likes"].sum()

In [None]:
plt.figure(figsize=(10, 6))
palette = sns.color_palette("RdYlGn", len(total_likes_by_category))
total_likes_by_category.plot(kind='barh', color=palette)
plt.title('En Çok Beğenilen Kategoriler')
plt.ylabel('Kategori Adı')
plt.grid(axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()
# x eksenindeki etiketleri devre dışı bırak
plt.xticks([])