# Proje: Konu Modelleme (Topic Modelling)

Konu Modelleme, bir metin belgeleri koleksiyonuna konu etiketleri atamak anlamına gelir. Konu modellemenin amacı, metin belgelerinde bulunan konuları belirlemektir.

Konu Modelleme, metin belgelerinden gizli konuları ortaya çıkarmak için bir Doğal Dil İşleme tekniğidir. Metin belgelerinin konularını belirleyerek metin belgesinin içeriği ile konu arasındaki ilişkileri bulmaya yardımcı olur.

Veriseti: https://statso.io/topic-modelling-case-study/
<br/><br/>
Aşağıda veri setindeki tüm özellikler yer almaktadır: 
* **Makale:** Makalenin özeti. 
* **Başlık:** Makalenin başlığı.

1. Gerekli kütüphaneleri içe aktarma:

In [9]:
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
import string
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/talipakhan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/talipakhan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/talipakhan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/talipakhan/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

2. Verisetini okuma:

In [10]:
df = pd.read_csv("data/articles.csv", encoding='latin-1')
df.head()

Unnamed: 0,Article,Title
0,Data analysis is the process of inspecting and...,Best Books to Learn Data Analysis
1,The performance of a machine learning algorith...,Assumptions of Machine Learning Algorithms
2,You must have seen the news divided into categ...,News Classification with Machine Learning
3,When there are only two classes in a classific...,Multiclass Classification Algorithms in Machin...
4,The Multinomial Naive Bayes is one of the vari...,Multinomial Naive Bayes in Machine Learning


In [11]:
import nltk
nltk.download()

def preprocess_text(text):
    # Metni küçük harfe dönüştür
    text = text.lower()
    # Noktalama işaretlerini kaldır
    text = text.translate(str.maketrans('', '', string.punctuation))
    # Metni tokenize et
    tokens = nltk.word_tokenize(text)
    # Durak kelimelerini kaldır
    stop_words = set(stopwords.words("english"))
    tokens = [word for word in tokens if word not in stop_words]
    # Token'ları lemmatize et
    lemma = WordNetLemmatizer()
    tokens = [lemma.lemmatize(word) for word in tokens]
    # İşlenmiş metni oluşturmak için token'ları birleştir
    preprocessed_text = ' '.join(tokens)
    return preprocessed_text

df['Article'] = df['Article'].apply(preprocess_text)

2024-10-06 18:11:49.965 python[77788:1695475] +[IMKClient subclass]: chose IMKClient_Legacy
2024-10-06 18:11:49.965 python[77788:1695475] +[IMKInputSession subclass]: chose IMKInputSession_Legacy


showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


In [12]:
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(df['Article'].values)

In [13]:
lda = LatentDirichletAllocation(n_components=5, random_state=42)
lda.fit(x)

topic_modelling = lda.transform(x)

topic_labels = np.argmax(topic_modelling, axis=1)
df['konu_etiketleri'] = topic_labels

In [17]:
df.head()

Unnamed: 0,Article,Title,konu_etiketleri
0,data analysis process inspecting exploring dat...,Best Books to Learn Data Analysis,2
1,performance machine learning algorithm particu...,Assumptions of Machine Learning Algorithms,3
2,must seen news divided category go news websit...,News Classification with Machine Learning,1
3,two class classification problem problem binar...,Multiclass Classification Algorithms in Machin...,3
4,multinomial naive bayes one variant naive baye...,Multinomial Naive Bayes in Machine Learning,1


# Sonuç:

Konu Modelleme, metin belgelerinden gizli konuları ortaya çıkarmak için bir Doğal Dil İşleme tekniğidir. Metin belgelerinin konularını belirleyerek metin belgesinin içeriği ile konu arasındaki ilişkileri bulmaya yardımcı olur.