# A Jupyter Notebook for Text Classification using Naive Bayes
This notebook demonstrates how to perform text classification using the Naive Bayes algorithm. It includes steps for data preprocessing, vectorization, model training, evaluation, and prediction.

## Import Libraries
Import necessary libraries such as pandas, numpy, re, nltk, and scikit-learn modules.

In [None]:
# Import Required Libraries
import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Download stopwords
nltk.download('stopwords')

## Load and Explore Dataset
Load the dataset into a pandas DataFrame and display the first few rows to understand its structure.

In [None]:
# Load Dataset
data = {
    "Yorum": [
        "Harika bir film, bayıldım!",
        "Çok kötüydü, hiç beğenmedim.",
        "Gerçekten mükemmeldi, tekrar izlerim.",
        "Tam bir hayal kırıklığı, zaman kaybı.",
        "Şahane bir oyunculuk, bayıldım!",
        "Bu kadar kötü bir film izlemedim.",
        "Senaryo çok etkileyiciydi, harika!",
        "Berbat bir senaryo, rezalet!",
        "Muhteşem bir yapım, herkese tavsiye ederim.",
        "Sıkıcı ve anlamsızdı, hiç keyif almadım.",
        "Tek kelimeyle harika, kesinlikle izlenmeli!",
        "Tamamen vakit kaybı, hiç beğenmedim.",
        "Filmdeki sahneler çok etkileyiciydi.",
        "Hiç mantıklı değildi, boş bir filmdi.",
        "Gerçekten çok beğendim, harikaydı!",
        "Bunu izlediğime pişman oldum, berbat.",
        "Film muhteşemdi, her anı mükemmeldi.",
        "Senaryo çok basitti, sıkıldım.",
        "İzlerken çok keyif aldım, tekrar izlerim.",
        "Tam bir felaketti, param boşa gitti."
    ],
    "Etiket": ["Pozitif", "Negatif", "Pozitif", "Negatif", "Pozitif", "Negatif", "Pozitif", "Negatif",
               "Pozitif", "Negatif", "Pozitif", "Negatif", "Pozitif", "Negatif", "Pozitif", "Negatif",
               "Pozitif", "Negatif", "Pozitif", "Negatif"]
}

df = pd.DataFrame(data)
df.head()

## Data Cleaning
Define a function to clean the text data by converting to lowercase, removing punctuation, and filtering out stopwords.

In [None]:
# Data Cleaning Function
def temizle(text):
    text = text.lower()  # Convert to lowercase
    text = re.sub(r'\W', ' ', text)  # Remove punctuation
    text = re.sub(r'\s+', ' ', text)  # Remove extra spaces
    stop_words = set(stopwords.words('turkish'))  # Turkish stopwords
    text = ' '.join([word for word in text.split() if word not in stop_words])  # Remove stopwords
    return text

df['Temiz_Yorum'] = df['Yorum'].apply(temizle)
df.head()

## Text Vectorization
Use TfidfVectorizer to convert the cleaned text data into numerical feature vectors.

In [None]:
# Text Vectorization
X = df['Temiz_Yorum']
y = df['Etiket'].map({'Pozitif': 1, 'Negatif': 0})  # Convert labels to numeric

vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X)

## Train-Test Split
Split the dataset into training and testing sets using train_test_split.

In [None]:
# Split Dataset
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

## Train Naive Bayes Model
Train a Multinomial Naive Bayes model using the training data.

In [None]:
# Train Naive Bayes Model
model = MultinomialNB()
model.fit(X_train, y_train)

## Evaluate Model
Evaluate the model's performance on the test data using accuracy_score and classification_report.

In [None]:
# Evaluate Model
y_pred = model.predict(X_test)

print("Doğruluk Oranı:", accuracy_score(y_test, y_pred))
print("\nSınıflandırma Raporu:\n", classification_report(y_test, y_pred))

## Make Predictions
Use the trained model to predict the sentiment of a new sample text.

In [None]:
# Make Predictions
yeni_yorum = ["Senaryo çok basitti"]
yeni_yorum_tfidf = vectorizer.transform(yeni_yorum)
tahmin = model.predict(yeni_yorum_tfidf)

print("Tahmin:", "Pozitif" if tahmin[0] == 1 else "Negatif")