In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

print("Kütüphaneler başarıyla yüklendi!")

Kütüphaneler başarıyla yüklendi!


In [26]:
# Örnek verilerimizi oluşturalım
data = {
    'metin': [
        # İnsan tarafından yazılmış metinler
        "Dün akşam arkadaşlarımla beraber yemeğe gittik ve harikaydı. ",
        "Türkiye'nin en güzel şehri Ordudur.",
        "Bu yemeğin tarifi bana bizzat annem tarafından verildi.",
        "Kitap şimdilik sıkıcı gidiyor ama ilerleyen zamanlarda eğlenceli olacaktır.",
        "Pazar sabahları uzun süre yatmak acayip keyiflidir.",
        
        # Yapay zeka tarafından üretilmiş metinler
        "Sinematografik bir deneyim olarak, söz konusu film, izleyicilere unutulmaz anlar yaşatmayı vaat etmektedir.",
        "Türkiye Cumhuriyeti'nin güney kıyı şeridi, yaz aylarında turistik faaliyetler için önemli bir merkez konumundadır.",
        "İnternet kaynaklarından elde edilen bu yemek reçetesi, kişisel tercihlere göre modifiye edilmiştir.",
        "Okuma eylemine konu olan eser, başlangıç itibarıyla sürükleyici bir anlatım yapısı sergilemektedir.",
        "Haftanın son günü olan Pazar, sabah saatlerinde gerçekleştirilen kahvaltı aktivitesi için sıklıkla tercih edilir."
    ],
    'etiket': [
        'insan', 'insan', 'insan', 'insan', 'insan',
        'yapay_zeka', 'yapay_zeka', 'yapay_zeka', 'yapay_zeka', 'yapay_zeka'
    ]
}

# Veriyi pandas DataFrame'ine dönüştürelim
df = pd.DataFrame(data)

# Veri setimize bir göz atalım
print(df)

                                               metin      etiket
0  Dün akşam arkadaşlarımla beraber yemeğe gittik...       insan
1                Türkiye'nin en güzel şehri Ordudur.       insan
2  Bu yemeğin tarifi bana bizzat annem tarafından...       insan
3  Kitap şimdilik sıkıcı gidiyor ama ilerleyen za...       insan
4  Pazar sabahları uzun süre yatmak acayip keyifl...       insan
5  Sinematografik bir deneyim olarak, söz konusu ...  yapay_zeka
6  Türkiye Cumhuriyeti'nin güney kıyı şeridi, yaz...  yapay_zeka
7  İnternet kaynaklarından elde edilen bu yemek r...  yapay_zeka
8  Okuma eylemine konu olan eser, başlangıç itiba...  yapay_zeka
9  Haftanın son günü olan Pazar, sabah saatlerind...  yapay_zeka


In [27]:
# Metinler (X) ve etiketler (y) olarak ayıralım
X = df['metin']
y = df['etiket']

# Veri setini %80 eğitim, %20 test olarak bölelim
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Veri eğitim ve test setlerine ayrıldı.")
print("Eğitim seti boyutu:", len(X_train))
print("Test seti boyutu:", len(X_test))

Veri eğitim ve test setlerine ayrıldı.
Eğitim seti boyutu: 8
Test seti boyutu: 2


In [28]:
# Bir TF-IDF Vectorizer nesnesi oluşturalım
vectorizer = TfidfVectorizer()

# Vectorizer'ı sadece eğitim verisiyle eğitelim ve hem eğitim hem de test verisini dönüştürelim
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

print("Metinler başarıyla sayısal vektörlere dönüştürüldü.")

Metinler başarıyla sayısal vektörlere dönüştürüldü.


In [29]:
# Lojistik Regresyon modelini oluşturalım
model = LogisticRegression()

# Modeli eğitim verileriyle eğitelim
model.fit(X_train_tfidf, y_train)

print("Model başarıyla eğitildi!")

Model başarıyla eğitildi!


In [30]:
# Test verileriyle tahmin yapalım
predictions = model.predict(X_test_tfidf)

# Tahminleri gerçek etiketlerle karşılaştıralım
accuracy = accuracy_score(y_test, predictions)

print(f"Modelin test doğruluğu: {accuracy * 100:.2f}%")
print("\n--- Test Seti Tahminleri ---")
for i in range(len(X_test)):
    print(f"Metin: {X_test.iloc[i]}")
    print(f"Gerçek Etiket: {y_test.iloc[i]}, Tahmin: {predictions[i]}\n")

Modelin test doğruluğu: 50.00%

--- Test Seti Tahminleri ---
Metin: Okuma eylemine konu olan eser, başlangıç itibarıyla sürükleyici bir anlatım yapısı sergilemektedir.
Gerçek Etiket: yapay_zeka, Tahmin: yapay_zeka

Metin: Türkiye'nin en güzel şehri Ordudur.
Gerçek Etiket: insan, Tahmin: yapay_zeka



In [31]:
# Test etmek için yeni metinler
yeni_metinler = [
    "Bu konuyu hiç anlamadım, birisi bana yardımcı olabilir mi?", # Beklenen: insan
    "bugün kütüphaneye ders çalışmaya geldim ama hala çalışmaya başlayamadım." # Beklenen: yapay_zeka
]

# Metinleri aynı vectorizer ile dönüştürelim
yeni_metinler_tfidf = vectorizer.transform(yeni_metinler)

# Model ile tahmin yapalım (DÜZELTİLMİŞ SATIR)
yeni_tahminler = model.predict(yeni_metinler_tfidf)

for metin, tahmin in zip(yeni_metinler, yeni_tahminler):
    print(f"Metin: '{metin}' ---> Tahmin: {tahmin.upper()}")

Metin: 'Bu konuyu hiç anlamadım, birisi bana yardımcı olabilir mi?' ---> Tahmin: INSAN
Metin: 'bugün kütüphaneye ders çalışmaya geldim ama hala çalışmaya başlayamadım.' ---> Tahmin: INSAN


In [32]:
import pandas as pd

# Temiz Türkçe insan yazısı verisini oku
df = pd.read_csv("temizlenmis_turkce_veri.csv")

# Etiket ekle (0 = Human)
df["label"] = 0

print("✅ İnsan verisi yüklendi, örnek:")
print(df.head())


✅ İnsan verisi yüklendi, örnek:
                                             content category  \
0  Dışişleri Bakanı Davutoğlu, Yunanistan ile Tür...    dünya   
1  İsrail Gazze Şeridi nin kuzeyindeki bir tarlay...    dünya   
2  Lübnan ın başkenti Beyrut ta düzenlenen bombal...    dünya   
3  KKTC de Sendikal Platform genel grev başlattı....    dünya   
4  Türkiye den yola çıkan Başak Bulut, Seçil Öznu...    dünya   

                                            headline  label  
0                             'Ortak vizyonumuz var'      0  
1          İsrail'den Gazze Şeridi'ne hava saldırısı      0  
2        Cenaze için geniş güvenlik önlemleri alındı      0  
3                  Gözaltındaki sendikacılar serbest      0  
4  Bisikletle Asya'da 3 bin kilometre yol katettiler      0  


In [33]:
# Şimdilik örnek birkaç yapay metin
ai_texts = [
    "Yapay zekâ sistemleri, veri analizi süreçlerinde devrim yaratıyor.",
    "Geleceğin şehirleri tamamen akıllı teknolojilerle yönetilecek.",
    "Makine öğrenmesi modelleri artık tıpta erken teşhislerde kullanılıyor.",
    "Doğal dil işleme, müşteri hizmetlerinde otomatik yanıt sistemlerini güçlendiriyor.",
    "Otonom araçlar, trafiği daha güvenli hale getirmek için geliştiriliyor."
]

ai_df = pd.DataFrame({"content": ai_texts, "label": 1})

# Her iki veriyi birleştir
merged = pd.concat([
    df.rename(columns={"content": "content"})[["content", "label"]],
    ai_df
], ignore_index=True)

merged.to_csv("final_dataset.csv", index=False, encoding="utf-8-sig")

print(f"✅ Final veri seti oluşturuldu ({len(merged)} satır).")
print(merged.sample(5))


✅ Final veri seti oluşturuldu (38791 satır).
                                                 content  label
37401  Siirt te cinnet geçiren bir kişi pompalı tüfek...      0
23647  Ünlü Bolşoy Tiyatrosu nun önceki gün kezzap sa...      0
2957   Suudi Arabistan merkezli Arabian Construction ...      0
32312  McLaren, Abu Dabi GP de sahip oldukları hızın,...      0
29636  PTT 1. Lig takımlarından Boluspor un Kulüp Baş...      0


In [34]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

# Veriyi yükle
df = pd.read_csv("final_dataset.csv")

# Özellik çıkarımı
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["content"])
y = df["label"]

# Eğitim ve test verisi
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Model
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Tahmin
y_pred = model.predict(X_test)

print("✅ Model eğitimi tamamlandı!\n")
print(classification_report(y_test, y_pred))
print(f"🔹 Doğruluk (accuracy): {accuracy_score(y_test, y_pred):.2f}")


✅ Model eğitimi tamamlandı!

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      7759

    accuracy                           1.00      7759
   macro avg       1.00      1.00      1.00      7759
weighted avg       1.00      1.00      1.00      7759

🔹 Doğruluk (accuracy): 1.00


In [None]:
sample_texts = [
    "Bugün hava oldukça güzeldi, kahvemi alıp sahilde yürüyüş yaptım.",  # insan
    ""  # yapay
]

sample_features = vectorizer.transform(sample_texts)
predictions = model.predict(sample_features)

for text, pred in zip(sample_texts, predictions):
    etiket = "🧍‍♂️ İnsan" if pred == 0 else "🤖 Yapay Zekâ"
    print(f"\n{text}\n→ Tahmin: {etiket}")



Bugün hava oldukça güzeldi, kahvemi alıp sahilde yürüyüş yaptım.
→ Tahmin: 🧍‍♂️ İnsan

 
→ Tahmin: 🧍‍♂️ İnsan
