# 📰 Sahte Haber Analizi - Veri Keşfetme

Bu notebook'ta sahte ve gerçek haber veri setlerini detaylı analiz edeceğiz.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("✅ Kütüphaneler yüklendi!")

✅ Kütüphaneler yüklendi!


In [2]:
# Veri yükleme
fake_news = pd.read_csv('../data/Fake.csv')
real_news = pd.read_csv('../data/True.csv')

print(f"Sahte haberler: {fake_news.shape}")
print(f"Gerçek haberler: {real_news.shape}")

# Etiketleme
fake_news['label'] = 0
real_news['label'] = 1
fake_news['type'] = 'Sahte'
real_news['type'] = 'Gerçek'

# Birleştirme
df = pd.concat([fake_news, real_news], ignore_index=True)
df = df.sample(frac=1, random_state=42).reset_index(drop=True)

print(f"\nBirleştirilmiş veri: {df.shape}")
print(df.head())

Sahte haberler: (23481, 4)
Gerçek haberler: (21417, 4)

Birleştirilmiş veri: (44898, 6)
                                               title  \
0  Ben Stein Calls Out 9th Circuit Court: Committ...   
1  Trump drops Steve Bannon from National Securit...   
2  Puerto Rico expects U.S. to lift Jones Act shi...   
3   OOPS: Trump Just Accidentally Confirmed He Le...   
4  Donald Trump heads for Scotland to reopen a go...   

                                                text       subject  \
0  21st Century Wire says Ben Stein, reputable pr...       US_News   
1  WASHINGTON (Reuters) - U.S. President Donald T...  politicsNews   
2  (Reuters) - Puerto Rico Governor Ricardo Rosse...  politicsNews   
3  On Monday, Donald Trump once again embarrassed...          News   
4  GLASGOW, Scotland (Reuters) - Most U.S. presid...  politicsNews   

                  date  label    type  
0    February 13, 2017      0   Sahte  
1       April 5, 2017       1  Gerçek  
2  September 27, 2017       1  Ger

In [3]:
# Temel istatistikler
print("📊 TEMEL İSTATİSTİKLER")
print("=" * 40)
print(f"Toplam haber: {len(df):,}")
print(f"Sahte haber: {len(df[df['label'] == 0]):,}")
print(f"Gerçek haber: {len(df[df['label'] == 1]):,}")
print(f"Sahte oran: {len(df[df['label'] == 0]) / len(df) * 100:.1f}%")

# Metin uzunlukları
df['title_length'] = df['title'].str.len()
df['text_length'] = df['text'].str.len()
df['word_count'] = df['text'].str.split().str.len()

print("\n📏 Metin uzunlukları hesaplandı")

📊 TEMEL İSTATİSTİKLER
Toplam haber: 44,898
Sahte haber: 23,481
Gerçek haber: 21,417
Sahte oran: 52.3%



📏 Metin uzunlukları hesaplandı
