In [10]:
#!/usr/bin/env python3
"""
Automated Web Information Retrieval and Reporting using Selenium and Gemini AI
Bu script Google'da arama yapar, ilk 5 siteyi ziyaret eder ve içeriklerini Gemini ile özetler.
"""

import time
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import google.generativeai as genai
from datetime import datetime
import re

class WebContentRetriever:
    def __init__(self, gemini_api_key):
        self.gemini_api_key = gemini_api_key
        self.setup_gemini()
        self.setup_selenium()

    def setup_gemini(self):
        genai.configure(api_key=self.gemini_api_key)
        self.model = genai.GenerativeModel(model_name="models/gemini-1.5-pro")

    def setup_selenium(self):
        chrome_options = Options()
        # Tarayıcıyı gözlemlemek için gizli mod kapalı
        # chrome_options.add_argument("--headless")
        chrome_options.add_argument("--no-sandbox")
        chrome_options.add_argument("--disable-dev-shm-usage")
        chrome_options.add_argument("--disable-blink-features=AutomationControlled")
        chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
        chrome_options.add_experimental_option('useAutomationExtension', False)
        chrome_options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")

        service = Service(ChromeDriverManager().install())
        self.driver = webdriver.Chrome(service=service, options=chrome_options)
        self.driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

    def google_search(self, keyword, num_results=5):
        print(f"🔍 Google'da '{keyword}' aranıyor...")
        search_url = f"https://www.google.com/search?q={keyword.replace(' ', '+')}"
        self.driver.get(search_url)
        time.sleep(5)

        link_elements = self.driver.find_elements(By.CSS_SELECTOR, "a h3")
        results = []
        for element in link_elements:
            try:
                parent = element.find_element(By.XPATH, "..")
                url = parent.get_attribute("href")
                title = element.text.strip()
                if url and url.startswith("http") and "google.com" not in url:
                    results.append({"title": title, "url": url})
                    print(f"✅ Bulundu: {title[:50]}...")
                if len(results) >= num_results:
                    break
            except:
                continue

        print(f"📊 Toplam {len(results)} sonuç bulundu")
        return results

    def extract_content(self, url, max_chars=5000):
        try:
            print(f"📄 İçerik çıkarılıyor: {url[:50]}...")
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
            soup = BeautifulSoup(response.content, 'html.parser')
            for element in soup(['script', 'style', 'nav', 'header', 'footer', 'aside']):
                element.decompose()
            content = ' '.join(p.get_text(strip=True) for p in soup.find_all(['p', 'div']))
            content = re.sub(r'\s+', ' ', content).strip()
            return content[:max_chars] + "..." if len(content) > max_chars else content
        except Exception as e:
            print(f"❌ İçerik alınamadı: {str(e)}")
            return ""

    def summarize_with_gemini(self, content, title, url):
        try:
            prompt = f"""
            Aşağıdaki web sitesi içeriğini Türkçe olarak özetle:
            Başlık: {title}
            URL: {url}
            İçerik:
            {content}
            """
            print("🤖 Gemini ile özetleniyor...")
            response = self.model.generate_content(
                contents=[{"role": "user", "parts": [{"text": prompt}]}]
            )
            return response.text
        except Exception as e:
            return f"❌ Özetleme hatası: {str(e)}"

    def run_analysis(self, keyword):
        print(f"🚀 '{keyword}' için analiz başlıyor...\n")
        search_results = self.google_search(keyword)
        if not search_results:
            print("❌ Arama sonucu bulunamadı!")
            return

        summaries = []
        for i, result in enumerate(search_results, 1):
            content = self.extract_content(result['url'])
            if len(content) < 100:
                print(f"⚠️ Site {i} - Yetersiz içerik")
                continue
            summary = self.summarize_with_gemini(content, result['title'], result['url'])
            summaries.append(f"{i}. {result['title']}\n{result['url']}\n{summary}\n")
            time.sleep(2)

        print("\n📝 Toplu Özet:")
        for s in summaries:
            print(s)

        self.cleanup()

    def cleanup(self):
        try:
            self.driver.quit()
            print("\n🧹 Tarayıcı kapatıldı")
        except:
            pass

def main():
    print("🤖 Otomatik Web İçerik Analiz Sistemi\n==============================\n")
    gemini_api_key = input("🔑 Gemini API anahtarınızı girin: ").strip()
    if not gemini_api_key:
        print("❌ API anahtarı gerekli!")
        return
    keyword = input("🔍 Arama terimini girin: ").strip()
    if not keyword:
        print("❌ Arama terimi gerekli!")
        return
    retriever = WebContentRetriever(gemini_api_key)
    retriever.run_analysis(keyword)

if __name__ == "__main__":
    main()


🤖 Otomatik Web İçerik Analiz Sistemi



🔑 Gemini API anahtarınızı girin:  AIzaSyBYx1j3anSG48eFHMgAFt3A0CqanSDUW2k
🔍 Arama terimini girin:  software quality assurance


🚀 'software quality assurance' için analiz başlıyor...

🔍 Google'da 'software quality assurance' aranıyor...
✅ Bulundu: Software Quality Assurance – Software Engineering...
✅ Bulundu: ...
✅ Bulundu: ...
✅ Bulundu: ...
✅ Bulundu: ...
📊 Toplam 5 sonuç bulundu
📄 İçerik çıkarılıyor: https://www.geeksforgeeks.org/software-engineering...
🤖 Gemini ile özetleniyor...
📄 İçerik çıkarılıyor: https://en.wikipedia.org/wiki/Software_quality_ass...
🤖 Gemini ile özetleniyor...
📄 İçerik çıkarılıyor: https://www.bmc.com/blogs/quality-assurance-softwa...
🤖 Gemini ile özetleniyor...
📄 İçerik çıkarılıyor: https://www.turing.com/blog/software-quality-assur...
🤖 Gemini ile özetleniyor...
📄 İçerik çıkarılıyor: https://appetiser.com.au/blog/software-quality-ass...
🤖 Gemini ile özetleniyor...

📝 Toplu Özet:
1. Software Quality Assurance – Software Engineering
https://www.geeksforgeeks.org/software-engineering-software-quality-assurance/
❌ Özetleme hatası: 429 You exceeded your current quota, please check your p