In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import csv
from urllib.parse import urljoin

In [2]:
def scrape_detik(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        # Ambil konten halaman
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Cari elemen yang mengandung judul berita
        title = soup.find('h1', {'class': 'detail__title'})
        if title:
            title = title.get_text(strip=True)
        else:
            title = "Judul tidak ditemukan"
        
        # Cari elemen yang mengandung isi berita
        content_div = soup.find('div', {'class': 'detail__body-text'})
        if content_div:
            paragraphs = content_div.find_all('p')
            content = '\n'.join([p.get_text(strip=True) for p in paragraphs])
        else:
            content = "Konten tidak ditemukan"
        
        return {
            'title': title,
            'content': content,
            'url': url
        }
        
    except Exception as e:
        print(f"Error saat scraping {url}: {str(e)}")
        return None

In [3]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/berita"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_berita.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8043532/geger-penumpang-lion-air-marah-marah-dan-teriak-ada-bom
Memproses: https://news.detik.com/internasional/d-8043515/menteri-israel-pimpin-ibadah-yahudi-di-masjid-al-aqsa-turki-meradang
Memproses: https://news.detik.com/berita/d-8043525/6-fakta-pesawat-latih-jatuh-di-bogor-marsma-fajar-adriyanto-gugur
Memproses: https://news.detik.com/berita/d-8043609/ganjar-ungkap-alasan-hasto-tak-ada-di-susunan-kepengurusan-pdip
Memproses: https://news.detik.com/berita/d-8043543/ulah-wanita-tenteng-tas-hermes-malah-curi-berlian-di-mal
Memproses: https://news.detik.com/berita/d-8044410/lahan-di-cariu-bogor-terbakar-dipicu-warga-bakar-rumput
Memproses: https://news.detik.com/berita/d-8044344/pria-ngamuk-teriak-bom-di-pesawat-lion-air-sempat-dirawat-di-rsj
Memproses: https://news.detik.com/berita/d-8044325/hujan-deras-disertai-angin-kencang-terjang-tangsel
Memproses: https://news.detik.com/berita/d-8044397/polda-jateng-pasok-semen-perbaiki-jembatan-akses-k

In [4]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/jabodetabek"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_jabodetabek.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8044344/pria-ngamuk-teriak-bom-di-pesawat-lion-air-sempat-dirawat-di-rsj
Memproses: https://news.detik.com/berita/d-8044325/hujan-deras-disertai-angin-kencang-terjang-tangsel
Memproses: https://news.detik.com/berita/d-8044275/pramono-perbolehkan-warga-luar-jakarta-daftar-jadi-petugas-damkar-dki
Memproses: https://news.detik.com/berita/d-8044325/hujan-deras-disertai-angin-kencang-terjang-tangsel
Memproses: https://news.detik.com/berita/d-8044275/pramono-perbolehkan-warga-luar-jakarta-daftar-jadi-petugas-damkar-dki
Memproses: https://news.detik.com/berita/d-8044230/eks-ketua-dprd-dki-prasetyo-edi-jabat-ketua-dewas-pam-jaya
Memproses: https://news.detik.com/berita/d-8044218/4-siswa-siram-air-keras-ke-pelajar-smk-di-jakut-jadi-tersangka
Memproses: https://news.detik.com/berita/d-8044210/viral-pemotor-santai-melaju-di-tol-japek-ngaku-gegara-google-maps
Memproses: https://news.detik.com/berita/d-8044202/potret-penumpang-teriak-bom-di-pesawat-lion-ai

In [5]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/internasional"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_internasional.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8043532/geger-penumpang-lion-air-marah-marah-dan-teriak-ada-bom
Memproses: https://news.detik.com/internasional/d-8043515/menteri-israel-pimpin-ibadah-yahudi-di-masjid-al-aqsa-turki-meradang
Memproses: https://news.detik.com/berita/d-8043525/6-fakta-pesawat-latih-jatuh-di-bogor-marsma-fajar-adriyanto-gugur
Memproses: https://news.detik.com/berita/d-8043609/ganjar-ungkap-alasan-hasto-tak-ada-di-susunan-kepengurusan-pdip
Memproses: https://news.detik.com/berita/d-8043543/ulah-wanita-tenteng-tas-hermes-malah-curi-berlian-di-mal
Memproses: https://news.detik.com/internasional/d-8044318/dewan-keamanan-pbb-akan-gelar-sidang-darurat-bahas-sandera-di-gaza
Memproses: https://news.detik.com/internasional/d-8043990/kaget-lihat-sandera-kurus-kering-netanyahu-minta-bantuan-palang-merah
Memproses: https://news.detik.com/internasional/d-8043933/macron-kecam-hamas-soal-sandera-israel-kurus-kering-tak-manusiawi
Memproses: https://news.detik.com/internasional/d

In [6]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/hukum"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_hukum.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8043532/geger-penumpang-lion-air-marah-marah-dan-teriak-ada-bom
Memproses: https://news.detik.com/internasional/d-8043515/menteri-israel-pimpin-ibadah-yahudi-di-masjid-al-aqsa-turki-meradang
Memproses: https://news.detik.com/berita/d-8043525/6-fakta-pesawat-latih-jatuh-di-bogor-marsma-fajar-adriyanto-gugur
Memproses: https://news.detik.com/berita/d-8043609/ganjar-ungkap-alasan-hasto-tak-ada-di-susunan-kepengurusan-pdip
Memproses: https://news.detik.com/berita/d-8043543/ulah-wanita-tenteng-tas-hermes-malah-curi-berlian-di-mal
Memproses: https://news.detik.com/berita/d-8044218/4-siswa-siram-air-keras-ke-pelajar-smk-di-jakut-jadi-tersangka
Memproses: https://news.detik.com/berita/d-8044210/viral-pemotor-santai-melaju-di-tol-japek-ngaku-gegara-google-maps
Memproses: https://news.detik.com/berita/d-8044202/potret-penumpang-teriak-bom-di-pesawat-lion-air-kini-berbaju-tahanan
Memproses: https://news.detik.com/berita/d-8043910/langka-mk-diminta-batalk

In [7]:
# List semua file CSV yang ingin digabungkan
file_paths = [
    'detik_berita.csv', 'detik_jabodetabek.csv', 'detik_internasional.csv', 'detik_hukum.csv'
]

# Membaca dan menggabungkan semua file
all_data = pd.concat((pd.read_csv(file) for file in file_paths), ignore_index=True)

# Menyimpan hasil gabungan ke file baru
all_data.to_csv('detik.csv', index=False, encoding='utf-8-sig')

In [15]:
import pandas as pd
import ollama
from tqdm import tqdm

In [24]:
# Pilih model yang lebih ringan
MODEL_NAME = "phi3"

# Fungsi yang dioptimalkan
def generate_qa_light(text):
    prompt = f"""
    Buat 1 pertanyaan dan jawaban singkat (maks 20 kata) dari teks berikut:
    {text[:1000]}  # Lebih pendek untuk menghemat memori
    Format: Pertanyaan: <pertanyaan>\nJawaban: <jawaban>
    """
    
    try:
        response = ollama.generate(
            model=MODEL_NAME,
            prompt=prompt,
            options={
                "temperature": 0.3,  # Kurangi kreativitas untuk hasil lebih konsisten
                "num_ctx": 1024  # Batasi context window
            }
        )
        return response['response']
    except Exception as e:
        print(f"Error: {e}")
        return None

In [25]:
# Proses CSV dengan optimasi memori
def process_csv(input_path, output_path, sample_size=None):
    df = pd.read_csv(input_path)
    if sample_size:
        df = df.sample(min(sample_size, len(df)))
    
    results = []
    for _, row in tqdm(df.iterrows(), total=len(df)):
        generated = generate_qa_light(str(row['content']))
        if generated:
            try:
                q = generated.split("Pertanyaan: ")[1].split("\n")[0].strip()
                a = generated.split("Jawaban: ")[1].strip() if "Jawaban: " in generated else "-"
                results.append({
                    'content': row.get('content', ''),
                    'question': q,
                    'answer': a
                })
            except:
                continue
    
    pd.DataFrame(results).to_csv(output_path, index=False)

process_csv('detik.csv', 'detik_qa.csv')

100%|██████████| 242/242 [6:14:14<00:00, 92.79s/it]     
