In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import csv
from urllib.parse import urljoin

In [2]:
def scrape_detik(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        # Ambil konten halaman
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Cari elemen yang mengandung judul berita
        title = soup.find('h1', {'class': 'detail__title'})
        if title:
            title = title.get_text(strip=True)
        else:
            title = "Judul tidak ditemukan"
        
        # Cari elemen yang mengandung isi berita
        content_div = soup.find('div', {'class': 'detail__body-text'})
        if content_div:
            paragraphs = content_div.find_all('p')
            content = '\n'.join([p.get_text(strip=True) for p in paragraphs])
        else:
            content = "Konten tidak ditemukan"
        
        return {
            'title': title,
            'content': content,
            'url': url
        }
        
    except Exception as e:
        print(f"Error saat scraping {url}: {str(e)}")
        return None

In [3]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/berita"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_berita.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8025436/anggota-dpr-dengar-kabar-amplop-kondangan-bakal-kena-pajak-oleh-pemerintah
Memproses: https://news.detik.com/berita/d-8025609/legislator-tegaskan-rkuhap-tak-kerdilkan-kpk-ott-tetap-bisa-lanjut
Memproses: https://news.detik.com/berita/d-8025571/prabowo-resmi-luncurkan-logo-dan-tema-hut-ke-80-ri
Memproses: https://news.detik.com/internasional/d-8025575/as-keluar-dari-unesco-china-bukan-tindakan-negara-bertanggung-jawab
Memproses: https://news.detik.com/berita/d-8025500/lhkpn-terbaru-prabowo-dirilis-jumlah-harta-rp-2-triliun
Memproses: https://news.detik.com/berita/d-8026072/tawuran-di-matraman-jaktim-tewaskan-1-orang-jatanras-pmj-buru-pelaku
Memproses: https://news.detik.com/berita/d-8026042/terungkap-pabrik-oli-palsu-di-tangerang-hingga-8-pelaku-ditangkap
Memproses: https://news.detik.com/berita/d-8025910/tawuran-kelompok-remaja-di-bekasi-lukai-1-warga-4-pelajar-ditangkap
Memproses: https://news.detik.com/berita/d-8026066/canda-prabowo-

In [4]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/jabodetabek"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_jabodetabek.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8026091/cegah-banjir-sekitar-kali-angke-pemda-kaji-bongkar-bendung-polor-di-tangerang
Memproses: https://news.detik.com/berita/d-8026072/tawuran-di-matraman-jaktim-tewaskan-1-orang-jatanras-pmj-buru-pelaku
Memproses: https://news.detik.com/berita/d-8026042/terungkap-pabrik-oli-palsu-di-tangerang-hingga-8-pelaku-ditangkap
Memproses: https://news.detik.com/berita/d-8026072/tawuran-di-matraman-jaktim-tewaskan-1-orang-jatanras-pmj-buru-pelaku
Memproses: https://news.detik.com/berita/d-8026042/terungkap-pabrik-oli-palsu-di-tangerang-hingga-8-pelaku-ditangkap
Memproses: https://news.detik.com/berita/d-8025910/tawuran-kelompok-remaja-di-bekasi-lukai-1-warga-4-pelajar-ditangkap
Memproses: https://news.detik.com/berita/d-8025903/polisi-selidiki-kasus-kecelakaan-maut-motor-vs-mobil-di-jaksel
Memproses: https://news.detik.com/berita/d-8025891/buron-kasus-pembunuhan-maling-motor-di-jakbar-untuk-beli-sabu
Memproses: https://news.detik.com/berita/d-8025817/

In [5]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/internasional"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_internasional.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8025436/anggota-dpr-dengar-kabar-amplop-kondangan-bakal-kena-pajak-oleh-pemerintah
Memproses: https://news.detik.com/berita/d-8025609/legislator-tegaskan-rkuhap-tak-kerdilkan-kpk-ott-tetap-bisa-lanjut
Memproses: https://news.detik.com/berita/d-8025571/prabowo-resmi-luncurkan-logo-dan-tema-hut-ke-80-ri
Memproses: https://news.detik.com/internasional/d-8025575/as-keluar-dari-unesco-china-bukan-tindakan-negara-bertanggung-jawab
Memproses: https://news.detik.com/berita/d-8025500/lhkpn-terbaru-prabowo-dirilis-jumlah-harta-rp-2-triliun
Memproses: https://news.detik.com/dw/d-8025824/dampak-serangan-situs-nuklir-iran-apakah-segawat-chernobyl
Memproses: https://news.detik.com/dw/d-8025300/peran-pemimpin-druze-al-hijri-di-balik-pertumpahan-darah-di-suriah
Memproses: https://news.detik.com/dw/d-8025121/trump-umumkan-tarif-impor-jepang-jadi-15
Memproses: https://news.detik.com/internasional/d-8025908/tuduhan-serius-trump-ke-obama-soal-pimpin-upaya-kudeta


In [6]:
def main():
    # URL target (bisa diganti dengan URL berita spesifik)
    base_url = "https://news.detik.com/hukum"
    
    # Daftar URL berita yang akan di-scrape (contoh mengambil beberapa berita terbaru)
    news_urls = []
    
    # Ambil daftar berita dari halaman utama
    try:
        response = requests.get(base_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        articles = soup.find_all('article')
        
        for article in articles:
            link = article.find('a')['href']
            full_url = urljoin(base_url, link)
            news_urls.append(full_url)
    except Exception as e:
        print(f"Error mendapatkan daftar berita: {str(e)}")
    
    # Scrape setiap berita
    news_data = []
    for url in news_urls:
        print(f"Memproses: {url}")
        data = scrape_detik(url)
        if data:
            news_data.append(data)
    
    # Simpan ke CSV
    if news_data:
        df = pd.DataFrame(news_data)
        df.to_csv('detik_hukum.csv', index=False, quoting=csv.QUOTE_ALL, encoding='utf-8-sig')
        print("Data berhasil disimpan")
    else:
        print("Tidak ada data yang berhasil di-scrape")

if __name__ == "__main__":
    main()

Memproses: https://news.detik.com/berita/d-8025436/anggota-dpr-dengar-kabar-amplop-kondangan-bakal-kena-pajak-oleh-pemerintah
Memproses: https://news.detik.com/berita/d-8025609/legislator-tegaskan-rkuhap-tak-kerdilkan-kpk-ott-tetap-bisa-lanjut
Memproses: https://news.detik.com/berita/d-8025571/prabowo-resmi-luncurkan-logo-dan-tema-hut-ke-80-ri
Memproses: https://news.detik.com/internasional/d-8025575/as-keluar-dari-unesco-china-bukan-tindakan-negara-bertanggung-jawab
Memproses: https://news.detik.com/berita/d-8025500/lhkpn-terbaru-prabowo-dirilis-jumlah-harta-rp-2-triliun
Memproses: https://news.detik.com/berita/d-8025604/viral-bang-jago-bawa-sangkur-palak-penjual-kopi-gerobak-di-cengkareng
Memproses: https://news.detik.com/berita/d-8025325/pria-di-koja-tendang-kakek-stroke-hingga-tewas-gara-gara-aroma-pesing
Memproses: https://news.detik.com/berita/d-8024943/kronologi-beni-residivis-narkoba-bunuh-kakak-di-jaktim-berawal-transaksi-sabu
Memproses: https://news.detik.com/berita/d-8025325

In [7]:
# List semua file CSV yang ingin digabungkan
file_paths = [
    'detik_berita.csv', 'detik_jabodetabek.csv', 'detik_internasional.csv', 'detik_hukum.csv'
]

# Membaca dan menggabungkan semua file
all_data = pd.concat((pd.read_csv(file) for file in file_paths), ignore_index=True)

# Menyimpan hasil gabungan ke file baru
all_data.to_csv('detik.csv', index=False, encoding='utf-8-sig')

In [1]:
import pandas as pd
import ollama
from tqdm import tqdm

In [2]:
# Pilih model yang lebih ringan
MODEL_NAME = "phi3"

# Fungsi yang dioptimalkan
def generate_qa_light(text):
    prompt = f"""
    Buat 1 pertanyaan dan jawaban singkat (maks 20 kata) dari teks berikut:
    {text[:1000]}  # Lebih pendek untuk menghemat memori
    Format: Pertanyaan: <pertanyaan>\nJawaban: <jawaban>
    """
    
    try:
        response = ollama.generate(
            model=MODEL_NAME,
            prompt=prompt,
            options={
                "temperature": 0.3,  # Kurangi kreativitas untuk hasil lebih konsisten
                "num_ctx": 1024  # Batasi context window
            }
        )
        return response['response']
    except Exception as e:
        print(f"Error: {e}")
        return None

In [3]:
# Proses CSV dengan optimasi memori
def process_csv(input_path, output_path, sample_size=None):
    df = pd.read_csv(input_path)
    if sample_size:
        df = df.sample(min(sample_size, len(df)))
    
    results = []
    for _, row in tqdm(df.iterrows(), total=len(df)):
        generated = generate_qa_light(str(row['content']))
        if generated:
            try:
                q = generated.split("Pertanyaan: ")[1].split("\n")[0].strip()
                a = generated.split("Jawaban: ")[1].strip() if "Jawaban: " in generated else "-"
                results.append({
                    'content': row.get('content', ''),
                    'question': q,
                    'answer': a
                })
            except:
                continue
    
    pd.DataFrame(results).to_csv(output_path, index=False)

process_csv('detik.csv', 'detik_qa.csv', sample_size=50)

100%|██████████| 50/50 [41:30<00:00, 49.81s/it]
