#   Crawling Data Berita

## Data Berita CNN Indonesia

In [2]:
import builtwith

# Analisis teknologi yang digunakan
res = builtwith.parse('https://www.cnnindonesia.com/')
print(res)

{'cdn': ['CloudFlare'], 'databases': ['Firebase'], 'advertising-networks': ['Google AdSense'], 'tag-managers': ['Google Tag Manager'], 'javascript-frameworks': ['jQuery']}


In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

#   Ambil data berita pada index website CnnIndonesia

In [4]:
# URL homepage CNN Indonesia
url = "https://www.cnnindonesia.com/"
headers = {"User-Agent": "Mozilla/5.0"}

# Ambil halaman utama
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

data = []

# Gabungkan semua link dari berbagai selector agar hasil lebih banyak
links = set()
for a in soup.select("article a, .list-berita a, .headline a, .container__list__desc a"):
    href = a.get("href")
    if href and href.startswith("http"):
        links.add(href)

for link in links:
    try:
        # Ambil halaman detail berita
        resp_detail = requests.get(link, headers=headers)
        soup_detail = BeautifulSoup(resp_detail.text, "html.parser")

        # Ambil judul
        judul_tag = soup_detail.find("h1")
        judul = judul_tag.get_text(strip=True) if judul_tag else ""

        # Ambil kategori dari link (path pertama setelah domain)
        kategori = None
        try:
            path = link.replace("https://www.cnnindonesia.com/", "")
            kategori = path.split("/")[0] if path else None
        except Exception:
            kategori = None

        # Ambil isi berita
        paragraf = [p.get_text(strip=True) for p in soup_detail.select("div.detail-text p")]
        isi = " ".join(paragraf)

        if isi:  # hanya simpan kalau ada isi berita
            data.append({
                "judul": judul,
                "kategori": kategori,
                "isi": isi,
                "link": link
            })

        time.sleep(1)  # delay agar tidak dianggap bot

    except Exception as e:
        print(f"Gagal ambil {link}: {e}")

# Simpan ke dataframe Pandas
df = pd.DataFrame(data)

# Simpan ke file CSV
df.to_csv("berita_cnn.csv", index=False, encoding="utf-8-sig")

# Tampilkan hasil di notebook
pd.set_option("display.max_colwidth", 100)  # biar isi tidak kepotong
df

Unnamed: 0,judul,kategori,isi,link
0,Jadwal Siaran Langsung Indonesia vs Denmark di Final Futsal CFA,olahraga,Timnas Futsal Indonesiaakan menghadapi Denmark pada laga final CFA International Tournament 2025...,https://www.cnnindonesia.com/olahraga/20250911081304-142-1272400/jadwal-siaran-langsung-indonesi...
1,Siapa Charlie Kirk Influencer Loyalis Trump yang Tewas Ditembak?,internasional,"Influencer (pemengaruh) Amerika Serikat sekaligus loyalis PresidenDonald Trump,Charlie Kirk, tew...",https://www.cnnindonesia.com/internasional/20250911082830-134-1272411/siapa-charlie-kirk-influen...
2,"VIDEO: Gambaran Dahsyatnya Banjir Bali, Sekarang Mulai Surut",tv,"Kamis dini hari, banjir yang melanda sebagian wilayah di Bali mulai surut. Di Pasar Badung, gena...",https://www.cnnindonesia.com/tv/20250911085242-400-1272415/video-gambaran-dahsyatnya-banjir-bali...
3,Militer Nepal Batasi Aktivitas Pascademo Gulingkan Rezim Pemerintahan,internasional,Militer Nepalmengambil kembali kendali atas Kathmandu setelah aksi demonstrasi besar-besaran yan...,https://www.cnnindonesia.com/internasional/20250911000640-113-1272346/militer-nepal-batasi-aktiv...
4,Bali Tanggap Darurat Bencana Banjir Satu Pekan,nasional,Kepala Badan Nasional Penanggulangan Bencana (BNPB) Letjen TNI Suharyanto mengatakanPemerintah P...,https://www.cnnindonesia.com/nasional/20250819105639-20-1263953/bali-tanggap-darurat-bencana-ban...
5,Pangeran Harry dan Raja Charles Akhirnya Bertemu Lagi,hiburan,Pangeran Harrydan Raja Charles III akhirnya bertemu untuk pertama kalinya setelah lebih dari set...,https://www.cnnindonesia.com/hiburan/20250911082550-234-1272410/pangeran-harry-dan-raja-charles-...
6,Wacana Tarif Parkir Jakarta Bakal Naik Dibantah Gubernur Pramono,otomotif,Narasitarif parkirdi ibu kota bakal naik yang muncul beberapa hari belakangan dibantah Gubernur ...,https://www.cnnindonesia.com/otomotif/20250911082246-579-1272409/wacana-tarif-parkir-jakarta-bak...
7,"Bapeten Temukan Cemaran Radioaktif di Serang, Warga Dites Kesehatan",nasional,"Badan Pengawas Tenaga Nuklir (Bapeten) menemukan sejumlah lokasi yang tercemar zat radioaktif, m...",https://www.cnnindonesia.com/nasional/20250911041832-20-1272359/bapeten-temukan-cemaran-radioakt...
8,KPK Dalami Khalid Basalamah Pilih Haji Khusus Meski Sudah Bayar Furoda,nasional,Komisi Pemberantasan Korupsi (KPK) mendalami keputusan pendakwah sekaligus pemilik agensi perjal...,https://www.cnnindonesia.com/nasional/20250911064844-12-1272383/kpk-dalami-khalid-basalamah-pili...
9,"10 Kota dengan Kuliner Terbaik di Dunia, Ada dari Indonesia Lho!",gaya-hidup,Liburantak sekadar menikmati pemandangan alam. Ada juga orang yang sengaja pergi berlibur untuk ...,https://www.cnnindonesia.com/gaya-hidup/20250910151133-269-1272180/10-kota-dengan-kuliner-terbai...
