###**Apa itu Crawling?**

Proses crawling adalah penggunaan program komputer untuk secara otomatis menjelajahi dan mengumpulkan data dari berbagai halaman web di internet. Proses ini dilakukan oleh bot yang disebut web crawlers atau spiders, yang akan menelusuri situs web, mengakses halaman-halaman, dan mengunduh atau mengekstraksi informasi yang dibutuhkan sebelum disimpan atau diindeks dalam database.

###**Berikut adalah beberapa fungsi dari crawling:**

1. **Data Collection**: Crawling digunakan untuk mengumpulkan data dari berbagai sumber, seperti situs web, forum, dan lain-lain. Data yang dikumpulkan dapat berupa teks, gambar, video, dan lain-lain.
2. **Indexing**: Crawling digunakan untuk membuat indeks dari data yang dikumpulkan. Indeks ini dapat digunakan untuk mencari data yang relevan dengan kata kunci atau query.
3. **Search Engine Optimization (SEO)**: Crawling digunakan oleh search engine untuk mengindeks situs web dan membuat daftar hasil pencarian yang relevan.
4. **Market Research**: Crawling digunakan untuk mengumpulkan data tentang produk, harga, dan lain-lain dari berbagai sumber, seperti e-commerce, forum, dan lain-lain.
5. **Competitor Analysis**: Crawling digunakan untuk mengumpulkan data tentang kompetitor, seperti produk, harga, dan lain-lain, untuk analisis dan strategi bisnis.
6. **Data Mining**: Crawling digunakan untuk mengumpulkan data yang besar dan kompleks, seperti data transaksi, data pengguna, dan lain-lain, untuk analisis dan penelitian.
7. **Web Scraping**: Crawling digunakan untuk mengumpulkan data dari situs web yang tidak memiliki API atau tidak memungkinkan akses langsung ke data.
8. **Social Media Monitoring**: Crawling digunakan untuk mengumpulkan data dari berbagai platform sosial media, seperti Twitter, Facebook, dan lain-lain, untuk analisis dan monitoring.
9. **Email Harvesting**: Crawling digunakan untuk mengumpulkan alamat email dari berbagai sumber, seperti situs web, forum, dan lain-lain.
10. **Web Archiving**: Crawling digunakan untuk mengumpulkan data dari situs web yang tidak lagi aktif atau tidak dapat diakses, untuk tujuan archiving dan preservasi.

Dalam keseluruhan, crawling adalah proses yang sangat berguna untuk mengumpulkan data dari berbagai sumber, dan dapat digunakan untuk berbagai tujuan, seperti analisis, penelitian, dan bisnis.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

In [27]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [28]:
%cd /content/drive/MyDrive/PPW

/content/drive/MyDrive/PPW


In [29]:
# Fungsi untuk mengambil data dari halaman web Detik.com
def get_data(url, kategori):
    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return

    soup = BeautifulSoup(response.content, "html.parser")
    articles = soup.find_all("article", class_="list-content__item")

    for article in articles:
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            return

        try:
            link = article.find("a")["href"]
            article_response = requests.get(link)
            article_response.raise_for_status()
        except (requests.exceptions.RequestException, TypeError) as e:
            print(f"Request for article failed: {e}")
            continue

        article_soup = BeautifulSoup(article_response.content, "html.parser")
        title_element = article_soup.find("h1", class_="detail__title")
        title = title_element.text.strip() if title_element else "Title Not Found"
        date_element = article_soup.find("div", class_="detail__date")
        date = date_element.text.strip() if date_element else "Date Not Found"
        content_element = article_soup.find("div", class_="detail__body-text")
        content = content_element.text.strip() if content_element else "Content Not Found"

        # Menambahkan data ke dalam list
        judul.append(title)
        tanggal.append(date)
        isi.append(content)
        kategori_list.append(kategori)  # Menambahkan kategori ke dalam list

        print(title)
        time.sleep(1)  # Menambahkan jeda waktu 1 detik antara permintaan artikel

# Membuat list url dan kategori yang akan di-crawl
base_urls = ["https://sport.detik.com/indeks"]
categories = ["Olahraga"]

# Inisialisasi list untuk menyimpan data
judul = []
tanggal = []
isi = []
kategori_list = []

# Melakukan iterasi untuk setiap url dan kategori
for base_url, category in zip(base_urls, categories):
    for page in range(1, 4):  # Looping untuk beralih halaman
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            break

        url = f"{base_url}/{page}"
        get_data(url, category)
        time.sleep(2)  # Menambahkan jeda waktu 2 detik antara permintaan halaman

# Membuat dataframe dari list data
df = pd.DataFrame({
    "judul": judul,
    "isi": isi,
    "tanggal": tanggal,
    "kategori": kategori_list
})

# Menyimpan dataframe ke file CSV
df.to_csv("data_berita.csv", index=False)


Soft Tenis PON 2024 Dimulai, Keras Berebut Emas
220 Atlet Anggar Perebutkan Medali PON 2024
NPC: Ada Peran Menpora di Balik Sukses Paralimpiade 2024
Hasil Hong Kong Open 2024: Chico Terdepak di Babak Pertama
Hong Kong Open 2024: Gregoria Melaju ke Babak Kedua
Momen 14 Peraih Medali Paralimpiade dapat Bonus dari Jokowi
Momen Jokowi Serahkan Bonus ke Peraih Medali Paralimpiade
Hong Kong Open 2024: Jonatan Menang Mudah, Tembus Babak 16 Besar
Hong Kong Open 2024: Dejan/Gloria Langsung Tersingkir
Leani Ratri Langsung Bidik Paralimpiade 2028, Ini Targetnya


In [30]:
df=pd.read_csv("data_berita.csv")
df

Unnamed: 0,judul,isi,tanggal,kategori
0,"Soft Tenis PON 2024 Dimulai, Keras Berebut Emas",Banda Aceh - Cabor Soft Tennis PON 2024 dimula...,"Rabu, 11 Sep 2024 23:15 WIB",Olahraga
1,220 Atlet Anggar Perebutkan Medali PON 2024,Jakarta - Cabang olahraga anggar pada Pekan Ol...,"Rabu, 11 Sep 2024 22:15 WIB",Olahraga
2,NPC: Ada Peran Menpora di Balik Sukses Paralim...,Tangerang - National Paralympic Committee (NPC...,"Rabu, 11 Sep 2024 21:15 WIB",Olahraga
3,Hasil Hong Kong Open 2024: Chico Terdepak di B...,Hong Kong - Chico Aura Dwi Wardoyo mesti langs...,"Rabu, 11 Sep 2024 20:11 WIB",Olahraga
4,Hong Kong Open 2024: Gregoria Melaju ke Babak ...,Hong Kong - Gregoria Mariska Tunjung melaju ke...,"Rabu, 11 Sep 2024 19:15 WIB",Olahraga
5,Momen 14 Peraih Medali Paralimpiade dapat Bonu...,Jakarta - Sebanyak 14 peraih medali Paralimpia...,"Rabu, 11 Sep 2024 19:05 WIB",Olahraga
6,Momen Jokowi Serahkan Bonus ke Peraih Medali P...,Presiden Joko Widodo (Jokowi) menyerahkan bonu...,"1,532 Views | Rabu, 11 Sep 2024 18:41 WIB",Olahraga
7,"Hong Kong Open 2024: Jonatan Menang Mudah, Tem...",Hong Kong - Jonatan Christie menjejak babak 16...,"Rabu, 11 Sep 2024 18:51 WIB",Olahraga
8,Hong Kong Open 2024: Dejan/Gloria Langsung Ter...,Hong Kong - Dejan Ferdinansyah/Gloria Emanuell...,"Rabu, 11 Sep 2024 18:39 WIB",Olahraga
9,"Leani Ratri Langsung Bidik Paralimpiade 2028, ...",Jakarta - Atlet Para Badminton Indonesia Leani...,"Rabu, 11 Sep 2024 17:12 WIB",Olahraga
