# Crawling PTA, Berita, dan Link

##  Pengenalan Web Crawling

Crawling adalah proses di mana sebuah program (crawler/spider) menjelajahi halaman web
untuk mengumpulkan informasi. Biasanya crawling digunakan oleh:

- **Mesin pencari** (Google, Bing) untuk mengindeks halaman web.
- **Peneliti/data scientist** untuk mengumpulkan data dari website.
- **Developer** yang ingin otomatisasi pengambilan informasi.

---

##  Proses Crawling

1. **Mulai dari URL awal (seed URL).**
2. **Ambil konten halaman** (HTTP request).
3. **Parsing** isi halaman (HTML, JSON, dll).
4. **Ekstrak informasi penting** (judul, link, teks).
5. **Ikuti link-link baru** untuk mengulang proses.

 Catatan penting:
- Jangan berlebihan crawling ke server, tambahkan *delay*.
- Patuhi aturan `robots.txt` dari website.
- Gunakan untuk tujuan edukasi/riset, bukan komersial ilegal.

---


## Instalasi library

Install library yang akan digunakan dalam melakukan crawling dan library pendukung

In [None]:
!pip install builtwith

Collecting builtwith
  Downloading builtwith-1.3.4.tar.gz (34 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: builtwith
  Building wheel for builtwith (setup.py) ... [?25l[?25hdone
  Created wheel for builtwith: filename=builtwith-1.3.4-py3-none-any.whl size=36077 sha256=55cfddeeec73b54123030962d3e8cb52bb54d5f693a0b52cfbb61b51a507a418
  Stored in directory: /root/.cache/pip/wheels/7f/2d/b2/606e3df914d4aeeab99c4a4e3e9a61673d2293c2e346db00c8
Successfully built builtwith
Installing collected packages: builtwith
Successfully installed builtwith-1.3.4


## Analisis Teknologi Website

Selain melakukan crawling untuk mengambil data, kita juga bisa **menganalisis teknologi**
yang digunakan sebuah website. Salah satu library Python yang berguna untuk ini adalah
`builtwith`.

###  Apa itu BuiltWith?
`builtwith` adalah library Python yang digunakan untuk mendeteksi teknologi di balik
sebuah website, seperti:
- **Web server** (Nginx, Apache, IIS)
- **Framework** (Laravel, Django, Ruby on Rails)
- **CMS** (WordPress, Joomla, Drupal)
- **Library JavaScript** (jQuery, React, Vue.js)
- **Tools Analytics** (Google Analytics, Facebook Pixel)

####  Contoh Penggunaan

In [None]:
import builtwith

res = builtwith.parse('https://pta.trunojoyo.ac.id')
print(res)

{'web-servers': ['Nginx'], 'javascript-frameworks': ['jQuery', 'jQuery UI']}


Website pta.trunojoyo.ac.id menggunakan Nginx sebagai web server.

Website ini juga menggunakan jQuery dan jQuery UI di sisi frontend.

## Crawling link dalam suatu website

kita bisa membuat program untuk mengambil
informasi dari sebuah halaman web. Pada contoh ini, kita menggunakan:

- **requests** → untuk mengirim permintaan HTTP dan mengambil konten halaman.
- **BeautifulSoup** → untuk mem-parsing HTML dan mengekstrak elemen-elemen tertentu.


In [None]:
import requests
from bs4 import BeautifulSoup

def crawl_website(url):
    try:
        response = requests.get(url)
        response.raise_for_status()

        soup = BeautifulSoup(response.content, 'html.parser')

        # Ambil semua judul h1, h2, h3
        headings = soup.find_all(['h1', 'h2', 'h3'])
        for heading in headings:
            print(f"{heading.name}: {heading.get_text()}")

        # Ambil semua link
        links = soup.find_all('a', href=True)
        for link in links:
            print(f"URL: {link['href']} | Teks: {link.get_text()}")

    except requests.exceptions.RequestException as e:
        print(f"Terjadi kesalahan saat mengakses {url}: {e}")

crawl_website("https://pta.trunojoyo.ac.id/")

h2: Daftar Karya Ilmiah
URL: index.html | Teks: 
URL: # | Teks: 14677Journal
URL: https://pta.trunojoyo.ac.id/ | Teks: Beranda
URL: https://pta.trunojoyo.ac.id/c_search/ | Teks: Pencarian
URL: https://pta.trunojoyo.ac.id/c_template/ | Teks: Download
URL: https://library.trunojoyo.ac.id/detil.php?id=23 | Teks: Petunjuk Upload
URL: https://pta.trunojoyo.ac.id/c_contact/ | Teks: Kontak
URL: # | Teks: STRATEGI PENGEMBANGAN MAKANAN DAN MINUMAN KHAS PULAU GILIGENTING GUNA MENDUKUNG PARIWISATA BERKELANJUTAN
URL: https://pta.trunojoyo.ac.id/welcome/detail/170361100003 | Teks: Selengkapnya
URL: # | Teks: PERUMUSAN SANKSI PIDANA BAGI MASYARAKAT SEKITAR HUTAN YANG MELAKUKAN PENCURIAN KAYU MILIK NEGARA DALAM UNDANG-UNDANG NOMOR 18 TAHUN 2013
URL: https://pta.trunojoyo.ac.id/welcome/detail/170111100053 | Teks: Selengkapnya
URL: # | Teks: Peran Teor Motivasi Herzberg Sebagai Mediator Self Efficacy, Lingkungan Kerja Dalam Meningkatkan Prestasi Kerja Pegawai ( Kantor Jasa Penilai Publik Guntur Eki And

**Apa yang Dilakukan Program?**

1. Mengirim request ke website → requests.get(url)

2. Parsing HTML → BeautifulSoup(response.content, 'html.parser')

3. Mengambil judul → semua elemen `<h1>`, `<h2>`,`<h3>`

4. Mengambil semua link → semua elemen `<a>` yang punya atribut href

5. Menampilkan hasil → judul halaman dan daftar link yang ditemukan

Dengan cara ini, kita bisa melihat struktur dasar halaman web dan semua link yang bisa diikuti untuk crawling lebih lanjut.

## Crawling Tugas Akhir dalam PTA Trunojoyo

Pada tahap ini, saya sedang membangun **program crawling** untuk mengambil data dari
**Repositori Tugas Akhir Universitas Trunojoyo Madura (PTA)**.  
Tujuan utama dari program ini adalah untuk **mengumpulkan informasi penting** dari setiap
tugas akhir mahasiswa, seperti:

- Nama **penulis**
- **Judul** tugas akhir
- Nama **pembimbing I** dan **pembimbing II**
- **Abstrak** (Indonesia dan Inggris)
- Nama **program studi**

---

###  Langkah-langkah

1. **Mengirim request ke halaman utama**  
   Saya menggunakan `requests` untuk mengambil halaman utama PTA dan menemukan semua
   link program studi.

2. **Mengumpulkan daftar program studi**  
   Dengan `BeautifulSoup`, saya ekstrak semua link program studi yang mengandung
   `c_search/byprod/`.

3. **Menyiapkan struktur data**  
   Saya membuat dictionary kosong untuk menampung hasil scraping: penulis, judul,
   pembimbing, abstrak, dan prodi.

4. **Melakukan crawling per program studi**  
   - Saya batasi maksimal **100 data per prodi** agar tidak membebani server.
   - Untuk setiap prodi, saya akses daftar tugas akhir per halaman (pagination).

5. **Mengambil detail tugas akhir**  
   Dari setiap halaman detail tugas akhir, saya ambil:
   - Judul (tag `a.title`, `b.title`, `h2.title`)
   - Penulis (span dengan teks *Penulis*)
   - Pembimbing I dan II
   - Abstrak Indonesia dan Inggris

6. **Menyimpan hasil scraping**  
   Semua data yang terkumpul saya simpan dalam bentuk **DataFrame Pandas**, lalu
   diekspor ke file **CSV (`pta_limited_data.csv`)**.

---

## 📊 Output Program

- Di console, program akan menampilkan tabel ringkas:
  - Nomor urut
  - Nama prodi
  - Nama penulis
  - Judul
  - Pembimbing I & II

- Di akhir proses, akan muncul ringkasan:

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import sys

def get_text_or_na(soup, selectors):
    """Mencoba beberapa selektor untuk menemukan teks, mengembalikan 'N/A' jika tidak ditemukan."""
    for selector in selectors:
        element = soup.select_one(selector)
        if element:
            text = element.get_text(strip=True)
            if text and text.strip():
                return text.strip()
    return 'N/A'

def get_data_from_span(soup, text_contains):
    """Mencari span yang berisi teks tertentu dan mengekstrak nama setelah titik dua."""
    span = soup.select_one(f'span:-soup-contains("{text_contains}")')
    if span:
        text = span.get_text(strip=True)
        if ':' in text:
            return text.split(':', 1)[1].strip()
    return 'N/A'

def get_abstract_robust(soup, keywords):
    """
    Mencari tag heading (b) yang teksnya mengandung salah satu dari kata kunci
    dan mengekstrak paragraf berikutnya.
    """
    for tag_b in soup.find_all('b'):
        tag_text = tag_b.get_text(strip=True)
        if any(keyword.lower() in tag_text.lower() for keyword in keywords):
            parent_div = tag_b.find_parent('div')
            if parent_div:
                next_div_sibling = parent_div.find_next_sibling('div')
                if next_div_sibling:
                    p_tag = next_div_sibling.find('p', align="justify")
                    if p_tag:
                        abstract_text = p_tag.get_text(strip=True)
                        if abstract_text:
                            return abstract_text
    return 'N/A'

def get_total_pages(soup):
    """
    Mengekstrak total jumlah halaman dari navigasi paginasi.
    """
    try:
        pagination = soup.select_one('ol.pagination')
        if pagination:
            last_page_li = pagination.select('li')[-1]
            last_page_link = last_page_li.select_one('a')
            if last_page_link and 'href' in last_page_link.attrs:
                url_path = last_page_link['href']
                return int(url_path.split('/')[-1])
    except (IndexError, ValueError, KeyError):
        pass
    return 1

def scrape_pta_limited():
    """
    Scrapes a limited number of titles and abstracts (max 100 per program)
    from the Universitas Trunojoyo Madura's final project repository (PTA).
    """
    base_url = "https://pta.trunojoyo.ac.id/"
    MAX_RECORDS_PER_PRODI = 100

    prodi_data = []
    try:
        r = requests.get(base_url)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        prodi_links = soup.find_all('a', href=lambda href: href and 'c_search/byprod/' in href)

        for link in prodi_links:
            prodi_name = link.get_text(strip=True)
            prodi_url = link['href']
            prodi_data.append({'name': prodi_name, 'url': prodi_url})

    except requests.exceptions.RequestException as e:
        print(f"Error fetching the main page: {e}", file=sys.stderr)
        return pd.DataFrame()

    all_scraped_data = {
        "penulis": [], "judul": [], "pembimbing_pertama": [], "pembimbing_kedua": [],
        "abstrak_indonesia": [], "abstrak_inggris": [], "prodi": []
    }

    total_data_count = 0

    # Print table header for live console output
    print("=" * 150)
    print(f"{'No.':<4} | {'Prodi':<20} | {'Penulis':<25} | {'Judul':<60} | {'Pembimbing I':<25} | {'Pembimbing II':<25}")
    print("=" * 150)

    for prodi in prodi_data:
        print(f"\nScraping data for program: {prodi['name']}")
        print("-" * 150)

        scraped_count = 0
        page = 1

        while scraped_count < MAX_RECORDS_PER_PRODI:
            url = f"{prodi['url']}/{page}"

            try:
                r = requests.get(url)
                r.raise_for_status()
                soup = BeautifulSoup(r.content, "html.parser")
                jurnals = soup.select('li[data-cat="#luxury"]')

                if not jurnals:
                    print(f"No more journals found on page {page}. Stopping for this program.")
                    break

                for jurnal in jurnals:
                    if scraped_count >= MAX_RECORDS_PER_PRODI:
                        break

                    jurnal_url = jurnal.select_one('a.gray.button')['href']

                    try:
                        response = requests.get(jurnal_url)
                        response.raise_for_status()
                        soup1 = BeautifulSoup(response.content, "html.parser")
                        isi = soup1.select_one('div#content_journal')

                        if isi:
                            judul = get_text_or_na(isi, ['a.title', 'b.title', 'h2.title'])
                            penulis = get_data_from_span(isi, "Penulis")
                            pembimbing_pertama = get_data_from_span(isi, "Dosen Pembimbing I")
                            pembimbing_kedua = get_data_from_span(isi, "Dosen Pembimbing II")
                            abstrak_indonesia = get_abstract_robust(isi, ["Abstraksi", "Abstrak"])
                            abstrak_inggris = get_abstract_robust(isi, ["Abstraction", "Abstract", "ABSTRACT"])

                            all_scraped_data["penulis"].append(penulis)
                            all_scraped_data["judul"].append(judul)
                            all_scraped_data["pembimbing_pertama"].append(pembimbing_pertama)
                            all_scraped_data["pembimbing_kedua"].append(pembimbing_kedua)
                            all_scraped_data["abstrak_indonesia"].append(abstrak_indonesia)
                            all_scraped_data["abstrak_inggris"].append(abstrak_inggris)
                            all_scraped_data["prodi"].append(prodi['name'])

                            total_data_count += 1
                            scraped_count += 1

                            # Print data to console in a formatted table row
                            print(f"{total_data_count:<4} | {prodi['name'][:20]:<20} | {penulis[:25]:<25} | {judul[:60]:<60} | {pembimbing_pertama[:25]:<25} | {pembimbing_kedua[:25]:<25}")

                    except Exception as e:
                        print(f"ERROR: An error occurred while processing URL: {jurnal_url} - {e}", file=sys.stderr)

                time.sleep(1) # Added delay to avoid overloading the server
                page += 1

            except requests.exceptions.RequestException as e:
                print(f"Error fetching URL {url}: {e}", file=sys.stderr)
                break

    df = pd.DataFrame(all_scraped_data)
    df.to_csv("pta_limited_data.csv", index=False)
    print("\n---")
    print(f"Scraping finished. Total data scraped: {total_data_count}")
    print("Data saved to pta_limited_data.csv")
    print("---")
    return df

# Run the full scraping process
scrape_pta_limited()

No.  | Prodi                | Penulis                   | Judul                                                        | Pembimbing I              | Pembimbing II            

Scraping data for program: Ilmu Hukum
------------------------------------------------------------------------------------------------------------------------------------------------------
1    | Ilmu Hukum           | Dyah Ayu Citra Seza       | Implementasi Fungsi Legislasi Dewan Perwakilan Rakyat Daerah | Yudi Widagdo Harimurti, S | Safi', SH., MH           
2    | Ilmu Hukum           | Maulina Nurlaily          | Pertanggungjawaban Pidana Direksi BUMN (Persero)
(Anotasi P | Tolib Effendi, SH., MH.   | Dr. Eni Suastuti, SH., Mh
3    | Ilmu Hukum           | Moh. Samsul Hidayat       | Analisis Terhadap Kekosongan Hukum dalam Pengawasan Peredara | Tolib Effendi, SH., MH.   | Agus Ramdlany, SH., MH.  
4    | Ilmu Hukum           | TOMMY ADITYA PARLINDUNGAN | PERLINDUNGAN HUKUM BAGI KONSUMEN ATAS PRODUK ELEKTRON

Unnamed: 0,penulis,judul,pembimbing_pertama,pembimbing_kedua,abstrak_indonesia,abstrak_inggris,prodi
0,Dyah Ayu Citra Seza,Implementasi Fungsi Legislasi Dewan Perwakilan...,"Yudi Widagdo Harimurti, SH., MH","Safi', SH., MH",ABSTRAK\r\n\r\n Implementasi Fungsi Legi...,ABSTRACT\r\n Implementation of Legislati...,Ilmu Hukum
1,Maulina Nurlaily,Pertanggungjawaban Pidana Direksi BUMN (Perser...,"Tolib Effendi, SH., MH.","Dr. Eni Suastuti, SH., Mhum.",Badan Usaha Milik Negara (BUMN) adalah Badan u...,State Owned Enterprises (SOEs) are business en...,Ilmu Hukum
2,Moh. Samsul Hidayat,Analisis Terhadap Kekosongan Hukum dalam Penga...,"Tolib Effendi, SH., MH.","Agus Ramdlany, SH., MH.",Kasus narkoba tidak henti-hentinya terdengar d...,"Drug cases endlessly heard on television, radi...",Ilmu Hukum
3,TOMMY ADITYA PARLINDUNGAN MARBUN,PERLINDUNGAN HUKUM BAGI KONSUMEN ATAS PRODUK E...,"DR. DJULAEKA, S.H., M.HUM","DR.USWATUN HASANAH, S.H., M. HUM",Produk elektronik adalah suatu benda bergerak ...,Electronic products is an object moves through...,Ilmu Hukum
4,RICA YENA IMADHORA,TELAAH KRITIS TENTANG ALASAN HUKUM YANG DIGUN...,"Dr. DENI SBY, S. H., M. S.","SAIFUL ABDULLAH, S. H., M. H.",,,Ilmu Hukum
...,...,...,...,...,...,...,...
2929,Tia Nasuha,Perbandingan Sikap Tanggung Jawab Antara Anakk...,"Siti Fadjryana Fitroh, S.Psi., M.A.","Muhammad Busyro Karim, S.Ag., M.Si.",Abstrak: Perbandingan Sikap Tanggung Jawab Ant...,Abstract: Comparison of Attitudes Responsibili...,Pgpaud
2930,Qurrota A'yun,Pengaruh Metode Bermain Peran Terhadap Empati ...,"Siti Fadryana Fitroh, S.Psi., M.A","Yulias Wulani Fajar, S.Pd., M.Pd",Qurrota A’yun. 2018. Pengaruh Metode Bermain P...,Qurrota A’yun. 2018. The Influence of Role Pla...,Pgpaud
2931,Nadiya Seftiana Ambarsari,Pengaruh Kegiatan Membatik Jumputan Terhadap K...,"Titin Faridatun Nisa', S.Pd., M.Pd","Yulias Wulani Fajar, S.Pd., M.Pd",Nadiya Seftiana Ambarsari. 2018. Pengaruh Kegi...,Nadiya Seftiana Ambarsari. 2018. The influence...,Pgpaud
2932,Faridatul Bahiyah,Pengaruh Media Kartu Bergambar Terhadap Kemamp...,"Siti Fadryana Fitroh, S.Psi., M.A","Yulias Wulani Fajar, S.Pd., M.Pd",Faridatul Bahiyah. 2018. Pengaruh Kartu gambar...,Faridatul Bahiyah. 2018. The Influence of Flas...,Pgpaud


Dengan progress ini, saya berhasil membuat crawler yang:
- Dapat **mengunjungi setiap program studi** di PTA Trunojoyo.
- **Mengambil metadata tugas akhir** secara otomatis.
- **Menyimpan hasilnya ke CSV** sehingga bisa digunakan untuk analisis lebih lanjut.


## Crawling Data dalam Website Berita

Pada tahap ini, saya membangun program **web crawling** untuk mengambil data berita
dari **Tempo.co** melalui **RSS Feed**.  
Tujuannya adalah untuk **mengumpulkan berita terbaru** dari berbagai kategori, lalu
menyimpannya dalam bentuk file CSV agar bisa dianalisis lebih lanjut.

---

###  Langkah-langkah

1. **Menentukan kategori berita**  
   Saya pilih beberapa kategori dari Tempo RSS, yaitu:
   - nasional
   - bisnis
   - tekno
   - bola
   - metro
   - dunia

2. **Mengambil data RSS per kategori**  
   - Saya bentuk URL seperti `https://rss.tempo.co/nasional`, `https://rss.tempo.co/bisnis`, dan seterusnya.
   - Untuk setiap kategori, saya ambil maksimal **20 berita** agar tidak terlalu berat.

3. **Parsing RSS Feed**  
   Dengan **BeautifulSoup (parser XML)**, saya ambil elemen `<item>` yang berisi:
   - Judul berita
   - Link berita

4. **Mengambil isi berita**  
   - Saya kunjungi halaman berita dari link RSS.
   - Saya ekstrak isi berita dari `<div id="content-wrapper">`.
   - Saya bersihkan tag HTML yang tidak perlu (`<script>`, `<style>`, `<aside>`, `<figure>`).
   - Saya gabungkan semua paragraf `<p>` menjadi teks lengkap.
   - Saya hilangkan bagian "Baca juga..." agar hasil lebih bersih.

5. **Membuat ringkasan isi**  
   Untuk ditampilkan di console, isi berita saya potong menjadi **200 karakter pertama**
   agar lebih ringkas.

6. **Menyimpan hasil ke CSV**  
   Semua hasil saya simpan dalam file `berita_tempo.csv` dengan kolom:
   - No
   - ID Berita
   - Judul
   - Kategori
   - Isi berita (ringkas)

7. **Menampilkan hasil di console**  
   Saya gunakan library `tabulate` agar hasilnya rapi dalam bentuk tabel.

---

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import re
from tabulate import tabulate  # untuk tabel rapi di console

# Daftar kategori yang akan diambil
kategori_list = ["nasional", "bisnis", "tekno", "bola", "metro", "dunia"]
base_rss = "https://rss.tempo.co"

# List untuk menyimpan hasil
results = []

# Loop untuk setiap kategori
for kategori in kategori_list:
    rss_url = f"{base_rss}/{kategori}"
    print(f"Mengambil RSS dari: {rss_url}")
    resp = requests.get(rss_url, headers={"User-Agent": "Mozilla/5.0"})

    if resp.status_code != 200:
        print(f"Gagal mengambil RSS dari kategori: {kategori}")
        continue

    soup = BeautifulSoup(resp.content, "xml")
    items = soup.find_all("item")

    for item in items[:20]:  # Maksimal 20 berita per kategori
        link = item.find("link").text
        judul = item.find("title").text.strip()

        try:
            berita_id = link.split("/")[-1].split("-")[0]
        except:
            berita_id = None

        # Ambil isi berita
        try:
            r = requests.get(link, headers={"User-Agent": "Mozilla/5.0"})
            if r.status_code != 200:
                print(f"Gagal membuka link: {link}")
                continue

            s = BeautifulSoup(r.text, "html.parser")

            isi_tag = s.find("div", id="content-wrapper")
            if isi_tag:
                for tag in isi_tag(["script", "style", "aside", "figure"]):
                    tag.decompose()

                isi_paragraf = isi_tag.find_all("p")
                isi = " ".join(p.get_text(" ", strip=True) for p in isi_paragraf)
                isi = re.sub(r"Baca juga.*?(?=[A-Z])", "", isi)

            else:
                isi = None

        except Exception as e:
            print(f"Error saat mengambil isi dari {link}: {e}")
            isi = None

        isi_ringkas = (isi[:200] + "...") if isi else "-"

        results.append([len(results)+1, berita_id, judul, kategori, isi_ringkas])
        time.sleep(1)  # Delay untuk mencegah banned

df = pd.DataFrame(results, columns=["No", "ID Berita", "Judul", "Kategori", "Isi"])

df.to_csv("berita_tempo.csv", index=False, encoding="utf-8-sig")

print(tabulate(df, headers="keys", tablefmt="grid", showindex=False))


Mengambil RSS dari: https://rss.tempo.co/nasional
Mengambil RSS dari: https://rss.tempo.co/bisnis
Mengambil RSS dari: https://rss.tempo.co/tekno
Mengambil RSS dari: https://rss.tempo.co/bola
Mengambil RSS dari: https://rss.tempo.co/metro
Mengambil RSS dari: https://rss.tempo.co/dunia
+------+------------------+-----------------------------------------------------------------------------------------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|   No | ID Berita        | Judul                                                                                         | Kategori   | Isi                                                                                                                                                                                                         |
|    1 | wamensos         | W

Dengan crawler ini, saya bisa:
- **Mengambil berita terbaru** dari berbagai kategori Tempo secara otomatis.
- **Menyimpan hasilnya ke CSV** untuk kebutuhan analisis.
- **Menampilkan ringkasan berita di console** dalam bentuk tabel yang rapi.
