In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

def ptaa_updated():
    # Inisialisasi dictionary dengan menambahkan kunci baru "abstrak_inggris"
    data = {
        "penulis": [],
        "judul": [],
        "pembimbing_pertama": [],
        "pembimbing_kedua": [],
        "abstrak": [],
        "abstrak_inggris": []  # Kolom baru untuk abstrak Bahasa Inggris
    }

    # Looping tetap sama
    for i in range(1, 4):
        url = f"https://pta.trunojoyo.ac.id/c_search/byprod/10/{i}"
        try:
            r = requests.get(url)
            r.raise_for_status()  # Memeriksa jika ada error pada request
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals = soup.select('li[data-cat="#luxury"]')

            for jurnal in jurnals:
                jurnal_url = jurnal.select_one('a.gray.button')['href']
                response = requests.get(jurnal_url)
                response.raise_for_status()
                soup1 = BeautifulSoup(response.content, "html.parser")

                isi = soup1.select_one('div#content_journal')

                if not isi:
                    continue

                # Mengambil data yang sudah ada
                judul = isi.select_one('a.title').text.strip()
                penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
                pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
                pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()

                # --- MODIFIKASI UNTUK ABSTRAK ---
                # Memilih semua paragraf dengan 'align="justify"'
                abstract_paragraphs = isi.select('p[align="justify"]')

                # Paragraf pertama adalah abstrak Bahasa Indonesia
                abstrak_indonesia = abstract_paragraphs[0].text.strip() if len(abstract_paragraphs) > 0 else "Tidak ada abstrak"

                # Paragraf kedua adalah abstrak Bahasa Inggris
                abstrak_inggris = abstract_paragraphs[1].text.strip() if len(abstract_paragraphs) > 1 else "No abstract available"
                # --- AKHIR DARI MODIFIKASI ---

                # Menambahkan semua data ke dictionary
                data["penulis"].append(penulis)
                data["judul"].append(judul)
                data["pembimbing_pertama"].append(pembimbing_pertama)
                data["pembimbing_kedua"].append(pembimbing_kedua)
                data["abstrak"].append(abstrak_indonesia)
                data["abstrak_inggris"].append(abstrak_inggris) # Menambahkan data baru

        except requests.exceptions.RequestException as e:
            print(f"Terjadi error: {e}")
            continue

    df = pd.DataFrame(data)
    df.to_csv("pta_updated.csv", index=False)

    return df

# Untuk menjalankan fungsi
updated_dataframe = ptaa_updated()
print(updated_dataframe.head())

Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/1


Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/2


Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/3
Empty DataFrame
Columns: [penulis, judul, pembimbing_pertama, pembimbing_kedua, abstrak, abstrak_inggris]
Index: []


In [2]:
ptaa_updated()

Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/1


Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/2


Terjadi error: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byprod/10/3


Unnamed: 0,penulis,judul,pembimbing_pertama,pembimbing_kedua,abstrak,abstrak_inggris


In [3]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re

def get_fakultas_prodi_list():
    """
    Fungsi untuk mengambil daftar semua Fakultas dan Prodi di dalamnya.
    (Fungsi ini tidak berubah dari sebelumnya)
    """
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav:
            print("Sidebar navigasi tidak ditemukan.")
            return []

        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue

            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar fakultas dan prodi: {e}")
        
    return prodi_list

def scrape_all():
    """
    Fungsi utama untuk scraping data, dimodifikasi untuk mengambil
    maksimal 4 data per prodi.
    """
    daftar_prodi_lengkap = get_fakultas_prodi_list()
    if not daftar_prodi_lengkap:
        print("Tidak ada prodi yang bisa di-scrape. Program berhenti.")
        return

    data = {
        "nama_fakultas": [], "id_prodi": [], "nama_prodi": [],
        "penulis": [], "judul": [], "pembimbing_pertama": [],
        "pembimbing_kedua": [], "abstrak": [], "abstrak_inggris": []
    }

    for prodi in daftar_prodi_lengkap:
        prodi_id = prodi["id_prodi"]
        nama_prodi = prodi["nama_prodi"]
        nama_fakultas = prodi["nama_fakultas"]
        page = 1
        
        # --- PERUBAHAN DIMULAI DI SINI ---
        
        # 1. Tambahkan counter untuk menghitung jurnal yang sudah diambil per prodi
        jurnal_diambil_count = 0
        
        # 2. Tambahkan 'flag' untuk menandai jika batas sudah tercapai
        limit_tercapai = False
        
        # --- AKHIR PERUBAHAN ---

        while True:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi_id}/{page}"
            try:
                r = requests.get(url)
                r.raise_for_status()
                soup = BeautifulSoup(r.content, "html.parser")
                jurnals = soup.select('li[data-cat="#luxury"]')

                if not jurnals:
                    break

                for jurnal in jurnals:
                    # --- PERUBAHAN DIMULAI DI SINI ---
                    
                    # 3. Cek apakah counter sudah mencapai 4, jika ya, hentikan loop
                    if jurnal_diambil_count >= 1:
                        limit_tercapai = True # Set flag menjadi True
                        break # Hentikan loop 'for jurnal in jurnals'
                    
                    # --- AKHIR PERUBAHAN ---

                    # Proses scraping detail (tetap sama)
                    jurnal_url = jurnal.select_one('a.gray.button')['href']
                    response = requests.get(jurnal_url)
                    response.raise_for_status()
                    isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
                    if not isi: continue

                    # (Kode untuk mengambil judul, penulis, dll. tidak diubah)
                    judul = isi.select_one('a.title').text.strip()
                    penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
                    pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
                    pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
                    # --- PERUBAHAN PADA EKSTRAKSI ABSTRAK ---
                    abstract_paragraphs = isi.select('p[align="justify"]')
                    
                    # Ambil teks mentah dari abstrak Bahasa Indonesia
                    text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else "Tidak ada abstrak"
                    # 2. BERSIHKAN TEKS MENTAH
                    abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()

                    # Ambil teks mentah dari abstrak Bahasa Inggris
                    text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else "No abstract available"
                    # 2. BERSIHKAN TEKS MENTAH
                    abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()
                    # --- AKHIR PERUBAHAN ---

                    # Menambahkan semua data ke dictionary
                    data["nama_fakultas"].append(nama_fakultas)
                    data["id_prodi"].append(prodi_id)
                    data["nama_prodi"].append(nama_prodi)
                    data["penulis"].append(penulis)
                    data["judul"].append(judul)
                    data["pembimbing_pertama"].append(pembimbing_pertama)
                    data["pembimbing_kedua"].append(pembimbing_kedua)
                    data["abstrak"].append(abstrak_indonesia)
                    data["abstrak_inggris"].append(abstrak_inggris)
                    
                    # --- PERUBAHAN DIMULAI DI SINI ---
                    
                    # 4. Tambah nilai counter setiap kali satu jurnal berhasil diambil
                    jurnal_diambil_count += 1
                    
                    # --- AKHIR PERUBAHAN ---
                
                # --- PERUBAHAN DIMULAI DI SINI ---
                
                # 5. Cek flag, jika True, hentikan juga loop halaman (while)
                if limit_tercapai:
                    break
                    
                # --- AKHIR PERUBAHAN ---
                
                page += 1
                time.sleep(1)

            except requests.exceptions.RequestException as e:
                print(f"Error pada Prodi {nama_prodi} (ID: {prodi_id}) halaman {page}: {e}")
                break
        
        print(f"✔️ Selesai: {nama_fakultas} - {nama_prodi} (ID: {prodi_id}) | Berhasil mengambil {jurnal_diambil_count} jurnal.")

    df = pd.DataFrame(data)
    df.to_csv("pta_4_data_per_prodi.csv", index=False)
    print("\n✅ Proses scraping selesai. Data disimpan ke 'pta_4_data_per_prodi.csv'")
    
    return df

# Untuk menjalankan seluruh proses scraping
# df_final = scrape_all()
# print(df_final)

In [4]:
scrape_all()

Gagal mengambil daftar fakultas dan prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac
Tidak ada prodi yang bisa di-scrape. Program berhenti.


In [5]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
import concurrent.futures

# MAKSIMAL PEKERJA SIMULTAN (BISA DISESUAIKAN)
MAX_WORKERS = 10

def get_fakultas_prodi_list():
    # Fungsi ini tidak berubah, tetap sama seperti sebelumnya
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav: return []
        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue
            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar prodi: {e}")
    return prodi_list

def scrape_jurnal_detail(jurnal_url):
    """
    FUNGSI PEKERJA: Hanya bertugas men-scrape detail SATU jurnal.
    Fungsi inilah yang akan dijalankan oleh setiap thread.
    """
    try:
        response = requests.get(jurnal_url, timeout=15)
        response.raise_for_status()
        isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
        if not isi: return None

        judul = isi.select_one('a.title').text.strip()
        penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
        pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
        pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
        
        abstract_paragraphs = isi.select('p[align="justify"]')
        text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else ""
        abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()
        text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else ""
        abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()

        return {
            "penulis": penulis, "judul": judul, "pembimbing_pertama": pembimbing_pertama,
            "pembimbing_kedua": pembimbing_kedua, "abstrak": abstrak_indonesia,
            "abstrak_inggris": abstrak_inggris
        }
    except requests.exceptions.RequestException:
        return None # Return None jika gagal scrape satu jurnal

def scrape_prodi(prodi):
    """
    FUNGSI MANAJER: Bertugas mencari URL jurnal untuk SATU prodi,
    lalu menyuruh 'pekerja' untuk men-scrape detailnya.
    """
    jurnal_urls = []
    page = 1
    while len(jurnal_urls) < 4:
        try:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi['id_prodi']}/{page}"
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals_on_page = soup.select('li[data-cat="#luxury"] a.gray.button')

            if not jurnals_on_page:
                break # Hentikan jika tidak ada jurnal lagi di halaman

            for a_tag in jurnals_on_page:
                if len(jurnal_urls) < 4:
                    jurnal_urls.append(a_tag['href'])
                else:
                    break
            page += 1
        except requests.exceptions.RequestException:
            break # Hentikan jika ada error jaringan

    if not jurnal_urls:
        return []

    all_jurnal_data = []
    # Jalankan thread pool untuk men-scrape semua URL detail yang sudah terkumpul
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        hasil_scrape = executor.map(scrape_jurnal_detail, jurnal_urls)
        for hasil in hasil_scrape:
            if hasil: # Pastikan hasilnya tidak None
                # Tambahkan info prodi dan fakultas ke hasil scrape
                hasil['id_prodi'] = prodi['id_prodi']
                hasil['nama_prodi'] = prodi['nama_prodi']
                hasil['nama_fakultas'] = prodi['nama_fakultas']
                all_jurnal_data.append(hasil)
    
    print(f"✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Berhasil mengambil {len(all_jurnal_data)} jurnal.")
    return all_jurnal_data


def main():
    """Fungsi utama untuk mengorkestrasi seluruh proses."""
    start_time = time.time()
    
    daftar_prodi = get_fakultas_prodi_list()
    if not daftar_prodi: return

    final_results = []
    # Kita bahkan bisa menjalankan scraping antar prodi secara konkuren!
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        # Jalankan fungsi scrape_prodi untuk setiap item di daftar_prodi
        results_per_prodi = executor.map(scrape_prodi, daftar_prodi)
        for list_jurnal in results_per_prodi:
            final_results.extend(list_jurnal)

    df = pd.DataFrame(final_results)
    # Atur urutan kolom agar lebih rapi
    if not df.empty:
        df = df[['nama_fakultas', 'id_prodi', 'nama_prodi', 'judul', 'penulis', 'pembimbing_pertama', 'pembimbing_kedua', 'abstrak', 'abstrak_inggris']]
    
    df.to_csv("pta_final_concurrent.csv", index=False)
    
    end_time = time.time()
    print("\n✅ Proses scraping selesai.")
    print(f"Total data yang berhasil diambil: {len(df)} jurnal.")
    print(f"Total waktu eksekusi: {end_time - start_time:.2f} detik.")

if __name__ == "__main__":
    main()

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac


In [6]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
import concurrent.futures

# MAKSIMAL PEKERJA SIMULTAN (BISA DISESUAIKAN)
MAX_WORKERS = 10

def get_fakultas_prodi_list():
    # Fungsi ini tidak berubah, tetap sama seperti sebelumnya
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav: return []
        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue
            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar prodi: {e}")
    return prodi_list

def scrape_jurnal_detail(jurnal_url):
    # Fungsi ini tidak berubah
    try:
        response = requests.get(jurnal_url, timeout=15)
        response.raise_for_status()
        isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
        if not isi: return None

        judul = isi.select_one('a.title').text.strip()
        penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
        pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
        pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
        
        abstract_paragraphs = isi.select('p[align="justify"]')
        text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else ""
        abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()
        text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else ""
        abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()

        return {
            "penulis": penulis, "judul": judul, "pembimbing_pertama": pembimbing_pertama,
            "pembimbing_kedua": pembimbing_kedua, "abstrak": abstrak_indonesia,
            "abstrak_inggris": abstrak_inggris
        }
    except requests.exceptions.RequestException:
        return None

def scrape_prodi(prodi):
    # Fungsi ini tidak berubah
    jurnal_urls = []
    page = 1
    while len(jurnal_urls) < 4:
        try:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi['id_prodi']}/{page}"
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals_on_page = soup.select('li[data-cat="#luxury"] a.gray.button')
            if not jurnals_on_page: break
            for a_tag in jurnals_on_page:
                if len(jurnal_urls) < 4:
                    jurnal_urls.append(a_tag['href'])
                else: break
            page += 1
        except requests.exceptions.RequestException:
            break

    if not jurnal_urls: return []

    all_jurnal_data = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        hasil_scrape = executor.map(scrape_jurnal_detail, jurnal_urls)
        for hasil in hasil_scrape:
            if hasil:
                hasil['id_prodi'] = prodi['id_prodi']
                hasil['nama_prodi'] = prodi['nama_prodi']
                hasil['nama_fakultas'] = prodi['nama_fakultas']
                all_jurnal_data.append(hasil)
    
    print(f"✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Berhasil mengambil {len(all_jurnal_data)} jurnal.")
    return all_jurnal_data

def main():
    start_time = time.time()
    
    daftar_prodi = get_fakultas_prodi_list()
    if not daftar_prodi: return pd.DataFrame() # Return DataFrame kosong jika gagal

    final_results = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        results_per_prodi = executor.map(scrape_prodi, daftar_prodi)
        for list_jurnal in results_per_prodi:
            final_results.extend(list_jurnal)

    df = pd.DataFrame(final_results)
    if not df.empty:
        df = df[['nama_fakultas', 'id_prodi', 'nama_prodi', 'judul', 'penulis', 'pembimbing_pertama', 'pembimbing_kedua', 'abstrak', 'abstrak_inggris']]
    
    df.to_csv("pta_final_concurrent.csv", index=False)
    
    end_time = time.time()
    print("\n✅ Proses scraping selesai.")
    print(f"Total data yang berhasil diambil: {len(df)} jurnal.")
    print(f"Total waktu eksekusi: {end_time - start_time:.2f} detik.")
    
    # --- PERUBAHAN DI SINI ---
    # 1. Kembalikan DataFrame yang sudah jadi
    return df

# --- DAN PERUBAHAN DI SINI ---
if __name__ == "__main__":
    # 2. Panggil fungsi dan simpan hasilnya ke variabel
    df_hasil = main()
    
    # 3. Letakkan variabel di baris terakhir untuk menampilkannya di Colab/Jupyter
    df_hasil

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac


In [7]:
main()

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac


In [8]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
import concurrent.futures

# MAKSIMAL PEKERJA SIMULTAN (BISA DISESUAIKAN)
MAX_WORKERS = 10

def get_fakultas_prodi_list():
    # Fungsi ini tidak berubah
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav: return []
        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue
            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar prodi: {e}")
    return prodi_list

def scrape_jurnal_detail(jurnal_url):
    # Fungsi ini tidak berubah
    try:
        response = requests.get(jurnal_url, timeout=15)
        response.raise_for_status()
        isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
        if not isi: return None
        judul = isi.select_one('a.title').text.strip()
        penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
        pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
        pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
        abstract_paragraphs = isi.select('p[align="justify"]')
        text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else ""
        abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()
        text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else ""
        abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()
        return {
            "penulis": penulis, "judul": judul, "pembimbing_pertama": pembimbing_pertama,
            "pembimbing_kedua": pembimbing_kedua, "abstrak": abstrak_indonesia,
            "abstrak_inggris": abstrak_inggris
        }
    except requests.exceptions.RequestException:
        return None

# --- PERUBAHAN UTAMA ADA DI FUNGSI BERIKUT ---
def scrape_prodi(prodi):
    """
    FUNGSI MANAJER: Sekarang akan mengembalikan baris data kosong
    jika tidak ada jurnal yang ditemukan.
    """
    jurnal_urls = []
    page = 1
    while len(jurnal_urls) < 4:
        try:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi['id_prodi']}/{page}"
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals_on_page = soup.select('li[data-cat="#luxury"] a.gray.button')
            if not jurnals_on_page: break
            for a_tag in jurnals_on_page:
                if len(jurnal_urls) < 4:
                    jurnal_urls.append(a_tag['href'])
                else: break
            page += 1
        except requests.exceptions.RequestException:
            break

    # --- BAGIAN YANG DIMODIFIKASI ---
    # Jika setelah mencari, tidak ada URL jurnal yang ditemukan
    if not jurnal_urls:
        print(f"✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Ditemukan 0 jurnal.")
        # Buat satu baris data placeholder
        empty_row = {
            'id_prodi': prodi['id_prodi'],
            'nama_prodi': prodi['nama_prodi'],
            'nama_fakultas': prodi['nama_fakultas'],
            'judul': 'Tidak ada jurnal',
            'penulis': None,
            'pembimbing_pertama': None,
            'pembimbing_kedua': None,
            'abstrak': None,
            'abstrak_inggris': None
        }
        return [empty_row] # Kembalikan sebagai list berisi satu dictionary
    # --- AKHIR MODIFIKASI ---

    # Jika ada URL, proses berjalan seperti biasa
    all_jurnal_data = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        hasil_scrape = executor.map(scrape_jurnal_detail, jurnal_urls)
        for hasil in hasil_scrape:
            if hasil:
                hasil['id_prodi'] = prodi['id_prodi']
                hasil['nama_prodi'] = prodi['nama_prodi']
                hasil['nama_fakultas'] = prodi['nama_fakultas']
                all_jurnal_data.append(hasil)
    
    print(f"✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Berhasil mengambil {len(all_jurnal_data)} jurnal.")
    return all_jurnal_data

def main():
    # Fungsi ini tidak berubah
    start_time = time.time()
    daftar_prodi = get_fakultas_prodi_list()
    if not daftar_prodi: return pd.DataFrame()

    final_results = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        results_per_prodi = executor.map(scrape_prodi, daftar_prodi)
        for list_jurnal in results_per_prodi:
            final_results.extend(list_jurnal)

    df = pd.DataFrame(final_results)
    if not df.empty:
        df = df[['nama_fakultas', 'id_prodi', 'nama_prodi', 'judul', 'penulis', 'pembimbing_pertama', 'pembimbing_kedua', 'abstrak', 'abstrak_inggris']]
    
    df.to_csv("pta_final_concurrent_lengkap.csv", index=False)
    
    end_time = time.time()
    print("\n✅ Proses scraping selesai.")
    print(f"Total baris data yang dihasilkan: {len(df)}.")
    print(f"Total waktu eksekusi: {end_time - start_time:.2f} detik.")
    
    return df

# if __name__ == "__main__":
#     df_hasil = main()
#     df_hasil

In [9]:
main()

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac


In [10]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
import concurrent.futures

# MAKSIMAL PEKERJA SIMULTAN (BISA DISESUAIKAN)
MAX_WORKERS = 10

def get_fakultas_prodi_list():
    # ... (fungsi ini tidak berubah)
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav: return []
        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue
            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar prodi: {e}")
    return prodi_list

def scrape_jurnal_detail(jurnal_url):
    # ... (fungsi ini tidak berubah)
    try:
        response = requests.get(jurnal_url, timeout=15)
        response.raise_for_status()
        isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
        if not isi: return None
        judul = isi.select_one('a.title').text.strip()
        penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
        pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
        pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
        abstract_paragraphs = isi.select('p[align="justify"]')
        text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else ""
        abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()
        text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else ""
        abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()
        return {
            "penulis": penulis, "judul": judul, "pembimbing_pertama": pembimbing_pertama,
            "pembimbing_kedua": pembimbing_kedua, "abstrak": abstrak_indonesia,
            "abstrak_inggris": abstrak_inggris
        }
    except requests.exceptions.RequestException:
        return None

def scrape_prodi(prodi):
    # ... (fungsi ini tidak berubah, kecuali pada bagian print)
    jurnal_urls = []
    page = 1
    while len(jurnal_urls) < 4:
        try:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi['id_prodi']}/{page}"
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals_on_page = soup.select('li[data-cat="#luxury"] a.gray.button')
            if not jurnals_on_page: break
            for a_tag in jurnals_on_page:
                if len(jurnal_urls) < 4:
                    jurnal_urls.append(a_tag['href'])
                else: break
            page += 1
        except requests.exceptions.RequestException:
            break

    if not jurnal_urls:
        # Tambahkan \n di awal print agar lebih rapi
        print(f"\n✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Ditemukan 0 jurnal.")
        return [{
            'id_prodi': prodi['id_prodi'], 'nama_prodi': prodi['nama_prodi'],
            'nama_fakultas': prodi['nama_fakultas'], 'judul': 'Tidak ada jurnal',
            'penulis': None, 'pembimbing_pertama': None, 'pembimbing_kedua': None,
            'abstrak': None, 'abstrak_inggris': None
        }]

    all_jurnal_data = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        hasil_scrape = executor.map(scrape_jurnal_detail, jurnal_urls)
        for hasil in hasil_scrape:
            if hasil:
                hasil['id_prodi'] = prodi['id_prodi']
                hasil['nama_prodi'] = prodi['nama_prodi']
                hasil['nama_fakultas'] = prodi['nama_fakultas']
                all_jurnal_data.append(hasil)
    
    # Tambahkan \n di awal print agar lebih rapi
    print(f"\n✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} | Berhasil mengambil {len(all_jurnal_data)} jurnal.")
    return all_jurnal_data

def main():
    # ... (fungsi ini tidak berubah)
    start_time = time.time()
    daftar_prodi = get_fakultas_prodi_list()
    if not daftar_prodi: return pd.DataFrame()

    final_results = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        results_per_prodi = executor.map(scrape_prodi, daftar_prodi)
        for list_jurnal in results_per_prodi:
            final_results.extend(list_jurnal)

    df = pd.DataFrame(final_results)
    if not df.empty:
        # Mengurutkan DataFrame berdasarkan urutan prodi asli
        original_prodi_order = [p['id_prodi'] for p in daftar_prodi]
        df['id_prodi'] = pd.Categorical(df['id_prodi'], categories=original_prodi_order, ordered=True)
        df = df.sort_values('id_prodi').reset_index(drop=True)
        
        df = df[['nama_fakultas', 'id_prodi', 'nama_prodi', 'judul', 'penulis', 'pembimbing_pertama', 'pembimbing_kedua', 'abstrak', 'abstrak_inggris']]
    
    df.to_csv("pta_final_concurrent_sorted.csv", index=False)
    
    end_time = time.time()
    print("\n\n✅ Proses scraping selesai.") # Tambah baris baru agar rapi
    print(f"Total baris data yang dihasilkan: {len(df)}.")
    print(f"Total waktu eksekusi: {end_time - start_time:.2f} detik.")
    
    return df

# if __name__ == "__main__":
#     df_hasil_cepat = main()
#     df_hasil_cepat

In [11]:
main()

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac


In [12]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
import concurrent.futures

# MAKSIMAL PEKERJA SIMULTAN (BISA DISESUAIKAN)
MAX_WORKERS = 10

def get_fakultas_prodi_list():
    # Fungsi ini tidak berubah
    prodi_list = []
    try:
        url_nav = "https://pta.trunojoyo.ac.id/c_search/byfac"
        r = requests.get(url_nav, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.content, "html.parser")
        sidebar_nav = soup.select_one('div.box.sidebar_nav')
        if not sidebar_nav: return []
        fakultas_items = sidebar_nav.select_one('ul').find_all('li', recursive=False)
        for item_fakultas in fakultas_items:
            anchor_fakultas = item_fakultas.find('a', recursive=False)
            if not anchor_fakultas: continue
            nama_fakultas = anchor_fakultas.get_text(strip=True)
            ul_prodi = item_fakultas.find('ul')
            if not ul_prodi: continue
            for link_prodi in ul_prodi.select('li a'):
                nama_prodi = link_prodi.get_text(strip=True)
                href = link_prodi.get('href')
                prodi_id = href.strip('/').split('/')[-1]
                if prodi_id.isdigit():
                    prodi_list.append({
                        "id_prodi": int(prodi_id),
                        "nama_prodi": nama_prodi,
                        "nama_fakultas": nama_fakultas
                    })
    except requests.exceptions.RequestException as e:
        print(f"Gagal mengambil daftar prodi: {e}")
    return prodi_list

def scrape_jurnal_detail(jurnal_url):
    # Fungsi ini tidak berubah
    try:
        response = requests.get(jurnal_url, timeout=15)
        response.raise_for_status()
        isi = BeautifulSoup(response.content, "html.parser").select_one('div#content_journal')
        if not isi: return None
        judul = isi.select_one('a.title').text.strip()
        penulis = isi.select_one('span:contains("Penulis")').text.split(' : ')[1].strip()
        pembimbing_pertama = isi.select_one('span:contains("Dosen Pembimbing I")').text.split(' : ')[1].strip()
        pembimbing_kedua = isi.select_one('span:contains("Dosen Pembimbing II")').text.split(':')[1].strip()
        abstract_paragraphs = isi.select('p[align="justify"]')
        text_indo_mentah = abstract_paragraphs[0].text if len(abstract_paragraphs) > 0 else ""
        abstrak_indonesia = re.sub(r'\s+', ' ', text_indo_mentah).strip()
        text_inggris_mentah = abstract_paragraphs[1].text if len(abstract_paragraphs) > 1 else ""
        abstrak_inggris = re.sub(r'\s+', ' ', text_inggris_mentah).strip()
        return {
            "penulis": penulis, "judul": judul, "pembimbing_pertama": pembimbing_pertama,
            "pembimbing_kedua": pembimbing_kedua, "abstrak": abstrak_indonesia,
            "abstrak_inggris": abstrak_inggris
        }
    except requests.exceptions.RequestException:
        return None

# --- PERUBAHAN UTAMA ADA DI FUNGSI BERIKUT ---
def scrape_prodi(prodi):
    """
    Fungsi MANAJER: Sekarang mengambil SEMUA jurnal yang tersedia
    dan menampilkan ID prodi di log.
    """
    jurnal_urls = []
    page = 1
    
    # 1. MENGHAPUS BATAS 4 JURNAL
    # Loop akan berjalan terus sampai menemukan halaman kosong
    while True:
        try:
            url = f"https://pta.trunojoyo.ac.id/c_search/byprod/{prodi['id_prodi']}/{page}"
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            soup = BeautifulSoup(r.content, "html.parser")
            jurnals_on_page = soup.select('li[data-cat="#luxury"] a.gray.button')

            # Jika halaman kosong (tidak ada jurnal), hentikan pencarian untuk prodi ini
            if not jurnals_on_page:
                break
            
            # Ambil semua URL di halaman ini
            for a_tag in jurnals_on_page:
                jurnal_urls.append(a_tag['href'])
            
            page += 1
            time.sleep(0.5) # Beri jeda kecil antar halaman
        except requests.exceptions.RequestException:
            break # Hentikan jika ada error jaringan

    # Jika tidak ada URL jurnal yang ditemukan sama sekali
    if not jurnal_urls:
        # 2. MENAMBAHKAN ID PRODI PADA LOG
        print(f"\n✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} (ID: {prodi['id_prodi']}) | Ditemukan 0 jurnal.")
        return [{
            'id_prodi': prodi['id_prodi'], 'nama_prodi': prodi['nama_prodi'],
            'nama_fakultas': prodi['nama_fakultas'], 'judul': 'Tidak ada jurnal',
            'penulis': None, 'pembimbing_pertama': None, 'pembimbing_kedua': None,
            'abstrak': None, 'abstrak_inggris': None
        }]

    # Jika ada URL, proses scrape detail berjalan secara konkuren
    all_jurnal_data = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        hasil_scrape = executor.map(scrape_jurnal_detail, jurnal_urls)
        for hasil in hasil_scrape:
            if hasil:
                hasil['id_prodi'] = prodi['id_prodi']
                hasil['nama_prodi'] = prodi['nama_prodi']
                hasil['nama_fakultas'] = prodi['nama_fakultas']
                all_jurnal_data.append(hasil)
    
    # 2. MENAMBAHKAN ID PRODI PADA LOG
    print(f"\n✔️ Selesai: {prodi['nama_fakultas']} - {prodi['nama_prodi']} (ID: {prodi['id_prodi']}) | Berhasil mengambil {len(all_jurnal_data)} dari {len(jurnal_urls)} jurnal yang ditemukan.")
    return all_jurnal_data

def main():
    # Fungsi ini tidak berubah
    start_time = time.time()
    daftar_prodi = get_fakultas_prodi_list()
    if not daftar_prodi: return pd.DataFrame()

    final_results = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
        results_per_prodi = executor.map(scrape_prodi, daftar_prodi)
        for list_jurnal in results_per_prodi:
            final_results.extend(list_jurnal)

    df = pd.DataFrame(final_results)
    if not df.empty:
        original_prodi_order = [p['id_prodi'] for p in daftar_prodi]
        df['id_prodi'] = pd.Categorical(df['id_prodi'], categories=original_prodi_order, ordered=True)
        df = df.sort_values('id_prodi').reset_index(drop=True)
        df = df[['nama_fakultas', 'id_prodi', 'nama_prodi', 'judul', 'penulis', 'pembimbing_pertama', 'pembimbing_kedua', 'abstrak', 'abstrak_inggris']]
    
    df.to_csv("pta_semua_jurnal_concurrent.csv", index=False)
    
    end_time = time.time()
    print("\n\n✅ Proses scraping selesai.")
    print(f"Total baris data yang dihasilkan: {len(df)}.")
    print(f"Total waktu eksekusi: {end_time - start_time:.2f} detik.")
    
    return df

if __name__ == "__main__":
    df_hasil_semua = main()
    df_hasil_semua

Gagal mengambil daftar prodi: 403 Client Error: Forbidden for url: https://pta.trunojoyo.ac.id/c_search/byfac
