In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL halaman Wikipedia
url = "https://id.wikipedia.org/wiki/Institut_Teknologi_Del"

# Mengirim permintaan GET ke URL
response = requests.get(url)

# Memeriksa apakah permintaan berhasil
if response.status_code == 200:
    print("Berhasil mengakses halaman!")
else:
    print(f"Gagal mengakses halaman. Status code: {response.status_code}")
    exit()

# Parsing HTML dengan BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# **1. Scraping Tabel Infobox**
table = soup.find('table', {'class': 'infobox'})  # Tabel utama
data_tabel = []
if table:
    for row in table.find_all('tr'):
        header = row.find('th')  # Header (jika ada)
        cell = row.find('td')    # Isi data
        if header and cell:
            data_tabel.append([header.text.strip(), cell.text.strip()])
    df_tabel = pd.DataFrame(data_tabel, columns=["Keterangan", "Isi"])
    print("\nTabel Infobox:")
    print(df_tabel)
    df_tabel.to_csv("institut_teknologi_del_infobox.csv", index=False)
else:
    print("Tabel infobox tidak ditemukan.")

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (


Berhasil mengakses halaman!

Tabel Infobox:
                     Keterangan  \
0               Nama sebelumnya   
1                          Moto   
2   Moto dalam bahasa Indonesia   
3                     Didirikan   
4                       Pendiri   
5                 Lembaga induk   
6                         Ketua   
7                        Rektor   
8              Jumlah mahasiswa   
9                        Lokasi   
10                 Nama julukan   
11                    Situs web   

                                                Isi  
0                        Politeknik Informatika Del  
1                       MarTuhan, Marroha, Marbisuk  
2                  Ber-Tuhan, Berhati Nurani, Bijak  
3                        2001; 24 tahun lalu (2001)  
4                            Luhut Binsar Panjaitan  
5                                       Yayasan Del  
6                                 Intan Simanjuntak  
7   Dr. Arnaldo Marulitua Sinaga, S.T., M.InfoTech.  
8             

In [2]:
# **2. Scraping Paragraf Deskripsi**
paragraphs = soup.find_all('p')
deskripsi = []
for para in paragraphs:
    text = para.text.strip()
    if len(text) > 0:  # Hanya ambil paragraf yang memiliki teks
        deskripsi.append(text)

# Menyimpan paragraf deskripsi
df_deskripsi = pd.DataFrame(deskripsi, columns=["Deskripsi"])
print("\nDeskripsi:")
print(df_deskripsi.head())  # Menampilkan 5 paragraf pertama
df_deskripsi.to_csv("institut_teknologi_del_deskripsi.csv", index=False)



Deskripsi:
                                           Deskripsi
0               Logo Institut Teknologi Del (IT Del)
1  Institut Teknologi Del yang disingkat IT Del a...
2                                    Fakultas Vokasi
3  Pendidikan vokasi merupakan jenjang pendidikan...
4  Fakultas Vokasi Institut Teknologi Del Di Inst...


In [3]:
# **3. Scraping Link di Halaman**
links = []
for a in soup.find_all('a', href=True):  # Ambil semua tag <a> dengan atribut href
    link = a['href']
    text = a.text.strip()
    # Filter link yang relevan (tidak termasuk link internal seperti "#", "/wiki/")
    if link.startswith('http') or link.startswith('/wiki'):
        links.append({'Teks': text, 'URL': link})

# Menyimpan link
df_links = pd.DataFrame(links)
print("\nLink yang Ditemukan:")
print(df_links.head())  # Menampilkan 5 link pertama
df_links.to_csv("institut_teknologi_del_links.csv", index=False)


Link yang Ditemukan:
                Teks                                    URL
0      Halaman Utama                    /wiki/Halaman_Utama
1         Daftar isi                    /wiki/Wikipedia:Isi
2  Perubahan terbaru       /wiki/Istimewa:Perubahan_terbaru
3    Artikel pilihan  /wiki/Wikipedia:Artikel_pilihan/Topik
4  Peristiwa terkini         /wiki/Portal:Peristiwa_terkini
