## Tugas Scraping data
Alvin Reihansyah Makarim

2115061083

Big Data 2024

#### Menginstall library

In [None]:
%pip install beautifulsoup4
%pip install requests
%pip install pandas

#### Mengimport library

In [62]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import json

#### Mengambil halaman Kemahasiswaan if.unila.ac.id

In [None]:
url = 'https://if.unila.ac.id/category/kemahasiswaan/'


try:
  response = requests.get(url)
  soup = BeautifulSoup(response.text, 'html.parser')
  articles = soup.findAll('article', class_='type-post')
  print(articles)

except Exception as e:
  print(e)

#### Mengambil data judul artikel

In [64]:
title_columns = []

for e in articles:
  title_element = e.find('h2', class_='entry-title')
  if title_element:
    title_columns.append(title_element.text.strip())

print(title_columns)

['Mahasiswa Teknik Informatika Berhasil Menjadi Finalis Muli Mekhanai Pringsewu', 'Mahasiswa Teknik Informatika Unila Berhasil Lolos Seleksi Beasiswa Bank Indonesia periode tahun 2024', 'Aldo Wijaya Mahasiswa Teknik Informatika Sabet Lulusan Terbaik I Tingkat Universitas', 'Mahasiswa TI Lolos Seleksi Nasional Program Magang Studi Independen Bersertifikat (MSIB) Kemendikbudristek 2024', 'Pelatihan Flutter & Laravel Program Studi Teknik Informatika Unila', 'Arsip Mahasiswa Kompre Ganjil 2023/2024', 'Seminar Komprehensif Fiona Yovita Syafri TI 2019', 'Mahasiswa Teknik Informatika Mengikuti Seminar Internasional The 8th International Conference on Science, Technology, and Interdisciplinary Research (IC-Star)', 'Mahasiswa S1 Teknik Informatika Menjadi Kandidat Fakultas Teknik Pada Pilmapres Universitas Lampung Tahun 2022']


#### Mengambil data datetime artikel

In [65]:
date_columns = []

for e in articles:
  date_element = e.find('time', class_='updated')
  if date_element:
    datetime_value = pd.to_datetime(date_element['datetime']).tz_localize(None)
    date_columns.append(datetime_value)

print(date_columns)

[Timestamp('2024-05-07 13:32:08'), Timestamp('2024-04-18 06:15:23'), Timestamp('2024-03-11 08:36:29'), Timestamp('2024-02-22 21:08:11'), Timestamp('2024-02-29 08:18:40'), Timestamp('2024-02-22 21:33:48'), Timestamp('2023-05-12 13:23:18'), Timestamp('2022-09-28 10:32:09'), Timestamp('2022-06-24 16:27:33')]


#### Mengambil data penulis artikel

In [66]:
author_columns = []

for e in articles:
  author_element = e.find('a', class_='url fn n')
  if author_element:
    author_columns.append(author_element.text.strip())

print(author_columns)

['admin', 'admin', 'admin', 'admin', 'admin', 'Redaksi Informatika', 'Teknik Informatika', 'admin', 'admin']


#### Mengambil data jumlah komentar pada artikel

In [67]:
comment_columns = []

for e in articles:
    comment_element = e.find('span', class_='comments')
    if comment_element:
        comment_text = comment_element.text.strip()
        # Split the string and get the first part (the number)
        comment_number = comment_text.split()[0]
        comment_columns.append(comment_number)

print(comment_columns)

['0', '0', '0', '0', '0', '0', '0', '0', '0']


#### Mengambil data headline artikel

In [68]:
headline_columns = []

for e in articles:
  headline_element = e.find('p')
  if headline_element:
    headline_columns.append(headline_element.getText())
  else :
    headline_columns.append('')


print(headline_columns)

['Mahasiswa Teknik Informatika Unila Annisa Tri Hapsari berhasil menorehkan prestasi sebagai Grand Finalis Pemilihan Muli Mekhanai Pringsewu 2024, kegiatan pemilihan', 'Pimpinan dan civitas akademika PSTI Unila mengucapkan selamat kepada mahasiswa yang sudah lolos kompetisi dan berhak mendapatkan beasiswa Bank Indonesia', '(Unila): Kerja keras, doa, dan sikap tekun, serta berani menerima tantangan merupakan faktor-faktor pembuka jalan menuju keberhasilan. Hal tersebut menjadi', 'Pada semester genap tahun akademik 2023/2024, Sebanyak 47 mahasiswa Teknik Informatika Universitas Lampung mengambil langkah berani dengan bergabung dalam program', 'Pelatihan Flutter & Laravel merupakan pelatihan yang bertujuan untuk melatih mahasiswa mengenai pembuatan sebuah aplikasi menggunakan framework Flutter dan Laravel.', '', 'Pada hari ini Kamis, 11 Mei 2023 telah dilaksanakan seminar komprehensif mahasiswi program studi teknik informatika atas nama Fiona Yovita', '(Unila):\xa0Fakultas Teknik (FT) Uni

#### Menampilkan hasil data scraping menggunakan pandas

In [69]:
table = {'Title': title_columns,
         'Date': date_columns,
         'Author': author_columns,
         'Comment count': comment_columns,
         'Headline': headline_columns}
df = pd.DataFrame(table)
df.style.hide()

Title,Date,Author,Comment count,Headline
Mahasiswa Teknik Informatika Berhasil Menjadi Finalis Muli Mekhanai Pringsewu,2024-05-07 13:32:08,admin,0,"Mahasiswa Teknik Informatika Unila Annisa Tri Hapsari berhasil menorehkan prestasi sebagai Grand Finalis Pemilihan Muli Mekhanai Pringsewu 2024, kegiatan pemilihan"
Mahasiswa Teknik Informatika Unila Berhasil Lolos Seleksi Beasiswa Bank Indonesia periode tahun 2024,2024-04-18 06:15:23,admin,0,Pimpinan dan civitas akademika PSTI Unila mengucapkan selamat kepada mahasiswa yang sudah lolos kompetisi dan berhak mendapatkan beasiswa Bank Indonesia
Aldo Wijaya Mahasiswa Teknik Informatika Sabet Lulusan Terbaik I Tingkat Universitas,2024-03-11 08:36:29,admin,0,"(Unila): Kerja keras, doa, dan sikap tekun, serta berani menerima tantangan merupakan faktor-faktor pembuka jalan menuju keberhasilan. Hal tersebut menjadi"
Mahasiswa TI Lolos Seleksi Nasional Program Magang Studi Independen Bersertifikat (MSIB) Kemendikbudristek 2024,2024-02-22 21:08:11,admin,0,"Pada semester genap tahun akademik 2023/2024, Sebanyak 47 mahasiswa Teknik Informatika Universitas Lampung mengambil langkah berani dengan bergabung dalam program"
Pelatihan Flutter & Laravel Program Studi Teknik Informatika Unila,2024-02-29 08:18:40,admin,0,Pelatihan Flutter & Laravel merupakan pelatihan yang bertujuan untuk melatih mahasiswa mengenai pembuatan sebuah aplikasi menggunakan framework Flutter dan Laravel.
Arsip Mahasiswa Kompre Ganjil 2023/2024,2024-02-22 21:33:48,Redaksi Informatika,0,
Seminar Komprehensif Fiona Yovita Syafri TI 2019,2023-05-12 13:23:18,Teknik Informatika,0,"Pada hari ini Kamis, 11 Mei 2023 telah dilaksanakan seminar komprehensif mahasiswi program studi teknik informatika atas nama Fiona Yovita"
"Mahasiswa Teknik Informatika Mengikuti Seminar Internasional The 8th International Conference on Science, Technology, and Interdisciplinary Research (IC-Star)",2022-09-28 10:32:09,admin,0,"(Unila): Fakultas Teknik (FT) Universitas Lampung (Unila) menyelenggarakan The 8th International Conference on Science, Technology, and Interdisciplinary Research (IC-Star), secara hiybrid, Selasa, 27 September 2022. IC-Star"
Mahasiswa S1 Teknik Informatika Menjadi Kandidat Fakultas Teknik Pada Pilmapres Universitas Lampung Tahun 2022,2022-06-24 16:27:33,admin,0,"Kwinny Intan Filya, mahasiswa S1 Teknik Informatika, didampingi oleh dosen Pembimbing, Dr. Eng. Mardiana, S.T., M.T. dan Kaprodi, Mona Arif"


In [71]:
json_filename = 'result.json'

df.to_json(json_filename, orient='records')

print(f"DataFrame saved as {json_filename}")


DataFrame saved as result.json
