![Header.jpeg](attachment:b641b2ba-f6d9-41a9-8b73-6d4d6eb24c49.jpeg)

# Hands-On
---
Hands-On ini digunakan pada kegiatan Kursus Data Science yang merupakan pembekalan bagi mahasiswa Universitas Gunadarma untuk Skema Associate Data Scientist.

### Pertemuan 2 - Semester 3

### Contoh Metode Pengambilan Data Menggunakan API
---

#### Tentang API (Application Programming Interface)

API berperan sebagai lapisan komunikasi atau perantara yang memungkinkan sistem yang berbeda dapat saling berkomunikasi dengan mudah.

API memiliki banyak jenis. Terdapat API sistem operasi, contohnya API untuk menyalakan kamera dan suara pada Zoom call. Terdapat juga web API, yang digunakan untuk melakukan tindakan-tindakan pada web, seperti menyukai sebuah gambar pada Instagram.

Kebanyakan dari API memiliki fungsi yang sama, meskipun dengan bentuk yang berebeda. Anda perlu melakukan request untuk mengambil data dan API akan mengembalikan response dari data yang Anda ingin ambil.


Sebagai contoh, ketika Anda melakukan <i>scrolling</i> pada Instagram, Anda pada dasaranya melakukan request kepada API dan aplikasi akan mengembalikan response berupa gambar yang ditampilkan. Ini bisa juga disebut sebagai memanggil API

#### Memanggil API dengan Python

Saat memanggil API dengan python, umumnya hanya diperlukan satu library yaitu <code>requests</code>. Dengan library tersebut, pemanggilan data menggunakan API sudah dapat dilakukan.

Jalankan kode di bawah ini untuk melakukan instalasi library requests.

In [None]:
!pip install requests



In [None]:
import requests
response = requests.get("https://dogapi.dog/api/v2/breeds")
print(response)

<Response [200]>


Pada contoh di atas, Anda melakukan import library requests dan melakukan pengambilan data atau mengirimkan request ke Dog API.

Pada hasil di atas, Anda tidak melihat data apapun yang dikembalikan oleh API. Namun, hasil yang didapatkan adalah <Response [200]>.


Response 200 adalah kode status HTTP yang berarti permintaan berhasil. Ini adalah tanda bahwa server telah menerima dan memproses permintaan dari klien (seperti browser web) dengan sukses.

In [None]:
response.text

'{"data":[{"id":"68f47c5a-5115-47cd-9849-e45d3c378f12","type":"breed","attributes":{"name":"Caucasian Shepherd Dog","description":"The Caucasian Shepherd Dog is a large and powerful breed of dog from the Caucasus Mountains region. These dogs are large in size, with a thick double coat to protect them from the cold. They have a regal bearing, with a proud and confident demeanor. They are highly intelligent and loyal, making them excellent guard dogs. They are courageous and alert, with an instinct to protect their family and property. They are highly trainable, but require firm and consistent training.","life":{"max":20,"min":15},"male_weight":{"max":90,"min":50},"female_weight":{"max":70,"min":45},"hypoallergenic":false},"relationships":{"group":{"data":{"id":"8000793f-a1ae-4ec4-8d55-ef83f1f644e5","type":"group"}}}},{"id":"4ddbe251-72af-495e-8e9d-869217e1d92a","type":"breed","attributes":{"name":"Bouvier des Flandres","description":"The Bouvier des Flandres is a large and powerful bree

Dapat dilihat bahwa API dari Dog API mengembalikan response berupa informasi dari ras anjing seperti nama, deskripsi, dan informasi-informasi lainnya. Response tersebut berupa data JSON.

#### Membaca hasil response API dengan library JSON & Pandas

In [None]:
import json
import pandas as pd

- **import json**

Mengimpor pustaka json dari Python, yang digunakan untuk memanipulasi data dalam format JSON (JavaScript Object Notation). Pustaka ini dapat digunakan untuk membaca (mengurai) dan menulis (memformat) data JSON, yang sering digunakan dalam komunikasi data dan konfigurasi aplikasi.

- **import pandas as pd**

Mengimpor pustaka pandas dengan alias pd. pandas adalah pustaka Python yang sangat populer untuk analisis data dan manipulasi data. Pustaka ini menyediakan struktur data dan fungsi yang efisien untuk bekerja dengan data tabular, seperti DataFrame, yang sangat berguna untuk pengolahan dan analisis data dalam format tabel.

In [None]:
results = response.text

In [None]:
# Menguraikan (parse) string JSON menjadi objek Python
data = json.loads(results)
data

{'data': [{'id': '68f47c5a-5115-47cd-9849-e45d3c378f12',
   'type': 'breed',
   'attributes': {'name': 'Caucasian Shepherd Dog',
    'description': 'The Caucasian Shepherd Dog is a large and powerful breed of dog from the Caucasus Mountains region. These dogs are large in size, with a thick double coat to protect them from the cold. They have a regal bearing, with a proud and confident demeanor. They are highly intelligent and loyal, making them excellent guard dogs. They are courageous and alert, with an instinct to protect their family and property. They are highly trainable, but require firm and consistent training.',
    'life': {'max': 20, 'min': 15},
    'male_weight': {'max': 90, 'min': 50},
    'female_weight': {'max': 70, 'min': 45},
    'hypoallergenic': False},
   'relationships': {'group': {'data': {'id': '8000793f-a1ae-4ec4-8d55-ef83f1f644e5',
      'type': 'group'}}}},
  {'id': '4ddbe251-72af-495e-8e9d-869217e1d92a',
   'type': 'breed',
   'attributes': {'name': 'Bouvier 

- **json.loads()**: Fungsi ini menguraikan (parse) string JSON menjadi objek Python.

In [None]:
# Mengubah data JSON terstruktur (misalnya, nested dictionaries atau lists) menjadi format tabular yang lebih mudah diolah.
df_api = pd.json_normalize(data['data'])

In [None]:
df_api.head()

Unnamed: 0,id,type,attributes.name,attributes.description,attributes.life.max,attributes.life.min,attributes.male_weight.max,attributes.male_weight.min,attributes.female_weight.max,attributes.female_weight.min,attributes.hypoallergenic,relationships.group.data.id,relationships.group.data.type
0,68f47c5a-5115-47cd-9849-e45d3c378f12,breed,Caucasian Shepherd Dog,The Caucasian Shepherd Dog is a large and powe...,20,15,90,50,70,45,False,8000793f-a1ae-4ec4-8d55-ef83f1f644e5,group
1,4ddbe251-72af-495e-8e9d-869217e1d92a,breed,Bouvier des Flandres,The Bouvier des Flandres is a large and powerf...,14,10,40,30,35,25,False,b8e4e89d-057f-432a-9e58-0b85b29b693c,group
2,f534c847-bed1-4b58-b194-dc06ecfe20f9,breed,Grand Basset Griffon Vendéen,The Grand Basset Griffon Vendéen is a medium-s...,15,12,30,20,30,20,False,be0147df-7755-4228-b132-2518c0c6d10d,group
3,30f62219-e225-42cd-bd07-02425f944c07,breed,Hokkaido,The Hokkaido is a medium-sized breed of dog fr...,15,12,30,20,30,20,False,8000793f-a1ae-4ec4-8d55-ef83f1f644e5,group
4,087979f3-1c45-4d8a-a153-462bf5ea379e,breed,Japanese Terrier,The Japanese Terrier is a small breed of terri...,20,15,4,2,4,2,False,8000793f-a1ae-4ec4-8d55-ef83f1f644e5,group


#### Mengambil Data dengan Metode API dari Open Data Jabar

Anda dapat menuju laman berikut ini:
https://opendata.jabarprov.go.id/id/dataset/jumlah-produksi-sampah-berdasarkan-kabupatenkota-di-jawa-barat

Kemudian klik ke bagian "Unduh Dataset" dan pilih metode API, kemudian Anda akan diarahkan ke laman Swagger milik Open Data Jabar.

![Endpoint.png](attachment:2811ea1e-9210-42a4-b2c5-6589f0d75f47.png)

Swagger adalah alat yang digunakan untuk mendokumentasikan dan menguji API. Dalam cara sederhana, Swagger membantu pengembang untuk melihat, memahami, dan mencoba berbagai endpoint API secara interaktif.

Pada laman Swagger di atas, dapat dilihat bahwa terdapat 2 endpoint yang dapat diakses secara publik. Endpoint tersebut akan dicoba di kode di bawah ini

![Try it Out.png](attachment:14c24331-5fc4-4558-bc82-afc6bceff381.png)

Pada endpoint <code>/od_15044_indeks_pendidikan__prov_di_indonesia_v2</code>, klik tombol Try it out, lalu gulir halaman ke bawah hingga tombol Execute terlihat, seperti yang ditunjukkan pada gambar di bawah ini.

![Execute.png](attachment:dffebe8e-8cb2-4ae0-8405-09c55dcb5eb4.png)

Selanjutnya, tekan tombol Execute, dan tampilan seperti di bawah ini akan muncul:

![Response URL.png](attachment:569a7759-3031-42f7-8d33-80a8776ce726.png)

Pada bagian Request URL, ambil URL tersebut dan salin ke dalam kode di bawah ini.

In [None]:
response = requests.get('https://data.jabarprov.go.id/api-backend/bigdata/bps/od_15044_indeks_pendidikan__prov_di_indonesia_v2')

In [None]:
results = response.text
results

'{"message": "Get data successfull", "error": 0, "data": [{"id": 1, "kode_provinsi": 11, "provinsi": "ACEH", "indeks_pendidikan": 63.42, "satuan": "POIN", "tahun": 2010}, {"id": 2, "kode_provinsi": 12, "provinsi": "SUMATERA UTARA", "indeks_pendidikan": 61.2, "satuan": "POIN", "tahun": 2010}, {"id": 3, "kode_provinsi": 13, "provinsi": "SUMATERA BARAT", "indeks_pendidikan": 61.06, "satuan": "POIN", "tahun": 2010}, {"id": 4, "kode_provinsi": 14, "provinsi": "RIAU", "indeks_pendidikan": 60.18, "satuan": "POIN", "tahun": 2010}, {"id": 5, "kode_provinsi": 15, "provinsi": "JAMBI", "indeks_pendidikan": 55.96, "satuan": "POIN", "tahun": 2010}, {"id": 6, "kode_provinsi": 16, "provinsi": "SUMATERA SELATAN", "indeks_pendidikan": 55.09, "satuan": "POIN", "tahun": 2010}, {"id": 7, "kode_provinsi": 17, "provinsi": "BENGKULU", "indeks_pendidikan": 58.35, "satuan": "POIN", "tahun": 2010}, {"id": 8, "kode_provinsi": 18, "provinsi": "LAMPUNG", "indeks_pendidikan": 54.41, "satuan": "POIN", "tahun": 2010},

In [None]:
# Memuat hasil response ke dalam format JSON
data_json = json.loads(results)
data_json

{'message': 'Get data successfull',
 'error': 0,
 'data': [{'id': 1,
   'kode_provinsi': 11,
   'provinsi': 'ACEH',
   'indeks_pendidikan': 63.42,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 2,
   'kode_provinsi': 12,
   'provinsi': 'SUMATERA UTARA',
   'indeks_pendidikan': 61.2,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 3,
   'kode_provinsi': 13,
   'provinsi': 'SUMATERA BARAT',
   'indeks_pendidikan': 61.06,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 4,
   'kode_provinsi': 14,
   'provinsi': 'RIAU',
   'indeks_pendidikan': 60.18,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 5,
   'kode_provinsi': 15,
   'provinsi': 'JAMBI',
   'indeks_pendidikan': 55.96,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 6,
   'kode_provinsi': 16,
   'provinsi': 'SUMATERA SELATAN',
   'indeks_pendidikan': 55.09,
   'satuan': 'POIN',
   'tahun': 2010},
  {'id': 7,
   'kode_provinsi': 17,
   'provinsi': 'BENGKULU',
   'indeks_pendidikan': 58.35,
   'satuan': 'POIN',
   'tahun': 2010

In [None]:
# Mengambil data hasil response dan mengubahnya ke dalam dataframe
df_api = pd.json_normalize(data_json['data'])

In [None]:
df_api

Unnamed: 0,id,kode_provinsi,provinsi,indeks_pendidikan,satuan,tahun
0,1,11,ACEH,63.42,POIN,2010
1,2,12,SUMATERA UTARA,61.20,POIN,2010
2,3,13,SUMATERA BARAT,61.06,POIN,2010
3,4,14,RIAU,60.18,POIN,2010
4,5,15,JAMBI,55.96,POIN,2010
...,...,...,...,...,...,...
95,96,74,SULAWESI TENGGARA,60.45,POIN,2012
96,97,75,GORONTALO,55.82,POIN,2012
97,98,76,SULAWESI BARAT,53.87,POIN,2012
98,99,81,MALUKU,65.33,POIN,2012


### Contoh Metode Pengambilan Data Menggunakan Scraping
---

Selain pengambilan data menggunakan API, data juga dapat diambil menggunakan metode scraping pada web di internet. Web scraping dapat memanfaatkan library <code>BeautifulSoup</code>.

Web scraping dengan BeautifulSoup melibatkan proses pengambilan data dari halaman web yang dirender dalam format HTML, kemudian mengekstrak informasi spesifik dari HTML tersebut untuk digunakan dalam aplikasi lain. BeautifulSoup adalah pustaka Python yang memudahkan proses parsing HTML dan XML, sehingga pengguna bisa menavigasi struktur dokumen untuk menemukan elemen-elemen yang kita butuhkan.

Pada hands-on ini, kita akan mempraktikkan web scraping untuk mendapatkan data artikel dari hasil pencarian di Detik.com dengan kata kunci "Universitas Gunadarma."

Untuk memudahkan proses web scraping, Anda dapat menggunakan fitur Inspect Element pada browser untuk mengidentifikasi atribut-atribut yang ingin diambil, seperti div atau container yang berisi setiap artikel.

Selengkapnya, ikuti langkah-langkah hands-on di bawah ini.

![Contoh Web Scraping.png](attachment:6ff23e64-c8be-416e-b4b9-101b848b13e8.png)

In [None]:
# Command untuk install library beautifulsoup
!pip install beautifulsoup4



In [None]:
from bs4 import BeautifulSoup
import csv

In [None]:
def scrape_detik_news(link, max_pages=5, current_page=1):
    session = requests.Session()
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
    }

    # Menampilkan informasi dari halaman yang sedang di-scraping
    print(f"Halaman yang di-scraping, halaman {current_page}: {link}")
    print("")

    response = session.get(link, headers=headers)

    # Menampilkan status code dari response
    print(f"Response Status Code: {response.status_code}")
    print("")

    if response.status_code != 200:
        print(f"Gagal mengambil content dari {link}. Status code: {response.status_code}")
        return []

    soup = BeautifulSoup(response.content, 'html.parser')

    # Menemukan semua artikel dalam link yang diberikan
    article_results = soup.find_all('article', attrs={'class': 'list-content__item'})
    data = []

    print(f"Menemukan {len(article_results)} artikel pada halaman {current_page}.")

    for article in article_results:
        information_tag = article.find('a', class_='media__link')

        if information_tag:
            title = information_tag.get('dtr-ttl', 'No title')
            link = information_tag.get('href', 'No link')
            data.append({'title': title, 'link': link})

    # Fungsi untuk menghentikan scraping apabila sudah melebihi batas maksimal yang ditentukan
    if current_page >= max_pages:
        print(f"Mencapai batas maksimal dari halaman yang di-scraping : {max_pages}. Menghentikan program...")
        print("")
        return data

    # Fungsi untuk mengecek apakah terdapat halaman selanjutnya
    next_page = soup.find('a', attrs={'dtr-idx': 'halaman search next'})
    if next_page:
        next_page_link = next_page.get('href')
        if next_page_link:
            print(f"Menuju ke halaman selanjutnya: {next_page_link}")
            print("")

            # Mengulang fungsi scraping untuk halaman berikutnya
            data.extend(scrape_detik_news(next_page_link, max_pages, current_page + 1))
        else:
            print("Link halaman berikutnya tidak ada.")
            print("")
    else:
        print("Tidak ada halaman lagi yang harus di-scraping.")
        print("")

    return data

- **`def scrape_detik_news(link, max_pages=5, current_page=1)`**  
  Mendefinisikan fungsi `scrape_detik_news` dengan parameter `link` (URL halaman yang akan di-scrape), `max_pages` (batas maksimum halaman yang akan di-scrape), dan `current_page` (halaman saat ini yang sedang di-scrape).
  

- **`requests.Session()`**  
  Membuat sesi baru untuk melakukan permintaan HTTP, memungkinkan pengaturan yang persisten seperti cookie dan header.


- **`headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}`**  
  Menetapkan header HTTP `User-Agent` untuk meniru browser dan menghindari pemblokiran oleh server.


- **`print(f"Halaman yang di-scraping {current_page}: {link}")`**  
  Menampilkan informasi tentang halaman yang sedang di-scrape, termasuk nomor halaman dan URL.


- **`response = session.get(link, headers=headers)`**  
  Mengirim permintaan GET ke URL yang diberikan dengan header yang ditentukan dan menyimpan responsnya dalam variabel `response`.


- **`print(f"Response Status Code: {response.status_code}")`**  
  Menampilkan kode status dari respons HTTP untuk memeriksa apakah permintaan berhasil.


- **`if response.status_code != 200:`**  
  Memeriksa apakah kode status bukan 200 (OK). Jika gagal, mencetak pesan kesalahan dan mengembalikan list kosong.


- **`soup = BeautifulSoup(response.content, 'html.parser')`**  
  Mengurai konten HTML dari respons menggunakan BeautifulSoup untuk memudahkan ekstraksi data.


- **`article_results = soup.find_all('article', attrs={'class': 'list-content__item'})`**  
  Menemukan semua elemen `<article>` dengan kelas `'list-content__item'` dan menyimpannya dalam `article_results`. `data` adalah list kosong yang akan diisi dengan data artikel.


- **`print(f"Menemukan {len(article_results)} artikel pada halaman {current_page}.")`**  
  Menampilkan jumlah artikel yang ditemukan di halaman saat ini.


- **`for article in article_results:`**  
  Mengiterasi setiap artikel yang ditemukan. **`information_tag`**: Mencari elemen `<a>` dengan kelas `'media__link'` untuk mendapatkan informasi artikel. Jika ditemukan, judul dan link artikel diambil dan ditambahkan ke `data`.


- **`if current_page >= max_pages:`**  
  Memeriksa apakah halaman saat ini melebihi batas maksimum. Jika ya, mencetak pesan bahwa batas telah tercapai dan menghentikan scraping dengan mengembalikan `data`.


- **`next_page = soup.find('a', attrs={'dtr-idx': 'halaman search next'})`**  
  Mencari tautan untuk halaman berikutnya. Jika ditemukan, **`next_page_link`** diambil dan digunakan untuk memanggil kembali fungsi `scrape_detik_news` untuk halaman berikutnya. Jika tidak ditemukan, mencetak pesan bahwa tautan halaman berikutnya tidak ada.


- **`else:`**  
  Jika tidak ada tautan untuk halaman berikutnya, mencetak pesan bahwa tidak ada halaman lain yang harus di-scraping.


- **`return data`**  
  Mengembalikan data yang telah dikumpulkan setelah proses scraping selesai.



In [None]:
url = 'https://www.detik.com/search/searchall?query=Universitas+Gunadarma'

# Melakukan scraping
news_data = scrape_detik_news(url, max_pages=5)

Halaman yang di-scraping, halaman 1: https://www.detik.com/search/searchall?query=Universitas+Gunadarma

Response Status Code: 200

Menemukan 12 artikel pada halaman 1.
Menuju ke halaman selanjutnya: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=2

Halaman yang di-scraping, halaman 2: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=2

Response Status Code: 200

Menemukan 12 artikel pada halaman 2.
Menuju ke halaman selanjutnya: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=3

Halaman yang di-scraping, halaman 3: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=3

Response Status Code: 200

Menemukan 11 artikel pada halaman 3.
Menuju ke halaman selanjutnya: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=4

Halaman yang di-scraping, halaman 4: https://www.detik.com/search/searchall?query=Universitas Gunadarma&page=4

Response Status Code: 200

Menemukan 11 artikel p

In [None]:
# Mengubah hasil scraping ke dalam dataframe
df_news = pd.DataFrame(news_data)

In [None]:
df_news.head()

Unnamed: 0,title,link
0,"Mahasiswa Universitas Trunojoyo Aniaya Pacar, ...",https://www.detik.com/jatim/hukum-dan-kriminal...
1,7 Fakta Heboh Mahasiswa Universitas Trunojoyo ...,https://www.detik.com/jatim/hukum-dan-kriminal...
2,Viral Mahasiswa Universitas Trunojoyo Aniaya P...,https://news.detik.com/berita/d-7553337/viral-...
3,Jokowi Groundbreaking Kampus Pertama di IKN,https://20.detik.com/detikupdate/20240604-2406...
4,Kondisi Terkini Korban Penganiayaan Mahasiswa ...,https://www.detik.com/jatim/berita/d-7552696/k...


### Quiz
---

In [None]:
# 1. Import library
import requests

In [None]:
# 2. Dapatkan response dari link di bawah :
response = requests.get("https://meowfacts.herokuapp.com/?count=20")
print(response)

<Response [200]>


In [None]:
# 3.Tampilkan text dari response
results = response.text
print(results)

{"data":["A cat can spend five or more hours a day grooming himself.","Purring not always means happiness. Purring could mean a cat is in terrible pain such as during childbirth. Kitten will purr to their mother to let her know they are getting enough milk while nursing. Purring is a process of inhaling and exhaling, usually performed while the mouth is closed. But don't worry, if your cat is purring while your gently petting her and holding her close to you - that is a happy cat!","Like birds, cats have a homing ability that uses its biological clock, the angle of the sun, and the Earth's magnetic field. A cat taken far from its home can return to it. But if a cat's owners move far from its home, the cat can't find them.","Today there are about 100 distinct breeds of the domestic cat.","Cats can be taught to walk on a leash, but a lot of time and patience is required to teach them. The younger the cat is, the easier it will be for them to learn.","Siamese kittens are born white becaus

In [None]:
# 4. Uraikan (parse) string JSON menjadi objek Python
data = json.loads(results)
data

{'data': ['A cat can spend five or more hours a day grooming himself.',
  "Purring not always means happiness. Purring could mean a cat is in terrible pain such as during childbirth. Kitten will purr to their mother to let her know they are getting enough milk while nursing. Purring is a process of inhaling and exhaling, usually performed while the mouth is closed. But don't worry, if your cat is purring while your gently petting her and holding her close to you - that is a happy cat!",
  "Like birds, cats have a homing ability that uses its biological clock, the angle of the sun, and the Earth's magnetic field. A cat taken far from its home can return to it. But if a cat's owners move far from its home, the cat can't find them.",
  'Today there are about 100 distinct breeds of the domestic cat.',
  'Cats can be taught to walk on a leash, but a lot of time and patience is required to teach them. The younger the cat is, the easier it will be for them to learn.',
  "Siamese kittens are b

In [None]:
# 5. Ubah data JSON terstruktur (misalnya, nested dictionaries atau lists) menjadi format tabular yang lebih mudah diolah.
df_cat_facts = pd.json_normalize(data, record_path='data', meta=None, errors='ignore')
df_cat_facts

Unnamed: 0,0
0,A cat can spend five or more hours a day groom...
1,Purring not always means happiness. Purring co...
2,"Like birds, cats have a homing ability that us..."
3,Today there are about 100 distinct breeds of t...
4,"Cats can be taught to walk on a leash, but a l..."
5,Siamese kittens are born white because of the ...
6,Cats bury their feces to cover their trails fr...
7,A form of AIDS exists in cats.
8,"In ancient Egypt, mummies were made of cats, a..."
9,Cats sleep 16 to 18 hours per day. When cats a...


In [47]:
# 6. Lengkapi Kode Blank di Bawah Ini

# Membuat sesi HTTP baru menggunakan requests
session = requests.session()

# Mendefinisikan header untuk permintaan HTTP
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
    }

link = "https://www.detik.com/search/searchall?query=Data+Science"

# Mengirimkan permintaan GET ke URL yang disimpan dalam variabel link menggunakan sesi yang telah dibuat sebelumnya.
response = session.get(link, headers=headers)

In [48]:
# 7. Memproses konten HTML dari hasil permintaan HTTP (response.content) menggunakan BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

In [50]:
# 8. Mencari semua elemen HTML dengan tag <article> yang memiliki atribut class dengan nilai 'list-content__item'
article_results = soup.find_all('article', attrs={'class': 'list-content__item'})

# Membuat list kosong
data = []

In [51]:
# 9. Membuat looping untuk mengambil informasi pada artikel
for article in article_results:
    information_tag = article.find('a', class_='media__link')

    if information_tag:
        title = information_tag.get('dtr-ttl', 'No title')
        link = information_tag.get('href', 'No link')
        data.append({'title': title, 'link': link})

print(data)

[{'title': 'Genjot Talenta Digital, Telkomsel-Data Science Indonesia Gelar DSW 2023', 'link': 'https://inet.detik.com/telecommunication/d-7055836/genjot-talenta-digital-telkomsel-data-science-indonesia-gelar-dsw-2023'}, {'title': 'Data NPWP Diduga Bocor, Menko Hadi: Sebagian Tak Cocok dengan Data Asli', 'link': 'https://news.detik.com/detiktv/d-7554220/data-npwp-diduga-bocor-menko-hadi-sebagian-tak-cocok-dengan-data-asli'}, {'title': 'Bangka Belitung Belum Serahkan Data Lingkungan soal Tambang, Ada Apa?', 'link': 'https://finance.detik.com/energi/d-7555648/bangka-belitung-belum-serahkan-data-lingkungan-soal-tambang-ada-apa'}, {'title': 'Durov Menyerah, Telegram Akan Serahkan Data ke Pemerintah', 'link': 'https://inet.detik.com/cyberlife/d-7555421/durov-menyerah-telegram-akan-serahkan-data-ke-pemerintah'}, {'title': 'Menko Hadi soal Dugaan Data NPWP Bocor: Sebagian Tak Cocok dengan Data Asli', 'link': 'https://news.detik.com/berita/d-7553666/menko-hadi-soal-dugaan-data-npwp-bocor-sebagi

In [52]:
# 10. Membaca data ke dataframe
df_news = pd.DataFrame(data)
df_news

Unnamed: 0,title,link
0,"Genjot Talenta Digital, Telkomsel-Data Science...",https://inet.detik.com/telecommunication/d-705...
1,"Data NPWP Diduga Bocor, Menko Hadi: Sebagian T...",https://news.detik.com/detiktv/d-7554220/data-...
2,Bangka Belitung Belum Serahkan Data Lingkungan...,https://finance.detik.com/energi/d-7555648/ban...
3,"Durov Menyerah, Telegram Akan Serahkan Data ke...",https://inet.detik.com/cyberlife/d-7555421/dur...
4,Menko Hadi soal Dugaan Data NPWP Bocor: Sebagi...,https://news.detik.com/berita/d-7553666/menko-...
5,Kominfo Ungkap Kekurangan Anggaran untuk Pusat...,https://inet.detik.com/detiktv/d-7554831/komin...
6,ASEAN Foundation-SAP Gelar ASEAN Data Science ...,https://finance.detik.com/foto-bisnis/d-700343...
7,"Wamenkominfo Ungkap Nasib Pusat Data Nasional,...",https://inet.detik.com/law-and-policy/d-755446...
8,Menkopolhukam Soal 6 Juta Data NPWP Bocor: Seb...,https://inet.detik.com/security/d-7554072/menk...
9,Kominfo Curhat Kurang Anggaran Urus Pusat Data...,https://inet.detik.com/law-and-policy/d-755368...


---

Copyright © 2024 by Tim Pengembangan DGX, Universitas Gunadarma


https://www.hpc-hub.gunadarma.ac.id/