# Scrapping Data News Artikel 

Newspaper3k adalah package yang memudahkan kita untuk mengambil data artikel berita online. Package ini menyediakan function untuk mengekstraksi tidak hanya artikel utama dari sebuah berita, namun juga judul, penulis, dan tanggal artikel itu diterbitkan secara online. 

## Intsalasi Package

Menginstal `package` yang diperlukan yaitu `requests` untuk mengakses alamat url dan `newspaper3k` melakukan scrapping artikel berita.

In [None]:
!pip install requests
!pip install newspaper3k



## Import Library

In [None]:
from newspaper import Article
import requests

## Web Scrapping Single Page News Article

Pada bagian ini kita akan melakukan scrapping News Artikel menggunakan Library newspaper. Pertama kita siapkan url news artikel yang ingin kita scraping.

### Menyiapkan Link Berita

In [None]:
link = 'https://news.detik.com/berita/d-5497387/universitas-swasta-yang-bagus-di-yogyakarta-ini-daftarnya?_ga=2.24382136.302320303.1641387551-681344513.1639118252'

### Request Alamat URL

Selanjutnya kita melakukan request ke halaman url yang kita gunakan, apakah halaman tersebut mengijinkan kita untuk mengakses data yang ada. Jika muncul `<Response [200]>` itu berarti alamat tersebut berhasil kita akses untuk kemudian di scrapping!

In [None]:
# Request Halaman URL
url = requests.get(link)
url

<Response [200]>

## Scrapping Article News using Newspaper Library

In [None]:
# Mendefinisikan url link
url = 'https://news.detik.com/berita/d-5497387/universitas-swasta-yang-bagus-di-yogyakarta-ini-daftarnya?_ga=2.24382136.302320303.1641387551-681344513.1639118252'
article = Article(url)

In [None]:
article

<newspaper.article.Article at 0x2a0c676f640>

In [None]:
article.download()
article.parse()

In [None]:
# Mengambil Judul Artikel
article.title

'Universitas Swasta yang Bagus di Yogyakarta, Ini Daftarnya'

In [None]:
# Mengambil Tanggal Rilis Berita
article.publish_date

datetime.datetime(2021, 3, 17, 19, 58, 52)

In [None]:
# Mengambil Penulis Berita
article.authors

['Tim Detikcom',
 'Https',
 'Www.Facebook.Com Detikcom',
 'Tim Detikcom - Detiknews']

In [None]:
# Mengambil Link Gambar Utama Berita
article.top_image

'https://akcdn.detik.net.id/api/wm/2021/01/01/malam-pergantian-tahun-baru-2021_169.jpeg?wid=54&w=650&v=1&t=jpeg'

In [None]:
# Mengambil Text Berita
print(article.text)

Kota Yogyakarta merupakan salah satu kota di Indonesia yang banyak dipilih oleh calon mahasiswa dari berbagai daerah untuk kuliah. Hal itu salah satunya karena di Yogyakarta terdapat cukup banyak universitas terbaik di Indonesia, baik universitas negeri maupun universitas swasta.

Nah, bagi detikers yang ingin berkuliah di Yogyakarta, namun tidak lolos seleksi PTN, detikers bisa mencoba masuk ke beberapa universitas swasta yang bagus di kota ini. Maka dari itu, untuk memudahkan detikers dalam menentukan pilihan, di artikel ini akan membahas secara singkat mengenai universitas-universitas tersebut. Berikut pembahasannya.

1. Universitas Islam Indonesia

Universitas yang berlokasi di Sleman ini merupakan universitas swasta yang sudah berdiri sejak 8 Juli 1945. Universitas ini selain mempunyai program sarjana juga mempunyai program diploma/vokasi. Sementara program D3 universitas ini yaitu jurusan Akuntansi, Manajemen, Analisis Kimia dan Perbankan dan Keuangan. Sementara program S1 lebih 

## Membuat Fungsi Scrapping Artikel Berita

In [None]:
def scrapping_news_article(link):
    #request url
    article = Article(link)
  
    #html parser 
    article.download()
    article.parse()

    #Judul Artikel
    judul_berita = article.title

    #Tanggal Berita diterbitkan
    tanggal_berita = article.publish_date

    #Penulis Berita
    penulis_berita = article.authors

    #Text Berita
    isi_berita =  article.text

    #Link Lengkap
    link_lengkap_berita = link
  
    return judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita

In [None]:
judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita = scrapping_news_article(link)

In [None]:
judul_berita

'Universitas Swasta yang Bagus di Yogyakarta, Ini Daftarnya'

In [None]:
tanggal_berita

datetime.datetime(2021, 3, 17, 19, 58, 52)

In [None]:
isi_berita

'Kota Yogyakarta merupakan salah satu kota di Indonesia yang banyak dipilih oleh calon mahasiswa dari berbagai daerah untuk kuliah. Hal itu salah satunya karena di Yogyakarta terdapat cukup banyak universitas terbaik di Indonesia, baik universitas negeri maupun universitas swasta.\n\nNah, bagi detikers yang ingin berkuliah di Yogyakarta, namun tidak lolos seleksi PTN, detikers bisa mencoba masuk ke beberapa universitas swasta yang bagus di kota ini. Maka dari itu, untuk memudahkan detikers dalam menentukan pilihan, di artikel ini akan membahas secara singkat mengenai universitas-universitas tersebut. Berikut pembahasannya.\n\n1. Universitas Islam Indonesia\n\nUniversitas yang berlokasi di Sleman ini merupakan universitas swasta yang sudah berdiri sejak 8 Juli 1945. Universitas ini selain mempunyai program sarjana juga mempunyai program diploma/vokasi. Sementara program D3 universitas ini yaitu jurusan Akuntansi, Manajemen, Analisis Kimia dan Perbankan dan Keuangan. Sementara program S1

In [None]:
penulis_berita

['Tim Detikcom',
 'Https',
 'Www.Facebook.Com Detikcom',
 'Tim Detikcom - Detiknews']

# Web Scrapping Multiple Pages News Article

## Import Library

In [None]:
import newspaper
import pandas as pd

## Membangun Newspaper dengan link berita yang diinginkan

In [None]:
detik_paper = newspaper.build('http://news.detik.com')

In [None]:
# Looping list untuk mengekstraksi artikel di dalam newspaper
url_list=[]
for article in detik_paper.articles:
    url_list.append(article.url)

In [None]:
url_list=url_list[1:]

In [None]:
url_list

['https://finance.detik.com/energi/d-5889249/erick-thohir-beberkan-kesalahan-besar-di-balik-krisis-batu-bara-ri',
 'https://finance.detik.com/energi/d-5888967/daftar-bos-batu-bara-yang-ekspornya-disetop-jokowi',
 'https://finance.detik.com/properti/d-5889233/terkuak-ini-hasil-pertemuan-jokowi-dengan-desainer-istana-ibu-kota-baru',
 'https://finance.detik.com/energi/d-5888911/bikin-jokowi-geram-2078-izin-usaha-pertambangan-dicabut-senin',
 'https://finance.detik.com/berita-ekonomi-bisnis/d-5889856/tekan-harga-anak-usaha-ptpn-produksi-minyak-goreng-rp-14000liter?tag_from=wp_hl_img',
 'https://finance.detik.com/berita-ekonomi-bisnis/d-5889856/tekan-harga-anak-usaha-ptpn-produksi-minyak-goreng-rp-14000liter?tag_from=wp_hl_judul',
 'https://finance.detik.com/berita-ekonomi-bisnis/d-5888091/kenapa-harga-minyak-goreng-mahal-ini-jawabannya?tag_from=wp_hl_terkait',
 'https://finance.detik.com/berita-ekonomi-bisnis/d-5887608/selain-minta-dmo-cpo-andre-rosiade-usul-naikkan-pajak-ekspor-minyak-gor

## Membuat Fungsi Scrapping Multi Artikel Berita

In [None]:
def scrapping_multiple_news_article(url_list):
    judul=[]
    tanggal=[]
    penulis=[]
    isi=[]
    link_lengkap=[]
    for url in url_list:
        judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita = scrapping_news_article(url)
        judul.append(judul_berita)
        tanggal.append(tanggal_berita)
        penulis.append(penulis_berita)
        isi.append(isi_berita)
        link_lengkap.append(link_lengkap_berita)
    dataframe=pd.DataFrame({"Judul":judul,
                           "Tanggal":tanggal,
                           "Penulis":penulis,
                           "Isi":isi,
                           "Link Lengkap":link_lengkap})
    return dataframe

## Menyimpan Data Hasil Scrapping dalam Pandas Dataframe

In [None]:
Hasil_Scrapping=scrapping_multiple_news_article(url_list)
Hasil_Scrapping.head()

Unnamed: 0,Judul,Tanggal,Penulis,Isi,Link Lengkap
0,Erick Thohir Beberkan Kesalahan Besar di Balik...,2022-01-08 15:15:26,"[Sylke Febrina Laucereno, Https, Www.Facebook....",Indonesia saat ini sedang dilanda krisis batu ...,https://finance.detik.com/energi/d-5889249/eri...
1,Daftar Bos Batu Bara yang Ekspornya Disetop Jo...,2022-01-08 12:45:45,"[Achmad Dwi Afriyadi, Https, Www.Facebook.Com ...",Ekspor batu bara disetop sementara oleh pemeri...,https://finance.detik.com/energi/d-5888967/daf...
2,Terkuak! Ini Hasil Pertemuan Jokowi dengan Des...,2022-01-08 12:06:56,"[Danang Sugianto, Https, Www.Facebook.Com Deti...","Nyoman Nuarta desainer Istana Garuda, Istana P...",https://finance.detik.com/properti/d-5889233/t...
3,"Bikin Jokowi Geram, 2.078 Izin Usaha Pertamban...",2022-01-08 07:30:30,"[Aulia Damayanti, Https, Www.Facebook.Com Deti...",Pemerintah bakal mengeksekusi pencabutan 2.078...,https://finance.detik.com/energi/d-5888911/bik...
4,"Tekan Harga, Anak Usaha PTPN Produksi Minyak G...",2022-01-08 21:38:13,"[Achmad Dwi Afriyadi, Https, Www.Facebook.Com ...",Menteri BUMN Erick Thohir meninjau operasi pas...,https://finance.detik.com/berita-ekonomi-bisni...


## Menyimpan Data Hasil Scrapping dalam file CSV

In [None]:
Hasil_Scrapping.to_csv('Scrapping_detik.csv', index=False)