# Scrapping Data News Artikel 

Newspaper3k adalah package yang memudahkan kita untuk mengambil data artikel berita online. Package ini menyediakan function untuk mengekstraksi tidak hanya artikel utama dari sebuah berita, namun juga judul, penulis, dan tanggal artikel itu diterbitkan secara online. 

## Intsalasi Package

Menginstal `package` yang diperlukan yaitu `requests` untuk mengakses alamat url dan `newspaper3k` melakukan scrapping artikel berita.

In [1]:
!pip install requests
!pip install newspaper3k



## Import Library

In [2]:
from newspaper import Article
import requests

## Web Scrapping Single Page News Article

Pada bagian ini kita akan melakukan scrapping News Artikel menggunakan Library newspaper. Pertama kita siapkan url news artikel yang ingin kita scraping.

### Menyiapkan Link Berita

In [3]:
link = 'https://www.kompas.com/edu/read/2021/11/30/220120371/puluhan-ribu-mahasiswa-perguruan-tinggi-sudah-ikut-kampus-merdeka'

### Request Alamat URL

Selanjutnya kita melakukan request ke halaman url yang kita gunakan, apakah halaman tersebut mengijinkan kita untuk mengakses data yang ada. Jika muncul `<Response [200]>` itu berarti alamat tersebut berhasil kita akses untuk kemudian di scrapping!

In [4]:
# Request Halaman URL
url = requests.get(link)
url

<Response [200]>

## Scrapping Article News using Newspaper Library

In [5]:
# Mendefinisikan url link
url = 'https://www.kompas.com/edu/read/2021/11/30/220120371/puluhan-ribu-mahasiswa-perguruan-tinggi-sudah-ikut-kampus-merdeka'
article = Article(url)

In [6]:
article

<newspaper.article.Article at 0x13b1d54f8e0>

In [7]:
article.download()
article.parse()

In [8]:
# Mengambil Judul Artikel
article.title

'Puluhan Ribu Mahasiswa Perguruan Tinggi Sudah Ikut Kampus Merdeka'

In [9]:
# Mengambil Tanggal Rilis Berita
article.publish_date

datetime.datetime(2021, 11, 30, 0, 0)

In [10]:
# Mengambil Penulis Berita
article.authors

['Kompas Cyber Media', 'Dian Ihsan']

In [11]:
# Mengambil Link Gambar Utama Berita
article.top_image

'https://asset.kompas.com/crops/tUI-VySI439KP1CCiDQVSW6Fja0=/0x0:800x533/780x390/filters:watermark(data/photo/2020/03/10/5e6775dc18fcf.png,0,-0,1)/data/photo/2019/06/27/294330621.jpg'

In [13]:
# Mengambil Text Berita
print(article.text)




## Membuat Fungsi Scrapping Artikel Berita

In [14]:
def scrapping_news_article(link):
    #request url
    article = Article(link)
  
    #html parser 
    article.download()
    article.parse()

    #Judul Artikel
    judul_berita = article.title

    #Tanggal Berita diterbitkan
    tanggal_berita = article.publish_date

    #Penulis Berita
    penulis_berita = article.authors

    #Text Berita
    isi_berita =  article.text

    #Link Lengkap
    link_lengkap_berita = link
  
    return judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita

In [15]:
judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita = scrapping_news_article(link)

In [16]:
judul_berita

'Puluhan Ribu Mahasiswa Perguruan Tinggi Sudah Ikut Kampus Merdeka'

In [17]:
tanggal_berita

datetime.datetime(2021, 11, 30, 0, 0)

In [18]:
isi_berita

''

In [19]:
penulis_berita

['Kompas Cyber Media', 'Dian Ihsan']

# Web Scrapping Multiple Pages News Article

## Import Library

In [20]:
import newspaper
import pandas as pd

## Membangun Newspaper dengan link berita yang diinginkan

In [49]:
detik_paper = newspaper.build('https://news.detik.com/pro-kontra')

In [50]:
# Looping list untuk mengekstraksi artikel di dalam newspaper
url_list=[]
for article in detik_paper.articles:
    url_list.append(article.url)

In [51]:
url_list=url_list[1:]

In [52]:
url_list

['https://news.detik.com/berita/d-5899087/layanan-sim-keliling-di-jakpus-jaktim-hari-ini-simak-di-sini',
 'https://event.detik.com/galeri/90-nostalgia-bareng-39-akademia-39-lewat-konser-reuni-tanpa-eliminasi',
 'https://event.detik.com/galeri/70-buka-puasa-gratis-sesuai-keinginan',
 'https://event.detik.com/galeri/17-mengembangkan-kopi-indonesia-dalam-ranah-global',
 'https://oto.detik.com/mobil/d-5899145/mulai-sering-kelihatan-di-jalan-hyundai-staria-laris-manis',
 'https://oto.detik.com/mobil/d-5898546/kata-hyundai-soal-mobil-rakyat-di-bawah-rp-250-juta-usulan-kemenperin',
 'https://oto.detik.com/mobil/d-5898100/canggihnya-pabrik-hyundai-di-cikarang-full-ac-pakai-409-robot-perakit-mobil',
 'https://wolipop.detik.com/detiktv/d-5899141/gaya-puan-maharani-hadiri-pernikahan-vidi-aldiano-sheila-dara',
 'https://travel.detik.com/travel-news/d-5899057/kunjungi-sentra-jamu-gendong-di-sleman-sandiaga-rasanya-wuenak',
 'https://20.detik.com/sport-buzz/20220115-220115051/manchester-city-dipredi

## Membuat Fungsi Scrapping Multi Artikel Berita

In [46]:
def scrapping_multiple_news_article(url_list):
    judul=[]
    tanggal=[]
    penulis=[]
    isi=[]
    link_lengkap=[]
    for url in url_list:
        judul_berita, tanggal_berita, penulis_berita, isi_berita, link_lengkap_berita = scrapping_news_article(url)
        judul.append(judul_berita)
        tanggal.append(tanggal_berita)
        penulis.append(penulis_berita)
        isi.append(isi_berita)
        link_lengkap.append(link_lengkap_berita)
    dataframe=pd.DataFrame({"Judul":judul,
                           "Tanggal":tanggal,
                           "Penulis":penulis,
                           "Isi":isi,
                           "Link Lengkap":link_lengkap})
    return dataframe

## Menyimpan Data Hasil Scrapping dalam Pandas Dataframe

In [53]:
Hasil_Scrapping=scrapping_multiple_news_article(url_list)
Hasil_Scrapping.head()

Unnamed: 0,Judul,Tanggal,Penulis,Isi,Link Lengkap
0,Layanan SIM Keliling di Jakpus-Jaktim Hari Ini...,2022-01-15 09:32:37,"[Farih Maulana Sidik, Https, Www.Facebook.Com ...",Direktorat Lalu Lintas (Ditlantas) Polda Metro...,https://news.detik.com/berita/d-5899087/layana...
1,Galeri Detail,NaT,[],,https://event.detik.com/galeri/90-nostalgia-ba...
2,Galeri Detail,NaT,[],,https://event.detik.com/galeri/70-buka-puasa-g...
3,Galeri Detail,NaT,[],,https://event.detik.com/galeri/17-mengembangka...
4,"Mulai Sering Kelihatan di Jalan, Hyundai Stari...",2022-01-15 10:55:46,"[Luthfi Anshori, Https, Www.Facebook.Com Detik...",Hyundai Staria menjadi salah satu andalan Hyun...,https://oto.detik.com/mobil/d-5899145/mulai-se...


## Menyimpan Data Hasil Scrapping dalam file CSV

In [54]:
Hasil_Scrapping.to_csv('Scrapping_detik_prokontra.csv', index=False)