# Crawling Web Berita CNN Indonesia


## Apa itu Crawling?


Crawling merupakan proses search engine untuk menemukan konten atau sesuatu situs halaman yang ada. Dalam bahasa kerennya crawling atau web crawling merupakan proses dimana search engine mengirimkan bot atau robot yang disebut (crawler atau spider) yang digunakan untuk menemukan konten-konten yang ada.

Yang dimaksud konten yaitu bervariasi, mulai dari halaman website yang saya lakukan ini, kemudian gambar, video, dokumen, dan lain sebagainya. Seperti halnya laba-laba, datang ke sebuah jaring dan melihat beberapa halaman website, kemudian mengikuti link yang terdapat di halaman website tersebut untuk mencari URL yang baru.

Ketika ada pengguna yang mencari sebuah konten di search engine dengan keyword tertentu, search engine akan mencarinya di indeks dan menentukan konten mana yang paling sesuai untuk pengguna tersebut.


## Proses Crawling


### Tool atau Library


In [1]:
# Import Library yang dibutuhkan
import requests as req
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
from tqdm import tqdm

- **Request** digunakan untuk mengambil html/http dari sebuah website.
- **BeautifulSoup** berfungsi untuk mengambil data dari html/xml.
- **Time** berfungsi untuk memberikan jeda ketika ingin berpindah halaman.
- **Pandas** digunakan untuk membuat dataframe agar mudah dibaca.
- **tqdm** Untuk mentracking proses program


### Code Program


#### Fungsi Clean_text()


In [2]:
def clean_text(text):
	return text.strip()

Fungsi untuk membersihkan text yang tidak diinginkan, atau mengganggu.


#### Fungsi scrape_news()


In [13]:
def scrape_news(soup):
	berita = {}
	texts = []
	# TODO:
	# ada struktur aneh https://www.cnnindonesia.com/olahraga/20240830134615-142-1139388/live-report-timnas-indonesia-vs-thailand-u-20
	
	berita["judul"] = soup.title.text

	if 'FOTO:' in berita["judul"]:
		div_content = soup.find("div", class_="detail-text text-cnn_black text-sm grow min-w-0")
		if div_content:
			full_text = div_content.get_text(strip=True)
			text = full_text.split('--', 1)[-1]
			text = text.split('var article')[0].strip()

			cleaned_text = clean_text(text)
			texts.append(cleaned_text)

		berita["tanggal"] = soup.find("div", class_="container !w-[1100px] overscroll-none").find_all("div")[1].find_all("div")[2].text

	else:
		text_list = soup.find("div", class_="detail-text text-cnn_black text-sm grow min-w-0")
		for text in text_list.find_all("p"):
			if 'para_caption' not in text.get('class', []):
				cleaned_text = clean_text(text.text)
				texts.append(cleaned_text)

		berita["tanggal"] = soup.find("div", class_="container !w-[1100px] overscroll-none").find_all("div")[1].find_all("div")[3].text

	berita["isi"] = "\n".join(texts)
	berita["kategori"] = soup.find("meta", attrs={'name': 'dtk:namakanal'})['content']
	return berita

Pada fungsi ini berisikan proses pembedahan dan juga pengambilan data pada sebuah website. Mengambil data sesuai struktur HTML/web yang ingin diambil datanya.


#### Fungsi get_html()


In [4]:
def get_html(url):
	try:
		response = req.get(url).text
		return bs(response, "html5lib")
	
	except Exception as e:
		print(e)
		return ""

Fungsi get_html dengan parameter url digunakan untuk mengambil response atau isi html dari web. Untuk mengambil response tersebut dibutuhkan library request, dan juga BeautifulSoup untuk mendapatkan isi html.


#### Fungsi get_news()


In [5]:
def get_news(soup):
	container = soup.find("div", class_="container !w-[1100px] overscroll-none")
	news_list = container.find_all("article", class_="flex-grow")
	return news_list

Fungsi get_news berfungsi untuk mengambil semua berita yang ada pada web, yang kemudian didapat kumpulan url berita yang ada pada halaman web.


#### Main Crawling


In [20]:
def main(nasional: int, internasional: int):
	url = ["https://www.cnnindonesia.com/nasional/indeks/3/", "https://www.cnnindonesia.com/internasional/indeks/6/"]
	# url = ["https://www.cnnindonesia.com/indeks/2/"]
	news = []

	nasional_count = 0
	internasional_count = 0

	while url:
		url_now = url.pop()
		count = 1 # - n
		halaman = int(get_html(url_now).find("div", class_="flex gap-5 my-8 items-center justify-center undefined").find_all("a")[-2].text)
		

		for _ in range(halaman):
			page = f"{url_now}{count}" 
			soup = get_html(page)
			news_list = get_news(soup)
			
			for item in tqdm(news_list, desc=f"Processing page {count}"):
				news_url = item.find('a')['href']
				# print(news_url)
				result = scrape_news(get_html(news_url))

				if nasional_count >= nasional and internasional_count >= internasional:
					return news

				if result['kategori'] == 'nasional' and nasional_count < nasional:
					news.append(result)
					nasional_count += 1

				elif result['kategori'] == 'internasional' and internasional_count < internasional:
					news.append(result)
					internasional_count += 1
					
				
			count+=1
			time.sleep(1)
			if (nasional_count >= nasional and 'nasional' in url_now) or (internasional_count >= internasional and 'internasional' in url_now):
				break

	return news

Menyiapkan link/base url web berita yang ingin dicrawling, terdapat beberapa fungsi yang dipanggil yang sudah dibuat sebelumnya untuk mengambil informasi atau berita pada halaman website. Dalam code tersebut terdapat beberapa tahapan seperti fungsi:

- get_html
- get_news
- scrape_news


#### Main


In [21]:
news = main(nasional=1, internasional=1)

Processing page 1: 100%|██████████| 10/10 [00:05<00:00,  1.74it/s]
Processing page 1:  10%|█         | 1/10 [00:01<00:12,  1.39s/it]


Menjalankan program yang sudah dibuat dengan input berapa halaman yang ingin diambil.


### Convert Dataframe


In [22]:
df = pd.DataFrame.from_dict(news)
df


Unnamed: 0,judul,tanggal,isi,kategori
0,FOTO: WNI yang Dievakuasi dari Lebanon Telah T...,"Senin, 07 Okt 2024 11:50 WIB",Puluhan WNI yang dievakuasi dari Lebanon telah...,internasional
1,Pemotor yang Bonceng Ustaz Maulana Tak Pakai H...,"Senin, 07 Okt 2024 11:58 WIB",Seorang pengendara sepeda motor yang memboncen...,nasional


In [23]:
print(df)

                                               judul  \
0  FOTO: WNI yang Dievakuasi dari Lebanon Telah T...   
1  Pemotor yang Bonceng Ustaz Maulana Tak Pakai H...   

                          tanggal  \
0    Senin, 07 Okt 2024 11:50 WIB   
1   Senin, 07 Okt 2024 11:58 WIB    

                                                 isi       kategori  
0  Puluhan WNI yang dievakuasi dari Lebanon telah...  internasional  
1  Seorang pengendara sepeda motor yang memboncen...       nasional  


In [24]:
# Library untuk data manipulation
import pandas as pd
from tqdm import tqdm
import re
import string

# Library untuk text preprocessing
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt_tab')

# Library untuk text vectorization/TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

[nltk_data] Downloading package stopwords to C:\Users\LAB
[nltk_data]     SISTER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to C:\Users\LAB
[nltk_data]     SISTER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [25]:
def clean_text(text):
	text = re.sub(r'((www\.[^\s]+)|(https?://[^\s]+))', ' ', text) # Menghapus https* and www*
	text = re.sub(r'@[^\s]+', ' ', text) # Menghapus username
	text = re.sub(r'[\s]+', ' ', text) # Menghapus tambahan spasi
	text = re.sub(r'#([^\s]+)', ' ', text) # Menghapus hashtags
	text = re.sub(r'rt', ' ', text) # Menghapus retweet
	text = text.translate(str.maketrans("","",string.punctuation)) # Menghapus tanda baca
	text = re.sub(r'\d', ' ', text) # Menghapus angka
	text = text.lower()
	text = text.encode('ascii','ignore').decode('utf-8') #Menghapus ASCII dan unicode
	text = re.sub(r'[^\x00-\x7f]',r'', text)
	text = text.replace('\n','') #Menghapus baris baru
	text = text.strip()
	return text
def stemming_indo(text):
	factory = StemmerFactory()
	stemmer = factory.create_stemmer()
	text = ' '.join(stemmer.stem(word) for word in text)
	return text
def clean_stopword(tokens):
	listStopword =  set(stopwords.words('indonesian'))
	removed = []
	for t in tokens:
		if t not in listStopword:
			removed.append(t)
	return removed

In [26]:
def preprocess_text(content):
	result = []
	for text in tqdm(content):
		cleaned_text = clean_text(text)
		tokens = nltk.tokenize.word_tokenize(cleaned_text)
		cleaned_stopword = clean_stopword(tokens)
		stemmed_text = stemming_indo(cleaned_stopword)
		result.append(stemmed_text)
	return result

df['cleaned_text'] = preprocess_text(df['isi'])

100%|██████████| 2/2 [00:00<00:00, 23.67it/s]


In [27]:
def tfidf_vsm(data, kategori):
	tfidf = TfidfVectorizer()
	tfidf_matrix = tfidf.fit_transform(data)
	feature_names = tfidf.get_feature_names_out()
	
	df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
	df_tfidf.insert(0, 'Kategori Berita', kategori.reset_index(drop=True))

	return tfidf, df_tfidf

# tfidf, df_tfidf = tfidf_vsm(df['cleaned_text'], df['kategori'])

In [28]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
import pickle

In [30]:
with open('tugas3/lr_model.pkl', 'rb') as file:  
    # Call load method to deserialze 
    model = pickle.load(file)
with open('tugas2/tfidf_model.pkl', 'rb') as file:  
    # Call load method to deserialze 
    tfidf = pickle.load(file)

tfidf_matrix = tfidf.transform(df['cleaned_text'])

In [31]:
# Retrain the logistic regression model with the updated feature matrix
model.predict(tfidf_matrix)




array([0, 1])