# Crawling Data (Task 1)

Data crawling adalah proses automatis untuk mengumpulkan dan mengindeks data dari berbagai sumber seperti situs web, database, atau dokumen. Proses ini menggunakan software atau aplikasi khusus yang disebut "crawler" untuk mengakses sumber data dan mengambil informasi yang dibutuhkan. Data yang dikumpulkan melalui crawling kemudian dapat diproses dan digunakan untuk berbagai tujuan, seperti analisis data, penelitian, atau pengembangan sistem informasi.

Tujuan Crawling Data

*   Pengumpulan data besar: Mengumpulkan data besar dari berbagai sumber seperti situs web, database, atau dokumen dalam waktu singkat dan efisien.
*   Analisis data: Menggunakan data yang dikumpulkan untuk melakukan analisis data seperti analisis pasar, analisis perilaku pelanggan, dan lain-lain.
*   Penelitian: Menggunakan data yang dikumpulkan untuk melakukan penelitian seperti penelitian pasar, penelitian sosial, dan lain-lain.
*   Pembuatan database: Membuat database yang mengandung informasi dari berbagai sumber seperti situs web, database, atau dokumen
*   Pemantauan informasi: Memantau informasi dari berbagai sumber seperti media sosial, situs web, dan lain-lain untuk memastikan bahwa informasi yang diterima akurat dan up-to-date.
*   Pembuatan aplikasi: Menggunakan data yang dikumpulkan untuk membangun aplikasi seperti aplikasi pencarian, aplikasi e-commerce, dan lain-lain.

## Task 1 (Crawling Data From Twitter according Location)


In [None]:
!pip install snscrape
!pip install tqdm
!pip install ipywidgets

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting snscrape
  Downloading snscrape-0.5.0.20230113-py3-none-any.whl (69 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.2/69.2 KB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: snscrape
Successfully installed snscrape-0.5.0.20230113
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting jedi>=0.10
  Downloading jedi-0.18.2-py2.py3-none-any.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m16.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jedi
Successfully installed jedi-0.18.2


In [None]:
from tqdm.notebook import tqdm
from ipywidgets import FloatProgress
import snscrape.modules.twitter as sntwitter
import pandas as pd


In [None]:
scraper=sntwitter.TwitterSearchScraper("puan")
tweets=[]
n_tweets=500
for i, tweet in tqdm(enumerate(scraper.get_items()), total=n_tweets):
    data=[
        tweet.user.username, 
        tweet.rawContent, 
        tweet.user.location,
    ]
    tweets.append(data)
    if i > n_tweets:
        break
tweet_df=pd.DataFrame(tweets, columns=['@Username','Tweet', 'Lokasi'])
tweet_df
tweet_df.to_csv('Twitter-Ganjar.csv', index=False)

  0%|          | 0/500 [00:00<?, ?it/s]

## Task 2 (Crawling Data From Website detik.com)

In [None]:
import requests as req
from bs4 import BeautifulSoup as bs
import csv
import pandas as pd
#agent user : supaya web server menampilkan konten yang dimiliki sesuai dengan OS yang kita gunakan, jadi web server tau browser dan OS yang kita gunakan
hades = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}

In [None]:
#membuat function scraping data web
def scrape_detik(page):
  global hades  
  data = []
  for p in range(1,page+1):
    print(p)
    url = f"https://www.detik.com/search/searchall?query=pemilu+2024&siteid=2&sortby=time&page={p}"
    request =  req.get(url,hades).text
    #var bs yang menyimpan data request
    soup = bs(request, 'lxml')
    news_list = soup.find('div', 'list media_rows list-berita')
    news_article = news_list.find_all('article')
    for x in news_article:
      link=x.find_all('h2')
      link = [ele.text.strip() for ele in link]
      content=x.find_all('p')
      content = [ele.text.strip() for ele in content]
      data.append([link[0],content[0]])
  return data

In [None]:
news=scrape_detik(100)
news_result=pd.DataFrame(news)
news_result.columns = ["Judul", "Konten"]
news_result

In [None]:
news_result.to_csv('politik_news.csv')

## Task 3 (Scraping Data from pta.trunojoyo.ac.id)

In [None]:
import requests as req
from bs4 import BeautifulSoup as bs
import csv
import pandas as pd
#agent user : supaya web server menampilkan konten yang dimiliki sesuai dengan OS yang kita gunakan, jadi web server tau browser dan OS yang kita gunakan
hades = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}

In [None]:
#create an object HTTPresponse
def scrape_TA(page):
  global hades
  data=[]
  for p in range(1,page+1):
    if p==1 :
      URL = "https://pta.trunojoyo.ac.id/c_search/byprod/10/"
    else :
      URL = f"https://pta.trunojoyo.ac.id/c_search/byprod/10/{p}"
    request = req.get(URL,hades).text
    #var bs yang menyimpan data request berupa html
    soup = bs(request, 'lxml')
    prodi = soup.find_all('div',{'id':'begin'})
    for pro in prodi:
      prod = pro.find('h2').text
    jur = prod[-18:]
    ul = soup.find('ul', 'items list_style')
    li = ul.find_all('li', {'data-id':'id-1'})
    for x in li:
      link = x.find('a','gray button')['href']
      request2 = req.get(link, hades).text
      soup2 = bs(request2, 'lxml')
      abst= soup2.find('p',{'align':'justify'}).text.replace('\r','').replace('\n','')
      NPM = x.find('a','gray button')['href'][-12:]
      headline = x.find('a', 'title').text.replace('\r','').replace('\n','')
      data.append([NPM,headline,abst,jur])
  return data

In [None]:
data_TA=scrape_TA(172)
data_TA_result=pd.DataFrame(data_TA)
data_TA_result.columns = ["NPM", "Judul","Abstrak","jurusan"]
data_TA_result

Unnamed: 0,NPM,Judul,Abstrak,jurusan
0,040411100468,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE T...,Sistem informasi akademik (SIAKAD) merupaka...,Teknik Informatika
1,040411100476,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,Berjalannya koneksi jaringan komputer dengan l...,Teknik Informatika
2,040411100480,RANCANG BANGUN APLIKASI PROXY SERVER UNTUKENKR...,Web server adalah sebuah perangkat lunak serve...,Teknik Informatika
3,070411100070,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penjadwalan kuliah di Perguruan Tinggi me...,Teknik Informatika
4,080411100115,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Seiring perkembangan teknologi yang ada diduni...,Teknik Informatika
...,...,...,...,...
853,160411100032,PENERAPAN ALGORITMA LONG-SHORT TERM MEMORY UNT...,Investasi saham selama ini memiliki resiko ker...,Teknik Informatika
854,160411100182,SISTEM PENCARIAN TEKS AL-QURAN TERJEMAHAN BERB...,Information Retrieval (IR) merupakan pengambil...,Teknik Informatika
855,160411100077,KLASIFIKASI KOMPLEKSITAS VISUAL CITRA SAMPAH M...,Klasifikasi citra merupakan proses pengelompok...,Teknik Informatika
856,160411100084,IDENTIFIKASI BINER ATRIBUT PEJALAN KAKI MENGGU...,Identifikasi atribut pejalan kaki merupakan sa...,Teknik Informatika


In [None]:
data_TA_result.to_csv('data_TA_Informatika.csv')

In [None]:
from twitter_scrapper import get_tweets