# Crawling Website
Crawling merupakan suatu proses pengambilan data dengan menggunakan mesin yang dilakukan secara online. Proses ini dilakukan untuk mengimpor data yang ditemukan kedalam file lokal komputer. Untuk dapat melakukan crawling dengan menggunakan python kita dapat menggunakan scrapy.

## **Installasi Scrapy**
Scrapy adalah kerangka kerja aplikasi untuk crawling web site dan mengekstraksi data terstruktur yang dapat digunakan untuk berbagai aplikasi yang bermanfaat, seperti data mining, pemrosesan informasi atau arsip sejarah. Meskipun Scrapy awalnya dirancang untuk web scraping, namu scrapy juga dapat digunakan untuk mengekstrak data menggunakan API (seperti Amazon Associates Web Services) atau sebagai web crawl.<br>
Untuk menggunakan scrapy terlebih dahulu install scrapy dengan source code berikut.

In [None]:
!pip install scrapy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting scrapy
  Downloading Scrapy-2.6.3-py2.py3-none-any.whl (264 kB)
[K     |████████████████████████████████| 264 kB 5.0 MB/s 
[?25hCollecting queuelib>=1.4.2
  Downloading queuelib-1.6.2-py2.py3-none-any.whl (13 kB)
Collecting pyOpenSSL>=21.0.0
  Downloading pyOpenSSL-22.1.0-py3-none-any.whl (57 kB)
[K     |████████████████████████████████| 57 kB 4.7 MB/s 
Collecting itemadapter>=0.1.0
  Downloading itemadapter-0.7.0-py3-none-any.whl (10 kB)
Collecting PyDispatcher>=2.0.5
  Downloading PyDispatcher-2.0.6.tar.gz (38 kB)
Collecting cssselect>=0.9.1
  Downloading cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting cryptography>=3.3
  Downloading cryptography-38.0.1-cp36-abi3-manylinux_2_24_x86_64.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 50.4 MB/s 
[?25hCollecting w3lib>=1.17.0
  Downloading w3lib-2.0.1-py3-none-any.whl (20 kB)
Collecting tldextract
  Dow

## **Crawling Abstrak**
Setelah berhasil menginstall scrapy, selanjutnya kita dapat melakukan proses crawling data abstrak dari pta.trunojoyo menggunakan library scrapy dengan menggunakan source code berikut.

In [None]:
import scrapy
from scrapy.crawler import CrawlerProcess


class AbstracToCsv(scrapy.Spider):
  name = 'Abstrac To CSV'
  def start_requests(self):
        x = 100000
        for i in range (0,75):
            x +=1
            urls = [
                'https://pta.trunojoyo.ac.id/welcome/detail/130411'+str(x),
                #'https://pta.trunojoyo.ac.id/welcome/detail/140411'+str(x),
                #'https://pta.trunojoyo.ac.id/welcome/detail/150411'+str(x),
                #'https://pta.trunojoyo.ac.id/welcome/detail/160411'+str(x)
            ]
            for url in urls:
                yield scrapy.Request(url=url, callback=self.parse)

  custom_settings = {
      'FEED_FORMAT': 'csv',
      'FEED_URI': 'Abstraksi.csv'
  }

  def parse(self, response):
        yield {
            'Abstrak':response.css('#content_journal > ul > li > div:nth-child(4) > div:nth-child(2) > p::text').get()
              }

process = CrawlerProcess()
process.crawl(AbstracToCsv)
process.start()

INFO:scrapy.utils.log:Scrapy 2.6.3 started (bot: scrapybot)
2022-10-17 08:14:18 [scrapy.utils.log] INFO: Scrapy 2.6.3 started (bot: scrapybot)
INFO:scrapy.utils.log:Versions: lxml 4.9.1.0, libxml2 2.9.14, cssselect 1.1.0, parsel 1.6.0, w3lib 2.0.1, Twisted 22.8.0, Python 3.7.14 (default, Sep  8 2022, 00:06:44) - [GCC 7.5.0], pyOpenSSL 22.1.0 (OpenSSL 3.0.5 5 Jul 2022), cryptography 38.0.1, Platform Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic
2022-10-17 08:14:18 [scrapy.utils.log] INFO: Versions: lxml 4.9.1.0, libxml2 2.9.14, cssselect 1.1.0, parsel 1.6.0, w3lib 2.0.1, Twisted 22.8.0, Python 3.7.14 (default, Sep  8 2022, 00:06:44) - [GCC 7.5.0], pyOpenSSL 22.1.0 (OpenSSL 3.0.5 5 Jul 2022), cryptography 38.0.1, Platform Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic
INFO:scrapy.crawler:Overridden settings:
{}
2022-10-17 08:14:18 [scrapy.crawler] INFO: Overridden settings:
{}
DEBUG:scrapy.utils.log:Using reactor: twisted.internet.epollreactor.EPollReactor
2022-10-17 08:14:18 [scrapy.

## **Buang Baris Kosong**
Setelah didapat hasil crawling kita baca file csv tersebut, akan tetapi pada hasil crawling tersebut masih terdapat baris yang kosong yang didapat dari link yang kosong, untuk itu perlu dihilangkan dengan source code berikut.

In [None]:
import pandas as pd 
abs = pd.read_csv("Abstraksi.csv",index_col=False)

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
2022-10-17 08:14:34 [numexpr.utils] INFO: NumExpr defaulting to 2 threads.


In [None]:
abs.dropna(inplace=True)
abs.isnull().sum()

Abstrak    0
dtype: int64

Setelah berhasil dihapus, simpan kembali dalam format csv

In [None]:
abs.to_csv("hasil_crawling.csv",index=False)

## **Baca Hasil Crawling**
Setelah baris kosong dari hasil crawling sudah dihapus kita tampilkan hasil crawling data absrak dari pta.trunojoyo seperti berikut.

In [None]:
data = pd.read_csv("hasil_crawling.csv",index_col=False)
data

Unnamed: 0,Abstrak
0,Bola voli dapat dikatakan sebagai salah satu o...
1,Pada Proses identifikasi Leukemia ada beberapa...
2,Bisnis pakaian di era modern ini berkembang se...
3,Pelayanan administrasi kependudukan di Kantor ...
4,Kegiatan pencatatan data administrasi penduduk...
5,Di Dinas Koperasi dan UMKM kabupaten Bangkala...
6,Image merupakan suatu media yang memberikan in...
7,Aplikasi penerjemah bahasa bilingual Indonesia...
8,Sistem pengendalian persediaan barang (...
9,Proses monitoring kegiatan yang ada di asrama ...


## **Kesimpulan**
Dari hasil yang diperoleh, didapat data abstrak sebanyak 125 data abstrak yang diperoleh dari pta.trunojoyo.ac.id dengan mengambil data abstrak fakultas teknik mulai dari angkatan 13 hingga 16, dengan urutan NIM dari 0-75. Data abstrak yang diperoleh tersebut disimpan dalam bentuk csv.