Prototype til Abakus' programmeringskonkurranse

Enkel implementasjon av crawler, parser og overføring til indeks ifbm. Computas sin programmeringskonkurranse for Abakus. Skrevet i Kotlin og benytter byggesystemet gradle.

Sjekk ut koden

$ git clone https://github.com/larsmsp/search-engine.git

Bygg

Kjør følgende i mappen koden ble sjekket ut til

$ gradle installDist

Etter bygging vil det legge seg eksekverebare script i mappen build/install/bin.

Kjøring

Scriptet har tre moduser med ulike argumenter.

Crawling

$ build/install/bin/search-engine crawl <baseUrl> <outputDir>

For konkurransen til Abakus vil <baseUrl> typisk være http://www.computas.com. Crawlingen vil hente alle URL-er under dette domenet og laste ned sidene som ren HTML til <outputDir>

Parsing

$ build/install/bin/search-engine parse <inputDir> <outputDir>

Denne delen av scriptet vil lese alle HTML-filer i <inputDir> og parse dem til en JSON-struktur som API-et forstår, f.eks.

{
    "id": "http://www.computas.com",
    "title": "Computas",
    "contents": "...",
    "url": "http://wwww.computas.com"
}

Fordi URL-en er unik per side, så vil parsingen benytte dette som ID til indekseringen senere. Det vil genereres én JSON-fil per HTML-fil og disse vil havne i <outputDir>.

Indeksering

$ build/install/bin/search-engine index <inputDir> <adresse-til-api> <din-api-nøkkel>

Scriptet gjør ingen indeksering selv, men dette steget vil lese JSON-filer generert fra parse-steget og dytte det ut til Elasticsearch-indeksen. Hvor filene ligger er angitt av <inputDir>. I tillegg trenger scriptet å vite adressen til API-et. I Abakus-konkurransen er denne https://abakus-api-dot-sinuous-tine-156112.appspot.com. Til slutt vil scriptet ha API-nøkkelen for å vite hvilken indeks det skal legges i.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
gradle/wrapper		gradle/wrapper
src/main		src/main
.gitignore		.gitignore
README.md		README.md
build.gradle		build.gradle
gradlew		gradlew
gradlew.bat		gradlew.bat
settings.gradle		settings.gradle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Prototype til Abakus' programmeringskonkurranse

Sjekk ut koden

Bygg

Kjøring

Crawling

Parsing

Indeksering

About

Releases

Packages

Languages

larsmsp/simple-kotlin-web-crawler

Folders and files

Latest commit

History

Repository files navigation

Prototype til Abakus' programmeringskonkurranse

Sjekk ut koden

Bygg

Kjøring

Crawling

Parsing

Indeksering

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages