Analisis Data Biodiverskripsi

Biodiverskripsi merupakan sebuah inisiasi untuk mengumpulkan data keanekaragaman hayati dari skripsi/tesis/disertasi mahasiswa yang belum dipublikasikan. Dalam naungan Tambora Muda Indonesia, relawan-relawan Tim Biodiverskripsi melakukan transkripsi data kehati dari lima universitas di seluruh Indonesia ke dalam sebuah pangkalan data yang terintegrasi. Saat ini, data-data Biodiverskripsi dapat diakses di GBIF dan di portal Biodiverskripsi.

Repositori ini berisi langkah-langkah untuk melakukan pembersihan data mentah hasil transkripsi agar siap untuk dipublikasikan dalam portal data maupun digunakan dalam penelitian selanjutnya. Dalam repo ini, kami menetapkan tiga folder:

input_xlsx: berisi data keseluruhan transkripsi mentah dari relawan Biodiverskripsi sesuai template sebagaimana dijelaskan dalam Panduan Kontribusi (.xlsx dan .xls)
output_csv: berisi data keseluruhan transkripsi yang sudah dipisahkan per lembar kerja atau sheet (.csv)
output_figure: berisi gambar grafik hasil dari visualisasi data (berbentuk png)

Keterangan Skrip

Untuk melangsungkan analisis dalam repo ini, package yang dibutuhkan antara lain:

rio
tidyverse
car
writexl
stringr
openxlsx

Langkah-langkah pembersihan data perjumpaan yang dilangsungkan dalam repositori ini adalah sebagai berikut:

Convert xls & xlsx to csv

regex_xls: Membaca semua file dengan format xls dan xlsx xls: Dataframe berisi semua file yang terbaca oleh regex_xls yang berada di dalam folder input_xlsx

Split all csv (Sheet 1)

Dataframe: bio_data1 Mengambil hanya sheet 1 pada setiap file di dalam folder input_xlsx Convert menjadi csv Hasilnya berada di folder output_csv

Split all csv (Sheet 2)

Dataframe: bio_data2 Mengambil hanya sheet 2 pada setiap file di dalam folder input_xlsx Convert menjadi csv Hasilnya berada di folder output_csv

TAKSA CLEANING

IN -> FN Mengubah IN menjadi FN pada occurrenceID AR -> TN Mengubah AR menjadi TN pada occurrenceID

PARENTEVENTID CLEANING

Mengecek parentEventID yang tidak sesuai format

EVENTID CLEANING

Mengecek eventID yang tidak sesuai format #Know the differences Mengecek apakah ada eventID yang terdapat pada bio_data1 tetapi tidak ada pada bio_data2 Mengecek apakah ada eventID yang terdapat pada bio_data2 tetapi tidak ada pada bio_data1

OCCURRENCEID CLEANING

Mengecek occurrenceID yang tidak sesuai format

STATEPROVINCE CLEANING

Merecode typo pada penulisan stateProvince Menyamaratakan istilah pada setiap provinsi

Merged Sheet 1 & Sheet 2

Dataframe: merged_data Menggabungkan sheet 1 dan sheet 2 #CHECK DUPLICATE Mengecek dan meremove rows yang duplikat

#Bikin kolom baru kode taksa ke merged_data taxaCode: Berisi code taksa yang diambil dari occurrenceID

#Bikin kolom baru tahun publikasi ke merged_data publicationYear: Berisi tahun publikasi skripsi yang diambil dari occurrenceID

#Bikin kolom baru kode univ ke merged_data univCode: Berisi code universitas yang diambil dari occurrenceID

#Delete all 2018 data Meremove semua data dengan tahun publikasi 2018 (karena pembatasan hanya sampai tahun 2017)

COUNT TAKSA

Dataframe: taksa_count Mengetahui jumlah occurrence dari setiap taksa

COUNT YEAR

Dataframe: year_count Mengetahui jumlah occurrence dari setiap tahun

COUNT UNIV

Dataframe: univ_count Mengetahui jumlah occurrence dari setiap universitas

SCIENTIFIC NAME DATA CLEANING

Mengecek format setiap tingkatan taksa yang tidak sesuai pattern #Cleaning 1 Merecode scientific name yang mempunyai tanda kurung, spasi double, dan mempunyai tanda titik pada genus #Cleaning 2 Merecode genus yang tidak tepat pada scientificName #Cleaning 3 Menghapus sp, sp., sp ., Sp., dan spp. yang terletak di belakang genus pada scientificName #Cleaning 4 Menghapus sp. tanpa spasi yang terletak di belakang genus pada scientificName #Cleaning 5 dan 6 Menghapus kata ketiga pada scientificName yang diawali dengan huruf kapital #Cleaning 7 Menghapus angka dan kata+angka pada scientificName #Cleaning 8 Merecode jenis yang tidak teridentifikasi menjadi tingkatan kingdom #Cleaning 11 Menghapus tanda -- di belakang genus pada scientificName #Cleaning 12 Menghapus cf di tengah-tengah nama pada scientificName #Cleaning 13 Merecode nama-nama yang typo pada scientificName dari dataset typo_lookup

Write cleaned data to xlsx

Dataset: All Occurrences_19681_7 August.xlsx Save hasil dari cleaning data dalam bentuk xlsx

VISUALIZATION

(Semua figure hasilnya akan diexport ke dalam folder output_figure)

#Create + export barchart (TAXA) Membuat barchart jumlah occurrence per taksa #Create + export barchart (TAXA WITH YEAR) Membuat barchart jumlah occurrence per taksa dari setiap tahun #Create + export barchart (TAXA WITH LOCATION) Membuat barchart jumlah occurrence per taksa dari setiap provinsi #Create + export barchart (TAXA WITH UNIV) Membuat barchart jumlah occurrence per taksa dari setiap universitas

#Create + export barchart (UNIV WITH TAXA) Membuat barchart jumlah occurrence per universitas dari setiap taksa #Create + export barchart (UNIV WITH YEAR) Membuat barchart jumlah occurrence per universitas dari setiap tahun #Create + export barchart (UNIV WITH LOCATION) Membuat barchart jumlah occurrence per universitas dari setiap provinsi

Name		Name	Last commit message	Last commit date
Latest commit History 57 Commits
input_xlsx		input_xlsx
output_csv		output_csv
output_figure		output_figure
.gitignore		.gitignore
00_fileReading.R		00_fileReading.R
01_dateCleaning.R		01_dateCleaning.R
02_coordCleaning.R		02_coordCleaning.R
All Occurrences_19681_14 August.xlsx		All Occurrences_19681_14 August.xlsx
All-Occurrences_19681_7-August-taxonaddOP-taxonaddGBIFSM-edited.csv		All-Occurrences_19681_7-August-taxonaddOP-taxonaddGBIFSM-edited.csv
Biodiverskripsi.Rproj		Biodiverskripsi.Rproj
Dataset GBIF 2000 - 2017.xlsx		Dataset GBIF 2000 - 2017.xlsx
GBIF_Indo.R		GBIF_Indo.R
README.md		README.md
biodiverskripsi.R		biodiverskripsi.R
blank records list.csv		blank records list.csv
diff_table.xlsx		diff_table.xlsx
lookup_table_extractor.R		lookup_table_extractor.R
typo_lookup.xlsx		typo_lookup.xlsx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Analisis Data Biodiverskripsi

Keterangan Skrip

Convert xls & xlsx to csv

Split all csv (Sheet 1)

Split all csv (Sheet 2)

TAKSA CLEANING

PARENTEVENTID CLEANING

EVENTID CLEANING

OCCURRENCEID CLEANING

STATEPROVINCE CLEANING

Merged Sheet 1 & Sheet 2

COUNT TAKSA

COUNT YEAR

COUNT UNIV

SCIENTIFIC NAME DATA CLEANING

Write cleaned data to xlsx

VISUALIZATION

About

Releases

Packages

Contributors 3

Languages

rahmianugraha/biodiverskripsi

Folders and files

Latest commit

History

Repository files navigation

Analisis Data Biodiverskripsi

Keterangan Skrip

Convert xls & xlsx to csv

Split all csv (Sheet 1)

Split all csv (Sheet 2)

TAKSA CLEANING

PARENTEVENTID CLEANING

EVENTID CLEANING

OCCURRENCEID CLEANING

STATEPROVINCE CLEANING

Merged Sheet 1 & Sheet 2

COUNT TAKSA

COUNT YEAR

COUNT UNIV

SCIENTIFIC NAME DATA CLEANING

Write cleaned data to xlsx

VISUALIZATION

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages