# Data Collection
Permasalahan yang sering ditemui saat ingin mencari data adalah data tersebut berbentuk pdf dimana tidak jarang memaksa kita untuk input data secara manual. Hal ini tentu membutuhkan banyak waktu dan tenaga. Oleh karena itu akan di bagikan cara menconvert data dari pdf ke dalam format excel dan documents.

## Connect Gdrive kedalam Colab
Pada tutorial telah dijelaskan bagaimana step by step mengkoneksikan gdrive kedalam collab.
Apabila mengalami kesulitan pada tahap ini, mohon dibaca "PANDUAN MENGGUNAKAN GOOGLE COLABORATORY" secara seksama

In [None]:
# Mengakses google drive ke dalam google colaboratory
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


## Import Packages/Library
Dalam turorial ini, anda akan diajarkan untuk convert data dengan library yang terdapat dalam python. 
- Tabula Documentation : https://tabula-py.readthedocs.io/en/latest/
- pdf2docx converter Documentation : https://dothinking.github.io/pdf2docx/quickstart.convert.html

Akan tetapi ke-2 library yang akan digunakan bukan merupakan bawaan notebook, oleh karena itu diperlukan install library secara independent. Berikut caranya

In [None]:
# Install library tabula untuk convert pdf to excel (read tables in pdf into DataFrame)
!pip install tabula-py



In [None]:
# Install library pdf2docx untuk convert pdf to document
!pip install pdf2docx



In [None]:
# Import Packages/Library
import os
import tabula
from pdf2docx import Converter

In [None]:
# Inisiasi directory tempat data akan dibaca dan disimpan
path = "gdrive/MyDrive/Mini Course/DATA/" #silahkan masukkan path sesuai dengan letak data di drive masing-masing

In [None]:
# Cek directory untuk memastikan data tersimpan di dalamnya
os.listdir(path)

['Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf']

## Convert Pdf to .xlsx and .csv format
Dalam mengconvert file pdf kedalam excel kita akan menggunakan module tabula. Ada beberapa argument yang ditambahkan untuk membantu mengatur spesifikasi output yang diharapkan.

In [None]:
# Read PDf file
df = tabula.read_pdf(path + 'Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf', pages = 1, lattice = True, multiple_tables=True)[0]

Got stderr: May 24, 2021 1:34:36 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>
May 24, 2021 1:34:36 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>



In [None]:
# Menampilkan 5 data teratas dari file
df.head()

Unnamed: 0.1,Kabupaten/Kota\rRegency/Municipality,2018,Unnamed: 0
0,,Pendapatan\rRevenues,Belanja\rExpenditures
1,(1),(2),(3)
2,Kabupaten/Regency,,
3,Pacitan,"1 615 114 387 846,00","1 665 549 144 945,82"
4,Ponorogo,"2 280 253 624 958,67","2 322 805 767 564,09"


Perhatikan table diatas, dalam penamaan nama kolom, formatnya masih kurang rapi, selain itu ada kolom-kolom yang masuk ke dalam baris.

In [None]:
# Cleaning data
df_clean = df.iloc[3:].reset_index(drop=True) #mengambil data dari baris index ke-3, dan mereset index agar mulai dari 0

df_clean.columns = [df.columns[0],df['2018'][0],df['Unnamed: 0'][0]] #rename nama kolom

In [None]:
# Menampilkan 5 data teratas dari file
df_clean.head()

Unnamed: 0,Kabupaten/Kota\rRegency/Municipality,Pendapatan\rRevenues,Belanja\rExpenditures
0,Pacitan,"1 615 114 387 846,00","1 665 549 144 945,82"
1,Ponorogo,"2 280 253 624 958,67","2 322 805 767 564,09"
2,Trenggalek,"1 783 656 956 465,47","1 946 046 774 834,78"
3,Tulungagung,"2 584 915 681 735,77","2 800 598 386 012,13"
4,Blitar,"2 361 756 636 564,51","2 456 663 058 142,18"


In [None]:
# Cleaning data columns
df_clean.columns = df_clean.columns.str.replace('\r', '/') # Mengganti "\r" menjadi spasi
df_clean

Unnamed: 0,Kabupaten/Kota/Regency/Municipality,Pendapatan/Revenues,Belanja/Expenditures
0,Pacitan,"1 615 114 387 846,00","1 665 549 144 945,82"
1,Ponorogo,"2 280 253 624 958,67","2 322 805 767 564,09"
2,Trenggalek,"1 783 656 956 465,47","1 946 046 774 834,78"
3,Tulungagung,"2 584 915 681 735,77","2 800 598 386 012,13"
4,Blitar,"2 361 756 636 564,51","2 456 663 058 142,18"
5,Kediri,"2 722 803 932 568,56","3 149 740 395 312,47"
6,Malang,"3 800 114 750 714,82","4 050 668 474 662,23"
7,Lumajang,"2 094 116 512 299,30","2 256 619 621 618,47"
8,Jember,"3 601 294 429 685,50","4 163 624 940 931,97"
9,Banyuwangi,"3 112 910 584 037,82","2 932 152 201 493,82"


In [None]:
#Cleaning Data Content
df_clean = df_clean.drop(labels=29, axis=0) #hapus baris index ke-29
df_clean['Pendapatan/Revenues'] =  df_clean['Pendapatan/Revenues'].str.replace(" ", "").str.replace(",", ".") #hapus spasi dan ubah tanda koma menjadi titik
df_clean['Belanja/Expenditures'] =  df_clean['Belanja/Expenditures'].str.replace(" ", "").str.replace(",", ".") #hapus spasi dan ubah tanda koma menjadi titik

In [None]:
#Cek Tipe Data
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 39 entries, 0 to 39
Data columns (total 3 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Kabupaten/Kota/Regency/Municipality  39 non-null     object 
 1   Pendapatan/Revenues                  39 non-null     float64
 2   Belanja/Expenditures                 39 non-null     float64
dtypes: float64(2), object(1)
memory usage: 1.2+ KB


In [None]:
df_clean['Pendapatan/Revenues'] = df_clean['Pendapatan/Revenues'].astype(float)
df_clean['Belanja/Expenditures'] = df_clean['Belanja/Expenditures'].astype(float)

In [None]:
df_clean.head()

Unnamed: 0,Kabupaten/Kota/Regency/Municipality,Pendapatan/Revenues,Belanja/Expenditures
0,Pacitan,1615114000000.0,1665549000000.0
1,Ponorogo,2280254000000.0,2322806000000.0
2,Trenggalek,1783657000000.0,1946047000000.0
3,Tulungagung,2584916000000.0,2800598000000.0
4,Blitar,2361757000000.0,2456663000000.0


Sekarang anda telah mendapatkan kolom dengan pattern yang mudah dibaca. Berikut akan di contohkan cara menyimpan data kedalam format .xlsx dan .csv.

In [None]:
#convert DataFrame to .xlsx
df_clean.to_excel(path + 'convert_excel.xlsx', index=None) # tidak mengimpan index dari dataframe tersebut

In [None]:
#convert DataFrame to .csv
df_clean.to_csv(path + 'convert_csv.csv', index=None) # tidak mengimpan index dari dataframe tersebut

Anda telah berhasil mengcovert pdf kedalam format .xlsx dan .csv. Selanjutnya anda dapat melihat data pada drive anda.

## Convert Pdf to Docx
Dalam mengconvert file pdf kedalam document file kita akan menggunakan module pdf2docx. Untuk lebih jelasnya perhatikan code dibawah ini.

In [None]:
# Pilih directory tempat file pdf tersimpan
pdf_file = path + 'Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf'

# Pilih directory tempat data docx akan tersimpan, dan masukkan nama file untuk file document
docx_file = path + 'Provinsi Jawa Timur Dalam Angka 2020-pages-85.docx' # nama file bisa diganti

# Convert pdf to docx
cv = Converter(pdf_file)

# Proses pdf dan pilih halaman yang akan di convert
cv.convert(docx_file, start=0, end=None) #convert pdf halaman pertama
cv.close()

Parsing Page 1: 1/1...Ignore Line "Table2.4.3 Realisasi Pendapatan dan Belanja Pemerintah Provinsi" due to overlap
Ignore Line "Menurut Kabupaten/Kota di Provinsi Jawa Timur, 2018 dan" due to overlap

Creating Page 1: 1/1...
--------------------------------------------------
Terminated in 1.8176787410011457s.


Anda telah berhasil mengconvert pdf kedalam 2 format file yang berbeda. Untuk memastikan data sudah tersimpan, cek kembali data dalam directory anda.
> *membutuhkan sedikit waktu untuk save data ke dalam drive*

In [None]:
os.listdir(path)

['Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf',
 'Provinsi Jawa Timur Dalam Angka 2020-pages-85.docx']