## Convert File PDF to Excel or CSV

Seringkali ketika kita sedang mencari data dan ketika kita sudah menemukannya, data yang kita butuhkan tersebut ternyata  berada dalam format yang tidak kita inginkan. Sebagai contoh seringkali kita temui data-data yang dipublish secara umum oleh suatu perusahaan memiliki tipe file pdf yang mana format tersebut sulit untuk dianalisis, terutama mengenai data berformat tabel yang umumnya turut dilampirkan didalamnya. Oleh sebab itu, kali ini saya mencoba untuk mengubah sebuah tabel yang ada di dalam sebuah pdf ke dalam format csv atau excel agar mudah diolah dan dianalisis. <br>
Hal pertama yang perlu dilakukan adalah mengunduh modul yang diperlukan, yaitu:
* Tabula Documentation : https://tabula-py.readthedocs.io/en/latest/

#Jika belum install, dapat instal melalui metode pip
!pip install tabula-py

In [34]:
#import library yang dibutuhkan
import os
import tabula
import pandas as pd
from PIL import Image

In [5]:
#folder yang berisi data
path = 'caf_wgi/caf_wgi_10th_edition_report_2712a_web_101019.pdf'

File pdf ini didapat dari situs <a href='https://www.cafonline.org/about-us/publications/2019-publications/caf-world-giving-index-10th-edition'>cafonline.org</a>. Tidak semua berkas di dalam pdf tersebut dapat diconvert menjadi excel atau csv, hanya halaman yang berbentuk tabel saja yang bisa. di laporan tersebut tabel laporan keseluruhannya terdapat pada halaman 23 hingga 25. Oleh karena itu proses convert data dari pdf ke excel atau csv kali ini hanya berfokus pada halaman tersebut. Berikut sedikit tampilan tabelnya:<br><br>
<img src="caf_wgi/caf_wgi.jpg"></img>

In [7]:
#Buat tiga list kosong untuk diisi dataframe tiap halaman
#ketika membaca pdf dalam satu halaman terbagi menjadi empat bagian(lihat di baris selanjutnya)
#oleh karena itu perlu disatukan dalam sebuah list yang nantinya digabung menggunakan fungsi append()
data1 = []
data2 = []
data3 = []
for i in range(4):
    page_23 = tabula.read_pdf(path, pages = 23, lattice = True, multiple_tables=True)[i]
    page_24 = tabula.read_pdf(path, pages = 24, lattice = True, multiple_tables=True)[i]
    page_25 = tabula.read_pdf(path, pages = 25, lattice = True, multiple_tables=True)[i]
    data1.append(page_23)
    data2.append(page_24)
    data3.append(page_25)


In [9]:
#contoh membaca sebuah halaman 23, hanya menampilkan 2 kolom
page_23.head()

Unnamed: 0,Ranking,Score
0,5,42%
1,3,43%
2,6,41%
3,12,37%
4,10,38%


In [14]:
#data1 masih berupa list, maka ketika dibuka tampilannya seperti di bawah
data1

[                      Country  Ranking Score
 0   United States of\rAmerica        1   58%
 1                     Myanmar        2   58%
 2                 New Zealand        3   57%
 3                   Australia        4   56%
 4                     Ireland        5   56%
 5                      Canada        6   55%
 6              United Kingdom        7   54%
 7                 Netherlands        8   53%
 8                   Sri Lanka        9   51%
 9                   Indonesia       10   50%
 10                      Kenya       11   47%
 11                      Malta       12   47%
 12                Switzerland       13   45%
 13       United Arab Emirates       14   45%
 14                    Austria       15   45%
 15                    Denmark       16   44%
 16                    Liberia       17   44%
 17                    Germany       18   43%
 18               Turkmenistan       19   43%
 19               Sierra Leone       20   42%
 20                   Thailand    

In [15]:
#data1, data2, dan data3 berisi masing-masing empat list, maka perlu digabung dengan fungsi concat dengan axis=1 
df1 = pd.concat(data1, axis=1)
df2 = pd.concat(data2, axis=1)
df3 = pd.concat(data3, axis=1)

In [16]:
#sekarang df1, df2, atau df3 telah menjadi dataframe secara utuh
df1.head()

Unnamed: 0,Country,Ranking,Score,Ranking.1,Score.1,Ranking.2,Score.2,Ranking.3,Score.3
0,United States of\rAmerica,1,58%,3,72%,11,61%,5,42%
1,Myanmar,2,58%,49,49%,1,81%,3,43%
2,New Zealand,3,57%,10,64%,9,65%,6,41%
3,Australia,4,56%,11,64%,8,68%,12,37%
4,Ireland,5,56%,16,62%,7,69%,10,38%


In [18]:
#Berdasarkan Dataframe di atas, terdapat kolom dengan nama yang sama namun isi yang berbeda
#Ubah nama setiap kolom dengan menambahkan angka berbeda 
#mengubah kolom Ranking pada df1
cols = []
count = 1
for column in df1.columns:
    if column == 'Ranking':
        cols.append(f'Ranking_{count}')
        count+=1
        continue
    cols.append(column)
df1.columns = cols

#lakukan hal yang sama untuk kolom Score pada df1
cols = []
count = 1
for column in df1.columns:
    if column == 'Score':
        cols.append(f'Score_{count}')
        count+=1
        continue
    cols.append(column)
df1.columns = cols

#lakukan persamaan sederhana untuk df2 dan df3
df2.columns = df1.columns
df3.columns = df1.columns

In [19]:
#setelah setiap nama kolom berbeda, tiap dataframe sudah bisa digabung menjadi satu
df= pd.concat([df1,df2,df3], axis=0).reset_index(drop=True)

In [20]:
#cek dataframe
df.head()

Unnamed: 0,Country,Ranking_1,Score_1,Ranking_2,Score_2,Ranking_3,Score_3,Ranking_4,Score_4
0,United States of\rAmerica,1,58%,3,72%,11,61%,5,42%
1,Myanmar,2,58%,49,49%,1,81%,3,43%
2,New Zealand,3,57%,10,64%,9,65%,6,41%
3,Australia,4,56%,11,64%,8,68%,12,37%
4,Ireland,5,56%,16,62%,7,69%,10,38%


In [21]:
#cek baris dan kolom
df.shape

(128, 9)

In [24]:
#cek seandainya ada kolom yang kosong serta tipe data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Country    128 non-null    object
 1   Ranking_1  128 non-null    int64 
 2   Score_1    128 non-null    object
 3   Ranking_2  128 non-null    int64 
 4   Score_2    128 non-null    object
 5   Ranking_3  128 non-null    int64 
 6   Score_3    128 non-null    object
 7   Ranking_4  128 non-null    int64 
 8   Score_4    128 non-null    object
dtypes: int64(4), object(5)
memory usage: 9.1+ KB


Langkah selanjutnya adalah mengubah value pada kolom score_1, score_2, score_3, dan score_4. Pada kolom tersebut masih berupa
tipe data object serta setiap angkanya disertai character persen '%'. Hal yang akan dilakukan adalah menghilangkan karakter
tersebut. setelah itu karena kolom tersebut adalah persentase nilai maka setiap kolom perlu diubah menjadi tipe data integer lalu dibagi 100 agar menjadi tipe data float dengan format (0.00). 

In [22]:
#menghilangkan character persen '%'
df = df.replace('%','', regex=True)

In [24]:
#cek dataframe
df.head()

Unnamed: 0,Country,Ranking_1,Score_1,Ranking_2,Score_2,Ranking_3,Score_3,Ranking_4,Score_4
0,United States of\rAmerica,1,58,3,72,11,61,5,42
1,Myanmar,2,58,49,49,1,81,3,43
2,New Zealand,3,57,10,64,9,65,6,41
3,Australia,4,56,11,64,8,68,12,37
4,Ireland,5,56,16,62,7,69,10,38


In [25]:
# setiap kolom score_1, score_2, score_3, dan score_4 diubah mmenjadi integer, lalu dibagi 100
df[['Score_1','Score_2','Score_3','Score_4']] = df[['Score_1','Score_2','Score_3','Score_4']].apply(pd.to_numeric)/100

In [26]:
#cek dataframe
df.head()

Unnamed: 0,Country,Ranking_1,Score_1,Ranking_2,Score_2,Ranking_3,Score_3,Ranking_4,Score_4
0,United States of\rAmerica,1,0.58,3,0.72,11,0.61,5,0.42
1,Myanmar,2,0.58,49,0.49,1,0.81,3,0.43
2,New Zealand,3,0.57,10,0.64,9,0.65,6,0.41
3,Australia,4,0.56,11,0.64,8,0.68,12,0.37
4,Ireland,5,0.56,16,0.62,7,0.69,10,0.38


In [27]:
#pada kolom Country index ke-1, nilai USA terdapat character '\r'
#hapus character tersebut
df['Country'] = df['Country'].str.replace('\r',' ')

In [29]:
#cek kembali dataframe
#cek sering dilakukan sebagai contoh perubahan setiap tahapnya
df.head()

Unnamed: 0,Country,Ranking_1,Score_1,Ranking_2,Score_2,Ranking_3,Score_3,Ranking_4,Score_4
0,United States of America,1,0.58,3,0.72,11,0.61,5,0.42
1,Myanmar,2,0.58,49,0.49,1,0.81,3,0.43
2,New Zealand,3,0.57,10,0.64,9,0.65,6,0.41
3,Australia,4,0.56,11,0.64,8,0.68,12,0.37
4,Ireland,5,0.56,16,0.62,7,0.69,10,0.38


In [30]:
#mengubah semua nama kolom dengan nama yang lebih mudah
df.columns = ['Negara', 'agg_rank','agg_score','help_rank','help_score','give_rank','give_score','volunteer_rank','volunteer_score']
df.head()

Unnamed: 0,Negara,agg_rank,agg_score,help_rank,help_score,give_rank,give_score,volunteer_rank,volunteer_score
0,United States of America,1,0.58,3,0.72,11,0.61,5,0.42
1,Myanmar,2,0.58,49,0.49,1,0.81,3,0.43
2,New Zealand,3,0.57,10,0.64,9,0.65,6,0.41
3,Australia,4,0.56,11,0.64,8,0.68,12,0.37
4,Ireland,5,0.56,16,0.62,7,0.69,10,0.38


Jika dirasa data sudah baik, dapat disave ke dalam file excel atau csv dengan fungsi to_excel dan to_csv. Tentu selain kedua fungsi tersebut juga dapat menggunakan fungsi yang lain namun kedua file tersebut merupakan yang paling umum digunakan.

In [31]:
#convert DataFrame to excel
df.to_excel('caf_wgi/caf_wgi.xlsx', index=None) # tidak mengimpan index dari dataframe tersebut

In [32]:
#convert DataFrame to csv
df.to_csv('caf_wgi/caf_wgi.csv', index=None) # tidak mengimpan index dari dataframe tersebut

In [35]:
#memastikan file yang sudah diconvert ada di file directory yang diinginkan
os.listdir('caf_wgi')

['caf_wgi.csv',
 'caf_wgi.jpg',
 'caf_wgi.xlsx',
 'caf_wgi_10th_edition_report_2712a_web_101019.docx',
 'caf_wgi_10th_edition_report_2712a_web_101019.pdf']