# Using tabula-py package to convert PDF file to Excel

### tabula-py is a Python wrapper of tabula-java, which can read tables in PDF file. It means that we need to install Java first

### This module extracts tables from a PDF into a pandas DataFrame

In [1]:
# # installing the package
# !pip install tabula-py

In [2]:
# importing the packages
import tabula
import pandas as pd
import numpy as np

In [3]:
# the input (pdf) files path
pdf_path = r"../pdf_files/"

# the output (excel) files path
excel_path = r"../excel_files/"


# the input (pdf) file name
pdf_file_name = "stc-annual-report-2021-new4.pdf"

# the output (excel) file name
excel_file_name = "stc-annual-report-2021-new4.xlsx"

In [4]:
# reading the pdf and determine the page number(66)
df = tabula.read_pdf(f"{pdf_path}{pdf_file_name}", pages=66)
df

[          2020        2021  إيضاح  \
 0   11.185.197  11.594.697    NaN   
 1          NaN         NaN    NaN   
 2          NaN         NaN    NaN   
 3          NaN         NaN    NaN   
 4          NaN         NaN    NaN   
 5          NaN         NaN    NaN   
 6    )568.893(     312.523   27.0   
 7          NaN         NaN    NaN   
 8          NaN         NaN    NaN   
 9        6.379       5.093    NaN   
 10         NaN         NaN    NaN   
 11         NaN         NaN    NaN   
 12         NaN         NaN    NaN   
 13   )562.514(     317.616    NaN   
 14         NaN         NaN    NaN   
 15         NaN         NaN    NaN   
 16         NaN         NaN    NaN   
 17    )16.542(      20.103    NaN   
 18         NaN         NaN    NaN   
 19       1.820           -    NaN   
 20         NaN         NaN    NaN   
 21         NaN         NaN    NaN   
 22      46.152      79.686    NaN   
 23         NaN         NaN    NaN   
 24         NaN         NaN    NaN   
 25      31.

In [5]:
# There are list of two tables
len(df)

2

In [6]:
df[0].head()

Unnamed: 0.1,2020,2021,إيضاح,Unnamed: 0,2020 2021,إيضاح.1,Unnamed: 1
0,11.185.197,11.594.697,,صافي الربح,58.953.318 63.416.977,34.0,إيرادات
1,,,,,)24.998.923( )29.622.948(,35.0,تكلفة الإيرادات
2,,,,,33.954.395 33.794.029,,إجمالي الربح
3,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :),,,
4,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو ...,,,المصاريف التشغيلية


In [7]:
df[1]

Unnamed: 0,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021,قائمة الربح أو الخسارة الموحدة للسنة المنتهية في 31 ديسمبر 2021
0,(جميع المبالغ بآلاف الريالات السعودية - مالم ي...,(جميع المبالغ بآلاف الريالات السعودية – مالم ي...


#### so the original table in pages(130, 131) divided and putted side by side in the two pages( 131(the page to the left), 130(the page to the right) )to fit to the page size

In [8]:
# returning the original table by slitting the left and the right sides and put them under each other

# the right half portion
t1 = df[0].iloc[:,4:]

# the left half portion
t2 = df[0].iloc[:,:4]

t2.head(7)

Unnamed: 0.1,2020,2021,إيضاح,Unnamed: 0
0,11.185.197,11.594.697,,صافي الربح
1,,,,
2,,,,
3,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :)
4,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو ...
5,,,,
6,)568.893(,312.523,27.0,إعادة قياس مخصص مكافأة نهاية الخدمة


#### i noticed that df[1] is just the column name of the most right column

In [9]:
# modify the most right column name 
t2.columns = list(t2.columns[:-1])+[(df[1].columns[0]+"\n"+df[1].iloc[0,0])]

# t2

In [10]:
# display t1
t1.style.set_properties(**{'width': '300px'})

Unnamed: 0,2020 2021,إيضاح.1,Unnamed: 1
0,58.953.318 63.416.977,34,إيرادات
1,)24.998.923( )29.622.948(,35,تكلفة الإيرادات
2,33.954.395 33.794.029,,إجمالي الربح
3,,,
4,,,المصاريف التشغيلية
5,)6.053.632( )5.463.336(,36,بيعية وتسويقية
6,,,
7,)5.810.763( )5.490.093(,37,عمومية وإدارية
8,,,
9,)9.358.875( )9.712.845(,12،11،9,استهلاك وإطفاء وانخفاض في القيمة


In [11]:
# display t2
t2.style.set_properties(**{'width': '300px'})

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021 (جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
0,11.185.197,11.594.697,,صافي الربح
1,,,,
2,,,,
3,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :)
4,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو الخسارة الموحدة:
5,,,,
6,)568.893(,312.523,27.0,إعادة قياس مخصص مكافأة نهاية الخدمة
7,,,,
8,,,,صافي الحصة من بنود الدخل الشامل الاخر للشركات الزميلة
9,6.379,5.093,,


In [12]:
# split the data from the first column return it to it's origin t1_temp

l1, l2 = [], []

for i in (t1.iloc[:,0].str.split()):
    if (i is np.nan):
        l1 +=[np.nan]
        l2 +=[np.nan] 
    else:
        l1_temp = i[0].replace("(", "").replace(")", "").strip()
        l2_temp = i[1].replace("(", "").replace(")", "").strip()
        
        if i[0][-3]==".":
            l1 += float(l1_temp)
            l2 += float(l2_temp) 
        else:
            l1 += [int(l1_temp.replace(".", "_"))]
            l2 += [int(l2_temp.replace(".", "_"))]                             
        
t1_temp = pd.DataFrame({"2020":l1, "2021":l2})
t1_temp.head(23)

Unnamed: 0,2020,2021
0,58953318.0,63416977.0
1,24998923.0,29622948.0
2,33954395.0,33794029.0
3,,
4,,
5,6053632.0,5463336.0
6,,
7,5810763.0,5490093.0
8,,
9,9358875.0,9712845.0


In [13]:
# replace the distorted column with the two correct columns

# drop the distorted column
t1_droped = t1.drop(t1.iloc[:,0].name, axis=1)

# concat the fixed columns to the table 
t1_corrected = pd.concat([t1_temp, t1_droped], axis=1)

# correct the column names
t1_corrected.columns = t2.columns

# display the resultant table
t1_corrected.head(13)

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
0,58953318.0,63416977.0,34,إيرادات
1,24998923.0,29622948.0,35,تكلفة الإيرادات
2,33954395.0,33794029.0,,إجمالي الربح
3,,,,
4,,,,المصاريف التشغيلية
5,6053632.0,5463336.0,36,بيعية وتسويقية
6,,,,
7,5810763.0,5490093.0,37,عمومية وإدارية
8,,,,
9,9358875.0,9712845.0,12،11،9,استهلاك وإطفاء وانخفاض في القيمة


In [14]:
t1_corrected.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 4 columns):
 #   Column                                                                                                                    Non-Null Count  Dtype  
---  ------                                                                                                                    --------------  -----  
 0   2020                                                                                                                      21 non-null     float64
 1   2021                                                                                                                      21 non-null     float64
 2   إيضاح                                                                                                                     11 non-null     object 
 3   قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021
(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)  23 non-null     

In [15]:
# 
t1_corrected.dtypes

2020                                                                                                                         float64
2021                                                                                                                         float64
إيضاح                                                                                                                         object
قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)     object
dtype: object

In [16]:
t2.dtypes

2020                                                                                                                          object
2021                                                                                                                          object
إيضاح                                                                                                                        float64
قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)     object
dtype: object

In [17]:
# the comming list comprehension doesn't do more than converting the two columns("2020", "2021") to numeric columns, by removing [")","(","."]
t2["2020"] = [np.nan if i is np.nan else float(i.replace("(", "").replace(")", "").strip()) if (str(i)[-3]==".") else int(i.replace("(", "").replace(")", "").strip().replace(".", "_")) for i in t2["2020"]]
t2["2021"] = [np.nan if (i is np.nan) | (i=='-') else float(i.replace("(", "").replace(")", "").strip()) if (str(i)[-3]==".") else int(i.replace("(", "").replace(")", "").strip().replace(".", "_")) for i in t2["2021"]]

t2.head(37)

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
0,11185197.0,11594697.0,,صافي الربح
1,,,,
2,,,,
3,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :)
4,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو ...
5,,,,
6,568893.0,312523.0,27.0,إعادة قياس مخصص مكافأة نهاية الخدمة
7,,,,
8,,,,صافي الحصة من بنود الدخل الشامل الاخر للشركات ...
9,6379.0,5093.0,,


In [18]:
# stacking the two divisions
t = pd.concat([t1_corrected, t2], ignore_index=True)

t

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
0,58953318.0,63416977.0,34,إيرادات
1,24998923.0,29622948.0,35,تكلفة الإيرادات
2,33954395.0,33794029.0,,إجمالي الربح
3,,,,
4,,,,المصاريف التشغيلية
...,...,...,...,...
73,175658.0,294613.0,,حقوق الملكية غير المسيطرة
74,10654113.0,12012102.0,,
75,,,,
76,,,,


In [19]:
t.dtypes

2020                                                                                                                         float64
2021                                                                                                                         float64
إيضاح                                                                                                                         object
قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)     object
dtype: object

In [20]:
t.iloc[40:60,:].style.set_properties(subset=['قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)'],**{'width': '500px'})

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021 (جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
40,,,,
41,,,,
42,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :)
43,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو الخسارة الموحدة:
44,,,,
45,568893.0,312523.0,27.0,إعادة قياس مخصص مكافأة نهاية الخدمة
46,,,,
47,,,,صافي الحصة من بنود الدخل الشامل الاخر للشركات الزميلة
48,6379.0,5093.0,,
49,,,,والمشاريع المشتركة


In [22]:
t.columns[3]

'قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر  2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)'

In [None]:
def (org, dst):
    """ this function to fix the distoted rows and return the origin
    """
    if t[]
    

In [173]:
# Save the dataFrame as an excel file in the excel_path folder under the name of excel_file_name
t.to_excel(f"{excel_path}{excel_file_name}", index=False)

### now let's show the resulted excel file

In [178]:
# read and show the excel file data
excel_data = pd.read_excel(excel_path+excel_file_name)
excel_data

Unnamed: 0,2020,2021,إيضاح,قائمة الدخل الشامل الموحدة للسنة المنتهية في 31 ديسمبر 2021\n(جميع المبالغ بآلاف الريالات السعودية - مالم يذكر خلاف ذلك)
0,11.185.197,11.594.697,,صافي الربح
1,,,,
2,,,,
3,,,,الدخل الشامل الآخر (الخسارة الشاملة الُأخرى :)
4,,,,بنود لن يعاد تصنيفها لاحقا إلى قائمة الربح أو ...
5,,,,
6,)568.893(,312.523,27.0,إعادة قياس مخصص مكافأة نهاية الخدمة
7,,,,
8,,,,صافي الحصة من بنود الدخل الشامل الاخر للشركات ...
9,6.379,5.093,,


## this work done by Ahmed Salama at june-2022
salama4ai@gmail.com

```github.com/salama4ai```

```linkedin.com/in/salama4ai```
