In [1]:
# import libraries
import pandas as pd
import camelot

## Get tables from pdf file


In [2]:
url_file = "https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf"


def get_table_from_pdf(
    path_file: str = url_file, method="lattice"):
    # Get the tables in the PDF file
    if path_file.endswith(".pdf"):
        try:
            tables = camelot.read_pdf(filepath=path_file, pages="all", flavor=method)
            tables.export(r'foo.csv', f='csv', compress=True)
            print(f"{path_file} successfully loaded!")
            if len(tables) > 0:
                print(f"{len(tables)} tables extracted")
                return tables
            else:
                raise Exception("No table extracted!")
        except Exception as e:
            print(e)
            print("Try change -method- parameter to 'stream'!")
            # tables = camelot.read_pdf(filepath=url_file, pages="all", flavor="lattice")
    else:
        raise Exception("File is not a PDF")


In [3]:
# set path to pdf file
pdf_file = r"../files/Rapport potablité Eau RADESS 28-02-24.pdf"

tables = get_table_from_pdf(path_file=pdf_file, method="stream")


../files/Rapport potablité Eau RADESS 28-02-24.pdf successfully loaded!
11 tables extracted


## Insight Extracted Tables


In [4]:
def display_tables_info(tables) -> pd.DataFrame:
    assert len(tables) > 0, "No tables Found!"
    table_infos = [
        table.parsing_report | {"n_rows": table.shape[0], "n_cols": table.shape[1]}
        for table in tables
    ]
    return pd.DataFrame(table_infos)


display(display_tables_info(tables))


Unnamed: 0,accuracy,whitespace,order,page,n_rows,n_cols
0,95.43,58.39,1,1,23,7
1,97.62,43.45,2,1,21,8
2,99.61,29.62,1,2,46,8
3,99.5,28.57,1,3,35,8
4,94.93,37.5,2,3,16,2
5,99.72,27.29,1,4,57,9
6,99.84,12.73,1,5,48,9
7,99.85,5.05,1,6,44,9
8,99.84,8.94,1,7,46,9
9,99.74,4.94,1,8,45,9


## View a table as Data Frame


In [5]:
# print the first table as Pandas DataFrame
df_table = tables[0].df
display(df_table.head())


Unnamed: 0,0,1,2,3,4,5,6
0,Code échantillon : 945-01/02,,Référence du client : RADEES 728,,,Date/heure début d'analyse : 29/02/2024 à 08h50,
1,Lieu d’exécution des analyses : LC2A,,"Condition de réception : T°C :5,2°C",,Date d’édition : 04/03/2024,,
2,Référence de la méthode d’échantillonnage:,Volume : 6 litre,,,Conditions spécifiques : 3°C à 8°C,,
3,INSPC/15/V01,,,,,,
4,,,,,,Critères,


## Export tables in csv format into zip file


In [6]:
tables.export(
    r"../outputs/data.csv", f="csv", compress=True
)  # json, excel, html, markdown, sqlite


# Tables Processing

In [33]:
df_table:pd.DataFrame = tables[0].df.copy()
cols = df_table.iloc[6,:]

df_table['date'] = pd.to_datetime(pdf_file[-12:-4])
df_table.set_index('date', inplace=True)
df_table.columns = cols
df_table = df_table.dropna(subset=['Paramètre(s) microbiologiques', 'Résultat'])

df_table

6,Paramètre(s) microbiologiques,Méthode/Version,Résultat,(unité,Unnamed: 5_level_0,microbiologiques,Appréciation
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2024-02-28,Code échantillon : 945-01/02,,Référence du client : RADEES 728,,,Date/heure début d'analyse : 29/02/2024 à 08h50,
2024-02-28,Lieu d’exécution des analyses : LC2A,,"Condition de réception : T°C :5,2°C",,Date d’édition : 04/03/2024,,
2024-02-28,Référence de la méthode d’échantillonnage:,Volume : 6 litre,,,Conditions spécifiques : 3°C à 8°C,,
2024-02-28,INSPC/15/V01,,,,,,
2024-02-28,,,,,,Critères,
2024-02-28,,,,,Incertitude,,
2024-02-28,Paramètre(s) microbiologiques,Méthode/Version,Résultat,(unité,,microbiologiques,Appréciation
2024-02-28,,,,,(%),,
2024-02-28,,,,,,Marocains(1) (VMA),
2024-02-28,Dénombrement de micro-organismes,,,,,,
