In [None]:
!pip install pdfplumber pandas

In [1]:
import os
import re
import pandas as pd
import pdfplumber

folder_path = 'pdfs_temp_tjsc'
dataframes = []

def clean_date(date_str, year_from_file):
    # Implement date cleaning logic here if needed
    # For now, just ensuring it's treated as a string or converting format if specific issues arise
    return date_str

files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]
print(f'Found {len(files)} PDF files.')

for filename in files:
    filepath = os.path.join(folder_path, filename)
    
    # Extract year from filename (e.g., 2020_doc_20.pdf -> 2020)
    match = re.search(r'^(\d{4})', filename)
    file_year = match.group(1) if match else None
    
    try:
        with pdfplumber.open(filepath) as pdf:
            for page in pdf.pages:
                table = page.extract_table()
                if table:
                    # Assuming first row is header
                    headers = table[0]
                    rows = table[1:]
                    
                    df_temp = pd.DataFrame(rows, columns=headers)
                    
                    # Add Year column from filename
                    if file_year:
                        df_temp['Ano_Arquivo'] = file_year
                    
                    dataframes.append(df_temp)
    except Exception as e:
        print(f"Error processing {filename}: {e}")

if dataframes:
    final_df = pd.concat(dataframes, ignore_index=True)
    
    # Basic cleanup: remove empty rows or columns if necessary
    # final_df.dropna(how='all', inplace=True)
    
    # Show first few rows
    print("Extraction complete. Preview:")
    display(final_df.head())
    
    # Export to CSV (optional)
    final_df.to_csv('tabela_consolidada.csv', index=False)
    print("Saved to tabela_consolidada.csv")
else:
    print("No tables extracted.")

Found 32 PDF files.
Extraction complete. Preview:


Unnamed: 0,ESCALA PARA O MÊS DE JANEIRO DE 2020,Ano_Arquivo,ESCALA PARA O MÊS DE FEVEREIRO DE 2020,ESCALA PARA O MÊS DE MARÇO DE 2020,ESCALA PARA O MÊS DE ABRIL DE 2020,ESCALA PARA O MÊS DE MAIO DE 2020,ESCALA PARA O MÊS DE JUNHO DE 2020,ESCALA PARA O MÊS DE JULHO DE 2020,ESCALA PARA O MÊS DE AGOSTO DE 2020,ESCALA PARA O MÊS DE SETEMBRO DE 2020,...,ESCALA PARA O MÊS DE JANEIRO DE 2021,ESCALA PARA O MÊS DE FEVEREIRO DE 2021,ESCALA PARA O MÊS DE JANEIRO DE 2022,ESCALA PARA O MÊS DE FEVEREIRO DE 2022,ESCALA PARA O MÊS DE MARÇO DE 2022,ESCALA PARA O MÊS DE ABRIL DE 2022,ESCALA PARA O MÊS DE MAIO DE 2022,ESCALA PARA O MÊS DE JUNHO DE 2022,ESCALA PARA O MÊS DE JULHO DE 2022,ESCALA PARA O MÊS DE AGOSTO DE 2022
0,De 8/1 às 19:01 horas a 15/1 às 8:59 horas – D...,2020,,,,,,,,,...,,,,,,,,,,
1,De 15/1 às 19:01 horas a 22/1 às 8:59 horas – ...,2020,,,,,,,,,...,,,,,,,,,,
2,De 22/1 às 19:01 horas a 29/1 às 8:59 horas – ...,2020,,,,,,,,,...,,,,,,,,,,
3,De 29/1 às 19:01 horas a 5/2 às 8:59 horas – D...,2020,,,,,,,,,...,,,,,,,,,,
4,,2020,De 5/2 às 19:01 horas a 12/2 às 8:59 horas – D...,,,,,,,,...,,,,,,,,,,


Saved to tabela_consolidada.csv
