# Text and the City - Text Extraction

This notebook demonstrates how to extract the "Inhalt" (content) from PDF files.

Note: This notebook does not cover how to fine-tune a BERT-like model for multi-label classification; for that, please refer to the other provided notebook.

The notebook was executed on a free instance of Google Colab with 12.7 GB RAM, but it can be easily adapted to a regular Jupyter Notebook that can be run anywhere.

## Install dependencies

In [None]:
! pip install pypdf2

Collecting pypdf2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdf2
Successfully installed pypdf2-3.0.1


## Load Data

To access Google Drive documents, grant Google Colab access to your drive.

In this code, we assume that you have a zipped file named `Text and the City - 30.01.2024.zip` containing all the PDFs.

Feel free to change the file name as needed.

In [None]:
from google.colab import drive
import os

drive.mount('/content/drive')

DRIVE_DIR = "/content/drive/MyDrive/"

EXEL_FILE_NAME = "Text and the City - 30.01.2024.zip"

assert EXEL_FILE_NAME in os.listdir(DRIVE_DIR)

Mounted at /content/drive


Extract all PDF files in Google Colab.

In [None]:
import zipfile

zip_file_path = DRIVE_DIR + EXEL_FILE_NAME

extracted_dir = '/content'

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(extracted_dir)

## Extract Data

Extract the text from all PDF files and try to identify a "Begründung" section, starting with "Begründung" and ending with three empty spaces. If this section is not found, the file is skipped.

> NOTE:
>
> This implementation is basic, and there is room for improvement. Consider exploring additional keywords or alternative methods for extracting the relevant section.

In [None]:
from PyPDF2 import PdfReader
import os
import pandas as pd

pdfs_directory = EXEL_FILE_NAME[:-4] + "/"

files_without_reason_section = [] # Begründung
data = []
for file_name in os.listdir(pdfs_directory):
  text = ""
  reader = PdfReader(pdfs_directory + file_name)
  for page in reader.pages:
      text += page.extract_text()
  try:
    content = "Begründung" + text.split("Begründung")[1].split("   ")[0]
    data.append([file_name, content])
  except IndexError:
    files_without_reason_section.append(file_name)
    content = None


df = pd.DataFrame(data, columns=["Name des pdf Dokuments", "Inhalt"])

print("Files without Begründung section: ", files_without_reason_section)

df

Files without Begründung section:  ['21.11 C 1.7 Antrag Umwandlung Stellplaetze Emil-Riedel-Strasse.pdf', 'Beschlussvorlage_Radentscheid_Final.pdf', 'Konkretisierung der Konzeption „Freiraum M 2030“.pdf', 'Beschlussentwurf_Modellquartiere_für_nachhaltige Mobilität.pdf', '23.12 D 1.4 Antrag gemeinnuetziger Kulturraum_geschwaerzt.pdf', 'Beschlussentwurf Beschlussentwurf Erstellung eines Logistikkonzepts.pdf', '23.02 A 1.1 Errichtung Kinderspielplatz Deutingerstr_geschwaerzt.pdf', '22.09 C 1.3 f + D 1.5 BSL Dialog-Displays.pdf', 'Grundsatzbeschluss Afa.pdf', 'Beschlussentwurf Rischard Gelände.pdf', 'Beschlussentwurf Sozialer_Zusammenhalt_Bahnhofsviertel.pdf', 'Beschlussentwurf Autofreie Altstadt - Tal.pdf']


Unnamed: 0,Name des pdf Dokuments,Inhalt
0,Beschlussentwurf Mobilitätsstrategie Teilstrat...,Begründung ausgeführt: „Eine Erhöhung der Mind...
1,23.11 D 1.1 202311 Reinigung Theresienwiese_NA...,Begründung:\nTrotzt intensiver Bemühungen seit...
2,23.10 B 1.1 BA-ANTRAG-Motorland-interfraktione...,Begründung Seit Jahren nimmt ein Motorradlade...
3,23.03. B 1.1 Holzplatz – interim Loesung bis z...,Begründung \n• Die Bürgerbeteiligung zur Umge...
4,Beschlussvorlage_Kanalnetz nutzen zur Wärmegew...,Begründung siehe gesondertes Blatt). \n \n \n...
...,...,...
59,23.07 D 1.1 Antrag_Kuehle_Raeume 2023 Nachtrag...,Begründung \n \nAm 3. Juli 202 3 wurde global...
60,22.09 C 1.9 Antrag Verlaengerung der „Sommerst...,Begründung: In diesem Sommer wurde im Bereich...
61,23.11 B 1.2 Fanfest auf der Theresienwiese.pdf,Begründung:\nDas Groß-Konzert mit bis zu 80.00...
62,23.06 C 1.1 Antrag_Verlaengerung_Erh_Satzung_G...,Begründung \n \nZu 1.: \nDie Erhaltungssatzu...
