![dssg_banner](assets/dssg_banner.png)

## Getting Started

### Optional: Set up Google Colab environment

If you work in your local IDE and installed the packages and requirements on your own machine, you can skip this section and start from the import section.
Otherwise you can follow and execute this notebook in your browser. For this, click on the button below to open this page in the Colab environment.

<a href="https://colab.research.google.com/github/DSSGxMunich/land-sealing-dataset-and-analysis/blob/main/src/2_5_contextual_fuzzy_keyword_search_baunvo_demo.ipynb" target="_parent"> <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Google Colab"/> </a>

Once in Colab, run the cell below to install the packages we will use.
What's important to properly set up the notebook:

1. Warning: This notebook was not authored by Google. Click on 'Run anyway'.
2. When the installation commands are done, there might be "Restart runtime" button at the end of the output. Please, *click* it. 

In [None]:
# %pip install pandas

By running the next cell you are going to create a folder in your Google Drive. All the files for this tutorial will be uploaded to this folder. After the first execution you might receive some warning and notification, please follow these instructions:
1. Permit this notebook to access your Google Drive files? *Click* on 'Yes', and select your account.
2. Google Drive for desktop wants to access your Google Account. *Click* on 'Allow'.

At this point, a folder has been created and you can navigate it through the lefthand panel in Colab, you might also have received an email that informs you about the access on your Google Drive. 

In [None]:
# Create a folder in your Google Drive
# from google.colab import drive                                                                          
# drive.mount('/content/drive')

In [None]:
# Don't run this cell if you already cloned the repo 
# !git clone https://github.com/DSSGxMunich/land-sealing-dataset-and-analysis.git

In [None]:
# %cd land-sealing-dataset-and-analysis

## Imports

In [1]:
import pandas as pd

from features.textual_features.keyword_search.contextual_fuzzy_search import search_df_for_best_matches

pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

## Prerequisites

To run this notebook, you need a file containing the text extracted from building plans, which is to be searched for baunvo keywords (see output of `2_2_pdf_scraper_demo`), or any other input text of your choice. The input file should be saved in an order corresponding to the folder structure you see in the file path below (or adjust the file path).

# Contextual fuzzy keyword search

**Why contextual?** To get surrounding content rather than keyword only.  
**Why fuzzy?** To allow non-exact keyword matching based on a similarity search, e.g. to account for spelling errors or partial extraction from the original PDFs.

## Prepare data

- **Change the folder path** in the code block below to read in the data.
- **Specify the relevant column names.** The function that is used in the following expects the input data frame to have (at least) two columns, i.e., one id and one content column. Here, the columns are called `filename` and `content`. If named differently, change the column names in the code below.

In [2]:
# specify file path
INPUT_FILE_PATH = "../data/nrw/bplan/raw/text/bp_text.csv"

# specify relevant column names
ID_COLUMN='filename'
TEXT_COLUMN='content'

# read in data
input_df = pd.read_csv(INPUT_FILE_PATH, names=[ID_COLUMN, TEXT_COLUMN])

## Apply fuzzy keyword search to keyword of choice and extract the best matches

- Adjust `keyword`
- Adjust `threshold`: minimum similarity score
- Adjust `context_words`: number of words extracted to contextualise keyword

Note: To apply the fuzzy search to multiple keywords at once, `contextual_fuzzy_search_parallelised.py` can be run. Only adjust the file paths and variables in lines 13 to 22. The corresponding dictionary is `keyword_dict_fuzzy` and can easily be adapted if necessary.

In [3]:
KEYWORD='minimale gebäudehöhe'
THRESHOLD=90
CONTEXT_WORDS=15

In [4]:
all_matches = search_df_for_best_matches(input_df=input_df,
                                         id_column_name=ID_COLUMN,
                                         text_column_name=TEXT_COLUMN,
                                         keyword=KEYWORD,
                                         threshold=THRESHOLD,
                                         context_words=CONTEXT_WORDS)

all_matches.head(15)

keyword,minimale gebäudehöhe
id,Unnamed: 1_level_1
2408410_1.pdf,"deshalb ist bei der errichtung eines geneigten daches von 6° bis einschließlich 25° dachneigung eine minimale gebäudehöhe von 6,00 metern und eine maximale gebäudehöhe von 8,00 metern einzuhalten. diese festsetzung ermöglicht besonders ;;; dies ist nicht ziel der städtebaulichen entwicklung. daher wird zusätzlich festgesetzt, dass für pultdächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gilt. 5 durch die zulässigkeit von"
2408419_1.pdf,"zu können. deshalb ist bei der errichtung eines geneigten daches bis einschließlich 25° dachneigung eine minimale gebäudehöhe von 6,00 metern und eine maximale gebäudehöhe von 8,00 metern einzuhalten. diese festsetzung ermöglicht besonders ;;; nicht ziel der städtebaulichen entwicklung. daher wird zusätzlich festgesetzt, dass 6 für einhüftige pultdächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gelten. durch v.g. vorgaben, die zulässigkeit"
2408438_1.pdf,"bei der errichtung eines geneigten daches mit einer dachneigung von 6° bis einschließlich 25° eine minimale gebäudehöhe von 6,00 metern und eine maximale gebäudehöhe von 8,00 metern einzuhalten. diese festsetzung ermöglicht besonders ;;; nicht ziel der städtebaulichen entwicklung. daher wird zusätz lich festgesetzt, dass für einhüftige pultdächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gelten. durch die zulässigkeit von einzel"
2408724_0.pdf,"rahmen erhält. zur erreichung dieser zielsetzung wird zusätzlich festgesetzt, dass für einhüftige pult dächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gelten. der zur ermittlung der höhe"
2408724_8.pdf,"rahmen erhält. zur erreichung dieser zielsetzung wird zusätzlich festgesetzt, dass für einhüftige pult dächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gelten. der zur ermittlung der höhe"
2408729_1.pdf,"zu können. deshalb ist bei der errichtung eines geneigten daches bis einschließlich 25° dachneigung eine minimale gebäudehöhe von 6,00 metern und eine maximale gebäudehöhe von 8,00 metern einzuhalten. diese festsetzung soll der"
2408758_1.pdf,"zu können. deshalb ist bei der errichtung eines geneigten daches bis einschließlich 25° dachneigung eine minimale gebäudehöhe von 6,00 metern und eine maximale gebäudehöhe von 8,00 metern einzuhalten. diese festsetzung ermöglicht besonders"
2408762_1.pdf,"ist nicht ziel der städtebaulichen entwicklung. daher wird zusätzlich festgesetzt, dass für einhüftige pultdächer eine minimale gebäudehöhe von 5,00 metern und eine maximale ge bäudehöhe von 7,00 metern gelten. die überbaubare grundstücksfläche"
2408772_1.pdf,"zur erreichung dieser zielsetzung wird zusätzlich festgesetzt, dass für einhüftige pultdächer sowie für flachdächer eine minimale gebäudehöhe von 5,00 metern und eine maximale von 7,00 metern gelten. der zur ermittlung der v.g"


# Write results to csv

In [6]:
OUTPUT_FILE_PATH = "../data/nrw/bplan/features/keywords/fuzzy_search/fuzzy_search_{KEYWORD}.csv"

all_matches.to_csv(OUTPUT_FILE_PATH, header=True)

The history saving thread hit an unexpected error (OperationalError('database is locked')).History will not be written to the database.
