# Datapreparation

In this Notebook we will restructure the scraped Data and add some additional informations.

## Imports and Setups


In [1]:
import re
import json
import os
import configparser
from datetime import datetime
import pandas as pd
import numpy as np
from geopy.geocoders import Nominatim
from geopy.distance import geodesic
import googlemaps
import nltk
from nltk.sentiment import SentimentIntensityAnalyzer
from deep_translator import GoogleTranslator


# setting up Nominatim and Google Maps API
geolocator = Nominatim(user_agent="my_app_4s3d54165")

config = configparser.ConfigParser()
config.read('../local.ini')
gmaps_key = config['googlemaps']['key'].strip()
gmaps = googlemaps.Client(key=gmaps_key)

# Download VADER lexicon if not already downloaded
nltk.download('vader_lexicon')
sia = SentimentIntensityAnalyzer()

# Translation
translator = GoogleTranslator(source='auto', target='en')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\julia\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


## Loading the scraped Data 


In [2]:
# Read JSON data into a variable
json_data = open('../data/scraped/appart_info.json', encoding='utf-8').read()
# Parse JSON into a Python dictionary
data = json.loads(json_data)
# Create DataFrame from the JSON data
scraped_data = pd.DataFrame.from_dict(data, orient='index')
scraped_data

Unnamed: 0,WG_Size,Total_People,w,m,d,Title,Size,Rent,Extra_Costs,Other_Costs,...,Baujahr 1974,entfällt die Pflicht. Für denkmalgeschützte Häuser und Gebäude mit weniger als 50 Quadratmetern Nutzfläche ist kein Energieausweis nötig.Baujahr 2022,Baujahr 1955,Baujahr 1972,Flatrate\n 50-100 Mbit/s,entfällt die Pflicht. Für denkmalgeschützte Häuser und Gebäude mit weniger als 50 Quadratmetern Nutzfläche ist kein Energieausweis nötig.Erdgas leicht,entfällt die Pflicht. Für denkmalgeschützte Häuser und Gebäude mit weniger als 50 Quadratmetern Nutzfläche ist kein Energieausweis nötig.Energieeffizienzklasse\n A+,Baujahr 1952,entfällt die Pflicht. Für denkmalgeschützte Häuser und Gebäude mit weniger als 50 Quadratmetern Nutzfläche ist kein Energieausweis nötig.Holzpellets,Baujahr 1964
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11109349.html,2,1,1,0,0,WG Zimmer Köln Nippes,17m²,393€,80€,n.a.,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Neustadt-Sued.11109335.html,2,1,1,0,0,schönes WG Zimmer in der Südstadt Köln von 01....,12m²,600€,n.a.,n.a.,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11096157.html,2,1,0,1,0,möbliertes WG Zimmer zur Zwischenmiete,20m²,800€,0€,n.a.,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11109295.html,5,2,2,0,0,28qm in 5er WG mit Garten,28m²,720€,100€,n.a.,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.10159188.html,3,2,2,0,0,TEMPORARY -Quiet flat share room in old buildi...,12m²,500€,n.a.,n.a.,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,2,0,0,0,0,Große Wohnung in Köln Ehrenfeld,60m²,850€,150€,0€,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,4,3,2,1,0,befristets Schönes Wohnliches Zimmer,17m²,680€,50€,n.a.,...,,,,,,,,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,2,1,0,1,0,"Gästezimmer für eine Person, Nähe Messe-Deutz,...",10m²,40€,0€,0€,...,,,,,,,,,1.0,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,3,2,2,0,0,Wg Zimmer in Köln-Ehrenfeld (Zwischenmiete 25....,23m²,490€,70€,n.a.,...,,,,,,,,,,


## Combining data into new columns
In total, the data set contains 1027 WG entries. Due to the large number of possible details, there are 235 different columns. A large part of the columns are empty. But, you can combine many columns so that, for example, the floor is in a single column and not in several. This will be done in the next section. 

### Construction Year
There a two possibilities to get the construction year. Sometimes there is an extra Icon with the construction year. In other cases there is some information about energieefficiency. In this icon ther is often also information about the construction year. 

In [3]:
# Creating a new combined_data Dataframe
combined_data = scraped_data.copy()

# Neue Spalte 'Baujahr' hinzufügen
if 'Construction_Year' not in combined_data.columns:
    combined_data['Construction_Year'] = np.nan


for col in combined_data.columns:
    # Construction_Year from an Icon
    if col.startswith("Baujahr"):
        split_col = col.split(' ')
        if len(split_col) >= 2:
            year = split_col[1]
            combined_data.loc[combined_data[col] == 1, 'Construction_Year'] = float(year)
    
    # Construction_Year from a icon about energieefficiency
    elif str('Baujahr') in col:
        # Regex-structure for a construction year between 1700 and 2024
        pattern = r'\b(17[0-9]{2}|20[0-2][0-9]|202[0-4])\b'

        # Extract the construction year from the column name
        year = re.findall(pattern, col)
        if year:
            combined_data.loc[combined_data[col] == 1, 'Construction_Year'] = float(year[0])

# Drop columns that start with 'Baujahr' and are not 'Baujahr'
columns_to_drop = [col for col in combined_data.columns if col.startswith("Baujahr")]
combined_data.drop(columns=columns_to_drop, inplace=True)


### Consumption certificate (Verbrauchsausweis)

In [4]:
# Neue Spalte 'Verbrauchsausweis' hinzufügen
if 'Consumption_certificate' not in combined_data.columns:    
    combined_data['Consumption_certificate'] = ''

for col in combined_data.columns:
    if col.startswith("V:"):
        split_col = col.split(' ')
        if len(split_col) >= 3:
            value = split_col[1] + ' ' + split_col[2]
            combined_data.loc[combined_data[col] == 1, 'Consumption_certificate'] = str(value)

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if col.startswith("V:") ]
combined_data.drop(columns=columns_to_drop, inplace=True)


### WLAN Speed

In [5]:
if 'WLAN_speed_in_Mbit/s' not in combined_data.columns:   
    combined_data['WLAN_speed_in_Mbit/s'] = ''

for col in combined_data.columns:
    if str("Mbit/s") in col:
        col_name = col.replace('\n', '').strip()
        col_name = re.sub(r'\s+', ' ', col)
        split_col = col_name.split(' ')
        if len(split_col) >= 3:
            value = split_col[1:]
            value = ' '.join(value)
            combined_data.loc[combined_data[col] == 1, 'WLAN_speed_in_Mbit/s'] = str(value)

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if "Mbit/s" in col and col != 'WLAN_speed_in_Mbit/s']
combined_data.drop(columns=columns_to_drop, inplace=True)

### Distance to public transport 

In [6]:
if 'Dist_to_pub_trans_in_min' not in combined_data.columns:   
    combined_data['Dist_to_pub_trans_in_min'] = ''

for col in combined_data.columns:
    if str("zu Fuß entfernt") in col:
        col_name = col.replace('\n', '').strip()
        col_name = re.sub(r'\s+', ' ', col)
        split_col = col_name.split(' ')
        if len(split_col) >= 3:
            value = split_col[0]
            value = ' '.join(value)
            combined_data.loc[combined_data[col] == 1, 'Dist_to_pub_trans_in_min'] = str(value)

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if "zu Fuß entfernt" in col]
combined_data.drop(columns=columns_to_drop, inplace=True)


### Floor

In [7]:
# Neue Spalte 'Verbrauchsausweis' hinzufügen
if 'Floor' not in combined_data.columns:    
    combined_data['Floor'] = ''

# List of keywords for the floor
floor_keywords = ['OG', 'EG', 'UG', 'Hochparterre', 'Dachgeschoss', 'Souterrain', 'Penthouse', 'Tiefparterre']

for col in combined_data.columns:
    if any(keyword in col for keyword in floor_keywords):
        combined_data.loc[combined_data[col] == 1, 'Floor'] = col

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in floor_keywords)]
combined_data.drop(columns=columns_to_drop, inplace=True)

combined_data['Floor'] = combined_data['Floor'].str.replace('. OG', '').str.replace('Hochparterre', '0').str.replace('Tiefparterre', '0').replace('', np.nan).str.replace('EG', '0')




### Flooring 

In [8]:
# Prüfen und Spalte 'Bodenbelag' hinzufügen, falls nicht vorhanden
if 'Flooring' not in combined_data.columns:
    combined_data['Flooring'] = ''

# Liste der Bodenbelagsarten
bodenbelag_keywords = ['Teppich', 'Fliese', 'Parkett', 'Laminat', 'Stein', 'Kunststoff', 'Teppichboden', 
                       'Dielen', 'Kork', 'Marmor', 'Granit', 'Terrakotta', 'Beton', 'PVC']

# Überprüfen und Zuweisen
for col in combined_data.columns:
    if any(keyword in col for keyword in bodenbelag_keywords):
        combined_data.loc[combined_data[col] == 1, 'Flooring'] = col

# Spalten löschen
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in bodenbelag_keywords)]
combined_data.drop(columns=columns_to_drop, inplace=True)


### Parking

In [9]:
if 'Parking' not in combined_data.columns:    
    combined_data['Parking'] = ''

# Liste der Parkmöglichkeiten
Parking_keywords = ['Parkmöglichkeiten', 'Bewohnerparken', 'Garage', 'Carport', 'Parkhaus', 
                   'Tiefgarage', 'Duplex', 'Freiplatz', 'Parkplatz', 'Anwohnerparken', 'Parken', 'Stellplatz']

# Überprüfen und Zuweisen
for col in combined_data.columns:
    if any(keyword in col for keyword in Parking_keywords):
        combined_data.loc[combined_data[col] == 1, 'Parking'] = col

# Spalten löschen
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in Parking_keywords)]
combined_data.drop(columns=columns_to_drop, inplace=True)


### Energieefficiency

In [10]:
if 'Energieefficiency' not in combined_data.columns:    
    combined_data['Energieefficiency'] = ''

for col in combined_data.columns:
    if 'Energieeffizienz' in col:
        col_name = col.replace('\n', '').strip()
        col_name = re.sub(r'\s+', ' ', col)
        split_col = col_name.split(' ')
        combined_data.loc[combined_data[col] == 1, 'Energieefficiency'] = col
        if len(split_col) >= 2:
            value = split_col[-1]
            combined_data.loc[combined_data[col] == 1, 'Energieefficiency'] = str(value)
    if 'kein Energieausweis' in col:
        combined_data.loc[combined_data[col] == 1, 'Energieefficiency'] = 'kein Energieausweis nötig'

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if ('Energieeffizienz' in col and col != "Energieefficiency") or 'kein Energieausweis' in col]
combined_data.drop(columns=columns_to_drop, inplace=True)

### Garden/Balcony

In [11]:
if 'Garden_Balcony' not in combined_data.columns:    
    combined_data['Garden_Balcony'] = ''

# Liste der Garten/Balkon-Begriffe
garden_balcony_keywords = ['garten', 'Balkon', 'Garten', 'Terrasse', 'Loggia', 'Dachterrasse', 
                          'Wintergarten', 'Patio', 'Balkon/Terrasse', 'Gartenanteil', 'Balkonmöbel', 
                          'Balkonanzahl', 'Terrassenanzahl', 'Loggiaanzahl', 'Dachterrasseanzahl', 
                          'Wintergartenanzahl', 'Patioanzahl']

# Überprüfen und Zuweisen
for col in combined_data.columns:
    if any(keyword in col for keyword in garden_balcony_keywords):
        combined_data.loc[combined_data[col] == 1, 'Garden_Balcony'] = col

# Spalten löschen
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in garden_balcony_keywords) and col != 'Garden_Balcony']
combined_data.drop(columns=columns_to_drop, inplace=True)


### Basement/Cellar

In [12]:
if 'Cellar' not in combined_data.columns:    
    combined_data['Cellar'] = ''

for col in combined_data.columns:
    if 'Keller' in col or 'Fahrradkeller' in col:
        combined_data.loc[combined_data[col] == 1, 'Cellar'] = col

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if ('Keller' in col or 'Fahrradkeller' in col) and col != 'Cellar']
combined_data.drop(columns=columns_to_drop, inplace=True)

### Heating

In [13]:
if 'Heating' not in combined_data.columns:    
    combined_data['Heating'] = ''

heating_keywords = ['Erdgas', 'heizung', 'Fernwärme', 'Gas', 'Öl', 'Nachtspeicher', 'Luftwärmepumpe']

for col in combined_data.columns:
    if any(keyword in col for keyword in heating_keywords):
        combined_data.loc[combined_data[col] == 1, 'Heating'] = col

# Drop columns 
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in heating_keywords)]
combined_data.drop(columns=columns_to_drop, inplace=True)


### Construction Type

In [14]:
if 'Constructing_Type' not in combined_data.columns:    
    combined_data['Constructing_Type'] = ''

bautyp_keywords = ['Altbau', 'Neubau', 'Hochhaus', 'Mehrfamilienhaus', 'Reihenhaus', 'Doppelhaus', 'Plattenbau', 'Einfamilienhaus']

for col in combined_data.columns:
    for keyword in bautyp_keywords:
        if keyword in col:
            combined_data.loc[combined_data[col] == 1, 'Constructing_Type'] = combined_data.apply(
                lambda row: (row['Constructing_Type'] + ', ' + col).strip(', ') if row['Constructing_Type'] != '' else col,
                axis=1
            )

# Removing leading commas
combined_data['Constructing_Type'] = combined_data['Constructing_Type'].apply(lambda x: ', '.join(sorted(set(x.split(', ')))))


# Drop columns 
columns_to_drop = [col for col in combined_data.columns if any(keyword in col for keyword in bautyp_keywords)]
combined_data.drop(columns=columns_to_drop, inplace=True)



### Smoking

In [15]:
# Combining "Rauchen im Zimmer erlaubt" and "Rauchen auf dem Balkon erlaubt" into one category
combined_data['Smoking'] = combined_data['Rauchen'].str.replace('Rauchen im Zimmer erlaubt', 'Rauchen teilweise erlaubt').str.replace('Rauchen auf dem Balkon erlaubt', 'Rauchen teilweise erlaubt')



### Age Restrictions

In [16]:
def extract_min_max_age(row):
    # Extrahieren der Altersinformationen aus beiden Spalten
    ages_col1 = [int(age) for age in re.findall(r'\d+', str(row['Search_Info']))]
    ages_col2 = [int(age) for age in re.findall(r'\d+', str(row['Alter']))]
    
    # Kombinieren der Listen und Entfernen von leeren Werten
    all_ages = ages_col1 + ages_col2
    all_ages = [age for age in all_ages if age != []]
    
    # Rückgabe des Mindestalters, falls vorhanden, sonst NaN
    return (min(all_ages), max(all_ages)) if all_ages else np.nan
combined_data[['Min Age', 'Max Age']] = combined_data.apply(extract_min_max_age, axis=1).apply(pd.Series)



### Checking the DF

In [17]:
pd.set_option('display.max_columns', 100)
combined_data

Unnamed: 0,WG_Size,Total_People,w,m,d,Title,Size,Rent,Extra_Costs,Other_Costs,Deposit,Redemption_Agreement,Address,Available_From,Available_Till,Online_Since,Search_Info,Ökostrom,Bewerbermappe,itsmydata,SCHUFA,Ausweis/ID,Einkommensnachweis,Mieterselbstauskunft,Wohnungsgröße,Alter,Rauchen,Zweck-WG,gemischte-WG,Sprache/n,Zimmer,Lage,WG-Leben,Sonstiges,Dusche,Waschmaschine,möbliert,Spülmaschine,WLAN,Kabel,Frauen-WG,Studenten-WG,Badewanne,Mietzahlungsbestätigung,Aufzug,teilmöbliert,Berufstätigen-WG,DSL,Flatrate,Männer-WG,Verbindung,LGBTQ,Satellit,Azubi-WG,Barrierefrei,Bürgschaft,Haustiere erlaubt,Strom,Construction_Year,Consumption_certificate,WLAN_speed_in_Mbit/s,Dist_to_pub_trans_in_min,Floor,Flooring,Parking,Energieefficiency,Garden_Balcony,Cellar,Heating,Constructing_Type,Smoking,Min Age,Max Age
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11109349.html,2,1,1,0,0,WG Zimmer Köln Nippes,17m²,393€,80€,n.a.,982€,n.a.,Merheimer Straße 332 50733 Köln Nippes,01.08.2024,01.10.2024,1 Stunde,Geschlecht egal zwischen 20 und 30 Jahren,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Wohnungsgröße: 55m²,Bewohneralter: 23 bis 25 Jahre,Rauchen nicht erwünscht,0.0,1.0,"Sprache/n: Deutsch, Englisch",Das ganze Haus ist ein Altbau und dementsprech...,Die Lage ist perfekt für Leute die alles gut e...,"Das WG-Leben ist schön, meine liebe Mitbewohne...",Es gibt einen Kellerraum für Fahrräder und ein...,,,,,,,,,,,,,,,,,,,,,,,,,,,,7,2,,Bewohnerparken,,,,,Altbau,Rauchen nicht erwünscht,20.0,30.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Neustadt-Sued.11109335.html,2,1,1,0,0,schönes WG Zimmer in der Südstadt Köln von 01....,12m²,600€,n.a.,n.a.,900€,n.a.,Bonnerstr.2 50677 Köln Neustadt-Süd,01.08.2024,30.09.2024,1 Stunde,Frau bis 30 Jahren,,1.0,1.0,1.0,,,,,,Rauchen nicht erwünscht,,,"Sprache/n: Deutsch, Englisch",Ich biete ein schönes 12 qm großes WG-Zimmer i...,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,,,,,,,,,,,,,,,,,,0,Parkett,,,Balkon,,,sanierter Altbau,Rauchen nicht erwünscht,30.0,30.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11096157.html,2,1,0,1,0,möbliertes WG Zimmer zur Zwischenmiete,20m²,800€,0€,n.a.,500€,n.a.,Hans-Sachs-Straße 1 50931 Köln Lindenthal,01.08.2024,01.09.2024,1 Stunde,Geschlecht egal zwischen 20 und 30 Jahren,,1.0,1.0,1.0,,,,Wohnungsgröße: 84m²,Bewohneralter: 25 bis 26 Jahre,Rauchen auf dem Balkon erlaubt,,,"Sprache/n: Deutsch, Englisch","Da wir für einen Monat auf Reisen sind, suchen...",,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,2,1,,Bewohnerparken,,Balkon,,,sanierter Altbau,Rauchen teilweise erlaubt,20.0,30.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11109295.html,5,2,2,0,0,28qm in 5er WG mit Garten,28m²,720€,100€,n.a.,1440€,n.a.,Werthmannstraße 17 50935 Köln Lindenthal,15.07.2024,n.a.,1 Stunde,Geschlecht egal zwischen 25 und 35 Jahren,,1.0,1.0,1.0,,,,,Bewohneralter: 27 bis 27 Jahre,,0.0,1.0,"Sprache/n: Deutsch, Englisch","Das Zimmer ist Teil einer 5er WG, die Ende Jul...",Die Lage ist wirklich ein Traum! Deckstein is...,Canan und ich sind schon seit 8 Jahren befreun...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,5,0,,,,Garten,Keller,Gasheizung,,,25.0,35.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.10159188.html,3,2,2,0,0,TEMPORARY -Quiet flat share room in old buildi...,12m²,500€,n.a.,n.a.,250€,n.a.,Herthastraße 60 50969 Köln Köln,22.07.2024,31.08.2024,1 Stunde,Geschlecht egal,,1.0,,,1.0,,,,Bewohneralter: ab 25 Jahre,,,1.0,"Sprache/n: Deutsch, Englisch, Spanisch, Franzö...","Hello, I'm Axelle, I'm 25 and I'm studying f...","Sunny street, quiet, you can find everything a...",There are 4 of us living in this beautiful apa...,,1.0,1.0,1.0,1.0,1.0,,,,1.0,1.0,,,,,,,,,,,,,,,,,,1,1,Parkett,gute Parkmöglichkeiten,,Balkon,Fahrradkeller,,Altbau,,25.0,25.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,2,0,0,0,0,Große Wohnung in Köln Ehrenfeld,60m²,850€,150€,0€,250€,0€,Weinsbergstraße 120 50823 Köln Ehrenfeld,01.08.2024,07.09.2024,14.05.2024,Geschlecht egal,1.0,,,,,,,,,,0.0,1.0,,Die Wohnung ist groß und zentral in Köln Ehren...,Die Wohnung ist ruhig aber dennoch zentral gel...,,Ich habe die Wohnung neu eingerichtet und lege...,1.0,1.0,1.0,1.0,,,1.0,1.0,1.0,,,,1.0,,,,,,,,,,,,,,,5,2,Fliesen,gute Parkmöglichkeiten,,Balkon,,Gasheizung,Mehrfamilienhaus,,,
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,4,3,2,1,0,befristets Schönes Wohnliches Zimmer,17m²,680€,50€,n.a.,200€,n.a.,Moselstraße 68 50674 Köln Altstadt-Süd,14.09.2024,11.10.2024,14.05.2024,Geschlecht egal zwischen 20 und 27 Jahren,,1.0,1.0,1.0,,,,Wohnungsgröße: 70m²,Bewohneralter: 22 bis 27 Jahre,Rauchen im Zimmer erlaubt,,,"Sprache/n: Deutsch, Englisch","Hi zusammen, ich suche für den 12.09.2024 ein...",,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,3,1,,,,,,,sanierter Altbau,Rauchen teilweise erlaubt,20.0,27.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,2,1,0,1,0,"Gästezimmer für eine Person, Nähe Messe-Deutz,...",10m²,40€,0€,0€,0€,n.a.,Gremberger Str. 33 51105 Köln Humboldt-Gremberg,13.05.2024,01.06.2025,13.05.2024,Geschlecht egal zwischen 18 und 99 Jahren,1.0,,,,,,,Wohnungsgröße: 47m²,Bewohneralter: 25 bis 35 Jahre,Rauchen nicht erwünscht,1.0,,"Sprache/n: Deutsch, Englisch, Französisch",In unserer Wohnung vermieten wir an eine Perso...,,,,1.0,,1.0,,1.0,,,,1.0,,,,,,,,,,,,,,,,1964.0,,,1,0,Fliesen,gute Parkmöglichkeiten,kein Energieausweis nötig,,,Zentralheizung,Mehrfamilienhaus,Rauchen nicht erwünscht,18.0,99.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,3,2,2,0,0,Wg Zimmer in Köln-Ehrenfeld (Zwischenmiete 25....,23m²,490€,70€,n.a.,n.a.,n.a.,Venloer Str 377a 50825 Köln Ehrenfeld,25.07.2024,31.08.2024,13.05.2024,Frau,,1.0,1.0,1.0,,,,,Bewohneralter: 21 bis 23 Jahre,Rauchen auf dem Balkon erlaubt,,,Sprache/n: Deutsch,Huhu! Mein Wg-Zimmer in Ehrenfeld wird für ca...,,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,,2,,,,Balkon,,,,Rauchen teilweise erlaubt,21.0,23.0


## Adding Information

### Postal Code related informations

In [18]:
postal_codes = combined_data[['Address']].copy()

plz_pattern = re.compile(r'\b\d{5}\b')
postal_codes['plz'] = postal_codes['Address'].apply(lambda x: plz_pattern.search(x).group(0) if plz_pattern.search(x) else np.nan)

#### Get information about Population per km² in cologne

In [19]:
plz_de = pd.read_excel('../data/plz_einwohner.xlsx')
plz_cologne = plz_de[plz_de['note'].str.contains('Köln')].copy()
plz_cologne['Population per km²'] = (plz_cologne['einwohner'] / plz_cologne['qkm']).round(2)
plz_cologne.drop(columns=['note', 'einwohner', 'qkm', 'lat', 'lon'], inplace=True)

#### Add information about the Rhine-Side

In [20]:
data = {
    "plz": [50667, 50668, 50670, 50672, 50674, 50676, 50677, 50678, 50679, 50733, 50735, 50737, 50739, 50765, 50767, 50769, 50823, 50825, 50827, 50829, 50858, 50859, 50931, 50933, 50935, 50937, 50939, 50968, 50969, 50996, 50997, 50999, 51061, 51063, 51065, 51067, 51069, 51103, 51105, 51107, 51109, 51143, 51145, 51147, 51149],
    "left_rhine_side": [1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
}

# DataFrame erstellen
rhine_side = pd.DataFrame(data)

#### Merging the postal code related informations

In [21]:
plz_cologne['plz'] = pd.to_numeric(plz_cologne['plz'], errors='coerce')
rhine_side['plz'] = pd.to_numeric(rhine_side['plz'], errors='coerce')
postal_code_data =pd.merge(plz_cologne, rhine_side, on='plz', how='left')


postal_codes['plz'] = pd.to_numeric(postal_codes['plz'], errors='coerce')
postal_code_data['plz'] = pd.to_numeric(postal_code_data['plz'], errors='coerce')
postal_codes_res = pd.merge(postal_codes, postal_code_data, on='plz', how='left')

# Keep the Index of combined_data
postal_codes_res.index = combined_data.index
postal_codes_res.drop(columns=['Address'], inplace=True)
postal_codes_res

Unnamed: 0,plz,Population per km²,left_rhine_side
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11109349.html,50733.0,11259.96,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Neustadt-Sued.11109335.html,50677.0,12150.68,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11096157.html,50931.0,6467.99,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11109295.html,50935.0,3283.34,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.10159188.html,50969.0,5048.95,1.0
...,...,...,...
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,50823.0,11677.08,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,50674.0,12311.83,1.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,51105.0,3446.98,0.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,50825.0,7241.29,1.0


#### Join to the large Dataframe

In [22]:
# Identify overlapping columns
overlapping_columns = combined_data.columns.intersection(postal_codes_res.columns)

# Drop these columns from the right DataFrame
postal_codes_res_filtered = postal_codes_res.drop(columns=overlapping_columns)

# Perform the join operation on the index
combined_data = combined_data.join(postal_codes_res_filtered)

### Near to City Centre
Assumptions: 
- Cologne cathedral is the city centre
- relevant distance is the walking distance

In [23]:
def calc_dist(start):
    return gmaps.directions(start, "Domkloster 4, 50667 Köln", mode="walking", departure_time=datetime.now())[0]['legs'][0]['distance']['text']

combined_data['Dist_center_in_km'] = combined_data['Address'].apply(calc_dist)
combined_data['Dist_center_in_km'] = combined_data['Dist_center_in_km'].str.replace(' km', '').astype(float)


### Sentiment Analysis

Problem:
- englisches Sentiment -> passt nicht --> Übersetzen und dann Sentiment bestimmen
- Übersetzen nur bis zu 5000 Zeichen möglich --> nur bei 2 ein Problem (Zimmer, WG-Leben) --> Abschneiden
- 



#### Reducing the length of the descriptions

In [37]:
def limit_text(text, max_chars=4999):
    if len(text) > max_chars:
        return text[:max_chars]
    else:
        return text
    
combined_data['Zimmer'] = combined_data['Zimmer'].apply(str).apply(limit_text)          # 2
combined_data['Lage'] = combined_data['Lage'].apply(str).apply(limit_text)              # 0
combined_data['WG-Leben'] = combined_data['WG-Leben'].apply(str).apply(limit_text)      # 2
combined_data['Sonstiges'] = combined_data['Sonstiges'].apply(str).apply(limit_text)    # 0

In [38]:
top_10_lengths = combined_data['Zimmer'].apply(len).nlargest(10)
print(top_10_lengths)

top_10_texts = combined_data.loc[top_10_lengths.index, 'Zimmer']
for length, text in zip(top_10_lengths, top_10_texts):
    print(f"Length: {length}, Text: {text[:4999]}") 

https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11090046.html    4999
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Deutz.10689470.html        4999
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.9499007.html    4489
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Zollstock.11046838.html    4254
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11094947.html    3918
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.10951838.html       3647
https://www.wg-gesucht.de/wg-zimmer-in-Koeln.8196943.html               3465
https://www.wg-gesucht.de/wg-zimmer-in-Koeln.11022586.html              3297
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11072804.html       3262
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.11096763.html        3261
Name: Zimmer, dtype: int64
Length: 4999, Text: Hallo an alle Wg-Suchenden,  Vorab: Preis ist die Warmmiete inklusive aller Kosten!  Nenne uns einen stabilen Mitbewohner*in für eine 4er WG. Anrufer aus dem Ausland zahlen 50 Cent pr

#### Translating

In [39]:
# TODO: change test to combined_data --> Takes some time

def translate(text):
    if text == 'nan':
        return ''
    else:
        return translator.translate(text)



combined_data['Zimmer_engl'] = combined_data['Zimmer'].apply(str).apply(translate)
combined_data['Lage_engl'] = combined_data['Lage'].apply(str).apply(translate)
combined_data['WG-Leben_engl'] = combined_data['WG-Leben'].apply(str).apply(translate)
combined_data['Sonstiges_engl'] = combined_data['Sonstiges'].apply(str).apply(translate)


#### Calculating Sentiment and Weighted_Average_Sentiment

In [40]:
# TODO: change test to combined_data 
def analyze_sentiment(description):
    # Ensure description is a string
    if not isinstance(description, str):
        description = str(description)
    sentiment = sia.polarity_scores(description)
    return sentiment['compound']

# For Checking
# combined_data['Sentiment_Zimmer'] = combined_data['Zimmer'].apply(analyze_sentiment)
# combined_data['Sentiment_Lage'] = combined_data['Lage'].apply(analyze_sentiment)
# combined_data['Sentiment_WG_Leben'] = combined_data['WG-Leben'].apply(analyze_sentiment)
# combined_data['Sentiment_Sonstiges'] = combined_data['Sonstiges'].apply(analyze_sentiment)

combined_data['Weighted_Average_Sentiment'] = ( (combined_data['Zimmer_engl'].apply(analyze_sentiment) * combined_data['Zimmer_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['Lage_engl'].apply(analyze_sentiment) * combined_data['Lage_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['WG-Leben_engl'].apply(analyze_sentiment) * combined_data['WG-Leben_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['Sonstiges_engl'].apply(analyze_sentiment) * combined_data['Sonstiges_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0)) 
                                        /
                                        (combined_data['Zimmer_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['Lage_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['WG-Leben_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0) +
                                        combined_data['Sonstiges_engl'].apply(lambda x: len(x) if isinstance(x, str) else 0))
                                        )




In [41]:
combined_data

Unnamed: 0,WG_Size,Total_People,w,m,d,Title,Size,Rent,Extra_Costs,Other_Costs,Deposit,Redemption_Agreement,Address,Available_From,Available_Till,Online_Since,Search_Info,Ökostrom,Bewerbermappe,itsmydata,SCHUFA,Ausweis/ID,Einkommensnachweis,Mieterselbstauskunft,Wohnungsgröße,Alter,Rauchen,Zweck-WG,gemischte-WG,Sprache/n,Zimmer,Lage,WG-Leben,Sonstiges,Dusche,Waschmaschine,möbliert,Spülmaschine,WLAN,Kabel,Frauen-WG,Studenten-WG,Badewanne,Mietzahlungsbestätigung,Aufzug,teilmöbliert,Berufstätigen-WG,DSL,Flatrate,Männer-WG,Verbindung,LGBTQ,Satellit,Azubi-WG,Barrierefrei,Bürgschaft,Haustiere erlaubt,Strom,Construction_Year,Consumption_certificate,WLAN_speed_in_Mbit/s,Dist_to_pub_trans_in_min,Floor,Flooring,Parking,Energieefficiency,Garden_Balcony,Cellar,Heating,Constructing_Type,Smoking,Min Age,Max Age,plz,Population per km²,left_rhine_side,Dist_center_in_km,Zimmer_engl,Lage_engl,WG-Leben_engl,Sonstiges_engl,Weighted_Average_Sentiment
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11109349.html,2,1,1,0,0,WG Zimmer Köln Nippes,17m²,393€,80€,n.a.,982€,n.a.,Merheimer Straße 332 50733 Köln Nippes,01.08.2024,01.10.2024,1 Stunde,Geschlecht egal zwischen 20 und 30 Jahren,1.0,1.0,1.0,1.0,1.0,1.0,1.0,Wohnungsgröße: 55m²,Bewohneralter: 23 bis 25 Jahre,Rauchen nicht erwünscht,0.0,1.0,"Sprache/n: Deutsch, Englisch",Das ganze Haus ist ein Altbau und dementsprech...,Die Lage ist perfekt für Leute die alles gut e...,"Das WG-Leben ist schön, meine liebe Mitbewohne...",Es gibt einen Kellerraum für Fahrräder und ein...,,,,,,,,,,,,,,,,,,,,,,,,,,,,7,2,,Bewohnerparken,,,,,Altbau,Rauchen nicht erwünscht,20.0,30.0,50733.0,11259.96,1.0,3.7,The whole house is an old building and the roo...,The location is perfect for people who want to...,"Life in a shared apartment is nice, my lovely ...",There is a basement room for bicycles and a st...,0.828025
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Neustadt-Sued.11109335.html,2,1,1,0,0,schönes WG Zimmer in der Südstadt Köln von 01....,12m²,600€,n.a.,n.a.,900€,n.a.,Bonnerstr.2 50677 Köln Neustadt-Süd,01.08.2024,30.09.2024,1 Stunde,Frau bis 30 Jahren,,1.0,1.0,1.0,,,,,,Rauchen nicht erwünscht,,,"Sprache/n: Deutsch, Englisch",Ich biete ein schönes 12 qm großes WG-Zimmer i...,,,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,,,,,,,,,,,,,,,,,,0,Parkett,,,Balkon,,,sanierter Altbau,Rauchen nicht erwünscht,30.0,30.0,50677.0,12150.68,1.0,2.7,I am offering a beautiful 12 sqm shared room i...,,,,0.993400
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11096157.html,2,1,0,1,0,möbliertes WG Zimmer zur Zwischenmiete,20m²,800€,0€,n.a.,500€,n.a.,Hans-Sachs-Straße 1 50931 Köln Lindenthal,01.08.2024,01.09.2024,1 Stunde,Geschlecht egal zwischen 20 und 30 Jahren,,1.0,1.0,1.0,,,,Wohnungsgröße: 84m²,Bewohneralter: 25 bis 26 Jahre,Rauchen auf dem Balkon erlaubt,,,"Sprache/n: Deutsch, Englisch","Da wir für einen Monat auf Reisen sind, suchen...",,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,2,1,,Bewohnerparken,,Balkon,,,sanierter Altbau,Rauchen teilweise erlaubt,20.0,30.0,50931.0,6467.99,1.0,3.4,"Since we are traveling for a month, we are loo...",,,,0.599400
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11109295.html,5,2,2,0,0,28qm in 5er WG mit Garten,28m²,720€,100€,n.a.,1440€,n.a.,Werthmannstraße 17 50935 Köln Lindenthal,15.07.2024,n.a.,1 Stunde,Geschlecht egal zwischen 25 und 35 Jahren,,1.0,1.0,1.0,,,,,Bewohneralter: 27 bis 27 Jahre,,0.0,1.0,"Sprache/n: Deutsch, Englisch","Das Zimmer ist Teil einer 5er WG, die Ende Jul...",Die Lage ist wirklich ein Traum! Deckstein is...,Canan und ich sind schon seit 8 Jahren befreun...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,5,0,,,,Garten,Keller,Gasheizung,,,25.0,35.0,50935.0,3283.34,1.0,5.4,"The room is part of a shared flat of 5 people,...",The location is really a dream! Deckstein is a...,Canan and I have been friends for 8 years and ...,,0.945424
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.10159188.html,3,2,2,0,0,TEMPORARY -Quiet flat share room in old buildi...,12m²,500€,n.a.,n.a.,250€,n.a.,Herthastraße 60 50969 Köln Köln,22.07.2024,31.08.2024,1 Stunde,Geschlecht egal,,1.0,,,1.0,,,,Bewohneralter: ab 25 Jahre,,,1.0,"Sprache/n: Deutsch, Englisch, Spanisch, Franzö...","Hello, I'm Axelle, I'm 25 and I'm studying f...","Sunny street, quiet, you can find everything a...",There are 4 of us living in this beautiful apa...,,1.0,1.0,1.0,1.0,1.0,,,,1.0,1.0,,,,,,,,,,,,,,,,,,1,1,Parkett,gute Parkmöglichkeiten,,Balkon,Fahrradkeller,,Altbau,,25.0,25.0,50969.0,5048.95,1.0,4.0,"Hello, I'm Axelle, I'm 25 and I'm studying f...","Sunny street, quiet, you can find everything a...",There are 4 of us living in this beautiful apa...,,0.803016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,2,0,0,0,0,Große Wohnung in Köln Ehrenfeld,60m²,850€,150€,0€,250€,0€,Weinsbergstraße 120 50823 Köln Ehrenfeld,01.08.2024,07.09.2024,14.05.2024,Geschlecht egal,1.0,,,,,,,,,,0.0,1.0,,Die Wohnung ist groß und zentral in Köln Ehren...,Die Wohnung ist ruhig aber dennoch zentral gel...,,Ich habe die Wohnung neu eingerichtet und lege...,1.0,1.0,1.0,1.0,,,1.0,1.0,1.0,,,,1.0,,,,,,,,,,,,,,,5,2,Fliesen,gute Parkmöglichkeiten,,Balkon,,Gasheizung,Mehrfamilienhaus,,,,50823.0,11677.08,1.0,3.2,The apartment is large and centrally located i...,The apartment is quiet but still centrally loc...,,I have newly furnished the apartment and attac...,0.856763
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,4,3,2,1,0,befristets Schönes Wohnliches Zimmer,17m²,680€,50€,n.a.,200€,n.a.,Moselstraße 68 50674 Köln Altstadt-Süd,14.09.2024,11.10.2024,14.05.2024,Geschlecht egal zwischen 20 und 27 Jahren,,1.0,1.0,1.0,,,,Wohnungsgröße: 70m²,Bewohneralter: 22 bis 27 Jahre,Rauchen im Zimmer erlaubt,,,"Sprache/n: Deutsch, Englisch","Hi zusammen, ich suche für den 12.09.2024 ein...",,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,3,1,,,,,,,sanierter Altbau,Rauchen teilweise erlaubt,20.0,27.0,50674.0,12311.83,1.0,2.7,"Hi everyone, I'm looking for a new roommate fo...",,,,0.963600
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,2,1,0,1,0,"Gästezimmer für eine Person, Nähe Messe-Deutz,...",10m²,40€,0€,0€,0€,n.a.,Gremberger Str. 33 51105 Köln Humboldt-Gremberg,13.05.2024,01.06.2025,13.05.2024,Geschlecht egal zwischen 18 und 99 Jahren,1.0,,,,,,,Wohnungsgröße: 47m²,Bewohneralter: 25 bis 35 Jahre,Rauchen nicht erwünscht,1.0,,"Sprache/n: Deutsch, Englisch, Französisch",In unserer Wohnung vermieten wir an eine Perso...,,,,1.0,,1.0,,1.0,,,,1.0,,,,,,,,,,,,,,,,1964.0,,,1,0,Fliesen,gute Parkmöglichkeiten,kein Energieausweis nötig,,,Zentralheizung,Mehrfamilienhaus,Rauchen nicht erwünscht,18.0,99.0,51105.0,3446.98,0.0,3.6,In our apartment we rent a small room with a k...,,,,0.951300
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,3,2,2,0,0,Wg Zimmer in Köln-Ehrenfeld (Zwischenmiete 25....,23m²,490€,70€,n.a.,n.a.,n.a.,Venloer Str 377a 50825 Köln Ehrenfeld,25.07.2024,31.08.2024,13.05.2024,Frau,,1.0,1.0,1.0,,,,,Bewohneralter: 21 bis 23 Jahre,Rauchen auf dem Balkon erlaubt,,,Sprache/n: Deutsch,Huhu! Mein Wg-Zimmer in Ehrenfeld wird für ca...,,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,,2,,,,Balkon,,,,Rauchen teilweise erlaubt,21.0,23.0,50825.0,7241.29,1.0,3.4,Hey! My room in Ehrenfeld will be free for abo...,,,,0.980600


## Last adjustments

### Removing units

In [42]:
combined_data['Cold_Rent_in_€'] = combined_data['Rent'].str.replace('€', '').replace('n.a.', np.nan)
combined_data['Extra_Costs_in_€'] = combined_data['Extra_Costs'].str.replace('€', '').replace('n.a.', np.nan)
combined_data['Other_Costs_in_€'] = combined_data['Other_Costs'].str.replace('€', '').replace('n.a.', np.nan)
combined_data['Deposit_in_€'] = combined_data['Deposit'].str.replace('€', '').replace('n.a.', np.nan)
combined_data['Roomsize in m²'] = combined_data['Size'].str.replace('m²', '').replace('n.a.', np.nan)
combined_data['Appartmentsize in m²'] = combined_data['Wohnungsgröße'].str.replace('Wohnungsgröße: ', '').str.replace('m²', '').replace('n.a.', np.nan)

### Transform online since

In [43]:
def convert_to_hours(entry):
        if 'Stunde' in entry:
            return int(entry.split()[0])
        elif 'Minuten' in entry:
            return 1
        elif 'Tag' in entry:
            return int(entry.split()[0]) * 24
        else:
            # Annahme: Datum im Format 'DD.MM.YYYY'
            given_date = datetime.strptime(entry, '%d.%m.%Y')
            reference_date = datetime(2024, 7, 9)  # Referenzdatum 09.07.2024
            hours_difference = (reference_date - given_date).total_seconds() / 3600
            return int(hours_difference)
combined_data['Online_since_in_h'] = combined_data['Online_Since'].apply(convert_to_hours)

### Check for intermediate rent

In [44]:
combined_data['Intermediate Rent'] = combined_data['Available_Till'].apply(lambda x: True if x!='n.a.' else False)

### Calculate Warm Rent

In [45]:
combined_data['Warm_Rent_in_€'] = combined_data['Cold_Rent_in_€'].astype(float) + combined_data['Extra_Costs_in_€'].astype(float) 

### Calculate Warm Rent per m²

In [46]:
combined_data['Price_per_m²'] = combined_data['Warm_Rent_in_€'].astype(float) / combined_data['Roomsize in m²'].astype(float)

In [47]:
combined_data.tail()

Unnamed: 0,WG_Size,Total_People,w,m,d,Title,Size,Rent,Extra_Costs,Other_Costs,Deposit,Redemption_Agreement,Address,Available_From,Available_Till,Online_Since,Search_Info,Ökostrom,Bewerbermappe,itsmydata,SCHUFA,Ausweis/ID,Einkommensnachweis,Mieterselbstauskunft,Wohnungsgröße,Alter,Rauchen,Zweck-WG,gemischte-WG,Sprache/n,Zimmer,Lage,WG-Leben,Sonstiges,Dusche,Waschmaschine,möbliert,Spülmaschine,WLAN,Kabel,Frauen-WG,Studenten-WG,Badewanne,Mietzahlungsbestätigung,Aufzug,teilmöbliert,Berufstätigen-WG,DSL,Flatrate,Männer-WG,Verbindung,LGBTQ,Satellit,Azubi-WG,Barrierefrei,Bürgschaft,Haustiere erlaubt,Strom,Construction_Year,Consumption_certificate,WLAN_speed_in_Mbit/s,Dist_to_pub_trans_in_min,Floor,Flooring,Parking,Energieefficiency,Garden_Balcony,Cellar,Heating,Constructing_Type,Smoking,Min Age,Max Age,plz,Population per km²,left_rhine_side,Dist_center_in_km,Zimmer_engl,Lage_engl,WG-Leben_engl,Sonstiges_engl,Weighted_Average_Sentiment,Cold_Rent_in_€,Extra_Costs_in_€,Other_Costs_in_€,Deposit_in_€,Roomsize in m²,Appartmentsize in m²,Online_since_in_h,Intermediate Rent,Warm_Rent_in_€,Price_per_m²
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,2,0,0,0,0,Große Wohnung in Köln Ehrenfeld,60m²,850€,150€,0€,250€,0€,Weinsbergstraße 120 50823 Köln Ehrenfeld,01.08.2024,07.09.2024,14.05.2024,Geschlecht egal,1.0,,,,,,,,,,0.0,1.0,,Die Wohnung ist groß und zentral in Köln Ehren...,Die Wohnung ist ruhig aber dennoch zentral gel...,,Ich habe die Wohnung neu eingerichtet und lege...,1.0,1.0,1.0,1.0,,,1.0,1.0,1.0,,,,1.0,,,,,,,,,,,,,,,5.0,2,Fliesen,gute Parkmöglichkeiten,,Balkon,,Gasheizung,Mehrfamilienhaus,,,,50823.0,11677.08,1.0,3.2,The apartment is large and centrally located i...,The apartment is quiet but still centrally loc...,,I have newly furnished the apartment and attac...,0.856763,850,150,0.0,250.0,60,,1344,True,1000.0,16.666667
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,4,3,2,1,0,befristets Schönes Wohnliches Zimmer,17m²,680€,50€,n.a.,200€,n.a.,Moselstraße 68 50674 Köln Altstadt-Süd,14.09.2024,11.10.2024,14.05.2024,Geschlecht egal zwischen 20 und 27 Jahren,,1.0,1.0,1.0,,,,Wohnungsgröße: 70m²,Bewohneralter: 22 bis 27 Jahre,Rauchen im Zimmer erlaubt,,,"Sprache/n: Deutsch, Englisch","Hi zusammen, ich suche für den 12.09.2024 ein...",,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,3.0,1,,,,,,,sanierter Altbau,Rauchen teilweise erlaubt,20.0,27.0,50674.0,12311.83,1.0,2.7,"Hi everyone, I'm looking for a new roommate fo...",,,,0.9636,680,50,,200.0,17,70.0,1344,True,730.0,42.941176
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,2,1,0,1,0,"Gästezimmer für eine Person, Nähe Messe-Deutz,...",10m²,40€,0€,0€,0€,n.a.,Gremberger Str. 33 51105 Köln Humboldt-Gremberg,13.05.2024,01.06.2025,13.05.2024,Geschlecht egal zwischen 18 und 99 Jahren,1.0,,,,,,,Wohnungsgröße: 47m²,Bewohneralter: 25 bis 35 Jahre,Rauchen nicht erwünscht,1.0,,"Sprache/n: Deutsch, Englisch, Französisch",In unserer Wohnung vermieten wir an eine Perso...,,,,1.0,,1.0,,1.0,,,,1.0,,,,,,,,,,,,,,,,1964.0,,,1.0,0,Fliesen,gute Parkmöglichkeiten,kein Energieausweis nötig,,,Zentralheizung,Mehrfamilienhaus,Rauchen nicht erwünscht,18.0,99.0,51105.0,3446.98,0.0,3.6,In our apartment we rent a small room with a k...,,,,0.9513,40,0,0.0,0.0,10,47.0,1368,True,40.0,4.0
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,3,2,2,0,0,Wg Zimmer in Köln-Ehrenfeld (Zwischenmiete 25....,23m²,490€,70€,n.a.,n.a.,n.a.,Venloer Str 377a 50825 Köln Ehrenfeld,25.07.2024,31.08.2024,13.05.2024,Frau,,1.0,1.0,1.0,,,,,Bewohneralter: 21 bis 23 Jahre,Rauchen auf dem Balkon erlaubt,,,Sprache/n: Deutsch,Huhu! Mein Wg-Zimmer in Ehrenfeld wird für ca...,,,,,,1.0,,,,,1.0,,,,,,,,,,,,,,,,,,,,,2,,,,Balkon,,,,Rauchen teilweise erlaubt,21.0,23.0,50825.0,7241.29,1.0,3.4,Hey! My room in Ehrenfeld will be free for abo...,,,,0.9806,490,70,,,23,,1368,True,560.0,24.347826
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.9100835.html,2,1,1,0,0,Zwischenmiete in WG zur EM in Köln Ehrenfeld,17m²,150€,0€,n.a.,100€,n.a.,Marienstraße 50825 Köln Ehrenfeld,10.06.2024,17.06.2024,13.05.2024,Geschlecht egal zwischen 28 und 60 Jahren,1.0,,,,,,,Wohnungsgröße: 63m²,Bewohneralter: 38 bis 38 Jahre,Rauchen nicht erwünscht,0.0,,Sprache/n: Deutsch,Das Zimmer ist 17qm groß und verfügt über ein ...,"Die Wohnung liegt mitten in Ehrenfeld, in eine...",,Du/ihr könnt das Zimmer also zu zweit bewohnen,1.0,1.0,1.0,1.0,1.0,,,,,,,,1.0,,,,,,,,,,,,,,,5.0,1,Dielen,Bewohnerparken,,,Fahrradkeller,,Altbau,Rauchen nicht erwünscht,28.0,60.0,50825.0,7241.29,1.0,4.0,The room is 17 square meters and has a loft be...,The apartment is located in the middle of Ehre...,,You can therefore share the room with two people,0.040204,150,0,,100.0,17,63.0,1368,True,150.0,8.823529


## Picking final columns

In [51]:
final_df = combined_data[['Price_per_m²', 'Online_since_in_h', 'WG_Size', 'Total_People', 'Size', 'Warm_Rent_in_€', 'Cold_Rent_in_€', 'Deposit_in_€', 'Roomsize in m²', 'Appartmentsize in m²', 'Intermediate Rent', 'Population per km²', 'left_rhine_side', 'Weighted_Average_Sentiment', 'Min Age', 'Max Age', 'Construction_Year', 'Parking', 'Floor', 'Smoking', 'Garden_Balcony', 'Dist_center_in_km']]
pd.set_option('display.max_columns', 100)
final_df


Unnamed: 0,Price_per_m²,Online_since_in_h,WG_Size,Total_People,Size,Warm_Rent_in_€,Cold_Rent_in_€,Deposit_in_€,Roomsize in m²,Appartmentsize in m²,Intermediate Rent,Population per km²,left_rhine_side,Weighted_Average_Sentiment,Min Age,Max Age,Construction_Year,Parking,Floor,Smoking,Garden_Balcony,Dist_center_in_km
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Nippes.11109349.html,27.823529,1,2,1,17m²,473.0,393,982,17,55,True,11259.96,1.0,0.828025,20.0,30.0,,Bewohnerparken,2,Rauchen nicht erwünscht,,3.7
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Neustadt-Sued.11109335.html,,1,2,1,12m²,,600,900,12,,True,12150.68,1.0,0.993400,30.0,30.0,,,0,Rauchen nicht erwünscht,Balkon,2.7
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11096157.html,40.000000,1,2,1,20m²,800.0,800,500,20,84,True,6467.99,1.0,0.599400,20.0,30.0,,Bewohnerparken,1,Rauchen teilweise erlaubt,Balkon,3.4
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Lindenthal.11109295.html,29.285714,1,5,2,28m²,820.0,720,1440,28,,False,3283.34,1.0,0.945424,25.0,35.0,,,0,,Garten,5.4
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Koeln.10159188.html,,1,3,2,12m²,,500,250,12,,True,5048.95,1.0,0.803016,25.0,25.0,,gute Parkmöglichkeiten,1,,Balkon,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.10995482.html,16.666667,1344,2,0,60m²,1000.0,850,250,60,,True,11677.08,1.0,0.856763,,,,gute Parkmöglichkeiten,2,,Balkon,3.2
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Altstadt-Sued.10991060.html,42.941176,1344,4,3,17m²,730.0,680,200,17,70,True,12311.83,1.0,0.963600,20.0,27.0,,,1,Rauchen teilweise erlaubt,,2.7
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Humboldt-Gremberg.10949184.html,4.000000,1368,2,1,10m²,40.0,40,0,10,47,True,3446.98,0.0,0.951300,18.0,99.0,1964.0,gute Parkmöglichkeiten,0,Rauchen nicht erwünscht,,3.6
https://www.wg-gesucht.de/wg-zimmer-in-Koeln-Ehrenfeld.11002379.html,24.347826,1368,3,2,23m²,560.0,490,,23,,True,7241.29,1.0,0.980600,21.0,23.0,,,2,Rauchen teilweise erlaubt,Balkon,3.4


### Exporting

In [52]:
final_df.to_csv('../data/final_data.csv', index=False)