## Exploring Renovation Potentials: Data-Driven Insights for Renovation Service Providers in Chemnitz

Matrnr.: 8161859, 

### .-1 Setup requirements

- Python version 3.9.18

In [1]:
%pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


### 0. Preprocessing

1. Read the datafile into the notebook
2. Extract columns
3. Use only rows with "Chemnitz"
4. Save the dataset into a new file.

In [2]:
import pandas as pd

In [3]:
raw_immo_data = pd.read_csv('./immo_data.csv')

Notes:
- The dataset contains different datatypes but also using whitespraces with "_" but also common whitespaces.
- There are many values with NaN
- Some datafields say NO_Information which is probably similar to NaN?

In [4]:
def extractColumnsFromDataset(dataset):
    filtered = dataset[['regio1', 'newlyConst', 'balcony', 'totalRent', 'yearConstructed', 'hasKitchen', 'baseRent', 'livingSpace', 'condition', 'interiorQual', 'petsAllowed','noRooms', 'thermalChar', 'regio2', 'regio3', 'lastRefurbish', 'date']]
    return filtered

extracted_immo_data = extractColumnsFromDataset(raw_immo_data)
extracted_immo_data.shape

(268850, 17)

In [5]:
def filterRegioForChemnitz(datset):
    chemnitz_rows = datset[datset['regio2'] == 'Chemnitz']
    return chemnitz_rows

chemnitz_rows = filterRegioForChemnitz(extracted_immo_data)
chemnitz_rows.shape

(12575, 17)

In [6]:
def saveToCsv(dataset):
    dataset.to_csv('outData.csv', sep="\t", index=False)

saveToCsv(chemnitz_rows)

In [8]:
clean_chemnitz_in = pd.read_csv('./outData.csv', delimiter="\t")
clean_chemnitz_in.shape
clean_chemnitz_in

Unnamed: 0,regio1,newlyConst,balcony,totalRent,yearConstructed,hasKitchen,baseRent,livingSpace,condition,interiorQual,petsAllowed,noRooms,thermalChar,regio2,regio3,lastRefurbish,date
0,Sachsen,False,True,307.00,1930.0,False,219.00,40.20,,normal,,2.0,123.0,Chemnitz,Sonnenberg,,Oct19
1,Sachsen,False,True,501.00,,False,340.00,65.00,fully_renovated,normal,yes,3.0,,Chemnitz,Lutherviertel,,Oct19
2,Sachsen,False,True,425.00,1909.0,True,280.00,53.12,well_kept,normal,negotiable,2.0,153.0,Chemnitz,Bernsdorf,2014.0,Feb20
3,Sachsen,False,True,760.00,1998.0,True,560.00,115.00,,,,5.0,,Chemnitz,Sonnenberg,2000.0,Oct19
4,Sachsen,False,False,715.00,1920.0,False,515.00,102.30,well_kept,,,3.0,,Chemnitz,Zentrum,1995.0,Oct19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12570,Sachsen,False,False,293.00,1895.0,False,198.00,43.00,,normal,,2.0,96.0,Chemnitz,Kappel,,Feb20
12571,Sachsen,False,True,444.00,,False,314.00,59.00,fully_renovated,sophisticated,negotiable,2.0,,Chemnitz,Schloßchemnitz,,May19
12572,Sachsen,True,True,799.88,2018.0,False,611.88,91.13,refurbished,sophisticated,negotiable,3.0,,Chemnitz,Gablenz,2018.0,May19
12573,Sachsen,False,True,326.00,,False,222.00,47.34,fully_renovated,normal,negotiable,1.0,,Chemnitz,Kaßberg,,May19


### 1. Business Understanding

OKR:

Objective: Research renovation service market (niches) and formulate one ore more goals (using the CRISP-DM Process) for Vendors from divers reonvation services (inetrior  & exteriror)
Allowed assumption: people with high appartments do have more money for renovation.

#KR1: List of renovation service market niches (interior & exterior)
#KR2: Set a core focus for each vendor and their why
#KR3: One ore more goals formulated for the selected vendor

Business Understanding:
 - Was sind die Ziele auf Geschäftsebene?
 - Welche Anforderungen an das Ergebnis gibt
es?
- Welche offenen Fragen sollen beantwortet werden?
- Wie könnten beispielhafte Antworten oder Ergebnisse aussehen?

Data Understanding:
- Welche Daten liegen vor?
- Wie sehen diese aus? Könnte es Probleme mit den Daten geben?
- Kann man »auf den ersten Blick« bereits Zusammenhänge erkennen?
- Wie könnten beispielhafte Antworten oder Ergebnisse aussehen?

Data Preperation:
- Können die Daten in der vorliegenden Form
verwendet werden? (meistens: nein)
- Wie können diese vorverarbeitet werden, um sie zu verwenden?

Modelling:
- Welche Verfahren lösen mein Problem?
- Wie kann man die Verfahren verbessern?
- Welche Alternativen gibt es?
- Achtung: Es gibt unter Umständen einen (sehr starken) Zusammenhang mit Data Preparation -> Iterationszyklen

Evaluation:
- Welches Verfahren ist am Besten?
- Beantwortet es die Fragen aus dem Geschäftsverstehen?