# DATA EXPLORATION AMES HOUSING DATASET 

Exploratory data analysis is used to gain insight into the data and thus possibly identify patterns, trends, potential correlations, or errors of any kind in the data. The following is an exploratory analysis of the Ames Housing dataset. The goal of this analysis is to get an overview of the data and to gain initial insights. For this purpose, the data will be visualized and examined using statistical techniques.

In [46]:
import pandas as ps
import plotly.express as px
import numpy as np


df_raw = ps.read_csv('../data/raw/train.csv', engine='python', sep=',', on_bad_lines='skip')

To obtain an initial overview of the dataset, the dimensions of the dataset will be examined first. This involves determining the number and types of features it contains, as well as the number of entries in the dataset.

In [47]:
print(f'Features: {df_raw.shape[1]}')
print(f'Einträge: {df_raw.shape[0]}')

Features: 81
Einträge: 1460


In [48]:
list(df_raw.columns)

['Id',
 'MSSubClass',
 'MSZoning',
 'LotFrontage',
 'LotArea',
 'Street',
 'Alley',
 'LotShape',
 'LandContour',
 'Utilities',
 'LotConfig',
 'LandSlope',
 'Neighborhood',
 'Condition1',
 'Condition2',
 'BldgType',
 'HouseStyle',
 'OverallQual',
 'OverallCond',
 'YearBuilt',
 'YearRemodAdd',
 'RoofStyle',
 'RoofMatl',
 'Exterior1st',
 'Exterior2nd',
 'MasVnrType',
 'MasVnrArea',
 'ExterQual',
 'ExterCond',
 'Foundation',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinSF1',
 'BsmtFinType2',
 'BsmtFinSF2',
 'BsmtUnfSF',
 'TotalBsmtSF',
 'Heating',
 'HeatingQC',
 'CentralAir',
 'Electrical',
 '1stFlrSF',
 '2ndFlrSF',
 'LowQualFinSF',
 'GrLivArea',
 'BsmtFullBath',
 'BsmtHalfBath',
 'FullBath',
 'HalfBath',
 'BedroomAbvGr',
 'KitchenAbvGr',
 'KitchenQual',
 'TotRmsAbvGrd',
 'Functional',
 'Fireplaces',
 'FireplaceQu',
 'GarageType',
 'GarageYrBlt',
 'GarageFinish',
 'GarageCars',
 'GarageArea',
 'GarageQual',
 'GarageCond',
 'PavedDrive',
 'WoodDeckSF',
 'OpenPorchSF'

In the following the first 5 entries of the data set are displayed to get an overview of the actual data.

In [49]:
print(df_raw.head(5))

   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape   
0   1          60       RL         65.0     8450   Pave   NaN      Reg  \
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold   
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2  \
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

## property (Grundstück)

Die Features des Datensatzes lassen sich teilweise in Kategorien aufteilen. Beispielsweise gibt es Features die das Grundstück näher beschreiben. Diese werden im Folgenden näher betrachtet. 

Zunächst werden die betroffenen Features aus dem Datensatz extrahiert und die ersten 5 Zeilen ausgegeben um einen ersten Überblick zu erhalten.

In [50]:
df_raw_property = df_raw[["LotFrontage", "LotArea", "LotShape", "LotConfig", "LandContour", "LandSlope"]]
print(df_raw_property.head(5).to_markdown())

|    |   LotFrontage |   LotArea | LotShape   | LotConfig   | LandContour   | LandSlope   |
|---:|--------------:|----------:|:-----------|:------------|:--------------|:------------|
|  0 |            65 |      8450 | Reg        | Inside      | Lvl           | Gtl         |
|  1 |            80 |      9600 | Reg        | FR2         | Lvl           | Gtl         |
|  2 |            68 |     11250 | IR1        | Inside      | Lvl           | Gtl         |
|  3 |            60 |      9550 | IR1        | Corner      | Lvl           | Gtl         |
|  4 |            84 |     14260 | IR1        | FR2         | Lvl           | Gtl         |


Im nächsten Schritt werden die einzelnen Zeilen auf fehlende Werte untersucht und die entsprechenden Features ausgegeben.

In [51]:
df_raw_property.isnull().any()

LotFrontage     True
LotArea        False
LotShape       False
LotConfig      False
LandContour    False
LandSlope      False
dtype: bool

In [52]:
lotFrontage_missingValues = df_raw_property['LotFrontage'].isnull().sum()
print(f'Fehlende Werte in LotFrontage: {lotFrontage_missingValues}')

Fehlende Werte in LotFrontage: 259


Um die fehlenden Werte in der Zelle 'LotFrontage' einordnen zu können, muss zunächst geklärt werden, was sich hinter diesem Feature verbirgt. 

### LotFrontage

Die Variable "LotFrontage" repräsentiert die Länge eines Grundstücks entlang einer öffentlichen Straße. Diese Länge wird in Fuß angegeben und ermöglicht es, die Ausdehnung des Grundstücks in dieser Richtung zu beschreiben.

![Alt text](../notebooks/assets/images/lotfrontage_desc.png)

In [53]:
df_raw_property['LotFrontage'].describe()

count    1201.000000
mean       70.049958
std        24.284752
min        21.000000
25%        59.000000
50%        69.000000
75%        80.000000
max       313.000000
Name: LotFrontage, dtype: float64

Abgesehend von den 259 fehlenden Werten, können keine Ausreißer oder sonstige unglaubwürdige Werte festgestellt werden. Bei den fehlenden Werte könnte es sich um Grundstücke handeln, welche nicht an eine öffentliche Straße angrenzen.

### LotArea

Das Feature LotArea beschreibt die Größe des Grundstücks in Fuß.

In [54]:
df_raw_property['LotArea'].describe()

count      1460.000000
mean      10516.828082
std        9981.264932
min        1300.000000
25%        7553.500000
50%        9478.500000
75%       11601.500000
max      215245.000000
Name: LotArea, dtype: float64

In [55]:
fig = px.scatter(y=df_raw_property['LotArea'])
fig.show()

Wie im Plot gut sichtbar ist, bilden Grundstücke mit einer Größe größer als um die 30.000 Fuß absulute ausnahmen und bilden somit die Ausreißer dieses Features. Die meisten Grundstücke sind um die 10.000 Fuß groß.

### LotShape

Das Feature LotShape beschreibt die Form der Grundstücksfläche. Hierfür werden die folgenden vier Ausprägungen verwendet:

 - **Reg** - Grundstück welches eine Standardform hat (Rechteckig etc.)
 - **IR1** - Grundstück welches geringfügig ungleichmäßig ist
 - **IR2** - Grundstück welches mäßig ungleichmäßig ist
 - **IR3** - Grundstück welches ungleichmäßig ist

In [56]:
df_lotShape_barPlot = df_raw_property['LotShape'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_lotShape_barPlot,'unique_values','counts')
fig.show()

### LotConfig

Das Feature Lot beschreibt die spezifischen Eigenschaften der Grundstücksgrenzen und deren Auswirkungen auf die Bebauungsmöglichkeiten.

![Alt text](assets/images/lotconfig_def.png)

Diese Informationen sind relevant, um zu verstehen, wie ein Grundstück genutzt werden kann, welche Einschränkungen oder Potenziale es bietet und wie es sich möglicherweise von anderen Grundstücken unterscheidet. Die Lot Configuration kann beispielsweise bei der Planung von Bauprojekten, der Beurteilung von Immobilienwerten oder der Bestimmung von Bauvorschriften eine Rolle spielen.

In [57]:
df_lotConfig_barPlot = df_raw_property['LotConfig'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_lotConfig_barPlot,'unique_values','counts')
fig.show()

### LandContour

Die Land Contour bezieht sich auf das Geländeprofil eines Grundstücks. Es beschreibt die Form und die Steigung des Geländes auf dem Grundstück. Die Land Contour gibt Auskunft darüber, ob das Gelände flach (**Lvl**), abfallend (**Low**), geneigt (**Bnk**) oder hügelig (**HLS**) ist. 

Die Land Contour ist ein wichtiger Faktor bei der Bewertung von Grundstücken, da sie Auswirkungen auf verschiedene Aspekte haben kann. Zum Beispiel kann die Steigung des Geländes den Bau von Gebäuden oder Infrastrukturen beeinflussen, die Drainage oder den Wasserfluss auf dem Grundstück beeinflussen oder sogar die Aussicht oder die Nutzungsmöglichkeiten des Geländes beeinflussen.

In [58]:
df_landContour_barPlot = df_raw_property['LandContour'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_landContour_barPlot,'unique_values','counts')
fig.show()

### LandSlope

Die Land Slope bezieht sich auf die Neigung oder Steigung des Bodens auf einem Grundstück. Sie gibt Auskunft darüber, wie stark das Gelände ansteigt oder abfällt. Im Datensatz wird zwischen einer leichten (**Gtl**), mäßigen (**Mod**) und starken (**Sev**) Steigung unterschieden.

Die Angabe der Land Slope ist wichtig, um das Gelände eines Grundstücks zu beschreiben und potenzielle Auswirkungen auf die Bebauung und Nutzung zu berücksichtigen. Eine steile Hanglage kann beispielsweise den Bau von Gebäuden erschweren, die Entwässerung beeinflussen oder spezielle Maßnahmen erfordern, um das Grundstück zu befestigen. Auf der anderen Seite kann eine geringe Hangneigung die Bebauung und Nutzung eines Grundstücks erleichtern.

In [59]:
df_landSlope_barPlot = df_raw_property['LandSlope'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_landSlope_barPlot,'unique_values','counts')
fig.show()

# Infrastruktur

Infrastructure forms another category. This category includes the features:

- **Street** - Type of road access to property
- **Alley** - Type of alley access to property
- **PavedDrive** - Paved driveway
- **Utilities** - Type of utilities available

In [60]:
df_raw_infra = df_raw[["Street", "Alley", "PavedDrive", "Utilities"]]
print(df_raw_infra.head(5).to_markdown())

|    | Street   |   Alley | PavedDrive   | Utilities   |
|---:|:---------|--------:|:-------------|:------------|
|  0 | Pave     |     nan | Y            | AllPub      |
|  1 | Pave     |     nan | Y            | AllPub      |
|  2 | Pave     |     nan | Y            | AllPub      |
|  3 | Pave     |     nan | Y            | AllPub      |
|  4 | Pave     |     nan | Y            | AllPub      |


### Street

The **Street** feature describes the type of access road. Here, a distinction is made between a paved and unpaved road. As can be seen in the following plot, almost all access roads are paved.

In [61]:
df_street_barPlot = df_raw_infra['Street'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_street_barPlot,'unique_values','counts')
fig.show()

### Alley

The Alley feature refers to another path or alley that leads to the property. A property has either no further path, an unpaved path or a paved path.

In [62]:
df_alley_barPlot = df_raw_infra['Alley'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_alley_barPlot,'unique_values','counts')
fig.show()

### PavedDrive

The PavedDrive feature describes the condition of the driveway of a property. A driveway can be paved (**Y**), partially paved (**P**) or unpaved (**N**).

In [63]:
df_pavedDrive_barPlot = df_raw_infra['PavedDrive'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_pavedDrive_barPlot,'unique_values','counts')
fig.show()

### Utilities

The Utilities feature indicates whether the house is connected to a utility network. A distinction is made between the following four features:

- **AllPub** - All public Utilities (Electricity, Gas, Water and Septic Tank)
- **NoSewr** - Electricity, Gas, and Water (Septic Tank)
- **NoSeWa** - Electricity and Gas Only
- **ELO** - Electricity only

In [64]:
df_utilities_barPlot = df_raw_infra['Utilities'].value_counts().rename_axis('unique_values').reset_index(name='counts')
fig = px.bar(df_utilities_barPlot,'unique_values','counts')
fig.show()

# Corelation

In [65]:
df_full_edited = ps.read_csv('../data/split/df_full_edited.csv', engine='python', sep=',', on_bad_lines='skip')
ps.options.display.max_rows = 4000

df_full_edited.corrwith(df_full_edited['SalePrice']).sort_values()


ExterQual                  -0.681069
KitchenQual                -0.658544
Age                        -0.523266
RemodAge                   -0.508977
BsmtQual                   -0.475861
HeatingQC                  -0.427195
MasVnrType_XX              -0.372452
OverallQual_Avg            -0.364324
GarageType_Detchd          -0.353655
Foundation_CBlock          -0.341918
OverallGrade_Avg           -0.316557
GarageFinish               -0.291335
MSZoning_RM                -0.287799
OverallQual_BAvg           -0.268325
BsmtExposure_No            -0.263863
CentralAir_N               -0.251480
SaleType_WD                -0.239664
MSSubClass_1S1945-OLD      -0.238898
GarageType_XX              -0.236995
RoofStyle_Gable            -0.228545
PavedDrive_N               -0.212597
Foundation_BrkTil          -0.203705
Electrical_FuseA           -0.193815
Neighborhood_OldTown       -0.191896
Neighborhood_NAmes         -0.187615
Fence                      -0.184535
OverallGrade_BAvg          -0.180992
N

YearRemodAdd                0.507138
YearBuilt                   0.522918
TotRmsAbvGrd                0.536419
FullBath                    0.562492
TotalBathAbvGr              0.599069
1stFlrSF                    0.606678
TotalBsmtSF                 0.614420
GarageArea                  0.621918
GarageCars                  0.639235
GrLivArea                   0.710319
TotalSF                     0.780024
ExterQual                  -0.681069
KitchenQual                -0.658544
Age                        -0.523266
RemodAge                   -0.508977

In [70]:
fig = px.scatter(y=df_full_edited['YearRemodAdd'])
fig.show()
fig1 = px.scatter(y=df_full_edited['YearBuilt'])
fig1.show()
fig2 = px.scatter(y=df_full_edited['TotRmsAbvGrd'])
fig2.show()
fig3 = px.scatter(y=df_full_edited['FullBath'])
fig3.show()
fig4 = px.scatter(y=df_full_edited['TotalBathAbvGr'])
fig4.show()




In [67]:
fig5 = px.scatter(y=df_full_edited['1stFlrSF'])
fig5.show()
fig6 = px.scatter(y=df_full_edited['TotalBsmtSF'])
fig6.show()
fig7 = px.scatter(y=df_full_edited['GarageArea'])
fig7.show()
fig8 = px.scatter(y=df_full_edited['GarageCars'])
fig8.show()


In [68]:
fig9 = px.scatter(y=df_full_edited['GrLivArea'])
fig9.show()
fig10 = px.scatter(y=df_full_edited['TotalSF'])
fig10.show()
fig11 = px.scatter(y=df_full_edited['ExterQual'])
fig11.show()


In [69]:
fig12 = px.scatter(y=df_full_edited['KitchenQual'])
fig12.show()
fig13 = px.scatter(y=df_full_edited['Age'])
fig13.show()
fig14 = px.scatter(y=df_full_edited['RemodAge'])
fig14.show()