# Topic ideas

---

Group name: Lena Breitberg, Ji Huixiao, Paraskevas Papadopoulos

---



## Immobilienmarkt Nürnberg 

### Data source

Die Daten wurden mittels Web-Scraping von der Immowelt-Website am 09.11.2023 im Rahmen der Projektarbeit des Moduls "Python for Data Analytics" erstellt.


### Data characterisitcs

Immobiliendaten welche zum Stichtag 09.11.2023 spezifische Suchkriterien (Ort = Nürnberg, Immobilientyp = Wohnung, Vertriebstyp = Kauf) erfüllen. Die Datenbank enthält ca. 900 Datensätze für Bestandsimmobilien als auch Neubauprojekte in Nürnberg. Die Immobilien werden anhand von nummerischen als kategorialen Variablen beschrieben.
 
| **Spalte** | **Definition** | **Typ** | **Verwendung** |
|:---|:---|:---|:---|
| General.EstateTypeKey | Der Typ der Immobilie, z. B. "WOHNUNG" oder "HAUS". | Kategoriale | Predictor |
| General.DistributionTypeKey | Der Vertriebstyp der Immobilie, "ZUM_KAUF". | Kategoriale | Bereinigung Daten |
| General.ConstructionYear | Das Baujahr der Immobilie. | Numerisch | Predictor |
| General.LivingSpace | Die Wohnfläche der Immobilie in Quadratmetern. | Numerisch | Predictor |
| Tealium.object_address_is_visible | Eine Kennzeichnung, ob die Objektadresse sichtbar ist (True/False). | Kategoriale | Predictor |
| Tealium.object_zip | Die Postleitzahl der Immobilie. | Kategoriale | Predictor |
| Tealium.object_currency | Die Währung des Preises. | Kategoriale | Predictor |
| Tealium.object_objektart_sub | Eine Unterkategorie des Immobilientyps. | Kategoriale | Predictor |
| Tealium.expose_type | Der Exposétyp der Immobilie ("project" oder "standard"). | Kategoriale | Predictor |
| Tealium.object_count_photos | Die Anzahl der Fotos der Immobilie. | Numerisch | Predictor |
| LocalRatings.scores.local_amenities | Bewertungen der lokalen Annehmlichkeiten (von Immowelt vergeben). | Numerisch | Predictor |
| LocalRatings.scores.mobility | Bewertungen der Mobilität (von Immowelt vergeben). | Numerisch | Predictor |
| Price.AdditionalInformation.Commission.CommissionType | Der Typ der Maklerprovision. | Kategoriale | Predictor |
| EstateAddress.City | Die Stadt, in der sich die Immobilie befindet. | Kategoriale | Bereinigung Daten |
| Latitude | Die geografische Breite des Standorts. | Numerisch | Predictor | --> keine Eindeutigkeit, da auf Stadtteilebene
| Longitude | Die geografische Länge des Standorts. | Numerisch | Predictor | --> keine Eindeutigkeit, da auf Stadtteilebene
| Stadteil | Der Stadtteil, in dem sich die Immobilie befindet. | Kategoriale | Predictor |
| PRICE | Der Preis der Immobilie. | Numerisch | Response |
| ROOMS | Die Anzahl der Zimmer in der Immobilie. | Numerisch | Predictor |
| PRICE_COMMONCHARGE | Die monatlichen Nebenkosten. | Numerisch | Predictor |
| EnergyType | Der Energietyp der Immobilie. | Kategoriale | Predictor |
| Class | Die Klasse oder Kategorie des Energietyps. | Kategoriale | Predictor |
| Value | Endenergieverbrauch in kWh/(m²·a). | Numerisch | Predictor |
| CATEGORY | Die Kategorie der Immobilie (Apartment, Loft, ...). | Kategoriale | Predictor |
| FLOOR | Die Etage der Immobilie. | Numerisch | Predictor |
| USAGE | Die Verwendung oder Nutzung der Immobilie. | Kategoriale | Predictor |
| SUITABILITY | Die Eignung der Immobilie. | Kategoriale | Predictor |
| CONDITION | Der Zustand der Wohnung. | Kategoriale | Predictor |
| HOUSECONDITION | Neubau, Altbau, .... | Kategoriale | Predictor |
| PARKINGSLOT | Informationen über einen Parkplatz oder Stellplatz. | Kategoriale | Predictor |
| ENERGY | Energieträger. | Kategoriale | Predictor |
| BUILDINGTYPE | Mit welchen KfW-Standards gebaut. | Kategoriale | Predictor |
| HEATING | Heizungsart. | Kategoriale | Predictor |
| ELEVATOR | Die Verfügbarkeit eines Aufzugs. | Kategoriale | Predictor |
| EQUIPMENTS | Informationen über die Ausstattung (möbliert) der Immobilie. | Kategoriale | Predictor |

### Research question

Wie beeinflussen verschiedene Eigenschaften von Immobilien den Verkaufspreis? Welche Faktoren, darunter Baujahr, Wohnfläche, Lage und energetische Effizienz, haben signifikante Auswirkungen auf den Preis?

### Overview of data


In [1]:
import pandas as pd

In [5]:
githubUrl = 'https://raw.githubusercontent.com/hdm-statistik-lpj/project/main/data/external/immobilienNuernberg.csv'

# CSV-Datei in ein Pandas DataFrame importieren
immobilienDf = pd.read_csv(githubUrl)


In [6]:
print(immobilienDf.head())

  General.EstateTypeKey General.ReferenceNumber General.DistributionTypeKey  \
0               WOHNUNG             001/G1/E114                    ZUM_KAUF   
1               WOHNUNG                     NaN                    ZUM_KAUF   
2               WOHNUNG                     NaN                    ZUM_KAUF   
3               WOHNUNG                  X4_301                    ZUM_KAUF   
4               WOHNUNG                  X4_204                    ZUM_KAUF   

   General.ConstructionYear  General.LivingSpace  Tealium.object_locationid  \
0                    2023.0               247.07                     493480   
1                    1900.0                69.00                     493430   
2                    1972.0                69.46                     493465   
3                    2023.0                82.81                     493524   
4                    2023.0                75.52                     493524   

   Tealium.object_address_is_visible  Tealium.obje

In [7]:
print(immobilienDf.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 961 entries, 0 to 960
Data columns (total 49 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   General.EstateTypeKey                                  961 non-null    object 
 1   General.ReferenceNumber                                832 non-null    object 
 2   General.DistributionTypeKey                            961 non-null    object 
 3   General.ConstructionYear                               961 non-null    float64
 4   General.LivingSpace                                    961 non-null    float64
 5   Tealium.object_locationid                              961 non-null    int64  
 6   Tealium.object_address_is_visible                      961 non-null    bool   
 7   Tealium.object_zip                                     961 non-null    int64  
 8   Tealium.object_currency                           

In [8]:
print(immobilienDf.describe())  

       General.ConstructionYear  General.LivingSpace  \
count                961.000000           961.000000   
mean                1979.035380            77.198096   
std                   36.413922            35.495184   
min                 1872.000000            19.350000   
25%                 1957.000000            56.580000   
50%                 1976.000000            72.510000   
75%                 2019.000000            90.000000   
max                 2025.000000           532.000000   

       Tealium.object_locationid  Tealium.object_zip  Tealium.broker_guid  \
count                 961.000000          961.000000         9.610000e+02   
mean               493479.893861        90448.441207         1.658153e+06   
std                    46.347343           26.053529         2.728224e+06   
min                493383.000000        90402.000000         1.060100e+04   
25%                493434.000000        90429.000000         3.741700e+04   
50%                493480.000000 

## Analytics of Supply Chain Shipment Pricing Data

### Data source

*Der vorliegende Datensatz enthält Informationen zu Supply Chain Health Ware, insbesondere zu Versand- und Preisdaten. Er identifiziert Lieferungen von Antiretroviralen (ARV) und HIV-Laborprodukten in unterstützte Länder. Zudem liefert der Datensatz Informationen zu Rohstoffpreisen und den damit verbundenen Lieferkettenkosten für den Transport von Rohstoffen in Nutzungsländer. Die Datenfelder ähneln denen des Global Fund Price, Quality, and Reporting (PQR). Die US-Regierung betrachtet diese Daten, in Verbindung mit PQR-Daten analysiert, als umfassendes Bild der globalen Ausgaben für bestimmte Gesundheitsprodukte. Diese Informationen sind besonders nützlich, um Sortimente und Trends in der Preisgestaltung sowie die von Ländern gelieferten Volumina zu verstehen. Benutzer sollten Kontextfaktoren bei der Nutzung der Datenbank berücksichtigen, da Schlussfolgerungen zu Kosten im Zusammenhang mit der Verlegung bestimmter Produkte in bestimmte Länder und Vorzeiten nicht korrekt sein könnten.*

*source: https://data.usaid.gov/HIV-AIDS/Supply-Chain-Shipment-Pricing-Data/a3rc-nmf6*


### Data characterisitcs


*Basierend auf der Datengrundlage können wir statistische Modelle für lineare Regression und Klassifizierung entwerfen. Die Datengrundlage (Stichprobe) umfasst insgesamt 10.324 Datensätze und 33 Spalten, die sowohl numerische als auch kategoriale Informationen enthalten.*


### Research question

*Unsere Interessengebiete sind:

1. Lineare Regression:

1.a Welche Variablen beeinflussen die Frachtkosten und wie?

Mögliche Modelle:

Frachtkosten = b0 + b1xGewicht + b2x Versandart (Air oder Truck) + ...

1.b Welche Variablen beeinflussen die Versicherungskosten und wie?

Versicherungskosten = b0 + b1xProduktwerte + b2x Versandart (Air oder Truck) + ...

2. Klassifizierung:

2.1 Abhängig von den Produkten, Produktarten (Sub-Produktarten) oder anderen möglichen Variablen, welche Länder sind die Ziel-länder.

2.2 


### Overview of data



In [3]:
import pandas as pd

githubUrl = 'https://raw.githubusercontent.com/hdm-statistik-lpj/project/main/data/external/Supply_Chain_Shipment_Pricing_Data.csv'

df = pd.read_csv(githubUrl)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10324 entries, 0 to 10323
Data columns (total 33 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   id                            10324 non-null  int64  
 1   project code                  10324 non-null  object 
 2   pq #                          10324 non-null  object 
 3   po / so #                     10324 non-null  object 
 4   asn/dn #                      10324 non-null  object 
 5   country                       10324 non-null  object 
 6   managed by                    10324 non-null  object 
 7   fulfill via                   10324 non-null  object 
 8   vendor inco term              10324 non-null  object 
 9   shipment mode                 9964 non-null   object 
 10  pq first sent to client date  10324 non-null  object 
 11  po sent to vendor date        10324 non-null  object 
 12  scheduled delivery date       10324 non-null  object 
 13  d

In [9]:
print(df.head())

   id project code            pq # po / so # asn/dn #        country  \
0   1   100-CI-T01  Pre-PQ Process    SCMS-4    ASN-8  Côte d'Ivoire   
1   3   108-VN-T01  Pre-PQ Process   SCMS-13   ASN-85        Vietnam   
2   4   100-CI-T01  Pre-PQ Process   SCMS-20   ASN-14  Côte d'Ivoire   
3  15   108-VN-T01  Pre-PQ Process   SCMS-78   ASN-50        Vietnam   
4  16   108-VN-T01  Pre-PQ Process   SCMS-81   ASN-55        Vietnam   

  managed by  fulfill via vendor inco term shipment mode  ...  \
0   PMO - US  Direct Drop              EXW           Air  ...   
1   PMO - US  Direct Drop              EXW           Air  ...   
2   PMO - US  Direct Drop              FCA           Air  ...   
3   PMO - US  Direct Drop              EXW           Air  ...   
4   PMO - US  Direct Drop              EXW           Air  ...   

  unit of measure (per pack) line item quantity line item value pack price  \
0                         30                 19           551.0      29.00   
1                   

In [8]:
print(df.describe())

                 id  unit of measure (per pack)  line item quantity  \
count  10324.000000                10324.000000        10324.000000   
mean   51098.968229                   77.990895        18332.534870   
std    31944.332496                   76.579764        40035.302961   
min        1.000000                    1.000000            1.000000   
25%    12795.750000                   30.000000          408.000000   
50%    57540.500000                   60.000000         3000.000000   
75%    83648.250000                   90.000000        17039.750000   
max    86823.000000                 1000.000000       619999.000000   

       line item value    pack price    unit price  line item insurance (usd)  
count     1.032400e+04  10324.000000  10324.000000               10037.000000  
mean      1.576506e+05     21.910241      0.611701                 240.117626  
std       3.452921e+05     45.609223      3.275808                 500.190568  
min       0.000000e+00      0.000000    