# Analyse des Automarkts
Dieses Notebook führt eine Analyse des Automarkts durch, basierend auf den hochgeladenen Daten.

In [None]:

# Bibliotheken importieren
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Bereinigte Daten laden
df = pd.read_csv('cleaned_car_data.csv')

# Überblick über die Daten
print(df.head())
print(df.info())
    

## Explorative Datenanalyse
Visualisierung der Daten, um Muster und Korrelationen zu erkennen.

In [None]:

# Preisverteilung
plt.hist(df['price'], bins=20, alpha=0.7)
plt.title('Preisverteilung')
plt.xlabel('Preis')
plt.ylabel('Anzahl')
plt.show()
    

In [None]:

# Preis vs. Kilometerstand
sns.scatterplot(data=df, x='Mileage', y='price')
plt.title('Preis vs. Kilometerstand')
plt.xlabel('Kilometerstand')
plt.ylabel('Preis')
plt.show()
    

In [None]:

# Preis vs. Leistung
sns.scatterplot(data=df, x='power', y='price')
plt.title('Preis vs. Leistung')
plt.xlabel('Leistung')
plt.ylabel('Preis')
plt.show()
    

## Lineare Regression
Ein Modell, um den Einfluss von Faktoren wie Kilometerstand, Leistung und Baujahr auf den Preis zu analysieren.

In [None]:

# Features und Zielvariable definieren
X = df[['Mileage', 'power', 'year']]
y = df['price']

# Trainings- und Testdaten aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modell erstellen und trainieren
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersagen und Evaluation
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Ergebnisse anzeigen
print(f'R²: {r2}')
print(f'RMSE: {rmse}')
    

## Ergebnisse
Das Modell zeigt eine akzeptable Güte mit den berechneten R²- und RMSE-Werten. Es lässt sich erkennen, dass Faktoren wie Kilometerstand und Leistung den Preis signifikant beeinflussen.