# **Empirische Wirtschaftsforschung**

# Anwendungsbeispiel Gebrauchtwagen

**Author:** [Anthony Strittmatter](http://www.anthonystrittmatter.com)

Sie wollen den Zusammenhang zwischen Tachostand und Gebrauchtwagenpreisen untersuchen. Ihnen steht ein Datensatz mit 23,282 gebrauchten VW Golfs zur Verfügung. Alle Gebrauchtwagen haben einen Tachostand von mindestens 10,000 km und maximal 200,000 km.

**Variablenbeschreibung:**
- *final_price*: Transaktionspreis (in 1,000 Euro)
- *mileage*: Tachostand  (in 1,000 km)


## Laden der Daten

In [38]:
############## Laden der Daten ##############

data <- read.csv("used_cars.csv",header=TRUE, sep=",")
data_old <- read.csv("used_cars.csv",header=TRUE, sep=",")

print('Data is loaded.')

##############################################

[1] "Data is loaded."


# Deskriptive Statistiken

Zunächst überprüfen Sie ob der Datensatz vollständig ist und ob es irgendwelche Auffälligkeiten in den Daten gibt.

In [39]:
############## Deskriptive Statistiken ##############

library(psych) # load package
describe(data)

######################################################

Unnamed: 0,vars,n,mean,sd,median,trimmed,mad,min,max,range,skew,kurtosis,se
final_price,1,23282,13.16673,4.512105,12.56,12.90325,4.29954,1,57.19,56.19,0.6541416,0.8838048,0.02957121
mileage,2,23282,84.79639,49.630311,81.09,82.16562,61.06681,10,200.0,190.0,0.3231626,-0.8938274,0.32526464


# Lineare Transformation der Ergebnisvariable

Sie regressiren das einfache Modell
\begin{equation*}
final\_price = \beta_0 + \beta_1 milage + v.
\end{equation*}
Sie berechnen das Preismodell in Euro und CHF.

1. Wie verändern sich die Koeffizienten?
2. Wie verändern sich die Standardfehler?
3. Wie verändern sich die Werte der t-Statistik?

In [40]:
############## Lineare Transformation der Ergebnisvariable ##############

# Wechselkurs
c <- 1.13001 # CHF/Euro

# Regressionmodell in Euro
euro <- lm(final_price ~ mileage, data)
summary(euro)

# Tranformation des Autopreises
data$final_price <- data$final_price*c

# Regressionmodell in Euro
chf <- lm(final_price ~ mileage, data)
summary(chf)

# Koeffizienten
print(summary(euro)$coefficients[1,1]*c)
print(summary(euro)$coefficients[2,1]*c)

# Standardfehler
print(summary(euro)$coefficients[1,2]*c)
print(summary(euro)$coefficients[2,2]*c)

###########################################################################


Call:
lm(formula = final_price ~ mileage, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.195  -1.881  -0.117   1.705  42.164 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.0291602  0.0380186   500.5   <2e-16 ***
mileage     -0.0691354  0.0003869  -178.7   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.93 on 23280 degrees of freedom
Multiple R-squared:  0.5783,	Adjusted R-squared:  0.5783 
F-statistic: 3.192e+04 on 1 and 23280 DF,  p-value: < 2.2e-16



Call:
lm(formula = final_price ~ mileage, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-13.780  -2.126  -0.132   1.926  47.645 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 21.5031413  0.0429614   500.5   <2e-16 ***
mileage     -0.0781237  0.0004373  -178.7   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.311 on 23280 degrees of freedom
Multiple R-squared:  0.5783,	Adjusted R-squared:  0.5783 
F-statistic: 3.192e+04 on 1 and 23280 DF,  p-value: < 2.2e-16


[1] 21.50314
[1] -0.07812372
[1] 0.04296138
[1] 0.0004372563


# Linare Transformation der unabhängigen Variable

Sie schätzen das gleiche Modell wie oben in CHF. Nun transformieren sie den Tachostand. Sie berechnen die Veränderung des Gebruachtwagenpreises pro 1,000km und pro 1 km.

1. Wie verändert sich die Konstante?
2. Wie verändert sich der Koeffizient des Tachostandes?
2. Wie verändern sich die Standardfehler des Tachostandes?
3. Wie verändert sich der t-Statistik des Tachostandes?

In [41]:
############## Lineare Transformation der unabhängigen Variable ##############

# Transformation 1000km
c <- 1000

# Tranformation des Tachostandes
data$mileage <- data$mileage*c

# Regressionmodell in km
km <- lm(final_price ~ mileage, data)
summary(km)

# Koeffizienten
print(summary(chf)$coefficients[2,1]/c)

# Standardfehler
print(summary(chf)$coefficients[2,2]/c)


##################################################################################


Call:
lm(formula = final_price ~ mileage, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-13.780  -2.126  -0.132   1.926  47.645 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.150e+01  4.296e-02   500.5   <2e-16 ***
mileage     -7.812e-05  4.373e-07  -178.7   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.311 on 23280 degrees of freedom
Multiple R-squared:  0.5783,	Adjusted R-squared:  0.5783 
F-statistic: 3.192e+04 on 1 and 23280 DF,  p-value: < 2.2e-16


[1] -7.812372e-05
[1] 4.372563e-07


Wie hoch ist der geschätzte Preis eines VWs mit 10,000 km Tachostand? Wie verändert sich der Preis wenn der Tachostand um 100 km (1%) steigt? Wie gross ist die relative Veränderung bei 80,000 km?

In [55]:
########################### Relative Preisveränderung ###################################

price_10000 <- print(summary(km)$coefficients[1,1] + summary(km)$coefficients[2,1]*10000)
price_10100 <-  print(summary(km)$coefficients[1,1] + summary(km)$coefficients[2,1]*10100)

print(paste0("Prozentveränderung: ",round(100*(price_10100 - price_10000)/price_10000, digits = 4)))

price_80000 <- print(summary(km)$coefficients[1,1] + summary(km)$coefficients[2,1]*80000)
price_80800 <-  print(summary(km)$coefficients[1,1] + summary(km)$coefficients[2,1]*80800)

print(paste0("Prozentveränderung: ",round(100*(price_80800 - price_80000)/price_80000, digits = 4)))

#######################################################################################

[1] 20.7219
[1] 20.71409
[1] "Prozentveränderung: -0.0377"
[1] 15.25324
[1] 15.19074
[1] "Prozentveränderung: -0.4097"


## Log Transformation

Sie schätzen das Regressionsmodell
\begin{equation*}
log(final\_price) = \beta_0 + \beta_1 log(milage) + u.
\end{equation*}

Interpretieren Sie die Ergebnisse? Wie verändern sich die t-Statistiken?

In [35]:
############## Log Transformation ##############

# Log-Tranformation des Preises (in CHF)
data$final_price <- log(data$final_price)
# Log-Tranformation des Tachostandes (in km)
data$mileage <- log(data$mileage)

# Regressionmodell in km
km <- lm(final_price ~ mileage, data)
summary(km)

################################################


Call:
lm(formula = final_price ~ mileage, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4333 -0.1216  0.0166  0.1451  1.4739 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.722061   0.023889   281.4   <2e-16 ***
mileage     -0.367247   0.002144  -171.3   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2427 on 23280 degrees of freedom
Multiple R-squared:  0.5577,	Adjusted R-squared:  0.5577 
F-statistic: 2.935e+04 on 1 and 23280 DF,  p-value: < 2.2e-16


Wiederholen Sie die log-transformation mit den Grebrauchtwagenpreisen in Euro und dem Tachostand in 1,000 km. Wie verändern sich die Ergebnisse?

In [36]:
############## Log Transformation ##############

# Log-Tranformation des Preises (in Euro)
data_old$final_price <- log(data_old$final_price)
# Log-Tranformation des Tachostandes (in 1,000 km)
data_old$mileage <- log(data_old$mileage)

# Regressionmodell in km
km <- lm(final_price ~ mileage, data_old)
summary(km)

#################################################


Call:
lm(formula = final_price ~ mileage, data = data_old)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4333 -0.1216  0.0166  0.1451  1.4739 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.062985   0.009169   443.1   <2e-16 ***
mileage     -0.367247   0.002144  -171.3   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2427 on 23280 degrees of freedom
Multiple R-squared:  0.5577,	Adjusted R-squared:  0.5577 
F-statistic: 2.935e+04 on 1 and 23280 DF,  p-value: < 2.2e-16
