# Anforderungen

Anforderungen:
1.	Entscheiden Sie, ob Sie mit der linearen Regression modellieren, prädizieren, oder beides erreichen wollen.


2.	Führen Sie die entsprechende(n) Analyse(n) methodisch sauber durch und berichten Sie entsprechend der eingeführten Kriterien und Evaluationsmaße das Ergebnis.


3.	Wenn Sie sowohl modellieren als auch prädizieren wollen, führen Sie die Modellierung nur auf den Trainingsdaten durch, um zu vermeiden, dass Sie ungewollt aus Ihren Testdaten lernen. Trainieren Sie das Prädiktionsmodell im zweiten Schritt aufgrund der Erkenntnisse der Modellierung.


# Import/Vorverarbeitung der Daten

In [98]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
import os
from os.path import dirname
import seaborn as sns
import time
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import SelectFromModel
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_predict
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from sklearn import linear_model, svm
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error


notebook_path = os.path.abspath("DataAnalyticsKickstarterNotebook_Cedrik.ipynb")
csv_path_features = os.path.join(os.path.dirname(dirname(notebook_path)), "data/ks-project-edited-regression-features.csv")
csv_path_trueLabels = os.path.join(os.path.dirname(dirname(notebook_path)), "data/ks-project-edited-regression-target.csv")



In [77]:
df_features = pd.read_csv (csv_path_features, low_memory=False)
df_target = pd.read_csv (csv_path_trueLabels, low_memory=False)

In [78]:
df_features.head()

Unnamed: 0,usd_goal_real,duration,name_length,creator_type,Art,Comics,Crafts,Dance,Design,Fashion,Film & Video,Food,Games,Journalism,Music,Photography,Publishing,Technology,Theater
0,3000.0,20,22,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0
1,5000.0,15,33,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,500.0,14,36,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
3,50.0,8,16,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
4,2000.0,81,46,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0


In [79]:
df_target.head()

Unnamed: 0,usd_pledged_real
0,3222.0
1,11486.0
2,16167.71
3,207.66
4,8647.79


In [80]:
df_merged = df_features.copy()
df_merged.is_copy = False
df_merged.insert(3, 'usd_pledged_real', df_target)
df_merged.head()

Unnamed: 0,usd_goal_real,duration,name_length,usd_pledged_real,creator_type,Art,Comics,Crafts,Dance,Design,Fashion,Film & Video,Food,Games,Journalism,Music,Photography,Publishing,Technology,Theater
0,3000.0,20,22,3222.0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0
1,5000.0,15,33,11486.0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,500.0,14,36,16167.71,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
3,50.0,8,16,207.66,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
4,2000.0,81,46,8647.79,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0


In [81]:
# Outlier ermitteln für alle features, die nicht One-Hot encodiert wurden
print(df_merged.iloc[:,:4].describe(percentiles=[.005,.99]).apply(lambda s: s.apply('{0:.5f}'.format)))

         usd_goal_real      duration   name_length usd_pledged_real
count     129580.00000  129580.00000  129580.00000     129580.00000
mean       50975.36696      32.93627      34.55207      10409.71634
std      1342563.25624      11.90823      15.62217      77752.77396
min            0.01000       1.00000       1.00000          0.00000
0.5%          18.18740       6.89500       5.00000          0.00000
50%         5000.00000      30.00000      34.00000       1195.00000
99%       332884.52570      60.00000      60.00000     136832.43350
max    151395869.92000      92.00000      96.00000    8596474.58000


In [82]:
# Mit Pledged kleiner <= 200000 0,160 R-squared, aber deutlich höheren mean squared error wert
df_outlier = df_merged[(df_merged["usd_goal_real"]<=100000) & (df_merged["usd_goal_real"] >= 100)
                        &(df_merged["duration"] <= 60) & (df_merged["name_length"] <= 60)
                        & (df_merged["usd_pledged_real"] <= 200000)]
df_outlier.is_copy = False

Im folgenden werden für den Trainingsdatensatz nur noch Werte benutzt, für die gilt 100 <= usd_goal_real <= 150000 (Schätzwert basierend auf 0.5 bzw. 99. Perzentil) duration<= 60 (basierend auf 99. Perzentil) name_length <= 60 (basierend auf 99. Perzentil)


In [83]:
#Ca. 6000 Einträge wurden entfernt
print(df_outlier.iloc[:,:4].describe(percentiles=[.005,.99]).apply(lambda s: s.apply('{0:.5f}'.format)))

      usd_goal_real      duration   name_length usd_pledged_real
count  122423.00000  122423.00000  122423.00000     122423.00000
mean    10991.26788      32.54763      34.50500       6633.37529
std     16760.02915      11.29926      15.51320      16166.16011
min       100.00000       1.00000       1.00000          0.00000
0.5%      100.00000       7.00000       5.00000          0.00000
50%      5000.00000      30.00000      34.00000       1286.00000
99%     90000.00000      60.00000      60.00000      86086.04320
max    100000.00000      60.00000      60.00000     199906.00000


# Anforderung 1: Entscheiden Sie, ob Sie mit der linearen Regression modellieren, prädizieren, oder beides erreichen wollen.

Zielsetzung ist es, mit dem Regressionsmodell das feature "usd_pledged_real" vorherzusagen, damit Creator demenstsprechedn ihren Zielbetrag festlegen können, um ein erfolgreiches Projekt zu gestalten.

In [84]:
df_outlier_target = df_outlier["usd_pledged_real"]
df_outlier  = df_outlier.drop(columns=["usd_pledged_real"])

# Trainieren der Regressionsmodelle

Um den Einfluss der Outlier im Datensatz auf die Regressionsmodelle darzustellen, werden im Folgenden ein Modell mit Outlierwerte und ein Modell ohne Outlierwerte erstellt.

In [85]:
df_outlier = sm.add_constant(df_outlier)
df_features = sm.add_constant(df_features)

#Erstellen der Train/Test Splits mit Datensatz mit Outlier/ ohne Outlier
X_train_outlier, X_test_outlier, y_train_outlier, y_test_outlier = train_test_split(df_outlier, df_outlier_target, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(df_features, df_target, random_state=42)

In [86]:
#Trainieren der Modelle mit Outlier /ohne Outlier
model = sm.OLS(y_train,X_train).fit()
model_outlier = sm.OLS(y_train_outlier,X_train_outlier).fit()

# Regressionsmodell mit Outlier

In [87]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:       usd_pledged_real   R-squared:                       0.021
Model:                            OLS   Adj. R-squared:                  0.021
Method:                 Least Squares   F-statistic:                     118.1
Date:                Thu, 13 Jan 2022   Prob (F-statistic):               0.00
Time:                        21:37:52   Log-Likelihood:            -1.2338e+06
No. Observations:               97185   AIC:                         2.468e+06
Df Residuals:                   97166   BIC:                         2.468e+06
Df Model:                          18                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const          -401.7233    908.192     -0.442

# Regressionsmodell ohne Outlier

In [88]:
print(model_outlier.summary())

                            OLS Regression Results                            
Dep. Variable:       usd_pledged_real   R-squared:                       0.179
Model:                            OLS   Adj. R-squared:                  0.179
Method:                 Least Squares   F-statistic:                     1115.
Date:                Thu, 13 Jan 2022   Prob (F-statistic):               0.00
Time:                        21:37:54   Log-Likelihood:            -1.0111e+06
No. Observations:               91817   AIC:                         2.022e+06
Df Residuals:                   91798   BIC:                         2.022e+06
Df Model:                          18                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const           365.5597    179.321      2.039

Auffällig beim Vergleich der Modelle ist nicht nur der R-squared Wert, der sich unterscheidet, sondern zudem die Relevanz der einzelnen Features innerhalb des Modells. Das Entfernen der Outlier hat zu zwei komplett unterschieldichen Regressionsmodellen geführt. Dies wird deutlich an den unterschiedlichen Werten der Koeffizienten, wobei sich bei dem Feature Publishing das Vorzeichen verändert hat) bei der Entfernung dfer Outlier verändert haben (z.B Publishing,)

# Anforderung 3: Vergleich der Regressionsmodelle mit weiteren Algorithmen

# Vergleich der Regressionsmodelle mit weiteren Algorithmen¶

Im folgenden wurde die verschiedene Regressionsmodellen zunächst auf den Trainingsdaten trainiert und anschließend auf den Testdaten evaluiert. Hierzu wurden die Metriken root_mean_squared_error, mean_squared_error und mean_absolute_error verwendet, um die verschiedenen Regressionsmodelle untereinander zu vergleichen. 

In [89]:
def getMetrics (name, model, X_train, y_train, X_test, y_test):
    model.fit(X_train, y_train)
    predicted = model.predict(X_test)
    expected = y_test
    
    mse = mean_squared_error(expected, predicted)
    rmse = math.sqrt(mean_squared_error(expected, predicted))
    mae = mean_absolute_error(expected, predicted)
    results = [name ,mse, rmse, mae]
    formatter_result = ("{:9s}\t{:.3f}\t{:.3f}\t{:.3f}")
    print(formatter_result.format(*results))

In [96]:
clf_Linear = linear_model.LinearRegression()
clf_Linear_outlier = linear_model.LinearRegression()
svr = svm.SVR()
dtreg = DecisionTreeRegressor()
rfreg = RandomForestRegressor()
xgboost = XGBRegressor()

In [99]:
print(62 * '_')
print('Model\t\tMSE\t\tRMSE\t\tMAE')
getMetrics("LR", clf_Linear, X_train, y_train, X_test,y_test)
getMetrics("LR ohne Outlier", clf_Linear_outlier, X_train_outlier,y_train_outlier,X_test_outlier,y_test_outlier)
getMetrics("SVR", svr, X_train_outlier,y_train_outlier,X_test_outlier,y_test_outlier)
getMetrics("Decision Tree", dtreg, X_train_outlier,y_train_outlier,X_test_outlier,y_test_outlier)
getMetrics("Random Forest", rfreg, X_train_outlier,y_train_outlier,X_test_outlier,y_test_outlier)
getMetrics("XGBoost", xgboost, X_train_outlier,y_train_outlier,X_test_outlier,y_test_outlier)
print(62 * '_')

______________________________________________________________
Model		MSE		RMSE		MAE
LR       	4955885099.575	70398.048	13799.037
LR ohne Outlier	212493871.515	14577.170	7243.852
SVR      	277611883.530	16661.689	6241.588
Decision Tree	323345718.005	17981.816	6661.690
Random Forest	201011728.662	14177.861	5816.660
XGBoost  	167546290.214	12943.967	5483.523
______________________________________________________________


Der Vergleich der verschiedenen Modelle ergibt, dass das bereits in der Klassifikation bewährte XGBoost Modell ebenso bei der Regression die besten Ergebnisse liefert. Nichtsdestotrotz ist die Qualität der Vorhersagen nicht ausreichend, um diese auf echte Projekte anzuwenden, da die Abweichung zu den tatsächlichen Werten zu groß ist. Deutlich wird dies an dem absoluten Fehler (MAE), welcher bei dem besten Modell XGBoost 5483 beträgt, wobei im Vergleich dazu der durchschnittliche Zielwert(usd_goal_real) eines Projekts auf Kickstarter bei ca. 6600 liegt. Dementsprechend sind die Vorhersagen der Regressionsmodelle nicht aussagekräftig.