# Report

## Setup

In [14]:
import numpy as np
import pandas as pd
import altair as alt

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import cross_val_score
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.metrics import classification_report
from sklearn.metrics import RocCurveDisplay
from sklearn.metrics import roc_auc_score
from sklearn.feature_selection import RFE
from joblib import dump, load

## Introduction and data

> REMOVE THE FOLLOWING TEXT

This section includes an introduction to the project motivation, data, and research question.
Describe the data and definitions of key variables.

It should also include some exploratory data analysis.

All of the EDA won't fit in the paper, so focus on the EDA for the response variable and a few other interesting variables and relationships.

### 1.1 Introduction and motivation

In einer Welt, in der digitale Interaktionen zunehmend alle Bereiche des Lebens prägen, hat sich der Weg der zwischenmenschlichen Beziehungen grundlegend gewandelt. In Zeiten, in denen für Einkäufe, Vertragsangelegenheiten oder das Kennenlernen neuer Leute nur ein Klick auf das Smartphone-Display erforderlich ist, scheint das Verlassen des Hauses immer weniger notwendig. Insbesondere die Nutzung von Dating-Plattformen wie Lovoo, Tinder oder Bumble hat das Finden potenzieller Partner revolutioniert und bietet Möglichkeiten, die weit über traditionelle Methoden hinausgehen. Laut einer repräsentativen Umfrage lernen sich bereits 24% der Paare im Internet bzw. über Dating-Apps kennen, was diese Methode, zusammen mit dem Kennenlernen über Freunde, zur beliebtesten Art und Weise macht, im Jahr 2023 einen Partner zu finden (Quelle: Statista).

Doch mit der Zunahme der Nutzung von Dating-Plattformen ergibt sich eine neue Herausforderung: Wie kann ein Profil aus der Masse hervorstechen, positive Reaktionen generieren und anderen Nutzern auffallen? In dieser Ära des digitalen Wandels stehen Nutzer von Plattformen wie Lovoo vor der Aufgabe, ihre Persönlichkeit und Anziehungskraft in einem begrenzten virtuellen Raum zu vermitteln. Die Gestaltung des Nutzerprofils, das nur einen begrenzten Informationsumfang zulässt, wird zur einzigen Möglichkeit, die Aufmerksamkeit anderer zu erregen.

Dieses Projekt zielt darauf ab, die Schlüsselelemente eines erfolgreichen Lovoo-Profils zu identifizieren. Es wird untersucht, welche Profilmerkmale genügend Mehrwert bieten, um andere Nutzer zur Interaktion zu bewegen. Dies ist nicht nur für Einzelpersonen relevant, die aktiv nach romantischen Beziehungen suchen, sondern wirft auch tiefgreifende Fragen über menschliches Verhalten, Vorlieben und Kommunikationsmuster in einer zunehmend digitalisierten Gesellschaft auf. Durch die Analyse von Nutzerdaten auf dieser Plattformen bietet dieses Projekt Einblicke in die Dynamik des digitalen Datings und trägt dazu bei, ein umfassenderes Verständnis der Faktoren zu entwickeln, die in der Welt des Online-Datings Erfolg definieren.



### 1.2 Research question

Durch die Analyse weiblicher Nutzerprofile aus dem Jahr 2015 soll anhand linearer Modelle ermittelt werden, welche Voraussetzungen ein Profil erfüllen muss, um seine Chancen auf virtuelle Interaktion zu erhöhen. Diese Erkenntnisse ermöglichen nicht nur eine personalisierte Optimierung von Profilen für individuellen Erfolg, sondern eröffnen auch Einblicke in soziokulturelle Dynamiken und digitale Kommunikationsstrategien.

Als Datengrundlage dienen die Informationen auf den Accounts verschiedener weiblicher Nutzer, die während der Interaktion mit männlichen Dummy-Profilen ausgelesen wurden. Zu den für diese Analyse relevanten Daten zählen vor allem die Informationsdichte des Profils, die Anzahl der hochgeladenen Bilder, der Profilbesuche und generierten Kisses, sowie das Alter der Person.

Anhand der vorliegenden Angaben je Profil soll mithilfe einer linearen Regression im folgenden erforscht werden, welche Profileigenschaften vorliegen sollten, um möglichst viele Profilbesuche zu generieren, was die Wahrscheinlichkeit einer Interaktion mit anderen Nutzern erhöht. Ziel ist es, die Anzahl der Profilbesuche anhand der vorliegenden Nutzerdaten vorherzusagen und damit den wahrscheinlichen Erfolg eines Profils zu bestimmen.

Zudem wird mithilfe der logistischen Regression untersucht, wie ein Account beschaffen sein muss, um Fans zu generieren, also andere User dazu zu bewegen, dem Profil zu folgen. Ziel ist es, anhand der Nutzerdaten vorherzusagen, ob ein Profil das Potenzial hat, mindestens einen Fan zu generieren oder nicht.

### 1.3 Data

#### 1.3.1 Data origin

Die Erhebung der Daten für den Datensatz erfolgte im Frühjahr 2015 durch gezielte Erfassung von Nutzerprofilinformationen auf Lovoo. Für diese Zwecke wurden eigens vom Urheber entwickelte Tools eingesetzt, die es ermöglichten, während der Nutzung der Plattform, des Aufrufens von Profilen und Stellens von Suchanfragen präzise Daten zu sammeln.

Um die Datenerhebung durchzuführen, wurden zwei Profile erstellt, die den Empfehlungen des Lovoo-Algorithmus folgten. Diese Profile waren auf die Person und die Interessen des Urhebers ausgerichtet und signalisierten Offenheit für Freundschaften, Chats und Dates. Da der Urheber männlich und ausschließlich auf der Suche nach Frauen ist, sind diese Faktoren bei Erstellung der Profile und der Auswahl potenzieller Matches durch den Algorithmus berücksichtigt. Folglich besteht der Datensatz ausschließlich aus weiblichen Nutzerprofilen. Um auch Daten für andere Geschlechter oder Altersgruppen zu erfassen, müsste eine separate Datenerhebung mit entsprechenden Profilen erfolgen.

Interessanterweise zeigte sich, dass der Empfehlungsalgorithmus von Lovoo häufig dieselben Nutzerprofile ausgab. Dies lässt darauf schließen, dass der Algorithmus wahrscheinlich stark auf Einstellungen wie den Standort angewiesen war, um Nutzer in der Nähe zu empfehlen. Möglicherweise spielten auch Cookies eine Rolle. Diese Faktoren führten dazu, dass die Anzahl der unterschiedlichen Nutzerprofile, die in den Datensatz aufgenommen wurden, begrenzt war.

#### 1.3.2 Data structure

In [17]:
URL = 'https://raw.githubusercontent.com/DA-Statistics-Nadine-Alena/project/main/references/LOVOO_Daten.csv'
df = pd.read_csv(URL)

In [18]:
df.head()

Unnamed: 0,gender,genderLooking,age,name,counts_details,counts_pictures,counts_profileVisits,counts_kisses,counts_fans,counts_g,...,shareProfileEnabled,lastOnlineDate,lastOnlineTime,birthd,crypt,freetext,whazzup,pictureId,userId,isSystemProfile
0,F,M,25.0,daeni,1.0,4.0,8279.0,239.0,0.0,3.0,...,1.0,2015-04-25T20:43:26Z,1429995000.0,0.0,,Nur tote Fisch schwimmen mit dem Strom,Nur tote fische schwimmen mit dem strom,4e3842f79b70e7ea57000064,55303fc3160ba0eb728b4575,
1,F,M,22.0,italiana 92,0.85,5.0,663.0,13.0,0.0,0.0,...,1.0,2015-04-26T09:19:35Z,1430040000.0,0.0,,,Primaveraaa<3,4e3d34bf5d2bce7b160006a3,552e7b61c66da10d1e8b4c82,
2,F,M,21.0,Lauraaa,0.0,4.0,1369.0,88.0,0.0,2.0,...,1.0,2015-04-06T14:24:07Z,1428330000.0,0.0,,,,4ec96c090dc82cb25d00000a,54a584ecc56da128638b4674,
3,F,none,20.0,Qqkwmdowlo,0.12,3.0,22187.0,1015.0,2.0,3.0,...,1.0,2015-04-07T11:21:01Z,1428406000.0,0.0,,,Je pense donc je suis. Instagram quedev,4eef8b81ebf2c8f64000000c,54c92738076ea1b5338b4735,
4,F,M,21.0,schaessie {3,0.15,12.0,35262.0,1413.0,9.0,12.0,...,1.0,2015-04-06T14:25:20Z,1428330000.0,0.0,,,Instagram: JESSSIESCH,4ef3cc5aa9d0b3d07d000017,54e1a6f6c76da135748b4a3a,


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3855 entries, 0 to 3854
Data columns (total 42 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   gender                  3855 non-null   object 
 1   genderLooking           3428 non-null   object 
 2   age                     3428 non-null   float64
 3   name                    3428 non-null   object 
 4   counts_details          3426 non-null   float64
 5   counts_pictures         3426 non-null   float64
 6   counts_profileVisits    3426 non-null   float64
 7   counts_kisses           3426 non-null   float64
 8   counts_fans             3426 non-null   float64
 9   counts_g                3426 non-null   float64
 10  flirtInterests_chat     3426 non-null   object 
 11  flirtInterests_friends  3426 non-null   object 
 12  flirtInterests_date     3426 non-null   object 
 13  country                 3426 non-null   object 
 14  city                    3157 non-null   

#### 1.3.3 Data corrections

Um den vorliegenden Datensatz für die lineare sowie logitsische Regression verwenden zu können, mussten Korrekturen an dem Datensatz vorgenommen werden.

**Entfernung von NaN-Werten**
Der Datensatz enthält einige Profildaten mit NaN-Werten. Zur besseren Modellierung wurden die Zeilen mit NaN-Werte aus dem Datensatz entfernt, da im linearen Regressionsmodellen keine Leerzellen bzw. NaN Werte akzeptiert werden. Die relevanten numerischen Spalten werden hierfür bereinigt, indem die Zeilen mit NaN Werten in den entsprechenden Spalten herausgefiltert udn entfernt werden.

**Hinzufügen der Variable "fans"**
Die Variable "counts_fans" wird in eine kategoriale Variable umgewandelt, sodass diese für die logistische Regression angewendet werden kann. Dem DataFrame wird eine neue Spalte hinzugefügt, die Angibt, ob das in der Zeile repräsentierte Profil über Fans verfügt oder nicht. Grundlage dabei ist die Spalte "counts_fans", ist die dort eingetragene Zahl größer als Eins, so wird das Profil in der neuen Spalte "fans" mit einer 1 gekennzeichnet. Verfügt das Profil laut "counts_fans" über keine Fans, erhält es in der Spalte "fans" eine 0.

**Korrektur von fehlerhaften Zeilen**
Bei genauer Betrachtung der Ausprägungen in der Spalte Gender, so fällt auf, dass die zugrunde liegende csv-Tablle in einigen Zeilen fehlerhaft war, weshalb dort in der entsprechenden Spalte keine der erwarteten Ausprägungen F (= Frau), M (= Mann) und none (= keine Angabe) vermerkt ist. Die fehlerhaft Datenstruktur erstreckt sich über die ganze Zeile der betreffenden Profile, weshalb sie identifiziert und entfernt werden müssen. Hierzu werden die obengenannten Ausprägungen als accepted Values festgelegt, um die übrigen Zeilen mit anderen Werten herauszufiltern.

**Entfernung von nicht verwendeten Spalten**
Der Datensatz enthält viele Spalten die für die nachfolgende Modellierung irrelevant sind. Aus diesem Grund werden diese Spalten aus dem Datensatz entfernt.

Der bereinigte Datensatz wird als csv-Datei abgespeichert und kann so für das weitere Vorgehen importiert werden.

In [8]:
URLc = 'https://raw.githubusercontent.com/DA-Statistics-Nadine-Alena/project/main/references/LOVOO_Daten.csv'
df = pd.read_csv(URLc)

#### 1.3.4 Data dictionary

In [9]:
data = {
    'Name': ['counts_profileVisits', 'counts_details', 'age', 'counts_pictures', 'counts_kisses', 'counts_fans', 'fans'],
    'Description': ['Anzahl der Besuche anderer Nutzer auf dem betrachteten Profil', 'Anteil der auf dem Profil gefüllen Accountdetails', 'Alter des Profilinhabers', 'Anzahl der auf dem Profil hochgeladenen Bilder', 'Anzahl der für das Profil vergebenen Kisses (ähnlich den Likes auf Instagram)', 'Anzahl der Fans des Profils, ähnlich Follower auf anderen Plattformen', 'Binerische Angabe, ob ein Profil über Fans verfügt oder nicht '],
    'Role': ['Response', 'Predictor', 'Predictor', 'Predictor', 'Predictor', 'Predictor', 'Response'],
    'Type': ['numerisch', 'numerisch', 'numerisch', 'numerisch', 'numerisch', 'numerisch', 'nominal'],
    'Format': ['float', 'float', 'float', 'float', 'float','float', 'category']
}


data_dictionary = pd.DataFrame(data)
data_dictionary

Unnamed: 0,Name,Description,Role,Type,Format
0,counts_profileVisits,Anzahl der Besuche anderer Nutzer auf dem betr...,Response,numerisch,float
1,counts_details,Anteil der auf dem Profil gefüllen Accountdetails,Predictor,numerisch,float
2,age,Alter des Profilinhabers,Predictor,numerisch,float
3,counts_pictures,Anzahl der auf dem Profil hochgeladenen Bilder,Predictor,numerisch,float
4,counts_kisses,Anzahl der für das Profil vergebenen Kisses (ä...,Predictor,numerisch,float
5,counts_fans,"Anzahl der Fans des Profils, ähnlich Follower ...",Predictor,numerisch,float
6,fans,"Binerische Angabe, ob ein Profil über Fans ver...",Response,nominal,category


#### 1.3.5 Defintion Key variables

Der zugrundeliegende Datensatz ist sehr umfassend. Da nicht alle Variablen für die das Projekt relevant sind, werden im nachfolgenden nur die verwendeten Variablen näher erläutert.

age: In dieser Spalte wird das Alter des Profilinhabers angegeben. Das ermöglicht eine konkrete Suche nach Personen im gleichen Alter oder nach anderen präferierten Altersgruppen. Die Altersspanne im gewählten Datensatz bewegt sich zwischen 18 und 28.

counts_details: Diese Spalte gibt an, wie viele Angaben auf dem Profil gemacht wurden. Die Werte spiegeln den prozentualen Anteil an gefüllten Profildetails wieder, wobei 1 (also 100%) bedeutet, dass alle möglichen Angaben auf dem Profil getätigt wurden und 0 (0%), dass auf dem Profil bisher noch keine Informationen geteilt wurden.

counts_pictures: Diese Spalte gibt die Anzahl der Bilder an, die auf dem Account hochgeladen wurden. Mit hochgeladenen Bildern bekommt der Gegenüber eine Vorstellung vom Aussehen der potenziellen Matches und kann so auf sehr oberflächlicher Ebene mögliche Datingpartner selektieren.

counts_profileVisits: Profile Visits auf der Dating-Plattform Lovoo bezeichnen die Anzahl der Besuche, die das eigene Benutzerprofil von anderen Nutzern erhalten hat. Wenn jemand das eigene Profil aufruft, wird dies als "Profile Visit" gezählt. Dies gibt dem Benutzer einen Einblick, wie viele andere Mitglieder Interesse an seinem Profil zeigen, indem sie es besuchen. Profile Visits können in Dating-Apps wie Lovoo dazu beitragen, die allgemeine Aktivität und Attraktivität des eigenen Profils zu bewerten.

counts_kisses: "Kisses" sind Ausruck von Aufmerksamkeit auf der Plattform, die User verwenden können, um gegenüber anderen Nutzern ihr Interesse auszudrücken. Die virtuellen Küsse bieten die Möglichkeit, jemandem zu signalisieren, das Interesse an einem Kontaktaufbau besteht oder denjenigen auf das eigene Profil zu locken. In der Regel können Kisses gekauft oder durch bestimmte Aktionen auf der Plattform verdient werden.

counts_fans: Fan auf Lovoo wird man, indem man das Profil eines anderen Nutzers markiert und diesem folgt. Ähnlich wie bei anderen Social Media Kanälen wie z.B. Instagram, wird man dann über neue Beiträge eines Profils auf dem laufenden Gehalten und verliert dieses nicht aus den Augen.

##### Linear Regression

Die lineare Regression findet Anwendung um Merkmale eines Nutzerprofils auf Lovoo zu identifizieren, die Anzahl der Profilbesucher erhöht um somit die zu steigern mit anderen Nutzer der Plattform in Kontakt zu treten. Die **Responsevariable** ist "count_profileVisits".

Mit Hilfe von EDA wurden die nachfolgenden Variablen als mögliche **Predictorvariablen** identifiziert.
- counts_details
- counts_pictures
- counts_kisses
- counts_fans

Um die Daten im Modell weiterzuverwenden, werden im nächsten SChritt die Spalten ausgewählt, die für die Modellierung relevant sind. Diesen wird dann ihre entsprechende Rolle als Responsevariable (y_label) oder Predictor (feature) zugeordnet, und anschließend als X und y Variable definiert.

In [11]:
y_label = 'counts_profileVisits'

features = df.drop(columns=[y_label,'gender','genderLooking', 'age','flirtInterests_chat','flirtInterests_friends','flirtInterests_date','country','city','location','distance','isFlirtstar','isHighlighted','isInfluencer','isMobile','isNew','isOnline','isVip','lang_count','lang_fr','lang_en','lang_de','lang_it','lang_es','lang_pt','verified','shareProfileEnabled','lastOnlineDate','lastOnlineTime','birthd','fans']).columns

X = df[features]

y = df[y_label]

KeyError: "['fans'] not found in axis"

##### Logistic Regression

Mit Hilfe von EDA wurden die nachfolgenden Variablen als mögliche Predictorvariablen identifiziert:
- age
- counts_details
- counts_pictures
- counts_profileVisits
- counts_kisses

Um die Daten im Modell weiterzuverwenden, werden im nächsten SChritt die Spalten ausgewählt, die für die Modellierung relevant sind. Diesen wird dann ihre entsprechende Rolle als Responsevariable (y_label) oder Predictor (feature) zugeordnet, und anschließend als X und y Variable definiert.

In [None]:
y_label_lor = 'fans'

features_lor = df.drop(columns=[y_label_lor, 'counts_fans', 'gender','genderLooking','flirtInterests_chat','flirtInterests_friends','flirtInterests_date','country','city','location','distance','isFlirtstar','isHighlighted','isInfluencer','isMobile','isNew','isOnline','isVip','lang_count','lang_fr','lang_en','lang_de','lang_it','lang_es','lang_pt','verified','shareProfileEnabled','lastOnlineDate','lastOnlineTime','birthd']).columns

X_lor = df[features_lor]

y_lor = df[y_label_lor]

#### 1.3.6 Data Splitting

Für die Analyse werden die Daten in Trainings- und Testdaten unterteilt. Die Trennung wird für beide Modelle vorgenommen, damit eventuell notwendige Veränderungen an den Daten, wie beispielweise die Eliminierung von Ausreißern keine Auswirkungen auf das andere Modell haben. Die Trainingsdaten zum trainieren des Modell verwendet, wohingegen die Testdann wird für die Evaluierung der Güte des Modells benötigt werden. 

**Lineare Regression**

In [15]:
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2,random_state=42)

NameError: name 'X' is not defined

In [None]:
df_train = pd.DataFrame(X_train.copy())
df_train = df_train.join(pd.DataFrame(y_train))

**Logistische Regression**

In [None]:
X_train_lor, X_test_lor, y_train_lor, y_test_lor = train_test_split(X_lor, y_lor,test_size=0.2,random_state=42)

In [None]:
df_train_lor = pd.DataFrame(X_train_lor.copy())
df_train_lor = df_train_lor.join(pd.DataFrame(y_train_lor))

#### 1.3.7 Exploratory data analysis

##### Linear Regression

##### Logistic Regression

In [12]:
selected_columns = ['counts_profileVisits', 'age', 'counts_details', 'counts_pictures', 'counts_kisses']
grouped_describe = df_train_lor.groupby(by=['fans']).describe().T.loc[selected_columns]
grouped_describe

NameError: name 'df_train_lor' is not defined

In [3]:
charts = []
for column in selected_columns:
    chart = alt.Chart(df_train_lor).mark_area(
        opacity=0.5,
        interpolate='step'
    ).encode(
        alt.X(column, bin=alt.Bin(maxbins=40)),
        alt.Y('count()', stack=None),
        alt.Color('fans:N'),
    ).properties(width=150, height=150, title=f'Histogram for {column}')

    charts.append(chart)

alt.vconcat(*[alt.hconcat(*charts[i:i+3]) for i in range(0, len(charts), 3)])

NameError: name 'selected_columns' is not defined

In [None]:
charts = []
for column in selected_columns:
    chart = alt.Chart(df_train_lor).mark_boxplot(
        size=50,
        opacity=0.7
    ).encode(
        x='fans:N',
        y=alt.Y(f'{column}:Q', scale=alt.Scale(zero=True)),
        color='fans:N'
    ).properties(width=150, height=150, title=f'Boxplot for {column}')

    charts.append(chart)

alt.vconcat(*[alt.hconcat(*charts[i:i+2]) for i in range(0, len(charts), 2)])

## 2. Methodology

> REMOVE THE FOLLOWING TEXT

This section includes a brief description of your modeling process.

Explain the reasoning for the type of model you're fitting, predictor variables considered for the model.

Additionally, show how you arrived at the final model by describing the model selection process, variable transformations (if needed), assessment of conditions and diagnostics, and any other relevant considerations that were part of the model fitting process.

### 2.1 Lineare Regression

### 2.2 Logistische Regression

## 3. Results

> REMOVE THE FOLLOWING TEXT

This is where you will output the final model with any relevant model fit statistics.

Describe the key results from the model.
The goal is not to interpret every single variable in the model but rather to show that you are proficient in using the model output to address the research questions, using the interpretations to support your conclusions.

Focus on the variables that help you answer the research question and that provide relevant context for the reader.


**Lineare Regression**

Für die lineare Regression wurden insgesamt vier Predictorvariablen verwendet (counts_details, counts_pictures, counts_kisses und couts_fans), um vorherzusagen, wie viele Profilbesuche in Lovoo Profil mit bestimmten Merkmalen erhalten wird. Das Modell soll also die Frage beantworten, wie stark sich ein neues hochgeladenes Bild, eine neue Information auf dem Profil, ein neuer Fan oder ein neuer Kiss auf die Anzahl der ProfilVisits auswirkt.

Die größte Auswirkung auf die Anzahl der User, die das Profil besuchen, hat das Hochladen eines neuen Bildes, hier ist der Slope am größten, gefolgt von einem neuen Detail auf dem Profil. Das lässt sich dadurch erklären, dass bei beiden Variablen eine neue Information über den User hochgeladen wird, auf den andere Nutzer hingewiesen werden und der bei diesen möglicherweise das Interesse weckt. Die anderen Variablen erhöhen sich lediglich durch das Zutun anderer Nutzer auf der Plattform. Auch wenn die anderen beiden Predictorvariablen nur geringe Auswirkungen haben, sind alle Koeffizienten positiv, was bedeutet, dass sich grundsätzlich die Erhöhung jeder Predictorvariable auch positiv auf die Entwicklung der Profilbesuche auswirkt.

Das Modell zeigt mit einem R^2 Score einen akzeptablen Wert, allerdings sind die durchschnittlichen Abweichungen der vorhergesagten Werte von den tatsächlichen Ergebnissen sehr groß, weshalb es fraglich ist, ob das Modell gerade bei Profil mit wenig Interaktion tatsächlich zielführend ist. Das Problem bleibt auch bei der Reduzierung der Predictorvariablen um die Variablen mit geringer Korrelation bestehen sowie bei Filterung der Ausreißer.

**Logistische Regression**

Zur Vorhersage, ob ein Profil Fans generiert oder nicht wurden vier mögliche Predictorvariablen in der Modellierung berücksichtigt. Zum einen counts_profileVisits, counts_details und counts_pictures stehen in diesem Modell in einer positiven Zusammenhang zur untersuchten Responsevariablen fans. Das bedeutet, dass je mehr Besucher, hochgeladene Bilder und befüllte Details ein Profil aufweist, desto wahrscheinlicher ist es, dass dieses profil auch Fans generiert. Die Beziehung zwischen den Fand und dem Grad der befüllten Details ist dabei am stärksten. Das bedeutet, dass die Angabe von Details auf dem Profil besonders wichtig ist um Fans zu generieren. Der Zusammenhang zur vierten Predictorvariablen counts_kisses ist negativ. Dies kann sich unter anderem dadurch erklären lassen, dass wenn ein Nutzer ein Profil besucht sich tendeziell entscheidet ob er diesem Profil folgt und somit zum Fan wird oder vllt. auch einen virtuellen Kiss dalässt um auch so das Interesse zu zeigen.

Für das Modell sind haben die falsch negativen Werte eine geringere Bedeutung als die falsch positiven Werte, denn Ziel der Nutzer ist es immer andere Menschen auf der Plattform kennenzulernen. Das heißt für die Nutzer ist die Erkenntnis wichtig wie Fans generiert werden können, und nicht wie keine generiert werden können. Aus diesem Grund muss der Wert der falsch positiven Werte so gering wie möglich gehalten werden. Das bedeutet auch, dass der Schwellenwert für das Modell tendenziell hoch angesetzt werden muss.

Durch die Ungleichverteilung in der Ausprägung der Daten (Verhältnis 1 zu 3) ist die Genauigkeit insbesondere für die korrekt negativ vorhergesagten Werte gut.

## 4. Discussion + Conclusion


> REMOVE THE FOLLOWING TEXT

In this section you'll include a summary of what you have learned about your research question along with statistical arguments supporting your conclusions.
In addition, discuss the limitations of your analysis and provide suggestions on ways the analysis could be improved.
Any potential issues pertaining to the reliability and validity of your data and appropriateness of the statistical analysis should also be discussed here.
Lastly, this section will include ideas for future work.