# Report

## Setup

In [1]:
import numpy as np
import pandas as pd
import altair as alt

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import cross_val_score
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.metrics import classification_report
from sklearn.metrics import RocCurveDisplay
from sklearn.metrics import roc_auc_score
from sklearn.feature_selection import RFE
from joblib import dump, load


## Introduction and data

> REMOVE THE FOLLOWING TEXT

This section includes an introduction to the project motivation, data, and research question.
Describe the data and definitions of key variables.

It should also include some exploratory data analysis.

All of the EDA won't fit in the paper, so focus on the EDA for the response variable and a few other interesting variables and relationships.

### 1.1 Introduction and motivation

In einer Welt, die zunehmend alle Bereiche des Lebens von digitaler Interaktionen geprägt sind, hat sich der Weg der zwischenmenschlichen Beziehungen grundlegend gewandelt. Um einzukaufen, Vertragsanliegen zu klären oder neue Leute kennenzulernen, reicht heutzutage ein Klick auf das Display des Smartphones. Es ist nicht mehr notwendig das Haus zu verlassen. Insbesondere die Nutzung von Dating-Plattformen wie Lovoo, Tinder oder Bumble ermöglicht es, potenzielle Partner auf eine Weise zu finden, die weit über die alten, herkömmlichen Methoden hinausgeht. Bereits jetzt lernen sich laut repräsentativer Umfrage 24% der Paare im Internet bzw. via Dating-App kennen. Damit ist diese Methode, zusammen mit dem Kennenlernen über Freunde, die häufigste Art und Weise im Jahr 2023 seinen Partner zu finden.(Quelle: https://de.statista.com/statistik/daten/studie/1025036/umfrage/umfrage-in-deutschland-zum-ort-des-kennenlernens-des-partners/) Doch durch die vermehrte Nutzung von Dating Plattformen steht jedes Profil vor der Herausforderung, aus der Masse hervorzustechen, positive Reaktionen zu generieren und anderen Nutzern aufzufallen.

In dieser Ära des digitalen Wandels stehen Lovoo-Nutzer vor der Herausforderung, ihre Persönlichkeit und Anziehungskraft in einem begrenzten virtuellen Raum auszudrücken. Die einzige Möglichkeit, die Aufmerksamkeit anderer Nutzer auf sich zu ziehen, besteht in der Ausgestaltung des Nutzerprofils, das nur begrenzten Informationsumfang zulässt. Aber was macht ein erfolgreiches Lovoo-Profil aus? Welche Profilmerkmale generieren genügend Mehrwert, um andere Nutzer zur Interaktion mit dem eigenen Profil zu bewegen? Die Antworten auf diese Fragen können nicht nur für Einzelpersonen von Interesse sein, die aktiv nach romantischen Beziehungen suchen, sondern werfen auch tiefergehende Fragen über menschliches Verhalten, Vorlieben und Kommunikationsmuster auf.

### 1.2 Research question

Durch die Analyse weiblicher Nutzerprofile aus dem Jahr 2015 soll anhand linearer Modelle ermittelt werden, welche Voraussetzungen ein Profil erfüllen muss, um seine Chancen auf virtuelle Interaktion zu erhöhen. Diese Erkenntnisse ermöglichen nicht nur eine personalisierte Optimierung von Profilen für individuellen Erfolg, sondern eröffnen auch Einblicke in soziokulturelle Dynamiken und digitale Kommunikationsstrategien.

Als Datengrundlage dienen die Informationen auf den Accounts verschiedener weiblicher Nutzer, die während der Interaktion mit männlichen Dummy-Profilen ausgelesen wurden. Zu den für diese Analyse relevanten Daten zählen vor allem die Informationsdichte des Profils, die Anzahl der hochgeladenen Bilder, der Profilbesuche und generierten Kisses, sowie das Alter der Person.

Anhand der vorliegenden Angaben je Profil soll mithilfe einer linearen Regression im folgenden erforscht werden, welche Profileigenschaften vorliegen sollten, um möglichst viele Profilbesuche zu generieren, was die Wahrscheinlichkeit einer Interaktion mit anderen Nutzern erhöht. Ziel ist es, die Anzahl der Profilbesuche anhand der vorliegenden Nutzerdaten vorherzusagen und damit den wahrscheinlichen Erfolg eines Profils zu bestimmen.

Zudem wird mithilfe der logistischen Regression untersucht, wie ein Account beschaffen sein muss, um Fans zu generieren, also andere User dazu zu bewegen, dem Profil zu folgen. Ziel ist es, anhand der Nutzerdaten vorherzusagen, ob ein Profil das Potenzial hat, mindestens einen Fan zu generieren oder nicht.

### 1.3 Data

#### 1.3.1 Data origin

Die Erhebung der Daten für den Datensatz erfolgte im Frühjahr 2015 durch gezielte Erfassung von Nutzerprofilinformationen auf Lovoo. Für diese Zwecke wurden eigens vom Urheber entwickelte Tools eingesetzt, die es ermöglichten, während der Nutzung der Plattform, des Aufrufens von Profilen und Stellens von Suchanfragen präzise Daten zu sammeln.

Um die Datenerhebung durchzuführen, wurden zwei Profile erstellt, die den Empfehlungen des Lovoo-Algorithmus folgten. Diese Profile waren auf die Person und die Interessen des Urhebers ausgerichtet und signalisierten Offenheit für Freundschaften, Chats und Dates. Da der Urheber männlich und ausschließlich auf der Suche nach Frauen ist, sind diese Faktoren bei Erstellung der Profile und der Auswahl potenzieller Matches durch den Algorithmus berücksichtigt. Folglich besteht der Datensatz ausschließlich aus weiblichen Nutzerprofilen. Um auch Daten für andere Geschlechter oder Altersgruppen zu erfassen, müsste eine separate Datenerhebung mit entsprechenden Profilen erfolgen.

Interessanterweise zeigte sich, dass der Empfehlungsalgorithmus von Lovoo häufig dieselben Nutzerprofile ausgab. Dies lässt darauf schließen, dass der Algorithmus wahrscheinlich stark auf Einstellungen wie den Standort angewiesen war, um Nutzer in der Nähe zu empfehlen. Möglicherweise spielten auch Cookies eine Rolle. Diese Faktoren führten dazu, dass die Anzahl der unterschiedlichen Nutzerprofile, die in den Datensatz aufgenommen wurden, begrenzt war.

#### 1.3.2 Data structure

In [2]:
URL = 'https://raw.githubusercontent.com/DA-Statistics-Nadine-Alena/project/main/references/LOVOO_Daten.csv'
df = pd.read_csv(URL)

In [3]:
df.head()

Unnamed: 0,gender,genderLooking,age,name,counts_details,counts_pictures,counts_profileVisits,counts_kisses,counts_fans,counts_g,...,shareProfileEnabled,lastOnlineDate,lastOnlineTime,birthd,crypt,freetext,whazzup,pictureId,userId,isSystemProfile
0,F,M,25.0,daeni,1.0,4.0,8279.0,239.0,0.0,3.0,...,1.0,2015-04-25T20:43:26Z,1429995000.0,0.0,,Nur tote Fisch schwimmen mit dem Strom,Nur tote fische schwimmen mit dem strom,4e3842f79b70e7ea57000064,55303fc3160ba0eb728b4575,
1,F,M,22.0,italiana 92,0.85,5.0,663.0,13.0,0.0,0.0,...,1.0,2015-04-26T09:19:35Z,1430040000.0,0.0,,,Primaveraaa<3,4e3d34bf5d2bce7b160006a3,552e7b61c66da10d1e8b4c82,
2,F,M,21.0,Lauraaa,0.0,4.0,1369.0,88.0,0.0,2.0,...,1.0,2015-04-06T14:24:07Z,1428330000.0,0.0,,,,4ec96c090dc82cb25d00000a,54a584ecc56da128638b4674,
3,F,none,20.0,Qqkwmdowlo,0.12,3.0,22187.0,1015.0,2.0,3.0,...,1.0,2015-04-07T11:21:01Z,1428406000.0,0.0,,,Je pense donc je suis. Instagram quedev,4eef8b81ebf2c8f64000000c,54c92738076ea1b5338b4735,
4,F,M,21.0,schaessie {3,0.15,12.0,35262.0,1413.0,9.0,12.0,...,1.0,2015-04-06T14:25:20Z,1428330000.0,0.0,,,Instagram: JESSSIESCH,4ef3cc5aa9d0b3d07d000017,54e1a6f6c76da135748b4a3a,


#### 1.3.3 Data dictionary

age: In dieser Spalte wird das Alter des Profilinhabers angegeben. Das ermöglicht eine konkrete Suche nach Personen im gleichen Alter oder nach anderen präferierten Altersgruppen. Die Altersspanne im gewählten Datensatz bewegt sich zwischen 18 und 28.

counts_details: Diese Spalte gibt an, wie viele Angaben auf dem Profil gemacht wurden. Die Werte spiegeln den prozentualen Anteil an gefüllten Profildetails wieder, wobei 1 (also 100%) bedeutet, dass alle möglichen Angaben auf dem Profil getätigt wurden und 0 (0%), dass auf dem Profil bisher noch keine Informationen geteilt wurden.

counts_pictures: Diese Spalte gibt die Anzahl der Bilder an, die auf dem Account hochgeladen wurden. Mit hochgeladenen Bildern bekommt der Gegenüber eine Vorstellung vom Aussehen der potenziellen Matches und kann so auf sehr oberflächlicher Ebene mögliche Datingpartner selektieren.

counts_profileVisits: Profile Visits auf der Dating-Plattform Lovoo bezeichnen die Anzahl der Besuche, die das eigene Benutzerprofil von anderen Nutzern erhalten hat. Wenn jemand das eigene Profil aufruft, wird dies als "Profile Visit" gezählt. Dies gibt dem Benutzer einen Einblick, wie viele andere Mitglieder Interesse an seinem Profil zeigen, indem sie es besuchen. Profile Visits können in Dating-Apps wie Lovoo dazu beitragen, die allgemeine Aktivität und Attraktivität des eigenen Profils zu bewerten.

counts_kisses: "Kisses" sind Ausruck von Aufmerksamkeit auf der Plattform, die User verwenden können, um gegenüber anderen Nutzern ihr Interesse auszudrücken. Die virtuellen Küsse bieten die Möglichkeit, jemandem zu signalisieren, das Interesse an einem Kontaktaufbau besteht oder denjenigen auf das eigene Profil zu locken. In der Regel können Kisses gekauft oder durch bestimmte Aktionen auf der Plattform verdient werden.

counts_fans: Fan auf Lovoo wird man, indem man das Profil eines anderen Nutzers markiert und diesem folgt. Ähnlich wie bei anderen Social Media Kanälen wie z.B. Instagram, wird man dann über neue Beiträge eines Profils auf dem laufenden Gehalten und verliert dieses nicht aus den Augen.

#### 1.3.4 Defintion Key variables

##### Linear Regression

In [None]:
counts_details
counts_pictures
counts_kisses
counts_fans
counts_profileVisits

##### Logistic Regression

age
counts_details
counts_pictures
counts_profileVisits
counts_kisses

#### 1.3.5 Data corrections

#### 1.3.6 Exploratory data analysis

##### Linear Regression

##### Logistic Regression

In [3]:
charts = []
for column in selected_columns:
    chart = alt.Chart(df_train_lor).mark_area(
        opacity=0.5,
        interpolate='step'
    ).encode(
        alt.X(column, bin=alt.Bin(maxbins=40)),
        alt.Y('count()', stack=None),
        alt.Color('fans:N'),
    ).properties(width=150, height=150, title=f'Histogram for {column}')

    charts.append(chart)

alt.vconcat(*[alt.hconcat(*charts[i:i+3]) for i in range(0, len(charts), 3)])

NameError: name 'selected_columns' is not defined

In [None]:
charts = []
for column in selected_columns:
    chart = alt.Chart(df_train_lor).mark_boxplot(
        size=50,
        opacity=0.7
    ).encode(
        x='fans:N',
        y=alt.Y(f'{column}:Q', scale=alt.Scale(zero=True)),
        color='fans:N'
    ).properties(width=150, height=150, title=f'Boxplot for {column}')

    charts.append(chart)

alt.vconcat(*[alt.hconcat(*charts[i:i+2]) for i in range(0, len(charts), 2)])

## Methodology

> REMOVE THE FOLLOWING TEXT

This section includes a brief description of your modeling process.

Explain the reasoning for the type of model you're fitting, predictor variables considered for the model.

Additionally, show how you arrived at the final model by describing the model selection process, variable transformations (if needed), assessment of conditions and diagnostics, and any other relevant considerations that were part of the model fitting process.

## Results

> REMOVE THE FOLLOWING TEXT

This is where you will output the final model with any relevant model fit statistics.

Describe the key results from the model.
The goal is not to interpret every single variable in the model but rather to show that you are proficient in using the model output to address the research questions, using the interpretations to support your conclusions.

Focus on the variables that help you answer the research question and that provide relevant context for the reader.


## Discussion + Conclusion


> REMOVE THE FOLLOWING TEXT

In this section you'll include a summary of what you have learned about your research question along with statistical arguments supporting your conclusions.
In addition, discuss the limitations of your analysis and provide suggestions on ways the analysis could be improved.
Any potential issues pertaining to the reliability and validity of your data and appropriateness of the statistical analysis should also be discussed here.
Lastly, this section will include ideas for future work.