In [1]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

In [2]:
gebruikers_df = pd.read_csv(r'..\..\data\gebruikersinformatie.csv', delimiter = ';')
evenement_df = pd.read_csv(r'..\..\data\evenementinformatie.csv', delimiter = ';')
aanwezigheid_df = pd.read_csv(r'..\..\data\evenementaanwezigheid.csv', delimiter = ';')
bericht_df = pd.read_csv(r'..\..\data\berichtinteracties_met_sentiment.csv', delimiter = ';')

In [3]:
# Merge aanwezigheid_df with evenement_df
aanwezigheid_df = aanwezigheid_df.merge(evenement_df, on = "EvenementID", how = "left")

# Merge the result with gebruikers_df
aanwezigheid_df = aanwezigheid_df.merge(gebruikers_df, on = "GebruikerID", how = "left")

# Rename columns for consistency
aanwezigheid_df.rename(
    columns = {col: f"Evenement_{col}" for col in evenement_df.columns if col != "EvenementID"},
    inplace = True
)

aanwezigheid_df.rename(
    columns = {col: f"Gebruiker_{col}" for col in gebruikers_df.columns if col != "GebruikerID"},
    inplace = True
)

aanwezigheid_df

Unnamed: 0,EvenementID,GebruikerID,Aanwezigheidsstatus,Evenement_EvenementType,Evenement_EvenementDatum,Evenement_OrganisatorID,Gebruiker_RegistratieDatum,Gebruiker_LaatsteLogin,Gebruiker_Leeftijd,Gebruiker_Studierichting,Gebruiker_Studiejaar,Gebruiker_Lidmaatschapstype
0,E001,G123,Bijgewoond,BBQ,24-2-2023,G296,15-5-2023,11-12-2023,19.0,Data engineering,Eerstejaars,Regulier
1,E001,G296,Bijgewoond,BBQ,24-2-2023,G296,6-9-2023,18-3-2024,22.0,Security & Cloud,Eerstejaars,Premium
2,E001,G032,Geregistreerd,BBQ,24-2-2023,G296,4-1-2023,19-5-2023,17.0,Data Engineering,Tweedejaars,Regulier
3,E001,G217,Bijgewoond,BBQ,24-2-2023,G296,13-8-2023,18-1-2024,24.0,Data Engineering,Vierdejaars,Regulier
4,E001,G162,Geregistreerd,BBQ,24-2-2023,G296,21-8-2023,8-5-2024,18.0,Human computer interaction,Tweedejaars,Regulier
...,...,...,...,...,...,...,...,...,...,...,...,...
3995,E040,G238,Geregistreerd,Workshop,19-2-2023,G215,17-1-2023,9-5-2023,17.0,Data engineering,Vierdejaars,Regulier
3996,E040,G121,Geregistreerd,Workshop,19-2-2023,G215,15-10-2023,14-1-2024,24.0,Human computer interaction,Tweedejaars,Premium
3997,E040,G043,Bijgewoond,Workshop,19-2-2023,G215,14-7-2023,20-8-2023,21.0,Data engineering,Derdejaars,Premium
3998,E040,G164,Bijgewoond,Workshop,19-2-2023,G215,15-5-2023,28-11-2023,20.0,Data engineering,Derdejaars,Premium


In [4]:
# Remove nonvalid entries
aanwezigheid_df = aanwezigheid_df[~(aanwezigheid_df['Gebruiker_Leeftijd'].isna())]
aanwezigheid_df = aanwezigheid_df[~(aanwezigheid_df['Gebruiker_Lidmaatschapstype'] == 'x')]
aanwezigheid_df

Unnamed: 0,EvenementID,GebruikerID,Aanwezigheidsstatus,Evenement_EvenementType,Evenement_EvenementDatum,Evenement_OrganisatorID,Gebruiker_RegistratieDatum,Gebruiker_LaatsteLogin,Gebruiker_Leeftijd,Gebruiker_Studierichting,Gebruiker_Studiejaar,Gebruiker_Lidmaatschapstype
0,E001,G123,Bijgewoond,BBQ,24-2-2023,G296,15-5-2023,11-12-2023,19.0,Data engineering,Eerstejaars,Regulier
1,E001,G296,Bijgewoond,BBQ,24-2-2023,G296,6-9-2023,18-3-2024,22.0,Security & Cloud,Eerstejaars,Premium
2,E001,G032,Geregistreerd,BBQ,24-2-2023,G296,4-1-2023,19-5-2023,17.0,Data Engineering,Tweedejaars,Regulier
3,E001,G217,Bijgewoond,BBQ,24-2-2023,G296,13-8-2023,18-1-2024,24.0,Data Engineering,Vierdejaars,Regulier
4,E001,G162,Geregistreerd,BBQ,24-2-2023,G296,21-8-2023,8-5-2024,18.0,Human computer interaction,Tweedejaars,Regulier
...,...,...,...,...,...,...,...,...,...,...,...,...
3995,E040,G238,Geregistreerd,Workshop,19-2-2023,G215,17-1-2023,9-5-2023,17.0,Data engineering,Vierdejaars,Regulier
3996,E040,G121,Geregistreerd,Workshop,19-2-2023,G215,15-10-2023,14-1-2024,24.0,Human computer interaction,Tweedejaars,Premium
3997,E040,G043,Bijgewoond,Workshop,19-2-2023,G215,14-7-2023,20-8-2023,21.0,Data engineering,Derdejaars,Premium
3998,E040,G164,Bijgewoond,Workshop,19-2-2023,G215,15-5-2023,28-11-2023,20.0,Data engineering,Derdejaars,Premium


In [5]:
# Convert ID to ints
to_convert = ["EvenementID", "GebruikerID", "Evenement_OrganisatorID"]

for col in to_convert:
    aanwezigheid_df[col] = aanwezigheid_df[col].str[1:].astype(int)
    
aanwezigheid_df

Unnamed: 0,EvenementID,GebruikerID,Aanwezigheidsstatus,Evenement_EvenementType,Evenement_EvenementDatum,Evenement_OrganisatorID,Gebruiker_RegistratieDatum,Gebruiker_LaatsteLogin,Gebruiker_Leeftijd,Gebruiker_Studierichting,Gebruiker_Studiejaar,Gebruiker_Lidmaatschapstype
0,1,123,Bijgewoond,BBQ,24-2-2023,296,15-5-2023,11-12-2023,19.0,Data engineering,Eerstejaars,Regulier
1,1,296,Bijgewoond,BBQ,24-2-2023,296,6-9-2023,18-3-2024,22.0,Security & Cloud,Eerstejaars,Premium
2,1,32,Geregistreerd,BBQ,24-2-2023,296,4-1-2023,19-5-2023,17.0,Data Engineering,Tweedejaars,Regulier
3,1,217,Bijgewoond,BBQ,24-2-2023,296,13-8-2023,18-1-2024,24.0,Data Engineering,Vierdejaars,Regulier
4,1,162,Geregistreerd,BBQ,24-2-2023,296,21-8-2023,8-5-2024,18.0,Human computer interaction,Tweedejaars,Regulier
...,...,...,...,...,...,...,...,...,...,...,...,...
3995,40,238,Geregistreerd,Workshop,19-2-2023,215,17-1-2023,9-5-2023,17.0,Data engineering,Vierdejaars,Regulier
3996,40,121,Geregistreerd,Workshop,19-2-2023,215,15-10-2023,14-1-2024,24.0,Human computer interaction,Tweedejaars,Premium
3997,40,43,Bijgewoond,Workshop,19-2-2023,215,14-7-2023,20-8-2023,21.0,Data engineering,Derdejaars,Premium
3998,40,164,Bijgewoond,Workshop,19-2-2023,215,15-5-2023,28-11-2023,20.0,Data engineering,Derdejaars,Premium


In [6]:
# Convert columns to datetime datatype and extract month
date_columns = ['Evenement_EvenementDatum', 'Gebruiker_RegistratieDatum', 'Gebruiker_LaatsteLogin']

for col in date_columns:
    aanwezigheid_df[col] = pd.to_datetime(aanwezigheid_df[col], dayfirst = True)

for col in date_columns:
    aanwezigheid_df[f'{col}_month'] = aanwezigheid_df[col].dt.month

aanwezigheid_df

Unnamed: 0,EvenementID,GebruikerID,Aanwezigheidsstatus,Evenement_EvenementType,Evenement_EvenementDatum,Evenement_OrganisatorID,Gebruiker_RegistratieDatum,Gebruiker_LaatsteLogin,Gebruiker_Leeftijd,Gebruiker_Studierichting,Gebruiker_Studiejaar,Gebruiker_Lidmaatschapstype,Evenement_EvenementDatum_month,Gebruiker_RegistratieDatum_month,Gebruiker_LaatsteLogin_month
0,1,123,Bijgewoond,BBQ,2023-02-24,296,2023-05-15,2023-12-11,19.0,Data engineering,Eerstejaars,Regulier,2,5,12
1,1,296,Bijgewoond,BBQ,2023-02-24,296,2023-09-06,2024-03-18,22.0,Security & Cloud,Eerstejaars,Premium,2,9,3
2,1,32,Geregistreerd,BBQ,2023-02-24,296,2023-01-04,2023-05-19,17.0,Data Engineering,Tweedejaars,Regulier,2,1,5
3,1,217,Bijgewoond,BBQ,2023-02-24,296,2023-08-13,2024-01-18,24.0,Data Engineering,Vierdejaars,Regulier,2,8,1
4,1,162,Geregistreerd,BBQ,2023-02-24,296,2023-08-21,2024-05-08,18.0,Human computer interaction,Tweedejaars,Regulier,2,8,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,40,238,Geregistreerd,Workshop,2023-02-19,215,2023-01-17,2023-05-09,17.0,Data engineering,Vierdejaars,Regulier,2,1,5
3996,40,121,Geregistreerd,Workshop,2023-02-19,215,2023-10-15,2024-01-14,24.0,Human computer interaction,Tweedejaars,Premium,2,10,1
3997,40,43,Bijgewoond,Workshop,2023-02-19,215,2023-07-14,2023-08-20,21.0,Data engineering,Derdejaars,Premium,2,7,8
3998,40,164,Bijgewoond,Workshop,2023-02-19,215,2023-05-15,2023-11-28,20.0,Data engineering,Derdejaars,Premium,2,5,11


In [7]:
# Create boolean dataframe
dummies_df = pd.DataFrame()

# Aanwezigheid columns
dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Aanwezigheidsstatus'], prefix = 'Aanwezigheid')], axis = 1)

# Evenement columns
dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Evenement_EvenementType'], prefix = 'EvenementType')], axis = 1)

dummies_df["EvenementDatum_is_weekday"] = aanwezigheid_df["Evenement_EvenementDatum"].dt.weekday < 5
dummies_df["EvenementDatum_is_weekend"] = aanwezigheid_df["Evenement_EvenementDatum"].dt.weekday >= 5

dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Evenement_EvenementDatum_month'], prefix = 'EvenementDatum_month')], axis = 1)

# Gebruiker columns
dummies_df[f'Younger'] = aanwezigheid_df["Gebruiker_Leeftijd"] <= aanwezigheid_df["Gebruiker_Leeftijd"].mode()[0]
dummies_df[f'Older'] = aanwezigheid_df["Gebruiker_Leeftijd"] > aanwezigheid_df["Gebruiker_Leeftijd"].mode()[0]

dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Gebruiker_Studierichting'].replace('Data engineering', 'Data Engineering'), prefix = 'Studierichting')], axis = 1)
dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Gebruiker_Studiejaar'], prefix = 'Studiejaar')], axis = 1)
dummies_df = pd.concat([dummies_df, pd.get_dummies(aanwezigheid_df['Gebruiker_Lidmaatschapstype'], prefix = 'Lidmaatschapstype')], axis = 1)

dummies_df

Unnamed: 0,Aanwezigheid_Afwezig,Aanwezigheid_Bijgewoond,Aanwezigheid_Geregistreerd,EvenementType_BBQ,EvenementType_Hackathon,EvenementType_Lezing,EvenementType_Workshop,EvenementDatum_is_weekday,EvenementDatum_is_weekend,EvenementDatum_month_1,...,Studierichting_Data Engineering,Studierichting_Human computer interaction,Studierichting_Security & Cloud,Studierichting_Software engineering,Studiejaar_Derdejaars,Studiejaar_Eerstejaars,Studiejaar_Tweedejaars,Studiejaar_Vierdejaars,Lidmaatschapstype_Premium,Lidmaatschapstype_Regulier
0,False,True,False,True,False,False,False,True,False,False,...,True,False,False,False,False,True,False,False,False,True
1,False,True,False,True,False,False,False,True,False,False,...,False,False,True,False,False,True,False,False,True,False
2,False,False,True,True,False,False,False,True,False,False,...,True,False,False,False,False,False,True,False,False,True
3,False,True,False,True,False,False,False,True,False,False,...,True,False,False,False,False,False,False,True,False,True
4,False,False,True,True,False,False,False,True,False,False,...,False,True,False,False,False,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,False,False,True,False,False,False,True,False,True,False,...,True,False,False,False,False,False,False,True,False,True
3996,False,False,True,False,False,False,True,False,True,False,...,False,True,False,False,False,False,True,False,True,False
3997,False,True,False,False,False,False,True,False,True,False,...,True,False,False,False,True,False,False,False,True,False
3998,False,True,False,False,False,False,True,False,True,False,...,True,False,False,False,True,False,False,False,True,False


In [8]:
# Create frequent itemsets and association rules
freq_itemsets = apriori(dummies_df, min_support = 0.1, use_colnames = True)
association_rules(freq_itemsets, metric = 'lift', min_threshold = 1.25)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(EvenementType_BBQ),(EvenementDatum_is_weekend),0.293952,0.236289,0.1143,0.38884,1.645613,0.044843,1.24961,0.555662
1,(EvenementDatum_is_weekend),(EvenementType_BBQ),0.236289,0.293952,0.1143,0.483731,1.645613,0.044843,1.367598,0.513707
2,(Studiejaar_Eerstejaars),(Younger),0.284982,0.348539,0.189903,0.666367,1.911885,0.090575,1.952626,0.667055
3,(Younger),(Studiejaar_Eerstejaars),0.348539,0.284982,0.189903,0.544853,1.911885,0.090575,1.57096,0.732133
4,(Older),(Studiejaar_Derdejaars),0.651461,0.223219,0.186058,0.285602,1.27947,0.04064,1.087322,0.626691
5,(Studiejaar_Derdejaars),(Older),0.223219,0.651461,0.186058,0.833525,1.27947,0.04064,2.093639,0.281194
6,"(Younger, EvenementDatum_is_weekday)",(EvenementType_Lezing),0.264992,0.37673,0.126858,0.478723,1.270734,0.027027,1.195661,0.289865
7,(EvenementType_Lezing),"(Younger, EvenementDatum_is_weekday)",0.37673,0.264992,0.126858,0.336735,1.270734,0.027027,1.108165,0.341831
8,"(Studierichting_Human computer interaction, Ev...",(EvenementType_Lezing),0.287545,0.37673,0.137622,0.47861,1.270432,0.029295,1.1954,0.298778
9,(EvenementType_Lezing),"(Studierichting_Human computer interaction, Ev...",0.37673,0.287545,0.137622,0.365306,1.270432,0.029295,1.122518,0.341531
