### Let"s create a visualisation for the groupschat of a field hockey team :)

Import the used packages.

In [None]:
from pathlib import Path
from loguru import logger
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import tomllib
import numpy as np
import openpyxl


Use the same way as the notebook in the course folder to get the data.

In [None]:
configfile = Path("../config.toml").resolve()
with configfile.open("rb") as f:
    config = tomllib.load(f)
config

In [None]:
root = Path("..").resolve()
processed = root / Path(config["processed"])
raw = root / Path(config["raw"])
datafile = processed / config["wife_file"]
role_file = raw / config["role_file"]


In [None]:
merged_df = pd.read_parquet(datafile)
merged_df.dtypes
merged_df["message_length"] = merged_df["message"].str.len()
merged_df['prev_author'] = merged_df['author'].shift(1)
merged_df['prev_timestamp'] = merged_df['timestamp'].shift(1)
merged_df['time_since_prev'] = (merged_df['timestamp'] - merged_df['prev_timestamp']).dt.total_seconds() / 60
merged_df.head()

In [None]:
# alleen responses meenemen die volgen op een andere vorige auteur
responses = merged_df[merged_df['author'] != merged_df['prev_author']].copy()

# aanmaken van de buckets
buckets = [0, 1, 5, 15, 30, 60, 120, 240, responses['time_since_prev'].max()]
responses['reactietijd_bucket'] = pd.cut(responses['time_since_prev'], buckets)

# percentage van totaal berekenen
reactie_counts = responses['reactietijd_bucket'].value_counts().sort_index()
total_count = reactie_counts.sum()
percentage_counts = (reactie_counts / total_count) * 100
cumulative_percentage = percentage_counts.cumsum()

# Labels voor de buckets
bucket_labels = ['<1 min', '1-5 min', '5-15 min', '15-30 min', '30-60 min', '1-2 uur', '2-4 uur', '>4 uur']
bucket_labels = bucket_labels[:len(reactie_counts)] 

# opbouw van de figuur
fig, ax1 = plt.subplots(figsize=(10, 6))


#kleuren
colors = ['#FF9999' if i < 3 else 'silver' for i in range(len(bucket_labels))]

# Bar plot for counts
ax1.bar(bucket_labels, reactie_counts.values, color=colors, width=0.90)
ax1.set_title('Ruim 73% van alle berichten wordt binnen een kwartier beantwoord', fontsize=12, style ='oblique', pad=20)
ax1.set_xlabel('Reactietijd', fontsize=12)
ax1.set_ylabel('Aantal reacties', fontsize=12)
ax1.tick_params(axis='x', rotation=45)

# Voeg waarden toe boven de bars
# for i, v in enumerate(reactie_counts.values):
#     ax1.text(i, v + 0.1, str(v), ha='center', fontsize=9)

ax2 = ax1.twinx()
ax2.plot(bucket_labels, cumulative_percentage.values, color='black', linewidth=3) #marker='o',
ax2.set_ylabel('Cumulatief Percentage', fontsize=12)
ax2.tick_params(axis='y', colors='black')

ax2.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{int(x)}%'))
ax2.set_ylim(0, 102.5)
# ax1.set_ylim(0,12000)
ax1.yaxis.grid(True)
ax1.set_axisbelow(True)

plt.suptitle('Liefde op het eerste bericht', fontsize=16, fontweight= 'bold')
plt.figtext(0.35, 0.00, f'Totaal aantal berichten met response: {total_count:,}'.replace(",", "."), ha='right', fontsize=10)
ax1.spines['top'].set_visible(False)
ax1.spines['right'].set_visible(False)
ax1.spines['left'].set_visible(False)
ax2.spines['top'].set_visible(False)
ax2.spines['right'].set_visible(False)
ax2.spines['left'].set_visible(False)
ax1.tick_params(axis='both', which='both', length=0)
ax2.tick_params(axis='both', which='both', length=0)

plt.tight_layout()
plt.show()  

# total_count = reactie_counts.sum()
# first_three_buckets_percentage = (reactie_counts.iloc[:3].sum() / total_count) * 100
# print(f"Het percentage van de eerste drie buckets is {first_three_buckets_percentage:.2f}%")

In [None]:
# Voeg een kolom toe voor de weekdag
df= merged_df
df['weekday'] = df['timestamp'].dt.day_name()

# Groepeer op weekdag en tel het aantal berichten
message_counts = df.groupby('weekday').size()

# Sorteer de weekdagen in de juiste volgorde
ordered_days = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
message_counts = message_counts.reindex(ordered_days)

# Maak een lijngrafiek van de verdeling van het aantal berichten per weekdag
plt.figure(figsize=(10, 6))
message_counts.plot(kind='line', marker='o')
plt.title('Distribution of Number of Messages per Weekday')
plt.xlabel('Weekday')
plt.ylabel('Number of Messages')
plt.grid(True)
plt.show()

In [None]:
data = merged_df

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Bestaande code
data = merged_df

# Voeg weekdag en hour toe
data['weekday'] = data['timestamp'].dt.day_name()
data['hour'] = data['timestamp'].dt.hour

# Creëer een nieuwe kolom voor weekuur (0-167)
# Maak eerst een numerieke weekdag (0=maandag t/m 6=zondag)
weekday_mapping = {
    'Monday': 0, 
    'Tuesday': 1, 
    'Wednesday': 2, 
    'Thursday': 3, 
    'Friday': 4, 
    'Saturday': 5, 
    'Sunday': 6
}
data['weekday_num'] = data['weekday'].map(weekday_mapping)

# Bereken het uur van de week (0-167)
data['week_hour'] = data['weekday_num'] * 24 + data['hour']

# Groepeer berichten per uur van de week en auteur
plt.figure(figsize=(20, 8))  # Groter canvas voor betere leesbaarheid
week_hour_counts = data.groupby(['week_hour', 'author']).size().unstack(fill_value=0)

# Vul eventuele ontbrekende uren in met 0
all_hours = pd.DataFrame(index=range(168))
week_hour_counts = all_hours.join(week_hour_counts).fillna(0)

# Plot de grafiek
ax = week_hour_counts.plot(kind='bar', stacked=True, width=0.8)
plt.title('Berichtenverdeling per uur van de week')
plt.xlabel('Uur van de week')
plt.ylabel('Aantal berichten')

# Verbeter de x-as labels
# Toon alleen iedere 6 uur labels en voeg dag indicatie toe
day_labels = ['Ma', 'Di', 'Wo', 'Do', 'Vr', 'Za', 'Zo']
tick_positions = []
tick_labels = []

for day in range(7):
    for hour in [0, 6, 12, 18]:
        pos = day * 24 + hour
        tick_positions.append(pos)
        tick_labels.append(f"{day_labels[day]} {hour:02d}:00")

plt.xticks(tick_positions, tick_labels, rotation=45, ha='right')

# Verticale lijnen toevoegen om dagen te scheiden
for day in range(1, 7):
    plt.axvline(x=day*24-0.5, color='gray', linestyle='--', alpha=0.5)

# Toon grid en maak de plot compacter
plt.tight_layout()

plt.show()

In [None]:
def analyze_response_times(df):
    """
    Analyseert reactietijden tussen berichten per auteur in WhatsApp-data.
    
    Parameters:
    df: DataFrame met kolommen 'timestamp', 'author', 'message', 'message_length'
    
    Returns:
    DataFrame met reactietijdstatistieken per auteur
    """
    # Maak een kopie om de originele data niet te wijzigen
    data = df.copy()
    
    # Zorg dat timestamp een datetime-object is
    if not pd.api.types.is_datetime64_any_dtype(data['timestamp']):
        data['timestamp'] = pd.to_datetime(data['timestamp'])
    
    # Sorteer berichten op tijdstip
    data = data.sort_values('timestamp')
    
    # Voeg een kolom toe voor de vorige afzender
    data['prev_author'] = data['author'].shift(1)
    data['prev_timestamp'] = data['timestamp'].shift(1)
    
    # Bereken de tijd sinds het vorige bericht (in minuten)
    data['time_since_prev'] = (data['timestamp'] - data['prev_timestamp']).dt.total_seconds() / 60
    
    # Filter om alleen reacties te houden (waar de auteur anders is dan de vorige)
    responses = data[data['author'] != data['prev_author']].copy()
    
    # Filter extreme waarden (bijv. reacties langer dan 12 uur filteren we uit)
    reasonable_responses = responses[responses['time_since_prev'] <= 12*60]
    
    # Bereken statistieken per auteur
    response_stats = reasonable_responses.groupby('author')['time_since_prev'].agg(
        gemiddelde_reactietijd_min=np.mean,
        mediane_reactietijd_min=np.median,
        snelste_reactie_min=np.min,
        traagste_reactie_min=np.max,
        aantal_reacties=len
    ).reset_index()
    
    # Voeg categorieën toe voor interpretatie
    def categorize_response_time(minutes):
        if minutes < 1:
            return "Direct (<1 min)"
        elif minutes < 5:
            return "Snel (1-5 min)"
        elif minutes < 30:
            return "Normaal (5-30 min)"
        elif minutes < 60:
            return "Langzaam (30-60 min)"
        else:
            return "Zeer langzaam (>60 min)"
    
    response_stats['reactiesnelheid_categorie'] = response_stats['gemiddelde_reactietijd_min'].apply(categorize_response_time)
    
    return response_stats, reasonable_responses

def visualize_response_times(response_stats, response_data):
    """
    Maakt visualisaties voor reactietijdanalyse.
    
    Parameters:
    response_stats: DataFrame met reactietijdstatistieken per auteur
    response_data: DataFrame met individuele reacties
    """
    # Maak een figuur met 2x2 subplots
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Gemiddelde reactietijd per persoon (bovenste plot links)
    ax1 = axes[0, 0]
    # Sorteer op gemiddelde reactietijd
    sorted_stats = response_stats.sort_values('gemiddelde_reactietijd_min')
    
    # Maak een kleurenpalet gebaseerd op reactietijd (groen=snel, rood=langzaam)
    norm = plt.Normalize(sorted_stats['gemiddelde_reactietijd_min'].min(), 
                         sorted_stats['gemiddelde_reactietijd_min'].max())
    colors = plt.cm.RdYlGn_r(norm(sorted_stats['gemiddelde_reactietijd_min']))
    
    bars = ax1.bar(sorted_stats['author'], sorted_stats['gemiddelde_reactietijd_min'], color=colors)
    ax1.set_title('Gemiddelde Reactietijd per Persoon', fontsize=14)
    ax1.set_xlabel('Persoon', fontsize=12)
    ax1.set_ylabel('Gemiddelde reactietijd (minuten)', fontsize=12)
    ax1.tick_params(axis='x', rotation=45)
    
    # Voeg waarden toe boven de staven
    for bar in bars:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 0.1,
                f'{height:.1f} min', ha='center', va='bottom', fontsize=9)
    
    # 2. Verdeling van reactietijden per persoon (bovenste plot rechts)
    ax2 = axes[0, 1]
    sns.boxplot(x='author', y='time_since_prev', data=response_data, ax=ax2)
    ax2.set_title('Verdeling van Reactietijden per Persoon', fontsize=14)
    ax2.set_xlabel('Persoon', fontsize=12)
    ax2.set_ylabel('Reactietijd (minuten)', fontsize=12)
    ax2.set_yscale('log')  # Logaritmische schaal voor betere weergave
    ax2.tick_params(axis='x', rotation=45)
    
    # 3. Histogram van alle reactietijden (onderste plot links)
    ax3 = axes[1, 0]
    buckets = [0, 1, 5, 15, 30, 60, 120, 240, response_data['time_since_prev'].max()]
    response_data['reactietijd_bucket'] = pd.cut(response_data['time_since_prev'], buckets)
    reactie_counts = response_data['reactietijd_bucket'].value_counts().sort_index()
    
    # Maak labels voor de buckets
    bucket_labels = ['<1 min', '1-5 min', '5-15 min', '15-30 min', '30-60 min', '1-2 uur', '2-4 uur', '>4 uur']
    bucket_labels = bucket_labels[:len(reactie_counts)]  # Pas aan op basis van daadwerkelijke buckets
    
    ax3.bar(bucket_labels, reactie_counts.values)
    ax3.set_title('Histogram van Alle Reactietijden', fontsize=14)
    ax3.set_xlabel('Reactietijd', fontsize=12)
    ax3.set_ylabel('Aantal reacties', fontsize=12)
    ax3.tick_params(axis='x', rotation=45)
    
    # Voeg waarden toe boven de staven
    for i, v in enumerate(reactie_counts.values):
        ax3.text(i, v + 0.1, str(v), ha='center', fontsize=9)
    
    # 4. Reactietijd per tijdstip van de dag (onderste plot rechts)
    ax4 = axes[1, 1]
    response_data['hour'] = response_data['timestamp'].dt.hour
    hour_avg = response_data.groupby('hour')['time_since_prev'].mean()
    hour_avg.plot(kind='line', marker='o', ax=ax4)
    ax4.set_title('Gemiddelde Reactietijd per Uur van de Dag', fontsize=14)
    ax4.set_xlabel('Uur van de dag', fontsize=12)
    ax4.set_ylabel('Gemiddelde reactietijd (minuten)', fontsize=12)
    ax4.set_xticks(range(0, 24))
    ax4.grid(True, alpha=0.3)
    
    # Voeg subtitel toe
    plt.suptitle('WhatsApp Reactietijdanalyse', fontsize=18, y=0.98)
    plt.tight_layout()
    plt.subplots_adjust(top=0.9)
    
    # Maak een extra visualisatie: reactietijd heatmap per dag en uur
    plt.figure(figsize=(14, 8))
    
    # Voeg dag van de week toe
    response_data['weekday'] = response_data['timestamp'].dt.day_name()
    day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    
    # Bereken gemiddelde reactietijd per dag en uur
    heatmap_data = response_data.pivot_table(
        index='weekday', 
        columns='hour', 
        values='time_since_prev',
        aggfunc='mean'
    )
    
    # Sorteer op de juiste volgorde van dagen
    heatmap_data = heatmap_data.reindex(day_order)
    
    # Maak de heatmap
    sns.heatmap(
        heatmap_data,
        cmap='RdYlGn_r',  # Omgekeerde kleurenschaal: groen=snel, rood=langzaam
        annot=True,       # Toon waarden
        fmt='.1f',        # Formatteer waarden met 1 decimaal
        linewidths=0.5,
        cbar_kws={'label': 'Gemiddelde reactietijd (minuten)'}
    )
    
    plt.title('Gemiddelde Reactietijd per Dag en Uur', fontsize=16)
    plt.xlabel('Uur van de dag', fontsize=12)
    plt.ylabel('Dag van de week', fontsize=12)
    
    plt.tight_layout()
    plt.show()

response_stats, response_data = analyze_response_times(merged_df)
visualize_response_times(response_stats, response_data)


In [None]:

df = merged_df
message_counts = df.groupby('weekday').size()
message_counts = message_counts.reindex(ordered_days)
# Voeg een kolom toe voor de weekdag
df['weekday'] = df['timestamp'].dt.day_name()

# Zet de 'weekday' kolom om naar een categorische kolom met de juiste volgorde
weekdays_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df['weekday'] = pd.Categorical(df['weekday'], categories=weekdays_order, ordered=True)

# # Telling van het aantal berichten per weekdag
# message_counts = df.groupby('weekday').size()

# Maak een figure en assen voor de boxplot en de telling
fig, ax1 = plt.subplots(figsize=(12, 8))

# Maak de boxplot visualisatie per weekdag voor de message_length van de berichten
boxprops = dict(linestyle='-', linewidth=2)
medianprops = dict(linestyle='-', linewidth=2)
flierprops = dict(marker='o', color='red', markersize=5)

# Maak de boxplot en zet de 'weekday' als de x-as
df.boxplot(column='message_length', by='weekday', boxprops=boxprops, medianprops=medianprops, flierprops=flierprops, showfliers=False, ax=ax1)

# Voeg de lijn toe voor het aantal berichten per weekdag
ax2 = ax1.twinx()  # Maak een tweede y-as
ax2.plot(message_counts[weekdays_order].values, color='black', marker='o', linestyle='-', linewidth=3, markersize=7, label='Aantal berichten')

# Stel labels en titels in
# ax2.set_ylabel('Aantal berichten', color='orange')
# ax2.tick_params(axis='y', labelcolor='orange')
plt.title('Boxplot of Message Length by Weekday with Number of Messages')
plt.suptitle('')
plt.xlabel('Weekday')
ax1.set_ylabel('Message Length')
ax1.grid(False)

# Toon de plot
plt.show()


In [None]:
# Voeg een kolom toe voor de maand en het jaar
df['month_year'] = df['timestamp'].dt.to_period('M')

# Maak een boxplot visualisatie per maand voor de message_length_average van de berichten
plt.figure(figsize=(12, 8))
boxprops = dict(linestyle='-', linewidth=2)
medianprops = dict(linestyle='-', linewidth=2)
flierprops = dict(marker='o', color='red', markersize=5)
df.boxplot(column='message_length_average', by='month_year', boxprops=boxprops, medianprops=medianprops, flierprops=flierprops, showfliers=False)
plt.title('Boxplot of Message Length Average by Month')
plt.suptitle('')
plt.xlabel('Month')
plt.ylabel('Message Length Average')
plt.grid(False)

# Telling van het aantal berichten per maand
message_counts = df.groupby('month_year').size()

# Voeg message counts toe onder de plot
plt.figtext(0.5, -0.05, f'Message Counts per Month:\n{message_counts.to_string()}', ha='center')

plt.show()

In [None]:
df = merged_df

# Voeg een kolom toe voor de weekdag en het tijdstip
df['weekday'] = df['timestamp'].dt.day_name()
df['time'] = df['timestamp'].dt.hour + df['timestamp'].dt.minute / 60

# Sorteer de weekdagen in de juiste volgorde
ordered_days = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df['weekday'] = pd.Categorical(df['weekday'], categories=ordered_days, ordered=True)

# Maak een scatter plot van de weekdag en het tijdstip
plt.figure(figsize=(10, 6))
plt.scatter(df['time'], df['weekday'])
plt.title('Weekday vs Time')
plt.xlabel('Time (hours)')
plt.ylabel('Weekday')
plt.grid(True)
plt.show()

In [None]:
merged_df["message"] = merged_df["message"].fillna("")
kids = r"(?i)lot|levi|lot esther|lot esther stolk|cornelisz|yannick|hoogland|amersfoort|cothen|billie|18 november|17 november|17-11.*|18-11.*|geboorte|geboortezaak|leonie|verloskundige|bevalling"
sports = r"(?i)squash.*|hockey.*|hardlopen.*|hardloop|voetbal|formule 1|verstappen|voordaan|\uD83C\uDFD1|training|club|wedstrijd|gewonnen|verloren|oefenwedstrijd|wielrennen|poolen|fietsen|gelijkspel|0-0|1-0|2-0|1-1|verliezen|verzamelen|uitwedstrijd|thuiswedstrijd|groenekan|de bilt|nova|korfbal"
liefde = r"(?i)liefde|hou van jou|love you|denk aan je|\u2764\uFE0F|\uD83D\uDE0D|\uD83D\uDC98|\uD83D\uDC9D|\uD83D\uDC95|\uD83D\uDC96|\uD83D\uDC97|\uD83D\uDC93|\uD83D\uDC9E|\uD83D\uDC9F|\uD83D\uDC8B|\uD83D\uDC91|\uD83D\uDC8F|\uD83D\uDC8C"
koosnaampje = r"(?i)schat|lief|liefje|schatje|mop.*|lieverd|mooierd|knapperd|lekker ding|liefste"
vrienden = r"(?i) nick|daan|mieke|sandra|yoni|suus|suzanne|coen|patrick|jeroen|emiel|sascha|hans|hidde|bob|marin"
family = r"(?i) maarten|fre|frederike|pieter|reinier|luuk|erna|moeder|vader|ronald|joris|thieme|hidde|ryan|esther|zus|broer|kyano|jay|jayvano|genayro|anne"
animals = r"(?i) hond|billie|billsky|uitlaten|hector|paard|kip|poes|kat|koe|bertha|muis|toe maar|brokken|honden.*|bench|mand|welkoop"
day_to_day = r"(?i) eten we vanavond|supermarkt|jumbo|appie|albert heyn|lidl|ophalen|werken|werk|bij jou?|winkel"
questions = r".*\?$"
leisure = r"(?i)uit eten|bioscoop|film|serie|game of thrones|breaking bad|b&b*|vakantie|weekendje weg|terrasje|drankje|bankhangen|bank hangen|spelletje|rummikub|xbox|gamen|cod|bbq|barbecue|serie|mocro maffia|first dates|winter vol liefde|scrabble"
huwelijk = r"(?i)huwelijk.*|trouwen|7 juni|draaiboek|ceremonie.*|ringen|trouw.*|gastenlijst|weggeven|07-06.*|I do|Jawoord|ten huwelijk|hand vragen|ja-woord|Krista|charlotte|kasteel.*|bruids.*|jurk|pak|dj|rutger|cocktailbar"
werk = r"(?i)ordina|sopra.*|steria|gemeente|gemeentehuis|gemeentewijkbij.*|burgemeester|iris|ilse|collega.*|sandra|mariska|madeloes|jan|wethouder|dashboard|rapportage|werk|werken|reporting|salaris|loon|vakantiedagen|NS|duravermeer|dura|emiel|dave|davey|jasper|annemiek|laura|dennis"
home = r"(?i)verbouwen|zolder|tuin|zwembad|uitbouw|dakkapel|Beatrix|Beatrixstraat.*|Bertha|Bloemenwaard|cothen|huis kopen|woonkamer|hue|uitbouw|zolder|slaapkamer|schuifpui|deur|camera.*|unifi|deurbel|voortuin|schuur|douche|badkamer|verhuizen"
short = r"(?i)^(yes|ja|no|nee|ok|oke|okee|ja ja|nee nee)$"

merged_df["Kinderen"] = merged_df["message"].str.contains(kids, case=False).astype(int)
merged_df["Liefde"] = merged_df["message"].str.contains(liefde, case=False).astype(int)
merged_df["Sport"] = merged_df["message"].str.contains(sports, case=False).astype(int)
merged_df["Vrienden"] = merged_df["message"].str.contains(vrienden, case=False).astype(int)
merged_df["Familie"] = merged_df["message"].str.contains(family, case=False).astype(int)
merged_df["Dieren"] = merged_df["message"].str.contains(animals, case=False).astype(int)
merged_df["Dagelijks"] = merged_df["message"].str.contains(day_to_day, case=False).astype(int)
merged_df["Vrije tijd"] = merged_df["message"].str.contains(leisure, case=False).astype(int)
merged_df["Huwelijk"] = merged_df["message"].str.contains(huwelijk, case=False).astype(int)
merged_df["Werk"] = merged_df["message"].str.contains(werk, case=False).astype(int)
merged_df["Huis"] = merged_df["message"].str.contains(home, case=False).astype(int)
merged_df["topic_short"] = merged_df["message"].str.contains(short, case=False).astype(int)
merged_df["topic_sweet"] = merged_df["message"].str.contains(koosnaampje, case=False).astype(int)

new_columns_count = merged_df[['Kinderen', 'Liefde', 'Sport', 'Vrienden', 'Familie', 'Dieren', 'Dagelijks', 'Vrije tijd', 'Huwelijk', 'Werk', 'Huis']].sum()
merged_df.head()
print(new_columns_count)

In [None]:
sorted_columns_count = new_columns_count.sort_values(ascending=False)


plt.figure(figsize=(10, 6))
sorted_columns_count.plot(kind='bar')
plt.title('Texting or procrastinating?')
plt.xlabel('Topics')
plt.ylabel('Counts')
plt.xticks(rotation=45)
plt.show()

In [None]:
sorted_columns_count = new_columns_count.sort_values(ascending=False)

# Zet de timestamp-kolom om naar datetime
merged_df['timestamp'] = pd.to_datetime(merged_df['timestamp'])

# Haal de weekdag uit de timestamp-kolom
merged_df['Weekday'] = merged_df['timestamp'].dt.day_name()

# Smelt de DataFrame om de topics in één kolom te krijgen
melted_df = merged_df.melt(id_vars=['Weekday'], value_vars=['Kinderen', 'Liefde', 'Sport', 'Vrienden', 'Familie', 'Dieren', 'Dagelijks', 'Vrije tijd', 'Huwelijk', 'Werk', 'Huis'], var_name='Topic', value_name='Count')

# Maak een FacetGrid om de counts per weekdag te visualiseren
g = sns.FacetGrid(melted_df[melted_df['Count'] > 0], col='Weekday', col_wrap=4, height=4)
g.map(sns.barplot, 'Topic', 'Count')

# Stel titels en labels in
g.set_titles("{col_name}")
g.set_axis_labels("Topic", "Count")
for ax in g.axes.flat:
    ax.set_xticklabels(ax.get_xticklabels(), rotation=45)

plt.show()

In [None]:
demographic = merged_df[['author', 'topic_children', 'topic_love', 'topic_sports', 'topic_friends', 'topic_family',
                         'topic_animals', 'topic_day_to_day', 'topic_huwelijk', 'topic_home', 
                         'topic_leisure', 'topic_werk', 'topic_short', 'topic_sweet']]

# Bereken de som van elk onderwerp per auteur
author_topic_sums = demographic.groupby('author').sum()

# Maak een horizontale barchart voor elk onderwerp met author 1 links en author 2 rechts
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(10, 12), sharex=True)

# Plot voor author 1
author_topic_sums.loc['sudsy-mole'].plot(kind='barh', ax=axes[0], color='blue')
axes[0].set_title('Author 1')
axes[0].set_xlabel('Sum')
axes[0].set_ylabel('Topics')

# Plot voor author 2
author_topic_sums.loc['kaleidoscopic-ferret'].plot(kind='barh', ax=axes[1], color='red')
axes[1].set_title('Author 2')
axes[1].set_xlabel('Sum')
axes[1].set_ylabel('Topics')

plt.tight_layout()
plt.show()

Inladen van de Player Role json

In [None]:
player_roles = pd.read_json(role_file, encoding = "latin")
player_roles.head()

Merge dataframes

In [None]:
merged_df = pd.merge(merged_df, player_roles, left_on='author', right_on='Author')
merged_df["has_image"] = merged_df["message"].str.contains("<Media weggela").astype(int)
merged_df["has_tikkie"] = merged_df["message"].str.contains("https://tikkie.me").astype(int)
merged_df.shape

In [None]:
q1 = lambda x: np.quantile(x, 0.25)
q3 = lambda x: np.quantile(x, 0.75)

merged_df["hour"] = merged_df.timestamp.dt.hour
quantiles = merged_df.groupby("hour")["message_length"].agg([q1, q3])
quantiles.columns = ["q1", "q3"]

p = quantiles.reindex(range(24), fill_value=0)

sns.scatterplot(data=p, x="q1", y=p.index, color="grey")
sns.scatterplot(data=p, x="q3", y=p.index, color="grey")
for index, row in p.iterrows():
    sns.lineplot(x=[row["q1"], row["q3"]], y=[index, index], color="grey")

In [None]:
tikkie = merged_df[merged_df["has_tikkie"] == 1]
tikkie.head()
tikkie.shape


Aantal berichten per maand visualiseren.

In [None]:
merged_df_2022 = merged_df[merged_df["timestamp"].dt.year == 2022]
mask = (merged_df["timestamp"] >= "2021-06-01") & (merged_df["timestamp"] <= "2022-09-01")
filtered_df = merged_df.loc[mask]
filtered_emoji_df = filtered_df[filtered_df["has_emoji"] == True]
filtered_images_df = filtered_df[filtered_df["has_image"] == 1]

messages_per_month = filtered_df.groupby(filtered_df["timestamp"].dt.to_period("M")).size()
messages_per_week = filtered_df.groupby(filtered_df["timestamp"].dt.to_period("W")).size()
messages_per_day = filtered_df.groupby(filtered_df["timestamp"].dt.to_period("D")).size()
emojis_per_month = filtered_emoji_df.groupby(filtered_df["timestamp"].dt.to_period("M")).size()
emojis_per_week = filtered_emoji_df.groupby(filtered_df["timestamp"].dt.to_period("W")).size()
emojis_per_day = filtered_emoji_df.groupby(filtered_df["timestamp"].dt.to_period("D")).size()
images_per_month = filtered_images_df.groupby(filtered_df["timestamp"].dt.to_period("M")).size()
images_per_week = filtered_images_df.groupby(filtered_df["timestamp"].dt.to_period("W")).size()
images_per_day = filtered_images_df.groupby(filtered_df["timestamp"].dt.to_period("D")).size()


plt.figure(figsize=(20, 6))
plt.figure(figsize=(20, 6))
ax = plt.gca()

# Plot de berichten per week en per maand
messages_per_week.plot(kind="line", ax=ax)
images_per_week.plot(kind="line", ax=ax)

# Voeg de grijze achtergrond toe voor februari 2022 en juni 2022
ax.axvspan("2022-02-13", "2022-02-21", color="blue", alpha=0.3)
ax.axvspan("2022-05-28","2022-06-10", color="grey", alpha=0.3)

# messages_per_week.plot(kind="line")
# images_per_week.plot(kind="line")

highlight_date = pd.Timestamp("2022-06-02")
highlight_value = messages_per_week.loc[highlight_date.to_period("W")]
ax.annotate('Play Offs', xy=(highlight_date, highlight_value), xytext=(highlight_date, highlight_value + 80),
            arrowprops=dict(facecolor='black', shrink=0.05))

highlight_date = pd.Timestamp("2022-02-19")
highlight_value = messages_per_week.loc[highlight_date.to_period("W")]
ax.annotate('Teamweekend', xy=(highlight_date, highlight_value), xytext=(highlight_date, highlight_value + 80),
            arrowprops=dict(facecolor='black', shrink=0.005))

plt.title("Aantal berichten per maand")
plt.xlabel("Maand")
plt.ylabel("Aantal berichten")
plt.show()

Voeg verschillende kolommen toe aan de data, met name kolommen gerelateerd aan datetime, maar ook een kolom die kijkt of er media is gestuurd met het bericht.

In [None]:
merged_df["day_of_month"] = merged_df["timestamp"].dt.day
merged_df["day"] = merged_df["timestamp"].dt.day_name()
merged_df["month_number"] = merged_df["timestamp"].dt.month
merged_df["month_name"] = merged_df["timestamp"].dt.month_name()
merged_df["year"] = merged_df["timestamp"].dt.year
merged_df["has_image"] = merged_df["message"].str.contains("<Media weggelaten>").astype(int)
merged_df.head()

Maak visualisatie van de gemiddelde lengte van de berichten afhangende van de functie

In [None]:
merged_df["message_length"] = merged_df["message"].str.len()
player_message_count = merged_df[merged_df['Function'] == 'Player'].count()['message']
staff_message_count = merged_df[merged_df['Function'] == 'Staff'].count()['message']

p1 = (
    merged_df[["Function", "message_length"]]
    .groupby("Function")
    .mean()
    .sort_values("message_length", ascending=False)
)

sns.barplot(x=p1.index, y=p1["message_length"], palette = ["red", "lightgrey"]  )
for i, v in enumerate(p1["message_length"]):
    plt.text(i, v*0.98, f'{v:.1f}', ha='center', va='top', fontsize=12)
plt.xlabel("Function within team")
plt.ylabel("Average Message length")
plt.title("Staff members sending longer messages")


plt.figtext(0.05, -0.05, f"Gebaseerd op {player_message_count:,}".replace(',', '.') + f" berichten van de players en {staff_message_count:,}".replace(',', '.') +f" berichten van de staff.", 
            ha='left', va='center', fontsize=8, fontstyle= "italic")

plt.tight_layout() 
plt.subplots_adjust(bottom=0.1) 

Show number of messages per year.

In [None]:
no_of_messages = (
    merged_df[["Function", "message", "has_image"]]
    .groupby("Function")
    .agg(
        no_of_messages=("message","count"),
        no_of_images=("has_image", "sum")
    )
    .sort_values("Function", ascending=True)
)
no_of_messages[ "percentage_with_images"] = (no_of_messages['no_of_images'] / no_of_messages['no_of_messages'] * 100)

no_of_messages

Count the number of messages per day and group them.

In [None]:
month_day_count = merged_df.groupby(["month_name", "month_number", "day_of_month"]).size().unstack(fill_value = 0)
year_month_day_count = merged_df.groupby(["year", "month_name", "month_number", "day_of_month"]).size().unstack(fill_value = 0)
month_day_count.head()
year_month_day_count.head()
# average_per_day = month_day_count.mean(axis=0)

In [None]:
years = year_month_day_count.index.get_level_values("year").unique()

for year in years:
    data_for_year = year_month_day_count.loc[year]
    
    plt.figure(figsize=(12, 8))
    sns.heatmap(data_for_year, cmap="YlGnBu", annot=True, fmt="d")
    plt.title(f"Heatmap van tellingen voor jaar {year}")
    plt.xlabel("Dag van de maand")
    plt.ylabel("Maand")
    plt.show()

In [None]:
plt.figure(figsize=(16,10))
sns.heatmap(month_day_count, annot=True, fmt="d", linewidths=0.5, cmap="GnBu")
plt.xticks(
    ticks=range(31),
    labels=range(1, 32)
)

plt.yticks(
    ticks=range(12),
    labels=["January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"],
    rotation=0
)

plt.title("Heatmap van verzonden berichten per dag per maand")
plt.xlabel("Dag van de maand")
plt.ylabel("Maand")
plt.show()