In [1]:
import pandas as pd
import json
import os
from tqdm import tqdm
import arrow
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [2]:
os.listdir('../')

['lab2-data-scraping-MMarciniak103', 'lab2-participation-MMarciniak103']

In [3]:
def get_user_df(topic: str):
    data = []
    
    default_path = f'../lab2-data-scraping-MMarciniak103/{topic}_users'
    new_path = default_path+"_new.json"
    new_replies = default_path+"_new_replies.json"
    
    with open(new_path) as f:
        for line in f:
            data.append(json.loads(line)['raw_value'])
    
    with open(new_replies) as f:
        for line in f:
            data.append(json.loads(line)['raw_value'])
    
    df = pd.DataFrame(data)
    return df

def get_tweets_df(topic: str, user_df: pd.DataFrame):
    data = []
    default_path = f'../lab2-data-scraping-MMarciniak103/{topic}_tweets' 
    new_path = default_path + "_new.json"
    new_replies = default_path + "_new_replies.json"
    
    with open(new_path) as f:
        for line in f:
            data.append(json.loads(line)['raw_value'])
    
    with open(new_replies) as f:
        for line in f:
            data.append(json.loads(line)['raw_value'])
    
    df = pd.DataFrame(data)
    fmt = r"ddd[\s+]MMM[\s+]DD[\s+]HH:mm:ss[\s+]+SSSS[\s+]YYYY"
    df['created_at'] = df['created_at'].apply(lambda x: arrow.get(x, fmt).datetime)
    df['username'] = df['user_id_str'].apply(lambda x: user_df[user_df['id_str'] == x].iloc[0]['name'])
    return df

def get_topic_df(topic: str):
    users_df = get_user_df(topic)
    tweets_df = get_tweets_df(topic, users_df)
    return (tweets_df, users_df)

def get_top_users(topic: str, users_df: pd.DataFrame, tweets_df: pd.DataFrame, N=40):
    
    top_users = []
    with open(f'../lab2-data-scraping-MMarciniak103/{topic}_top_{N}_users.txt', 'w') as f:
        for user_id in tqdm(tweets_df['user_id_str'].value_counts()[:N].keys()):
            user_object = users_df[users_df['id_str'] == user_id].iloc[0]
            f.write(f"{user_object['id_str']},{user_object['name']},{user_object['screen_name']}\n")
            top_users.append([user_object['id_str'], user_object['name'], user_object['screen_name']])
            
    return top_users

In [4]:
koronawirus_tweets, koronawirus_users = get_topic_df('koronawirus')

In [5]:
ekstraklasa_tweets, ekstraklasa_users = get_topic_df('ekstraklasa')

In [6]:
import plotly.graph_objects as go
import plotly.express as px

In [7]:
def aggregate_by_month(tweets_df: pd.DataFrame):
    aggregated_by_month = tweets_df[tweets_df['created_at'].dt.year > 2019].groupby(tweets_df['created_at'].dt.to_period("M")).agg('count')
    return aggregated_by_month

def aggregate_by_month_and_user(tweets_df: pd.DataFrame):
    aggregated_by_month = tweets_df[tweets_df['created_at'].dt.year > 2019].groupby([tweets_df['created_at'].dt.to_period("M"),tweets_df['username']]).agg('count')
    return aggregated_by_month
    
    
def get_posts_and_comments(tweets_df: pd.DataFrame):
    posts = tweets_df[tweets_df['in_reply_to_user_id_str'].isnull()]
    comments = tweets_df[tweets_df['in_reply_to_user_id_str'].notnull()]    
    
    return (posts, comments)


def posts_distribution(tweets_df: pd.DataFrame, topic):
    posts, comments = get_posts_and_comments(tweets_df)
    
    posts_aggregated = posts.groupby(posts['username']).agg('count')
    posts_aggregated = posts_aggregated.sort_values(by=['id'])
    
    
    fig = px.histogram(x=posts_aggregated.index, y=posts_aggregated['id'])
    fig.update_layout(
        height=600,
        width=1000,
        title=f"Rozkład liczby postów wśród użytkowników - {topic}",
        hovermode="x unified",
        yaxis_title="# Postów"
    )
    
    fig.show()
    
def comments_distribution(tweets_df: pd.DataFrame, topic):
    posts, comments = get_posts_and_comments(tweets_df)
    
    comments_aggregated = comments.groupby(comments['username']).agg('count')
    comments_aggregated = comments_aggregated.sort_values(by=['id'])
    
    
    fig = px.histogram(x=comments_aggregated.index, y=comments_aggregated['id'])
    fig.update_layout(
        height=600,
        width=1000,
        title=f"Rozkład liczby komentarzy wśród użytkowników - {topic}",
        hovermode="x unified",
        yaxis_title="# Komentarzy"
    )
    
    fig.show()

def post_dist_by_topic(df1, df2, topic1, topic2):
    
    posts1, comments1 = get_posts_and_comments(df1)
    posts2, comments2 = get_posts_and_comments(df2)
    
    posts1['category'] = topic1
    posts2['category'] = topic2
    
    posts = pd.concat([posts1, posts2])
    
    posts_aggregated = posts.groupby(posts['category']).agg('count')
    posts_aggregated = posts_aggregated.sort_values(by=['id'])
    
    fig = go.Figure()
    fig = px.bar(x=posts_aggregated.index, y=posts_aggregated['id'], color=posts_aggregated.index)
    
    fig.update_layout(
        height=600,
        width=1000,
        title=f"Całkowita liczba postów",
        hovermode="x unified",
        yaxis_title="# Postów"
    )
    
    fig.show()

def comments_dist_by_topic(df1, df2, topic1, topic2):
    
    posts1, comments1 = get_posts_and_comments(df1)
    posts2, comments2 = get_posts_and_comments(df2)
    
    comments1['category'] = topic1
    comments2['category'] = topic2
    
    posts = pd.concat([comments1, comments2])
    
    posts_aggregated = posts.groupby(posts['category']).agg('count')
    posts_aggregated = posts_aggregated.sort_values(by=['id'])
    
    fig = go.Figure()
    fig = px.bar(x=posts_aggregated.index, y=posts_aggregated['id'], color=posts_aggregated.index)
    
    fig.update_layout(
        height=600,
        width=1000,
        title=f"Całkowita liczba komentarzy",
        hovermode="x unified",
        yaxis_title="# Komentarzy"
    )
    
    fig.show()

In [9]:
import warnings
warnings.filterwarnings("ignore")

### Rozkład liczby postów opublikowanych przez użytkowników w zadanych tematach

In [10]:
post_dist_by_topic(koronawirus_tweets, ekstraklasa_tweets, 'koronawirus', 'ekstraklasa')

In [11]:
posts_distribution(koronawirus_tweets, 'koronawirus')

In [12]:
posts_distribution(ekstraklasa_tweets, 'ekstraklasa')

### Rozkład liczby komentarzy opublikowanych przez użytkowników w zadanych tematach

In [13]:
comments_dist_by_topic(koronawirus_tweets, ekstraklasa_tweets, 'koronawirus', 'ekstraklasa')

In [14]:
comments_distribution(koronawirus_tweets, 'koronawirus')

In [15]:
comments_distribution(ekstraklasa_tweets, 'ekstraklasa')

### Procent wszystkich użytkowników piszących posty w obu tematach

In [16]:
koronawirus_posts, koronawirus_comments = get_posts_and_comments(koronawirus_tweets)
ekstraklasa_posts, ekstraklasa_comments = get_posts_and_comments(ekstraklasa_tweets)

In [17]:
def both_topic_posts_creators(data: dict):
    
    topic_users = {}
    
    for topic, topic_data in data.items():
        topic_users[topic] = set(topic_data['username'])
        
    values_iterator = iter(topic_users.values())

    first_topic_users = next(values_iterator)
    second_topic_users = next(values_iterator)
    
    topic_users['both'] = first_topic_users.intersection(second_topic_users)
        
    df = pd.DataFrame({
        'topic': list(topic_users.keys()),
        'users_count': [len(users) for users in topic_users.values()]
    })
    fig = px.pie(df, values='users_count', names='topic', 
                 labels={
                     'users_count': 'Liczba użytkowników piszących posty na dany temat',
                     'topic': 'Temat'
                 },
                 title='Procentowy rozkład użytkowników piszących posty w danych tematach')
    fig.show()
    
def both_topic_comments_creators(data: dict):
    
    topic_users = {}
    
    for topic, topic_data in data.items():
        topic_users[topic] = set(topic_data['username'])
        
    values_iterator = iter(topic_users.values())

    first_topic_users = next(values_iterator)
    second_topic_users = next(values_iterator)
    
    topic_users['both'] = first_topic_users.intersection(second_topic_users)
        
    df = pd.DataFrame({
        'topic': list(topic_users.keys()),
        'users_count': [len(users) for users in topic_users.values()]
    })
    fig = px.pie(df, values='users_count', names='topic', 
                 labels={
                     'users_count': 'Liczba użytkowników piszących komentarze na dany temat',
                     'topic': 'Temat'
                 },
                 title='Procentowy rozkład użytkowników piszących komentarze w danych tematach')
    fig.show()

In [18]:
both_topic_posts_creators({"ektraklasa": ekstraklasa_posts, "koronawirus": koronawirus_posts})

In [19]:
both_topic_comments_creators({"ektraklasa": ekstraklasa_comments, "koronawirus": koronawirus_comments})

### Rozkład łącznej aktywności (suma reakcji, komentarzy, udostępnień) dotyczącej postów w zadanych tematach

In [20]:
def aggregate_activity(data):
    tweets = data[data['in_reply_to_user_id_str'].isnull()]
    tweets_grouped = tweets.groupby('created_at').agg({'favorite_count':'sum','reply_count':'sum',
                                                       'retweet_count':'sum', 'quote_count': 'sum'})
    
    tweets_grouped['activity_sum'] = tweets_grouped.sum(axis=1)
    tweets_grouped = tweets_grouped.drop(['favorite_count', 'reply_count', 
                                          'retweet_count', 'quote_count'], axis=1).reset_index()
    
    return tweets_grouped

def tweets_topic_activity_distribution_plot(df1, df2, topic1, topic2):
   
    df1['category'] = topic1
    df2['category'] = topic2
    
    posts = pd.concat([df1, df2])  
    
    posts_grouped = posts.groupby('category').agg({'favorite_count':'sum','reply_count':'sum',
                                                       'retweet_count':'sum', 'quote_count': 'sum'})
    
    posts_grouped['activity_sum'] = posts_grouped.sum(axis=1)
    posts_grouped = posts_grouped.drop(['favorite_count', 'reply_count', 
                                          'retweet_count', 'quote_count'], axis=1)
    
    fig = go.Figure()
    fig = px.bar(x=posts_grouped.index, y=posts_grouped['activity_sum'], color=posts_grouped.index)
    
    fig.update_layout(
        height=600,
        width=1000,
        title=f"Całkowita liczba aktywności w tematach",
        hovermode="x unified",
        yaxis_title="Aktywność"
    )
    
    fig.show()

In [21]:
tweets_topic_activity_distribution_plot(ekstraklasa_tweets, koronawirus_tweets, 'ekstraklasa', 'koronawirus')

#### Podsumowanie

Oba tematy cieszą się podobną charakterystyką jeśli chodzi o całkowitą liczbę postów. Podobny jest również rozkład postów wsród udzielających się użytkowników - dla obu tematów przeważają użytkownicy o małej liczbie postów z skupieniem większości aktywności wokół kilku profili (czy tak można opisać większość tematów na twiterze?).

Jeżeli chodzi o liczbę komentarzy to zdecydowanie przoduje temat koronowirusa. Rozkład aktywności użytkowników jest podobny jak w przypadku postów, aczkolwiek można dostrzec że prawy koniec wykresu się bardziej rozlewa niż w poprzednim przykładzie (Więcej użytkowników komentuje niż postuje). Sama dysproporcja pomiędzy koronawirusem a ekstraklasą może być spowodowana procesem pobierania danych. Koronawirus był pierwszy w kolejce, a zbieranie było wykonywane jedno po drugim. Być może tweeter ograniczył jakoś dostęp do danych dla pobierającego użytkownika.

Mało osób udziela się w obu tematach naraz (a przynajmniej nie zostało to uchwycone w 'nie idealnym' procesie zbierania danych). Wynik analizy jest podobny zarówno dla postów jak i komentarzy.

Natomiast pod kątem aktywności można zauważyć, że zdecydowanie na prowadzenie wyszedł temat koronawirusa. Jest to zapewne związane z tym, że wzbudza on duże emocje, zarówno negatywne jak i pozytywne (a wiadomo, że takie tematy przyciągają coraz to wieksze zainteresowanie).

### Podpunkt b


In [25]:
from sentimentpl.models import SentimentPLModel
from ipywidgets import IntProgress
from scipy.stats import pearsonr, spearmanr, kendalltau
from tqdm.auto import tqdm
tqdm.pandas()
import numpy as np
import os

In [26]:
sentiment_model = SentimentPLModel(from_pretrained='latest')

In [40]:
def calc_sentiment(text):
    return sentiment_model(text).item()

def analyze_sentiment(tweets_df, topic):
    if os.path.exists(f'{topic}_sentiment.csv'):
        return pd.read_csv(f'{topic}_sentiment.csv').drop(columns=['Unnamed: 0'])
    
    tweets_df['sentiment'] = tweets_df['full_text'].progress_map(calc_sentiment)
    tweets_df.to_csv(f'{topic}_sentiment.csv')
    return tweets_df

In [41]:
koronawirus_tweets= analyze_sentiment(koronawirus_tweets, 'koronawirus')

In [44]:
ekstraklasa_tweets = analyze_sentiment(ekstraklasa_tweets, 'ekstraklasa')

In [45]:
def sentiment_activity(df1, df2, topic1, topic2):
    
    corr_matrix = np.ndarray((2,4))
    
    corr_matrix[0,0] = spearmanr(df1['sentiment'], df1['favorite_count']).correlation
    corr_matrix[0,1] = spearmanr(df1['sentiment'], df1['reply_count']).correlation
    corr_matrix[0,2] = spearmanr(df1['sentiment'], df1['retweet_count']).correlation
    corr_matrix[0,3] = spearmanr(df1['sentiment'], df1['quote_count']).correlation
    
    corr_matrix[1,0] = spearmanr(df2['sentiment'], df2['favorite_count']).correlation
    corr_matrix[1,1] = spearmanr(df2['sentiment'], df2['reply_count']).correlation
    corr_matrix[1,2] = spearmanr(df2['sentiment'], df2['retweet_count']).correlation
    corr_matrix[1,3] = spearmanr(df2['sentiment'], df2['quote_count']).correlation
    
    fig = px.imshow(corr_matrix,
                    labels=dict(x="Aktywność", y="Temat", color="Korelacja między sentymentem, a aktywnością"),
                    x = ['Liczba polubień', 'Liczba odpowiedzi', 'Liczba retweetów', 'Liczba cytowań'],
                    y = [topic1, topic2])
    fig.update_xaxes(side="top")
    
    fig.show()

In [46]:
sentiment_activity(ekstraklasa_tweets, koronawirus_tweets, "ektraklasa", "koronawirus")

W przypadku tematu ekstraklasy można zauważyć, że najwieksza korelacja występuje pomiędzy pozytywnym wydźwiękiem a liczbą retweetów. Być może jest to związane z informacjami o wygraniu danego meczu lub udanym transferze co zwykle skutkuje udostępnianiem takiej informacji dalej przez użtykowników. W pozostałych aktywnościach cięzko stwierdzić istnienie takiej zależności ze względu na mały współczynnik korelacji.

W przypadku tematu koronawirusa również ciężko wskazać taką zależność ze względu na niskie wartości współczynnika korelacji Spearmana.

### Podpunkt c

In [47]:
import spacy
import pyLDAvis
import pyLDAvis.gensim_models

from tqdm import tqdm
from gensim.corpora import Dictionary
from gensim.models.ldamulticore import LdaMulticore
from gensim.models import CoherenceModel
pl_nlp = spacy.load("pl_core_news_sm", disable=["parser", "ner"])


`scipy.sparse.sparsetools` is deprecated!
scipy.sparse.sparsetools is a private module for scipy.sparse, and should not be used.



In [48]:
def clean_text(df):
    cleaned = []
    
    for text in tqdm(df['full_text']):
        doc = pl_nlp(text)
        cleaned.append(
            [
                token.lemma_.lower()
                for token in doc
                if not (
                    token.is_stop
                    or token.is_punct
                    or token.like_email
                    or token.like_url
                    or token.like_num
                    or token.is_digit
                    or token.pos_ not in ["NOUN", "ADJ", "VERB", "ADV"]
                )
            ]
        )
        
    return cleaned

def filter_data(data):
    id2word = Dictionary(data)
    id2word.filter_extremes(no_below=20, no_above=0.5)
    corpus = [id2word.doc2bow(text) for text in data]
    
    return id2word, corpus

In [49]:
def find_best_num_clasters(cleaned, topic):
    id2word, corpus = filter_data(cleaned)
    
    topics_num = [2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 15, 18, 20]
    
    df = pd.DataFrame({
        'num_topics': [],
        'perplexity': [],
        'coherence': []
    })
    
    
    for topic_num in tqdm(topics_num):
        lda_model = LdaMulticore(corpus=corpus, id2word=id2word, num_topics=topic_num)
        
        perplexity = lda_model.log_perplexity(corpus)
        coherence_lda = CoherenceModel(
            model=lda_model, texts=cleaned, dictionary=id2word, coherence="c_v"
        ).get_coherence()
        
        df = df.append({
            'num_topics': topic_num,
            'perplexity': perplexity,
            'coherence': coherence_lda},
        ignore_index=True)
        
    fig = px.scatter(df, x="perplexity", y="coherence", color="num_topics", hover_name="num_topics", render_mode="svg", 
                 labels={
                     'perplexity': 'Perplexity',
                     'coherence': 'Coherence',
                     'topic': 'Liczba tematów'
                 },
                 title=f'Wpływ liczby tematów na wartości metryk - {topic}')

    fig.show()


In [50]:
cleaned_koronawirus = clean_text(koronawirus_tweets)

100%|████████████████████████████████████| 17769/17769 [02:08<00:00, 138.41it/s]


In [51]:
cleaned_ekstraklasa = clean_text(ekstraklasa_tweets)

100%|████████████████████████████████████| 12303/12303 [01:28<00:00, 139.48it/s]


In [52]:
find_best_num_clasters(cleaned_koronawirus, 'koronawirus')

100%|███████████████████████████████████████████| 13/13 [02:17<00:00, 10.56s/it]


In [53]:
find_best_num_clasters(cleaned_ekstraklasa, 'ekstraklasa')

100%|███████████████████████████████████████████| 13/13 [01:23<00:00,  6.41s/it]


In [59]:
def run_lda_interactive(cleaned, num_topics):
    id2word, corpus = filter_data(cleaned)
    
    lda_model = LdaMulticore(corpus=corpus, id2word=id2word, num_topics=num_topics)
    pyLDAvis.enable_notebook()
    
    vis = pyLDAvis.gensim_models.prepare(lda_model, corpus, id2word)
    return vis

### koronawirus

In [60]:
run_lda_interactive(cleaned_koronawirus, 20)

In [61]:
run_lda_interactive(cleaned_koronawirus, 9)

In [65]:
run_lda_interactive(cleaned_koronawirus, 4)

### ekstraklasa

In [66]:
run_lda_interactive(cleaned_ekstraklasa, 2)

In [67]:
run_lda_interactive(cleaned_ekstraklasa, 4)

In [68]:
def get_popular_unpopular(df):
    df['activity'] = df[['favorite_count', 'reply_count', 'retweet_count', 'quote_count']].sum(axis=1)
    sorted_df = df.sort_values(by=['activity'])
    popular = sorted_df.head(100)
    unpopular = sorted_df.tail(100)
    
    return (popular, unpopular)

def filter_data_no_extrema(data):
    id2word = Dictionary(data)
    corpus = [id2word.doc2bow(text) for text in data]
    
    return id2word, corpus

def compare_per_popularity(df, num_topics):
    popular, unpopular = get_popular_unpopular(df)
    
    popular_clean = clean_text(popular)
    unpopular_clean = clean_text(unpopular)
    
    popular_id2word, popular_corpus = filter_data_no_extrema(popular_clean)
    unpopular_id2word, unpopular_corpus = filter_data_no_extrema(unpopular_clean)
    
    
    lda_model_popular = LdaMulticore(corpus=popular_corpus, id2word=popular_id2word, num_topics=num_topics)
    lda_model_unpopular = LdaMulticore(corpus=unpopular_corpus, id2word=unpopular_id2word, num_topics=num_topics)
    
    
    popular_vis = pyLDAvis.gensim_models.prepare(lda_model_popular, popular_corpus, popular_id2word)
    unpopular_vis = pyLDAvis.gensim_models.prepare(lda_model_unpopular, unpopular_corpus, unpopular_id2word)

    return (popular_vis, unpopular_vis)

### koronawirus

In [72]:
pyLDAvis.enable_notebook()
popular, unpopular = compare_per_popularity(koronawirus_tweets, 4)

100%|████████████████████████████████████████| 100/100 [00:00<00:00, 169.94it/s]
100%|████████████████████████████████████████| 100/100 [00:00<00:00, 154.11it/s]


In [73]:
popular

In [74]:
unpopular

### ekstraklasa

In [75]:
pyLDAvis.enable_notebook()
popular, unpopular = compare_per_popularity(ekstraklasa_tweets, 4)

100%|████████████████████████████████████████| 100/100 [00:00<00:00, 180.50it/s]
100%|████████████████████████████████████████| 100/100 [00:00<00:00, 192.71it/s]


In [76]:
popular

In [77]:
unpopular

  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload


###  Podsumowanie

W ramach zadanych tematów można zauważyć, że więcej osób udziela się w sposób komentowania niż dodawania nowych postów. Tworzeniem postów zajmują się zazwyczaj instytucje czy 'większe profile' (w przypadku koronawirusa) lub dziennikarze/media (ekstraklasa). Natomiast można znaleźć więcej profili prywatnych wśród komentujących. Zdecydowanie większą aktywnością cieszy się temat koronawirusa.

W kwestii wpływu wydźwięku postu na aktywność użytkowników nie zanotowano znacznej korelacji. Jest to o tyle zadziwiające, że można było spodziewać się jej istnienia. Zazwyczaj posty wzbudzające dużo emocji (zwłaszcza negatywnych) pobudzają dużą dyskusję a wręcz kłótnię w komentarzach. 

W przypadku tematu koronawirusa można zauważyć, że wykorzystywanie konkretnych słów wpływa na popularność postów (Są to m.in. nowe przypadki, szczepienia, rząd, pandemia, zgon). W przypadku tematu ekstraklasy taki trend nie jest już widoczny (tj. rozkłady słów wśród popularnych i niepopularnych postów są zbliżone).

W przypadku prowadzenia tych analiz należy mieć na uwadze fakt, że sam proces pobierania danych nie był idealny i obarczony pewnymi wadami, które mogły wpłynąć na zakrzywienie rzeczywistości poprzez pobranie części tweetów zamiast próbki reprezentacyjnej ogólny charakter danego tematu. W takim wypadku nieważne jakich narzędzi użyjemy do przeprowadzenia badań, ponieważ działamy w myśl zasady 'garbage in garbage out'.

W kwestii aspektów, które nie zostały ujęte w badaniu a mogłyby mieć wpływ na partycypację użtkownikow można wskazać wykrywanie profili, które są obserwowane przez wielu użytkowników i udzielają się w danych tematach.