## Čistenie datasetu

In [1]:
#inportovanie kniznic
import pandas as pd
import numpy as np
from langdetect import detect
from langdetect import LangDetectException
import jsonlines
import json

Načítanie datasetu - dataset je rozdeleny do dvoch suborov labels a feed a spojíme to spolu

In [2]:
labels_dict = {}
# Najprv nacitame labels
with open('../datasety/labels.ndjson', 'r', encoding='utf-8') as labels_file:
    for label_line in labels_file:
        label = json.loads(label_line)
        labels_dict[label['id']] = label

# Teraz prechádzame cez všetky feeds a priradíme im príslušné label
combined_data = []
with open('../datasety/feeds.ndjson', 'r', encoding='utf-8') as feeds_file:
    for feed_line in feeds_file:
        feed = json.loads(feed_line)
        feed_id = feed['id']
        
        if feed_id in labels_dict:
            for key, value in labels_dict[feed_id].items():
                if key != 'id':
                    feed[key] = value
        else:
            pass
        combined_data.append(feed)

In [3]:
combined_data = pd.DataFrame(combined_data)
combined_data.head()

Unnamed: 0,text,id,occupation,gender,fame,birthyear
0,[Back at it with @americanidol looking for...h...,22704,performer,female,superstar,1984
1,[The last presidential election turned on fewe...,46305,politics,male,superstar,1961
2,[Angels 😇 \n@RobbieWilliams\nhttps://t.co/A6rx...,30260,performer,female,superstar,1989
3,"[Listen to “Shallow”, “Always Remember Us This...",4874,creator,female,superstar,1986
4,"[So happy for my island! Vote for Madeira, for...",41392,manager,male,superstar,1985


In [4]:
combined_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33836 entries, 0 to 33835
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   text        33836 non-null  object
 1   id          33836 non-null  int64 
 2   occupation  33836 non-null  object
 3   gender      33836 non-null  object
 4   fame        33836 non-null  object
 5   birthyear   33836 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 1.5+ MB


Kedže to stále bol veľmi veľký dataset a tak kvôli pamäťovému a časovému hľadisku som si zobrala iba 30% z datasetu

In [5]:
combined_data = combined_data.sample(frac=0.3, random_state=42)

In [6]:
combined_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10151 entries, 15283 to 12806
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   text        10151 non-null  object
 1   id          10151 non-null  int64 
 2   occupation  10151 non-null  object
 3   gender      10151 non-null  object
 4   fame        10151 non-null  object
 5   birthyear   10151 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 555.1+ KB


Tento dataset sme si uložili (na tomto som urobila analýzu) aby sme vedeli porovnať analýzu pred očistením a po očistení

In [7]:
combined_data.to_json("../datasety/pred_ocistenim_dataset.json", orient='records', lines=True)#ulozenie datasetu pred očistením, až ho môžem analyzovať a nasledne porovnať s očisteným

Rozdelili sme si ľudí do kategorií podľa počtu príspevkov:

In [8]:
combined_data['post_count'] = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else len(x.split(',')))

bins = [0, 21, 51, 101, 301, 501,701, 1001, 2001, 3001, float('inf')]
labels = ['0-20', '21-50', '51-100', '101-300', '301-500', '501-700','701-1000', '1001-2000', '2001-3000', '3001+']
combined_data['post_category'] = pd.cut(combined_data['post_count'], bins=bins, labels=labels, right=False)

post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
0-20          107
21-50          93
51-100        152
101-300       516
301-500       435
501-700       378
701-1000      509
1001-2000    1260
2001-3000    6701
3001+           0
Name: post_category, dtype: int64


Zistime celkovy pocet prispevkov

In [9]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 22273611


Dali sme to aby každý človek mal najviac 500 príspevkov (kvôli pamäti)

In [10]:
combined_data['text'] = combined_data['text'].apply(lambda x: x[:500] if len(x) > 500 else x)

Vymazali sme ludi, ktorí majú menej ako 300 príspevkov (lepšie sa bude analyzovať ľudí s viacerými príspevkami)

In [11]:
combined_data = combined_data[combined_data['post_count'] > 300]

Znova sme si zobrazili počty ľudí na počty príspevkoch

In [12]:
combined_data['post_count'] = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else len(x.split(',')))

bins = [ 301, 401, float('inf')]
labels = ['301-400', '401-500']
combined_data['post_category'] = pd.cut(combined_data['post_count'], bins=bins, labels=labels, right=False)

post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400     227
401-500    9056
Name: post_category, dtype: int64


Zistili sme si počet prispevkov celkový

In [13]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 4597403


Funkcie na čistenie textu: na odstranenie retweetov (tie sa začínajú na RT), odstránenie neanglických tweetov (využitie knižnice detect) a vymazanie duplicitných tweetov človeka

In [14]:
def remove_retweets(tweets):
    return [tweet for tweet in tweets if not tweet.startswith("RT")]

In [15]:
def remove_duplicates_tweets(tweets):
    seen_tweets = set()
    unique_tweets = []
    for tweet in tweets:
        if tweet not in seen_tweets:#ak ešte nie je tweet v seen_tweets, tak ju pridame do oboch poli
            unique_tweets.append(tweet)
            seen_tweets.add(tweet)
    return unique_tweets

In [16]:
def detect_languages(tweet_list):
    languages = []
    for text in tweet_list:
        try:
            # Detekuj jazyk pre každú položku v liste a pridaj ho do zoznamu languages
            lang = detect(text)
            languages.append(lang)
        except LangDetectException:  # Ak detekcia zlyhá pre konkrétny text
            languages.append(None)
    return languages

In [17]:
def filter_english_tweets(tweet_list, lang_list):
    return [tweet for tweet, lang in zip(tweet_list, lang_list) if lang == 'en']#vracia iba tie tweety, ktore maju  priradeny anglicky jazyk

Vždy po aplikovaní každého druhu čistenia si pozrieme počet celkových príspevkov po čistení a počet príspevkov podľa kategorií. Toto nám slúži na to aby sme si mohli porovnať ako dané čistenie malo vplyv na dataset, teda koľko príspevkov na twitteri sa vymazalo a zároveň z akej kategorie.

In [18]:
combined_data['text'] = combined_data['text'].apply(remove_retweets)

In [19]:
post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400     227
401-500    9041
Name: post_category, dtype: int64


Niečo cez milion príspevkov sme vymazali

In [20]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 3205101


Odstránime neanglické tweety

In [22]:
combined_data['detected_languages'] = combined_data['text'].apply(detect_languages)

In [24]:
combined_data['text'] = combined_data.apply(lambda row: filter_english_tweets(row['text'], row['detected_languages']), axis=1)

In [25]:
post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400     227
401-500    9041
Name: post_category, dtype: int64


Ako môžeme vidieť odstránilo sa dosť príspevkov

In [26]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 2615856


Odstránime duplicitné riadky

In [27]:
combined_data = combined_data.drop_duplicates(subset=['id', 'occupation', 'gender', 'fame', 'birthyear'])

In [28]:
post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400     227
401-500    9041
Name: post_category, dtype: int64


Môžeme vidieť, že tie sa nenachádzali v datasete

In [29]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 2615856


A následne aj duplicitné príspevky twitteru každého používateľa

In [30]:
combined_data['text'] = combined_data['text'].apply(remove_duplicates_tweets)

In [31]:
post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400     227
401-500    9041
Name: post_category, dtype: int64


In [32]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 2608448


Nakoniec sme si po očisteni znova vymazali zaznamy, ktore meju menej ako 300 tweetov, lebo ako môžeme vidieť, tak celkový počet príspevkov sa dosť zmenšil

In [33]:
combined_data['post_count'] = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else len(x.split(',')))

In [34]:
combined_data = combined_data[combined_data['post_count'] > 300]

In [35]:
post_count_distribution = combined_data['post_category'].value_counts().sort_index()

print("Rozdelenie počtu príspevkov podľa kategórií:")
print(post_count_distribution)

Rozdelenie počtu príspevkov podľa kategórií:
301-400      24
401-500    4512
Name: post_category, dtype: int64


In [36]:
total_posts = combined_data['text'].apply(lambda x: len(x) if isinstance(x, list) else 0).sum()

print(f"Celkový počet príspevkov: {total_posts}")

Celkový počet príspevkov: 1694502


Veľkosť datasetu sa nám o dosť zmenšila po čistení

Nakoniec pôjdeme vymazat pomocne stlpce

In [37]:
combined_data = combined_data.drop(['post_category', 'post_count', 'detected_languages'], axis=1)

In [38]:
combined_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4536 entries, 23195 to 10034
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   text        4536 non-null   object
 1   id          4536 non-null   int64 
 2   occupation  4536 non-null   object
 3   gender      4536 non-null   object
 4   fame        4536 non-null   object
 5   birthyear   4536 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 248.1+ KB


Uložili sme si očisteny dataset

In [39]:
combined_data.to_json("ocisteny_dataset.json", orient='records', lines=True)