-
Notifications
You must be signed in to change notification settings - Fork 0
/
8a-verification-scrape-new-tweets.R
44 lines (35 loc) · 1.6 KB
/
8a-verification-scrape-new-tweets.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# stahne tweety mladší, než datum stažení trénovacího setu,
# ukáže počty a uloží dataset do složky data
library(tidyverse)
library(rtweet)
# soubor je gitignorován coby nerelevantní; postup získání a uložení tokenu
# je popsán na dokumentaci package rtweet: https://rtweet.info/#create-an-app
twitter_token <- readRDS("token.rds")
posledni <- read_csv('./data/tweety.csv') %>% # nejvyšší IDčka známých tweetů obou účtů
select(name, id) %>%
group_by(name) %>%
transmute(id = max(id)) %>%
unique()
pravy <- get_timeline("tomio_cz", # dosud neznámé tweety Okamury s vlaječkou
n = 10000,
since_id = posledni[posledni$name == "tomio_cz", ]$id,
token = twitter_token)
falesny <- get_timeline("Tomio_Okamura", # dosud neznámé tweety Okamury s obrázkem
n = 10000,
since_id = posledni[posledni$name == "Tomio_Okamura", ]$id,
token = twitter_token)
tweets <- pravy %>%
rbind(falesny) %>%
mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|&", "")) %>% # neužitečné znaky
mutate(original = !is_retweet) %>% # originál = není retweet
select(id = status_id,
name = screen_name,
created = created_at,
text,
source,
lajku = favorite_count,
retweetu = retweet_count,
original)
print(paste('Staženo', nrow(tweets), 'tweetů.'))
print(table(tweets$original, tweets$name)) # kolik se chytilo textu? a kolik z toho originálního?
write_csv(tweets, './data/nove-tweety.csv')