# Data Import & Preparation

## German Fake News Dataset

#### Reference
https://www.kaggle.com/datasets/astoeckl/fake-news-dataset-german

#### Importing the .csv-file

In [1]:
dfNewsGer <- read.csv2("newsGer.csv", sep = ",")
str(dfNewsGer)
dfNewsGer[1, ]

'data.frame':	63868 obs. of  9 variables:
 $ id       : int  773233 773234 773235 773236 773237 773238 773239 773240 773241 773242 ...
 $ url      : chr  "http://www.der-postillon.com/2018/01/grokoleaks.html" "http://www.der-postillon.com/2018/01/trump-sane.html" "http://www.der-postillon.com/2018/01/fdp-sondierungen.html" "http://www.der-postillon.com/2018/01/joachim-sauer-sauer.html" ...
 $ Titel    : chr  "Exklusiv! Das geheime WhatsApp-Chat-Protokoll der GroKo-Sondierungsgespräche" "Trump droht, jeden zu verspeisen, der an seiner geistigen Gesundheit zweifelt" "Soli runter, keine Steuererhöhungen, kein Klimaziel! FDP setzt sich in Sondierungen durch" "Hat sie eine Affäre? Joachim Sauer glaubt Angela Merkel alberne Sondierungs-Ausrede nicht mehr" ...
 $ Body     : chr  "Die Sondierungsgespräche zwischen Union und SPD endeten mit einem Kompromiss, der nun insbesondere bei den Sozi"| __truncated__ "Nun ist es auch medizinisch offiziell bestätigt: Eine militärärztliche Untersuchung hat

Unnamed: 0_level_0,id,url,Titel,Body,Kategorie,Datum,Quelle,Fake,Art
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<chr>
1,773233,http://www.der-postillon.com/2018/01/grokoleaks.html,Exklusiv! Das geheime WhatsApp-Chat-Protokoll der GroKo-Sondierungsgespräche,"Die Sondierungsgespräche zwischen Union und SPD endeten mit einem Kompromiss, der nun insbesondere bei den Sozialdemokraten heftig diskutiert wird. Wie schon bei den Jamaika-Sondierungen (wir berichteten) wurden dem Postillon von einer anonymen Quelle die geheimen Chat-Protokolle aus der GroKo-WhatsApp-Gruppe der Parteispitzen zugespielt. Wir dokumentieren und kommentieren im Folgenden Leaks (#GroKoLeaks) aus den Sondierungsgesprächen, die tief blicken lassen: Die Gruppenerstellung: Schnell beginnt das harte Ringen um politische Positionen: Nach der zwischenzeitlichen Entfernung von Andrea Nahles kommt es jedoch nur selten zu Verhandlungserfolgen für die SPD: Doch auch kleine technikbedingte Pannen bleiben nicht aus (Andrea Nahles wurde inzwischen wieder hinzugefügt, musste jedoch versprechen, dass sie Beleidigungen und Drohungen auf ein Minimum reduziert): Am vierten Tag der Sondierungen kam es zu diesem Überraschungsauftritt: Es folgen weitere harte Diskussionen: Auch die WhatsApp-Leaks bei den Jamaika-Sondierungen werden angesprochen: Unser letzter Chat stammt aus der finalen Marathon-Verhandlungsrunde im Willy-Brandt-Haus, die angeblich 26 Stunden dauerte: Foto oben: dpa Lesen Sie auch: Exklusiv! Das geheime WhatsApp-Chat-Protokoll der Jamaika-Sondierungsgespräche",wirtschaft,2018-01-18 00:00:00,Postillion,1,


#### Removing unwanted columns

In [2]:
colnames(dfNewsGer)
dfNewsGer <- dfNewsGer[, c("Titel", "Body", "Fake")]
colnames(dfNewsGer)

##### Any NAs?

In [3]:
any(is.na(dfNewsGer)) # No missing values

#### Removing the news site's name from articles

In [4]:
# Getting indices of articles containing the news site's name
cPattern <- "postillon"
bPostillonIndTitel <- sapply(X = dfNewsGer$Titel, FUN = function(x){grepl(cPattern, tolower(x), fixed = TRUE)})
bPostillonIndBody <- sapply(X = dfNewsGer$Body, FUN = function(x){grepl(cPattern, tolower(x), fixed = TRUE)})

paste0("Titel: ", sum(bPostillonIndTitel == TRUE))
paste0("Body: ", sum(bPostillonIndBody == TRUE))

In [5]:
# Removing words
fRemovePostillon <- function(x){
    x <- gsub("https://www.der-postillon.com/\\S*", "", x)
    x <- gsub("www.der-postillon.com ", "", x)
    x <- gsub("postillon", "", x)
    x <- gsub("Postillon", "", x)
    # In case of typos
    x <- gsub("https://www.der-postillion.com/\\S*", "", x)
    x <- gsub("www.der-postillion.com ", "", x)
    x <- gsub("postillion", "", x)
    x <- gsub("Postillion", "", x)
    return(x)
}
dfNewsGer$Titel <- sapply(X = dfNewsGer$Titel, FUN = fRemovePostillon)
dfNewsGer$Body <- sapply(X = dfNewsGer$Body, FUN = fRemovePostillon)
str(dfNewsGer)

'data.frame':	63868 obs. of  3 variables:
 $ Titel: chr  "Exklusiv! Das geheime WhatsApp-Chat-Protokoll der GroKo-Sondierungsgespräche" "Trump droht, jeden zu verspeisen, der an seiner geistigen Gesundheit zweifelt" "Soli runter, keine Steuererhöhungen, kein Klimaziel! FDP setzt sich in Sondierungen durch" "Hat sie eine Affäre? Joachim Sauer glaubt Angela Merkel alberne Sondierungs-Ausrede nicht mehr" ...
 $ Body : chr  "Die Sondierungsgespräche zwischen Union und SPD endeten mit einem Kompromiss, der nun insbesondere bei den Sozi"| __truncated__ "Nun ist es auch medizinisch offiziell bestätigt: Eine militärärztliche Untersuchung hat ergeben, dass Donald Tr"| __truncated__ "Es waren zähe Verhandlungen, doch die Freien Demokraten können zufrieden sein: In den Sondierungen zur Großen K"| __truncated__ "Wo treibt sie sich immer bis spät in die Nacht herum? Joachim Sauer aus Berlin hat seit einigen Wochen den Verd"| __truncated__ ...
 $ Fake : int  1 1 1 1 1 1 1 1 1 1 ...


#### Data export

In [6]:
# write.csv(dfNewsGer, "dfNewsGerPreProFull.csv")

#### Adjusting dataset size

In [7]:
# % of real and fake news in the dataset
tNewsSplit <- table(dfNewsGer$Fake)
tNewsSplit <- tNewsSplit/nrow(dfNewsGer)
names(tNewsSplit) <- c("Real", "Fake")
tNewsSplit

     Real      Fake 
0.9275537 0.0724463 

In [8]:
# Reducing number of real news
dfNewsGer <- dfNewsGer[c(sample(which(dfNewsGer$Fake == 0), sum(dfNewsGer$Fake == 1)), which(dfNewsGer$Fake == 1)), ]
str(dfNewsGer)

'data.frame':	9254 obs. of  3 variables:
 $ Titel: chr  "Kindle Fire HD bald in 170 Ländern erhältlich" "HIV und Hepatitis: Wenn ein Virus chronisch wird" "Daimler macht Einstieg bei chinesischem Partner perfekt" "Hedge-Fonds: Profit schon unter 100 Mio. Dollar" ...
 $ Body : chr  "Amazon startet mit seinen Highend-Tablets international durch\nAmazon startet mit den Highend-Versionen seiner "| __truncated__ "Forscher analysierer Struktur des Erregers, um ihn besser zu bekämpfen\nForscher der Universität Duisburg-Essen"| __truncated__ "Der Autobauer Daimler will sein lahmendes China-Geschäft mit einer millionenschweren Beteiligung ankurbeln. Die"| __truncated__ "Kleine Vermögensverwalter laut neuer Studie durchaus erfolgreich\nDie meisten Hedge-Fonds können auch mit deutl"| __truncated__ ...
 $ Fake : int  0 0 0 0 0 0 0 0 0 0 ...


In [9]:
# % of real and fake news in the dataset
tNewsSplit <- table(dfNewsGer$Fake)
tNewsSplit <- tNewsSplit/nrow(dfNewsGer)
names(tNewsSplit) <- c("Real", "Fake")
tNewsSplit

Real Fake 
 0.5  0.5 

#### Data export 50/50

In [10]:
# write.csv(dfNewsGer, "dfNewsGerPrePro5050.csv")

## English Fake News Dataset

#### Reference
https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset

#### Importing the .csv-files

In [11]:
dfNewsEnTrue <- read.csv2("TrueEn.csv", header = TRUE, sep = ",", fill = TRUE)
dfNewsEnFake <- read.csv2("FakeEn.csv", header = TRUE, sep = ",", fill = TRUE)
str(dfNewsEnTrue)
str(dfNewsEnFake)

“EOF within quoted string”
“EOF within quoted string”


'data.frame':	4115 obs. of  4 variables:
 $ title  : chr  "As U.S. budget fight looms, Republicans flip their fiscal script" "U.S. military to accept transgender recruits on Monday: Pentagon" "Senior U.S. Republican senator: 'Let Mr. Mueller do his job'" "FBI Russia probe helped by Australian diplomat tip-off: NYT" ...
 $ text   : chr  "WASHINGTON (Reuters) - The head of a conservative Republican faction in the U.S. Congress, who voted this month"| __truncated__ "WASHINGTON (Reuters) - Transgender people will be allowed for the first time to enlist in the U.S. military sta"| __truncated__ "WASHINGTON (Reuters) - The special counsel investigation of links between Russia and President Trump’s 2016 ele"| __truncated__ "WASHINGTON (Reuters) - Trump campaign adviser George Papadopoulos told an Australian diplomat in May 2016 that "| __truncated__ ...
 $ subject: chr  "politicsNews" "politicsNews" "politicsNews" "politicsNews" ...
 $ date   : chr  "December 31, 2017 " "December 29, 2017 " "D

#### Removing source from text of real articles

In [12]:
substr(dfNewsEnTrue$text[1], 1, 200)
dfNewsEnTrue$text <- gsub("^[^-]*- ", "", dfNewsEnTrue$text)
substr(dfNewsEnTrue$text[1], 1, 200)

#### Merging and removing unwanted columns

In [13]:
dfNewsEnTrue$Fake <- 0
dfNewsEnFake$Fake <- 1
dfNewsEn <- rbind(dfNewsEnTrue, dfNewsEnFake)
colnames(dfNewsEn)
dfNewsEn <- dfNewsEn[, c("title", "text", "Fake")]
colnames(dfNewsEn) <- c("Titel", "Body", "Fake")
str(dfNewsEn)

'data.frame':	24676 obs. of  3 variables:
 $ Titel: chr  "As U.S. budget fight looms, Republicans flip their fiscal script" "U.S. military to accept transgender recruits on Monday: Pentagon" "Senior U.S. Republican senator: 'Let Mr. Mueller do his job'" "FBI Russia probe helped by Australian diplomat tip-off: NYT" ...
 $ Body : chr  "The head of a conservative Republican faction in the U.S. Congress, who voted this month for a huge expansion o"| __truncated__ "Transgender people will be allowed for the first time to enlist in the U.S. military starting on Monday as orde"| __truncated__ "The special counsel investigation of links between Russia and President Trump’s 2016 election campaign should c"| __truncated__ "Trump campaign adviser George Papadopoulos told an Australian diplomat in May 2016 that Russia had political di"| __truncated__ ...
 $ Fake : num  0 0 0 0 0 0 0 0 0 0 ...


##### Any NAs?

In [14]:
any(is.na(dfNewsEn)) # No missing values

#### Data export

In [15]:
# write.csv(dfNewsEn, "dfNewsEnPreProFull.csv")

#### Adjusting dataset size

In [16]:
# % of real and fake news in the dataset
tNewsSplit <- table(dfNewsEn$Fake)
tNewsSplit <- tNewsSplit/nrow(dfNewsEn)
names(tNewsSplit) <- c("Real", "Fake")
tNewsSplit

     Real      Fake 
0.1667612 0.8332388 

In [17]:
# Reducing number of fake news
dfNewsEn <- dfNewsEn[c(sample(which(dfNewsEn$Fake == 1), sum(dfNewsEn$Fake == 0)), which(dfNewsEn$Fake == 0)), ]
str(dfNewsEn)

'data.frame':	8230 obs. of  3 variables:
 $ Titel: chr  "WOW! NEW Batch Of Emails Show Hillary’s State Department Was “CORRUPTION CENTRAL” For Obama Regime…Reveals Favo"| __truncated__ "[VIDEO] AMERICAN VET DIES FIGHTING ISIS: Couldn’t Sit Back And Watch Iraq Being Taken Over By ISIS After His “B"| __truncated__ "HILLARY SET TO DESTROY LIVES Of Proud, Hard-Working, Black Coal Miners To Satisfy Mostly White Environmental Activists [VIDEO]" "OBAMA LECTURES COPS On Bigotry, Slavery, Oppression At Memorial Service For Dallas Cops Murdered By Black Racist [VIDEO]" ...
 $ Body : chr  "A nonprofit legal watchdog claimed Thursday that newly unearthed documents show Hillary Clinton sent and receiv"| __truncated__ "Keith Broomfield won t likely receive any recognition from the White House for his brave and selfless decision "| __truncated__ "Stealing Jobs From Minorities To Satisfy White Environmentalists Is The Worst Kind Of Racism It s always about "| __truncated__ "Obama had the audacity to t

In [18]:
# % of real and fake news in the dataset
tNewsSplit <- table(dfNewsEn$Fake)
tNewsSplit <- tNewsSplit/nrow(dfNewsEn)
names(tNewsSplit) <- c("Real", "Fake")
tNewsSplit

Real Fake 
 0.5  0.5 

#### Data export 50/50

In [19]:
# write.csv(dfNewsEn, "dfNewsEnPrePro5050.csv")