In [1]:
import pandas as pd
import numpy as np
import re
import glob
from google.cloud import bigquery_storage
import os
from google.cloud import bigquery



In [2]:
# Load the first file with selected columns
recent = pd.read_csv('/Users/reppmazc/Documents/IRONHACK/quests/final_project/news_data.csv',
                     usecols=['url', 'publishedAt', 'content'])

# Load the second file with selected columns
recent_2 = pd.read_csv('/Users/reppmazc/Documents/IRONHACK/quests/final_project/news_data_2.csv',
                       usecols=['url', 'publishedAt', 'content'])

# Concatenate the two DataFrames
recent = pd.concat([recent, recent_2], ignore_index=True)

# Rename the 'publishedAt' column to 'datetime'
recent = recent.rename(columns={'publishedAt': 'datetime'})

# Define a function to format the datetime string to YYYYMMDDHHMMSS
def format_datetime_string(dt_string):
    # Remove timezone offset if it exists (e.g., "+00:00")
    dt_string = dt_string.split('+')[0]
    # Remove 'T' if present and join parts to get the desired format
    dt_string = dt_string.replace('T', '').replace('-', '').replace(':', '').replace(' ', '')
    return dt_string

# Apply the function to the 'datetime' column
recent['datetime'] = recent['datetime'].astype(str).apply(format_datetime_string)

In [3]:
# concatenating files -> all follow the same structure but have different rows
# Define the path to your files
file_path = '/Users/reppmazc/Documents/IRONHACK/quests/final_project/scraped_content_*.csv'

# Use glob to get all file paths matching the pattern
all_files = glob.glob(file_path)

# Read each file and concatenate them into a single DataFrame
df = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)

In [4]:
df.shape

(67000, 2)

In [5]:
df.to_csv('/Users/reppmazc/Documents/IRONHACK/quests/final_project/all_articles_notcleaned.csv')

In [6]:
# Rename specific columns
df = df.rename(columns={'Content': 'content',
                        'DocumentIdentifier': 'url'})

In [7]:
df.shape

(67000, 2)

In [8]:
df = pd.concat([df, recent], ignore_index=True)

In [9]:
# remove duplicate rows going by the hyperlink in the 'DocumentIdentifier' column
df = df.drop_duplicates(subset='url', keep='first')

In [10]:
df.shape

(58686, 3)

In [11]:
# remove rows where the 'DocumentIdentifier' column contains dumb or non-german (speaking) outlets
# Define the pattern to exclude all DW URLs except "www.dw.com/de"
exclude_pattern = r'www\.dw\.com/(?!de\b)|www\.urlaubspiraten\.de|www\.kino-zeit|www\.macwelt|www\.autobild|www\.wrdw|\.orf\.at|diepresse\.com'

# Filter out rows where 'url' matches any of the unwanted patterns
df = df[~df['url'].str.contains(exclude_pattern, na=False)]

In [12]:
df.shape

(47243, 3)

In [13]:
# replace text in 'content' column by nan that contains freaky signs like these:
freaky_pattern = r'Ã¼Ã¤Ã¶ÃŸâ¬Ã'

# Replace rows in 'content' column with NaN where 'freaky' characters are found
df['content'] = df['content'].apply(lambda x: np.nan if pd.notna(x) and bool(re.search(freaky_pattern, x)) else x)

In [14]:
df.shape

(47243, 3)

In [15]:
# checking if text is german
# common German words
common_german_words = [
    "und", "der", "das", "ist", "zu", "mit", "von", "auf", "für", "den", "im", "ein", "nicht",
    "eine", "als", "auch", "aber", "wie", "es", "am", "aus", "bei", "dass", "oder", "so", "wenn",
    "werden", "wir", "hat", "sich", "dem", "des", "noch", "nur", "kann", "um", "ja", "mehr"]

# Higher threshold for minimum word matches
threshold = 5

# Check if a text is likely in German
def is_german(text):
    # Count occurrences of common German words
    word_count = sum(word in text.lower() for word in common_german_words)
    # Return NaN if it doesn't meet the threshold, otherwise return the text
    return text if word_count >= threshold else np.nan

# Apply function to the 'content' column
df['content'] = df['content'].apply(lambda x: is_german(x) if isinstance(x, str) else np.nan)

In [16]:
df.shape

(47243, 3)

In [17]:
# removing strings that are part of the article content of some cells
# Define the non-article snippets and phrases to trim
non_article_snippets = [
    'Hauptnavigation: Nutzen Sie die Tabulatortaste, um durch die Menüpunkte zu navigieren. Öffnen Sie Untermenüs mit der Leertaste. Schließen Sie Untermenüs mit der Escape-Taste. Hauptnavigation: Nutzen Sie die Tabulatortaste, um durch die Menüpunkte zu navigieren. Öffnen Sie Untermenüs mit der Leertaste.',
    'Lesen Sie mehr zum Thema In anspruchsvollen Berufsfeldern im Stellenmarkt der SZ. Sie möchten die digitalen Produkte der SZ mit uns weiterentwickeln? Bewerben Sie sich jetzt!Jobs bei der SZ Digitale Medien Gutscheine:',
    'öffnet in neuem Tab oder Fenster',
    'Danke, dass Sie ZEIT ONLINE nutzen.',
    'Melden Sie sich jetzt mit Ihrem bestehenden Account an oder testen Sie unser digitales Abo mit Zugang zu allen Artikeln. Erscheinungsbild Die Zusammenfassung für diesen Artikel kann leider momentan nicht angezeigt werden.',
    'ZEIT ONLINE hat diese Meldung redaktionell nicht bearbeitet. Sie wurde automatisch von der Deutschen Presse-Agentur (dpa) übernommen.',
    'Kommentar | ',
    'Berlin (dpa/bb). ',
    'Deutschen Presse-Agentur',
    'dpa',
    '+++ ',
    'SZ-Redaktion',
    'WELT TV'
    '++',
    '© dpa-infocom, ',
    'Drucken Teilen',
    'Nicht verpassen: Alles rund ums Thema Job & Beruf finden Sie im Karriere-Newsletter unseres Partners Merkur.de.',
    'Erstellt durch: ',
    '0 Weniger als eine Minute',
    '► ',
    '▶︎'
    '© ',
    '© dpa/',
    '© REUTERS/',
    '© Getty Images',
    '© IMAGO/',
    '© imago images/',
    '© imago/',
    'Lesen Sie auch',
    '© Berliner Feuerwehr ',
    '© privat ',
    'Kopiere den aktuellen Link ',
    'DIE ZEIT: ',
    'Melden Sie sich jetzt mit Ihrem bestehenden Account an oder testen Sie unser digitales Abo mit Zugang zu allen Artikeln. Abo testen',
    '"Licht Aus" So ging es Jochen Schropp nach der Sendung Im Interview verrät Jochen Schropp, was "Licht Aus" in ihm verändert hat und was für ihn zu den schönsten Erlebnissen aus der Show zählt.',
    '"Mehr als zwei Etagen schaffe ich kaum zu Fuß" Baerbock schildert im stern Folgen ihrer Covid-Erkrankung – viele Genesungswünsche für Außenministerin',
    '(SZ) ',
    '06. November 2024: Til Schweiger postet Schwarz-Weiß-Foto von sich – Fans denken er sei tot Mit seinem neuen Posting auf Instagram wollte Til Schweiger eigentlich nur ein Update geben. Doch das Foto, welches er für seinen Instagram-Beitrag gewählt hat, sorgt unter seinen Fans für Verwunderung. Denn das Schwarz-Weiß-Bild erinnert an eine Todesanzeige. "Was ist passiert? Es soll dumm aussehen, aber solche Fotos postet man gewöhnlich nur als ein Todeszeichen im sozialen Netzwerk", schreibt ein Fan. "Ist er gestorben?", fragt ein anderer. Andere freuen sich, überhaupt mal wieder etwas von Schweiger zu erfahren. Screenshot Instagram Til Schweiger Mehr',
    '167 Millionen Aufrufe: Trailer des neuen "Joker"-Films weckt Rieseninteresse Schon ein halbes Jahr vor seinem Kinostart weckt die Fortsetzung des Thrillers "Joker" riesiges Interesse. Der Trailer von "Joker: Folie A Deux" mit Popstar Lady Gaga in einer Hauptrolle wurde innerhalb der ersten 24 Stunden nach seiner Veröffentlichung sensationelle 167 Millionen Mal angesehen, wie das Branchenmagazin "Variety" am Donnerstag (Ortszeit) berichtete. Auf der Videoplattform Youtube landete der Trailer demnach sofort an der Spitze der Trendvideos.',
    '1999 in Hamburg verschwunden Polizei sucht mysteriösen Anrufer – neue Spur im Vermisstenfall Hilal Ercan Sie ist das einzige langzeitvermisste Kind in Hamburg: 1999 verschwand die damals zehnjährige Hilal Ercan spurlos. Jetzt verfolgt die Polizei eine neue Spur.',
    'AFP/',
    'An dieser Stelle ist ein externer Inhalt eingebunden Zum Anschauen benötigen wir Ihre Zustimmung Bitte aktivieren Sie JavaScript damit Sie diesen Inhalt anzeigen können. Weiter ',
    'Andreas Klaer ',
    'Auf Diddys Jacht Neue Missbrauchsvorwürfe gegen Sänger Chris Brown In einer Doku sollen Frauen zu Wort kommen, die Chris Brown schwere Vorwürfe machen. Er wird unter anderem der Vergewaltigung beschuldigt – nicht zum ersten Mal.',
    '(dpa/tmn). ',
    'Bornschein Podcast : Bornschein trifft Henrik Falk Der Strategie- und Digitalexperte Christoph Bornschein sucht mit eingeladenen Fachleuten nach Ideen der Zukunft. Es geht oft ums Digitale, aber weit darüber hinaus. Diese Woche ist der Vorstandsvorsitzende der Berliner Verkehrsbetriebe zu Gast. Es geht um die digitale Verkehrswende. Und darum, was das überhaupt ist.',
    'Das stern-Team vor Ort informiert Sie immer samstags im kostenlosen Newsletter "Inside America" über die wichtigsten Entwicklungen und gibt Einblicke, wie Amerikanerinnen und Amerikaner wirklich auf ihr Land schauen. Hier geht es zur Registrierung. Nach Eingabe Ihrer E-Mail-Adresse erhalten Sie eine E-Mail zur Bestätigung Ihrer Anmeldung.',
    'Der F.A.Z. Podcast für Deutschland ist der tägliche Podcast der F.A.Z. zu den relevantesten Themen des Tages. Der Podcast erscheint immer um 17 Uhr, von Montag bis Freitag. Alle Folgen finden Sie hier . Sie können den Podcast ganz einfach bei Apple Podcasts, Spotify oder Deezer abonnieren und verpassen so keine neue Folge. Natürlich sind wir auch in anderen Podcast-Apps verfügbar, suchen Sie dort einfach nach „F.A.Z. Podcast für Deutschland“. Ebenfalls finden Sie uns in der FAZ.NET-App.',
    'Dieser Artikel ist Teil von ZEIT am Wochenende, ',
    'Direkt aus dem dpa-Newskanal: Dieser Text wurde automatisch von der Deutschen Presse-Agentur (dpa) übernommen und von der SZ-Redaktion nicht bearbeitet. ',
    'dpa/- ',
    'dpa/ ',
    'dpa/',
    '+ ',
    'F.A.Z. exklusiv : ',
    'Gestaltung: Tagesspiegel; Fotos: ',
    'imago images / ',
    'imago images/',
    'IMAGO/',
    'Imago/',
    'imago/',
    'Inhalt Auf einer Seite lesen Inhalt Seite 1 ',
    'Interview | ',
    'Jetzt im Livestream – ',
    'Kennen Sie schon unsere PLUS-Inhalte ? Jetzt Morgenpost testen Sie haben vermutlich einen Ad-Blocker aktiviert. Aus diesem Grund können die Funktionen des Podcast-Players eingeschränkt sein. Bitte deaktivieren Sie den Ad-Blocker, um den Podcast hören zu können.',
    'Jetzt weiterlesen Dies ist kein Abo. Ihre Registrierung ist komplett kostenlos, ohne versteckte Kosten. Gleich geschafft! Bitte bestätigen Sie Ihren Account über den Bestätigungslink in der gesendeten E-Mail',
    'Kopiere den aktuellen',
    'liveblog ',
    'Netflix entfernt interaktive Titel Was User jetzt noch sehen müssen Netflix nimmt die meisten interaktiven Filme und Serien aus dem Katalog. Was Abonnenten jetzt noch sehen müssen.',
    'News von ZDFheute on Instagram: ',
    'Ottmar Winter PNN/Ottmar Winter PNN ',
    'picture alliance / ',
    'picture alliance/dpa ',
    '(dpa/bb).',
    'rbb|24-Adventskalender | ',
    'REUTERS/',
    'Reuters/',
    'Teilen Verschenken Merken Drucken ',
    'Von: '
    'Schließen Artikelzusammenfassung Dies ist ein experimentelles Tool. Die Resultate können unvollständig, veraltet oder sogar falsch sein. ',
    'Sehen Sie im Video: ',
    'Sie können den Podcast ganz einfach bei Apple Podcasts, Spotify oder Deezer abonnieren und verpassen so keine neue Folge. Natürlich sind wir auch in anderen Podcast-Apps verfügbar, suchen Sie dort einfach nach „F.A.Z. Podcast Finanzen & Immobilien“. Ebenfalls finden Sie uns in der FAZ.NET-App. Alle unsere Podcast-Angebote finden Sie hier. Haben Sie Fragen oder Anmerkungen zum Podcast? Dann melden Sie sich gerne bei podcast@faz.de.',
    'Sie sind nun eingeloggt. Sollten Sie dennoch nicht auf gesperrte Artikel zugreifen können, löschen Sie bitte die im Browser gespeicherten Cookies und loggen Sie sich dann erneut ein. Zum Artikel: ']

phrases_to_trim_after = [
    'Die WELT als ePaper: Die vollständige Ausgabe steht Ihnen bereits am Vorabend zur Verfügung – so sind Sie immer hochaktuell informiert. Weitere Informationen http://epaper.welt.de Der Kurz-Link dieses Artikels lautet:',
    'Hier können Sie interessante Artikel speichern',
    'Wiesbaden/Schwalmstadt. Nach den tödlichen Polizeischüssen in Schwalmstadt hat Innenminister Roman Poseck (CDU) den',
    'Sie wollen wissen, wie die Sterne in Liebesdingen, im Beruf und in Sachen Gesundheit für Sie stehen? ',
    'Prime Deal Days 2024: Das waren die besten Angebote Kopiere den aktuellen Link Amazon',
    'LED-Taschenlampe für 18 statt 37 Euro: Die Top-Deals am Donnerstag Amazon',
    'Kaufberatung Audi A5 - diese Schöheit ist kein Biest Wieso Audi so lange keinen echten Konkurrente',
    'Einhell Rasentrimmer heute 41 % günstiger: ',
    ' <blockquote class="instagram-media" data-instgrm-captioned data-',
    'Haben Sie den Eurojackpot geknackt?',
    'Tag für Tag gibt es Ereignisse, Anekdoten, Geburts- oder Sterbetage, an die erinnert werden soll. ',
    'Steinmeier: „Es ist nicht die Zeit für Taktik und Scharmützel, es ist die Zeit für Verantwortung.“ Steinmeier: „',
    'In ukrainisch besetzten Gebieten der russischen Region Kursk sollen erstmals nordkoreanische Soldaten an Kämpfen beteiligt gewesen sein. Das berichtet die „New York Times“ unter Berufung auf Regierungsvertreter der Ukraine und der USA. Laut der amerikanischen Quelle seien dabei viele Nordkoreaner getötet worden. ',
    'Beim Lotto 6aus49 steht die Gewinnchance bei 1:140 Millionen Jeder träumt von einem 6er im Lotto ... ',
    'Berlin. Das Cashplus von Unitplus bietet aktuell 3,23 Prozent Zinsen und damit mehr als manches Tagesgeld. ',
    'Berlin. Für einen Auto-, Wohn- oder Ratenkredit der ING gelten neue Konditionen. ',
    'Berlin. Zinsstarke Angebote für ein Festgeld oder Tagesgeld werden rar. ',
    'Die Gewinnchancen beim Lotto 6aus49 stehen bei ',
    'Die scheidende amerikanische Regierung unter Präsident Joe Biden will offenbar einen Stopp bereits bewilligter Hilfen für die Ukraine durch den neuen Präsidenten Donald Trump verhindern. Die verbleibenden Lieferungen im Wert von sechs Milliarden Dollar sollten so schnell wie möglich der Ukraine übergeben werden, sagten zwei ranghohe Regierungsmitarbeiter am Mittwoch nach einem Bericht des Nachrichtenmagazins "Politico". Trump tritt sein Amt erst am 20. Januar an. Trump hat im Wahlkampf '
    'Aktuelle Nachrichten und Hintergründe aus Politik, Wirtschaft und Sport aus Berlin, Deutschland und der Welt.']

# Step 1: Remove specified snippets from within the content
def remove_snippets(text):
    if pd.notna(text):  # Ensure text is not NaN
        for snippet in non_article_snippets:
            text = text.replace(snippet, '')  # Remove each snippet if it appears
    return text

df['content'] = df['content'].apply(remove_snippets)

# Step 2: Trim content after any of the specified phrases
def trim_content(text):
    if pd.notna(text):  # Ensure text is not NaN
        for phrase in phrases_to_trim_after:
            if phrase in text:
                return text.split(phrase)[0]  # Keep only the part before the phrase
    return text

df['content'] = df['content'].apply(trim_content)

In [18]:
df.shape

(47243, 3)

In [19]:
def clean_text(text):
    if isinstance(text, str):  # Ensure text is a string
        text = re.sub(r"http\S+", "", text)  # Remove URLs in general
        text = re.sub(r"©\s?\d+", "", text)  # Remove copyright symbols
        text = re.sub(r'\n+', ' ', text)  # Replace newlines with spaces
        text = re.sub(r'\s+', ' ', text)  # Remove extra spaces
        return text
    return text  # Return NaN or non-string content as-is

# Apply the cleaning function to each article
df['content'] = df['content'].apply(clean_text)

In [20]:
df.shape

(47243, 3)

In [21]:
# nan in cells with only whitespace
df['content'] = df['content'].apply(lambda x: np.nan if isinstance(x, str) and x.strip() == '' else x)

In [22]:
df.shape

(47243, 3)

In [23]:
columns_to_check = [col for col in df.columns if col != 'datetime']
df = df.dropna(subset=columns_to_check)

In [24]:
df.shape

(41991, 3)

In [25]:
# create new source column from hyperlink in 'DocumentIdentifier' column as string (source is between the first . and the second . in the hyperlink)
df['source'] = df['url'].str.extract(r'\.(\w+)\.')

In [26]:
df.shape

(41991, 4)

In [27]:
# removed any non-approved sources
allowed_sources = ["spiegel",
                   "taz",
                   "jungewelt",
                   "freitag",
                   "zeit",
                   "tagesspiegel",
                   "dw",
                   "tagesschau",
                   "stern",
                   "focus",
                   "welt",
                   "jungefreiheit",
                   "sueddeutsche",
                   "faz",
                   "morgenpost",
                   "bild",
                   "rbb24",
                   "express"]

df = df[df['source'].isin(allowed_sources)]

In [28]:
df.shape

(38702, 4)

In [29]:
df.to_csv('/Users/reppmazc/Documents/IRONHACK/quests/final_project/cleaned_articles_wo_date.csv')

In [30]:
df['source'].value_counts()

source
welt                 9555
zeit                 6011
stern                3226
faz                  3017
sueddeutsche         3016
focus                2971
tagesspiegel         2466
morgenpost           2321
bild                 2296
tagesschau            955
heise                 914
jungewelt             643
rbb24                 426
dw                    383
spiegel               103
express               103
volksfreund            99
freitag                99
finanznachrichten      30
freenet                15
merkur                  8
hna                     5
radiokoeln              4
sportschau              3
telepolis               3
nwzonline               3
kreiszeitung            3
fuldaerzeitung          3
derstandard             2
radiorst                2
tz                      2
fnp                     2
haz                     1
handelsblatt            1
abendblatt              1
epochtimes              1
mdr                     1
nordbayern              1
hanau

In [31]:
df.shape

(38702, 4)