In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
from datetime import datetime, timedelta
from dateutil import parser
import time
import random
import pymongo
from dotenv import load_dotenv
import os
import scraper_faz

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.cluster import DBSCAN, KMeans
from sklearn.compose import make_column_transformer
from sklearn.datasets import load_sample_image, make_blobs
from sklearn.decomposition import PCA
from sklearn.ensemble import BaggingClassifier, BaggingRegressor, GradientBoostingClassifier, GradientBoostingRegressor, RandomForestClassifier, RandomForestRegressor, StackingClassifier, StackingRegressor
from sklearn.impute import KNNImputer, SimpleImputer
from sklearn.inspection import permutation_importance
from sklearn.linear_model import Lasso, LinearRegression, LogisticRegression, Ridge
from sklearn.manifold import Isomap, LocallyLinearEmbedding, MDS
from sklearn.metrics import auc, confusion_matrix, ConfusionMatrixDisplay, davies_bouldin_score, rand_score, roc_auc_score, roc_curve, silhouette_samples, silhouette_score 
from sklearn.model_selection import train_test_split, cross_validate, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, PolynomialFeatures, StandardScaler
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree
import statsmodels.api as sm
from ydata_profiling import ProfileReport

In [4]:
load_dotenv()
mongodb_uri = os.getenv("MONGODB_URI")
mongoclient = pymongo.MongoClient(mongodb_uri)
mongodb = mongoclient["media-scraper"]
mongo_execs = mongodb["executions"]
mongo_articles = mongodb["articles"]

In [7]:
df = pd.DataFrame(list(mongo_articles.find()))
df

Unnamed: 0,_id,keywords,premiumArticle,hrefPermalink,lastUpdate,title,introText,paragraphs,source,author,hrefAuthor
0,-gtn-bgvnd,"[Bundesliga, Karlsruher SC, Hertha BSC Berlin,...",False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,[Hertha BSC bleibt in der zweiten Fußball-Bund...,Quelle: sid,,
1,-gr6-bhjvc,"[Leonhard Dobusch, Volker Grassmuck, Elektra W...",False,https://www.faz.net/-gr6-bhjvc,2023-11-11 21:13:00,Stefan Meys Buch „Der Kampf um das Internet“,Der entscheidende Kampf findet zwischen nachha...,[Nach gut dreißig Jahren des kommerziellen Int...,,Günter Hack,
2,-gtn-bh4ww,"[Lukas Daschner, Steffen Baumgart, Davie Selke...",False,https://www.faz.net/-gtn-bh4ww,2023-11-11 20:55:16,1. FC Köln bleibt nach Spiel in Bochum auf dem...,Die Ursachenforschung der Kölner geht nach dem...,[Die Last auf den Schultern der Kölner war all...,,Daniel Theweleit,
3,-gyc-bhi4z,"[Amazon Alexa, Infotainment, Ladeplanung, Audi...",False,https://www.faz.net/-gyc-bhi4z,2023-11-11 20:50:45,Infotainment von Audi Q3 und Q4: Was zum Doppe...,Das Infotainment des Audi Q3 und Q4 im Detail:...,[Das Infotainment in einem Audi ist mit dem Na...,,Michael Spehr,https://www.faz.net/redaktion/michael-spehr-11...
4,-gs3-bhruw,"[Francisco Peralta, Marionettenmuseum, Spanien...",False,https://www.faz.net/-gs3-bhruw,2023-11-11 20:43:38,Marionettenspiel in Spanien,Kleist-Fantasie: Im spanischen Segovia gibt es...,[Im Dezember 1810 erschien Kleists Aufsatz „Üb...,,Alexander Košenina,
...,...,...,...,...,...,...,...,...,...,...,...
3913,-gq5-bhvpt,"[Fox News, Republikanische Partei, Tim Scott, ...",False,https://www.faz.net/-gq5-bhvpt,2023-11-13 03:45:57,USA: Republikaner Tim Scott gibt Kandidatur um...,Außer Donald Trump sind jetzt nur noch vier Re...,[Der in Umfragen weit abgeschlagene US-Senator...,Quelle: bard./dpa,,
3914,-gum-bhvok,"[Neu Delhi, Vereinte Nationen, Indien, UNICEF,...",False,https://www.faz.net/-gum-bhvok,2023-11-13 03:21:46,UNICEF: 347 Millionen Kindern in Südasien fehl...,In Ländern wie Indien leben besonders viele Ki...,[In Südasien leiden weltweit am meisten Kinder...,Quelle: bard./dpa,,
3915,-gq5-bhvoi,"[Reuters, Lloyd Austin, US-Militär, Syrien, US...",False,https://www.faz.net/-gq5-bhvoi,2023-11-13 02:29:58,USA bombardieren erneut Ziele in Syrien,Die Luftangriffe sind eine Reaktion auf Attack...,[Die USA haben am Sonntag nach eigenen Angaben...,Quelle: AFP/Reuters,,
3916,-gpg-bhvmg,,False,https://www.faz.net/-gpg-bhvmg,2023-11-13 01:07:20,Scholz will weiter mit Merz über Migration spr...,In einem Talkformat äußerte sich der Kanzler z...,[Bundeskanzler Olaf Scholz (SPD) hat Oppositio...,Quelle: sawa./dpa/Reuters,,


In [19]:
df_exploded = df.explode("keywords").explode("paragraphs")
df_exploded

Unnamed: 0,_id,keywords,premiumArticle,hrefPermalink,lastUpdate,title,introText,paragraphs,source,author,hrefAuthor
0,-gtn-bgvnd,Bundesliga,False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,Hertha BSC bleibt in der zweiten Fußball-Bunde...,Quelle: sid,,
0,-gtn-bgvnd,Bundesliga,False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,Fabian Reese (29.) und Florian Niederlechner (...,Quelle: sid,,
0,-gtn-bgvnd,Bundesliga,False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,Der Karlsruher SC startete überraschend selbst...,Quelle: sid,,
0,-gtn-bgvnd,Bundesliga,False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,In Halbzeit zwei zeigte Karlsruhe eine gute Re...,Quelle: sid,,
0,-gtn-bgvnd,Karlsruher SC,False,https://www.faz.net/-gtn-bgvnd,2023-11-11 22:09:36,2. Bundesliga: Hertha verpasst mit 2:2 gegen K...,Hertha BSC dreht das Spiel gegen den Karlsruhe...,Hertha BSC bleibt in der zweiten Fußball-Bunde...,Quelle: sid,,
...,...,...,...,...,...,...,...,...,...,...,...
3917,-gzk-bhx0g,Dietmar Wiesner,True,https://www.faz.net/-gzk-bhx0g,2023-11-13 18:29:46,„Happy New Ears“: 30 Jahre öffentliches Proben,"Man darf ruhig merken, wie schwer das ist: Bez...","„Zenders Idee war, dass wir an einem Abend ein...",,Doris Kösterke,
3917,-gzk-bhx0g,Hans Zender,True,https://www.faz.net/-gzk-bhx0g,2023-11-13 18:29:46,„Happy New Ears“: 30 Jahre öffentliches Proben,"Man darf ruhig merken, wie schwer das ist: Bez...",Happy New Ears!“ ist der Neujahrswunsch des Ko...,,Doris Kösterke,
3917,-gzk-bhx0g,Hans Zender,True,https://www.faz.net/-gzk-bhx0g,2023-11-13 18:29:46,„Happy New Ears“: 30 Jahre öffentliches Proben,"Man darf ruhig merken, wie schwer das ist: Bez...","„Zenders Idee war, dass wir an einem Abend ein...",,Doris Kösterke,
3917,-gzk-bhx0g,John Cage,True,https://www.faz.net/-gzk-bhx0g,2023-11-13 18:29:46,„Happy New Ears“: 30 Jahre öffentliches Proben,"Man darf ruhig merken, wie schwer das ist: Bez...",Happy New Ears!“ ist der Neujahrswunsch des Ko...,,Doris Kösterke,


In [20]:
profile = ProfileReport(df_exploded, title="Profiling Report")
profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

