In [16]:
import pandas as pd
from ydata_profiling import ProfileReport


In [17]:
df = pd.read_csv('data.csv')


In [18]:
df.columns

Index(['published_time', 'newspaper', 'headline', 'canonical_url',
       'non_canonical_url', 'article_text', 'media_type', 'fetched_time'],
      dtype='object')

In [19]:
# show columns with missing values
df.isnull().sum()

published_time        6
newspaper             0
headline              0
canonical_url         0
non_canonical_url     0
article_text         39
media_type            0
fetched_time          0
dtype: int64

In [20]:
df[df['article_text'].isnull()][['canonical_url', 'published_time', 'article_text']]

Unnamed: 0,canonical_url,published_time,article_text
5,https://www.dn.no/2-1-1459783,2023-06-06 06:35,
11,https://hemali.no/siste/ernaeringsfysiolog-pol...,2023-06-04 08:38,
28,https://www.vg.no/i/APWbbn,2023-06-06 09:35,
43,https://www.vg.no/i/XbnMxE,2023-06-06 07:58,
54,https://www.dagbladet.no/studio/sportsstudio/3...,,
55,https://www.vg.no/i/nQXnmm,2023-06-06 08:17,
66,https://www.nettavisen.no/5-95-1139921,2023-06-06 08:25,
69,https://www.vg.no/i/Q7KM2V,2023-06-06 07:33,
72,https://www.vg.no/i/BWnjLE,2023-06-06 10:23,
78,https://www.vg.no/i/Q7KgJP,2023-06-06 08:58,


In [21]:
# give me all unique newspaper names
sorted(df["newspaper"].unique())
# order alpha

['aftenposten',
 'alternativ_media',
 'caluna',
 'dagbladet',
 'dagsavisen',
 'dn',
 'document',
 'e24',
 'fakta360',
 'filternyheter',
 'gjenstridig',
 'hemali',
 'idag',
 'inyheter',
 'lykten',
 'maalmannen',
 'motvind',
 'nettavisen',
 'nrk',
 'nyhetsspeilet',
 'politisk_ukorrekt',
 'rights',
 'steigan.no',
 'tv2',
 'vg',
 'vl']

In [22]:
# Check if there are any articles from nettavisen which contains article_text
df[(df['newspaper'] == 'nettavisen') & (df['article_text'].notnull())]

Unnamed: 0,published_time,newspaper,headline,canonical_url,non_canonical_url,article_text,media_type,fetched_time
68,2023-06-06 09:34,nettavisen,Ange Postecoglou klar for Tottenham,https://www.nettavisen.no/5-95-1137206,https://www.nettavisen.no/sport/ange-postecogl...,Artikkelen oppdateres!\n\nKlubben bekrefter at...,mainstream,2023-06-06 13:17
126,2023-06-06 08:44,nettavisen,Prins Harry vitner i søksmålet mot Mirror Grou...,https://www.nettavisen.no/5-95-1139863,https://www.nettavisen.no/livsstil/prins-harry...,Denne uken blir prins Harry (38) historisk når...,mainstream,2023-06-06 13:18
136,2023-06-06 10:46,nettavisen,Alle i Akershus får ta med seg barna gratis på...,https://www.nettavisen.no/5-95-1140434,https://www.nettavisen.no/nyheter/alle-i-akers...,Familierabatten gjør at voksne kan ta med seg ...,mainstream,2023-06-06 13:18
164,2023-06-06 09:05,nettavisen,"Svette og tårer, men det skal ikke være blod",https://www.nettavisen.no/5-95-1139991,https://www.nettavisen.no/norsk-debatt/svette-...,Kommentaren gir uttrykk for skribentens mening...,mainstream,2023-06-06 13:18
170,2023-06-06 09:02,nettavisen,Rapport: Sykdommen helvetesild er mye mer utbr...,https://www.nettavisen.no/5-95-1140027,https://www.nettavisen.no/nyheter/rapport-sykd...,Det antas at i underkant av 20.000 pasienter i...,mainstream,2023-06-06 13:18
230,2023-06-06 11:08,nettavisen,Valgstyret i Oslo tar ikke klage til følge – v...,https://www.nettavisen.no/5-95-1140572,https://www.nettavisen.no/nyheter/valgstyret-i...,Dermed går klagen videre til Kommunaldeparteme...,mainstream,2023-06-06 13:19
265,2023-06-06 11:07,nettavisen,Bård Finne er blitt landslagsspiller fordi han...,https://www.nettavisen.no/5-95-1140330,https://www.nettavisen.no/norsk-debatt/bard-fi...,Kommentaren gir uttrykk for skribentens mening...,mainstream,2023-06-06 13:20
282,2023-06-06 08:43,nettavisen,Den norske eksperten advarte: – Jeg håper Russ...,https://www.nettavisen.no/5-95-1139857,https://www.nettavisen.no/nyheter/den-norske-e...,Natt til tirsdag ble Kakhovka-demningen ødelag...,mainstream,2023-06-06 13:20
284,2023-06-06 09:20,nettavisen,Bøndene får tre ganger høyere lønnsvekst enn p...,https://www.nettavisen.no/5-95-1139900,https://www.nettavisen.no/norsk-debatt/bondene...,Nett på sak Dette er kommentarer skrevet av Ne...,mainstream,2023-06-06 13:20
313,2023-06-06 10:05,nettavisen,Solbakken tok ut flere debutanter: Brann-stjer...,https://www.nettavisen.no/5-95-1140087,https://www.nettavisen.no/sport/solbakken-tok-...,ULLEVAAL STADION/AKERSGATA (Nettavisen): Dette...,mainstream,2023-06-06 13:21


In [23]:
# Show me the last 100 articles sorted by published_time, don't show article_text
df.sort_values(by='published_time', ascending=False).head(100)[['published_time', 'newspaper', 'headline', 'canonical_url', 'non_canonical_url', 'media_type', 'fetched_time']]

Unnamed: 0,published_time,newspaper,headline,canonical_url,non_canonical_url,media_type,fetched_time
160,2023-06-06 12:51,nrk,"Nei da, statsministeren er ikke malt av Vincen...",https://www.nrk.no/1.16435076,https://www.nrk.no/trondelag/regjeringen-legge...,mainstream,2023-06-06 13:18
97,2023-06-06 12:45,nrk,Rapport etter Oslo-terror: Angrepet kunne vært...,https://www.nrk.no/1.16435477,https://www.nrk.no/norge/rapport-etter-oslo-te...,mainstream,2023-06-06 13:17
314,2023-06-06 12:45,nrk,Rapport etter Oslo-terror: Angrepet kunne vært...,https://www.nrk.no/1.16435477,https://www.nrk.no/norge/rapport-etter-oslo-te...,mainstream,2023-06-06 13:21
240,2023-06-06 12:37,nrk,Brannsjefene i Agder advarer: – Ikke forsvarlig,https://www.nrk.no/1.16435509,https://www.nrk.no/sorlandet/brannsjefene-i-ag...,mainstream,2023-06-06 13:19
120,2023-06-06 12:18,nrk,Solbakken usikker på når Haaland er Norge-klar,https://www.nrk.no/1.16435192,https://www.nrk.no/sport/solbakken-overrasker-...,mainstream,2023-06-06 13:17
...,...,...,...,...,...,...,...
254,2023-06-06 08:04,rights,Eivor Evenrud minner om at barn er barn. Det e...,https://www.rights.no/2023/06/eivor-evenrud-mi...,https://www.rights.no/2023/06/eivor-evenrud-mi...,alternative,2023-06-06 13:20
43,2023-06-06 07:58,vg,"Mener Haaland er verdt 2,9 milliarder kroner",https://www.vg.no/i/XbnMxE,https://www.vg.no/sport/fotball/i/XbnMxE/mener...,mainstream,2023-06-06 13:16
49,2023-06-06 07:58,aftenposten,"Mener Haaland er verdt 2,9 milliarder kroner",https://www.aftenposten.no/i/y6y5eK,https://www.aftenposten.no/sport/fotball/i/y6y...,mainstream,2023-06-06 13:16
351,2023-06-06 07:51,tv2,Viggo Venns far: – Dratt inn i galskapen,https://www.tv2.no/a/15794936,https://www.tv2.no/a/15794936,mainstream,2023-06-06 13:22
