In [45]:
from bs4 import BeautifulSoup
import requests
from PIL import Image
from io import BytesIO
import pandas as pd
import itertools
import matplotlib.pyplot as plt
import re
import time
from datetime import date, timedelta

In [46]:
pd.set_option('display.max_colwidth', None)
article_df = pd.read_excel('NOS_articles_221004-231004.xlsx')
article_df.shape

(13387, 5)

In [86]:
# Simple version

def extract_data_from_url(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'lxml')
            
            # Extract images (modify as needed)
            images = [img['src'] for img in soup.find_all('img')]
            
            # Extract article text (modify as needed)
            paragraphs = [p.get_text() for p in soup.find_all('p')]
            
            return images, paragraphs
        else:
            print(f"Failed to fetch URL: {url}")
            return None, None
    except Exception as e:
        print(f"Error processing URL: {url}\n{str(e)}")
        return None, None

In [104]:
# Advanced version

def extract_data_from_url(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'lxml')
            
            # Find the header image;
            # div element with class "sc-f8368fbb-0 eYpAEN"
            featured_image_div = soup.find('div', class_='sc-f8368fbb-0 eYpAEN')
            
            # Initialize a list to store the featured image(s)
            featured_images = []
            
            if featured_image_div:
                # Check for images within the featured image div and append them to the list
                featured_images.extend([img['src'] for img in featured_image_div.find_all('img')])
                     
                    
            # Find the article text; 
            # div elements with class "sc-e0c07641-1 eHATPt"
            target_divs = soup.find_all('div', class_='sc-e0c07641-1 eHATPt')
            
            # Initialize a list to store paragraph text from target divs
            target_paragraphs = []
            
            for div in target_divs:
                # Find all paragraph elements within the target div and extract their text
                paragraphs = [p.get_text() for p in div.find_all('p')]
                target_paragraphs.extend(paragraphs)        
            
            return featured_images, target_paragraphs
        else:
            print(f"Failed to fetch URL: {url}")
            return None, None
    except Exception as e:
        print(f"Error processing URL: {url}\n{str(e)}")
        return None, None

In [105]:
test_set = article_df.copy().head()
test_set['Images'] = None
test_set['Paragraphs'] = None
test_set.columns

Index(['Article ID', 'Link', 'Title', 'Date', 'Time', 'Images', 'Paragraphs'], dtype='object')

In [106]:
for index, row in test_set.iterrows():
    url = row['Link']
    images, paragraphs = extract_data_from_url(url)
    
    # Store the extracted data in your DataFrame (create new columns as needed)
    test_set.at[index, 'Images'] = images
    test_set.at[index, 'Paragraphs'] = paragraphs

In [107]:
test_set

Unnamed: 0,Article ID,Link,Title,Date,Time,Images,Paragraphs
0,2447107.0,https://nos.nl/artikel/2447107-britse-regering-kondigt-hardere-koers-tegen-illegale-immigranten-aan,Britse regering kondigt hardere koers tegen illegale immigranten aan,2022-10-04,22:58:15,[https://cdn.nos.nl/image/2022/10/04/902898/1024x576a.jpg],"[De Britse minister van Binnenlandse Zaken heeft op de derde dag van het congres van de Conservatieve Partij aangekondigd het asielbeleid verder aan te scherpen. De bedoeling is dat niemand die illegaal het land binnenkomt meer asiel mag aanvragen. ""Als je vanaf een veilig land illegaal ons land inkomt, dan hoor je teruggestuurd te worden naar je eigen land of gedeporteerd te worden naar Rwanda"", zei minister Braverman., Naar eigen zeggen wil ze een definitief einde maken aan bootmigranten die het Kanaal oversteken, iets waar haar voorgangers ook al op aanstuurden. Wie het land via die route binnenkomt, zal onverbiddelijk worden uitgezet, stelt ze. Ook herhaalde zij een eerder streven van haar partij om het aantal mensen dat naar het VK migreert naar ""tienduizenden"" terug te brengen, in plaats van het huidige getal van 239.000., Het recht om asiel aan te vragen is vastgelegd in de Universele Verklaring van de Rechten van de Mens., Eerder gaf de kersverse minister al tegenover The Telegraph toe dat het haar ""droom"" en ""obsessie"" is om migranten uit te zetten naar Rwanda. Op het congres sprak zij de ambitie uit om al voor Kerst de eerste vluchten naar Rwanda te laten vertrekken., Het plan voor vluchten naar Rwanda komt uit de koker van de vorige regering (onder Boris Johnson) en werd door oud-minister Priti Patel tot op het bot verdedigd. De regering-Johnson hoopte ermee migranten af te schrikken. De nieuwe minister wil het controversiële plan van haar voorganger Patel doorzetten., Braverman erkende eerder wel dat het Rwanda-plan ""nog lang op zich zal laten wachten"", vanwege juridische obstakels. De eerste vlucht, die afgelopen juni had moeten vertrekken, werd op het laatste moment tegengehouden door het Europees Hof voor de Rechten van de Mens., Hoewel het VK niet meer deel uitmaakt van de Europese Unie, is het nog altijd gebonden aan dergelijke regelgeving. Daar wil Braverman in de toekomst vanaf, net als veel overige leden van de Tories., In de tussentijd wil Braverman het aantal patrouillevaarten op het stuk zee tussen Frankrijk en Engeland ophogen, om bootjes te onderscheppen., Volgens de BBC hebben sinds begin dit jaar zo'n 33.500 mensen de oversteek over het Kanaal gewaagd. Dat is meer dan in heel 2021. Het ging vooral om migranten uit Albanië, Iran en Afghanistan. Mogelijk loopt het aantal dit jaar op tot 60.000 mensen., Liefdadigheidsorganisatie Care4Calais heeft tegenover persbureau Reuters met afschuw gereageerd op de plannen. Volgens de organisatie zijn de meeste migranten die naar het VK komen vluchtelingen., ""Als je dacht dat de vorige minister op deze post - Priti Patel - vooral de rechterflank van de Conservatieve Partij aansprak, dan heb je Suella Braverman nog niet ontmoet. Braverman is een groot voorstander van het Rwanda-beleid waar migranten die illegaal het land inkomen op een enkele vlucht naar Rwanda worden gezet., De voormalig advocaat-generaal is een felle Brexiteer die in haar eerste speech als minister van Binnenlandse Zaken vandaag vooral belichtte hoe criminelen het Britse asielsysteem misbruiken., Als dochter van Indiase ouders uit Kenia en Mauritius die in de jaren 60 naar Engeland kwamen, heeft ze naar eigen zeggen zelf ervaren hoe belangrijk het is de Britse cultuur, normen en waarden te beschermen. Het is, volgens de minister, niet xenofobisch om hardop te zeggen dat massale immigratie de Britse huisvesting, openbare diensten en gemeenschappen onder druk zet."", Gisteren leidde het partijcongres in Birmingham ook al tot nieuws. Toen kondigde premier Truss en haar minister van Financiën Kwarteng aan dat er een streep ging door het meest controversiële stuk uit de nieuwe economische plannen., De regering besloot om toch af te zien van het verlagen van de belasting voor de hoogste inkomens. Het plan had de week ervoor paniek op de financiële markten veroorzaakt en het Internationaal Monetair Fonds (IMF) had gewaarschuwd om de belastingverlaging niet door te laten gaan., Buitenland, Deel artikel:]"
1,2447103.0,https://nos.nl/artikel/2447103-nog-veel-onbekend-over-energieplafond-bedrijven-duidelijkheid-snel-nodig,Nog veel onbekend over energieplafond bedrijven: 'Duidelijkheid snel nodig',2022-10-04,22:43:15,[https://cdn.nos.nl/image/2022/10/05/902952/1024x576a.jpg],"[Bakkers, slagers en andere energie-intensieve midden- en kleinbedrijven zullen ook een tegemoetkoming krijgen voor hun hoge energiekosten. Maar waar de plannen die vandaag naar buiten kwamen voor het energieplafond voor huishoudens erg gedetailleerd waren, was dat niet zo voor het mkb, en dat leidt tot onzekerheid., ""Wat we al tijden vragen, is zoveel mogelijk duidelijkheid,"" zegt Jacco Vonhof, voorzitter van MKB-Nederland. ""Dus heel concreet aangeven: over welke bedrijven hebben we het, over welk percentage van energieverbruik. En wat is de compensatie."" Dat is nu nog niet bekend., Voor mkb-bedrijven die relatief veel energie gebruiken komt er ook een regeling. Deze Tegemoetkoming Energiekosten-regeling wordt naar verwachting pas op 1 april opengesteld, maar geldt dan wel met terugwerkende kracht vanaf 1 november. Eerder was niet haalbaar, zegt het kabinet. Voor bedrijven met acute geldproblemen wordt ook nog iets bedacht., Er gaan naar schatting enkele tienduizenden bedrijven onder vallen, die deels gecompenseerd zullen worden. De regeling wordt berekend met een nog te bepalen formule. Het gaat om een percentage van de prijsstijging van energie, vermenigvuldigd met een maximumhoeveelheid energieverbruik die per onderneming wordt vastgesteld. Daarboven geldt weer de hogere marktprijs., Minister Adriaansens van Economische Zaken begrijpt dat ondernemers willen weten waar ze aan toe zijn. ""Maar het is ingewikkeld om de regeling vorm te geven en te zorgen dat hij doet wat hij moet doen. Maar hij gaat er komen, dat is het goede bericht."", De precieze uitwerking is juist cruciaal, volgens Vonhof, want ondernemers weten nu niet of en voor welk deel van hun energiekosten ze gecompenseerd zullen worden. Als ze ondanks hun verlies toch doorgaan met produceren, ""dan kan het zijn dat als de regel af is, je erachter komt dat je de verkeerde keuze hebt gemaakt, omdat je schulden hoog zijn opgelopen maar de regeling die niet voldoende compenseert. Dan is het al te laat en moet je dat geld terugbetalen."", Los van de onduidelijkheid zijn er meer bezwaren. De Nederlandse Vereniging voor de Bakkerij is blij dat er een regeling komt, maar vindt wel dat die eerder moet ingaan. ""Als er pas 1 april volgend jaar hulp komt, is dat voor veel bakkers te laat. Sommige hebben te maken met een vertienvoudiging van hun energieprijzen,"" zegt een woordvoerder., Daarom vindt de branchevereniging het ook vreemd dat de regeling met terugwerkende kracht ingaat op 1 november 2022. ""De energieprijzen zijn nu al hoog en waren dat al maanden, dus waarom worden we daar niet voor gecompenseerd?"", Het kabinet probeert vanaf november al maatregelen te hebben voor ondernemers die de winter niet dreigen door te komen, maar daar is verder nog niets over duidelijk., Wel is al bekend dat de mkb-regeling tijdelijk zal zijn. ""De vraag is hoe veel soelaas dat biedt, want de verwachting is dat de energieprijzen nog jaren hoog blijven,"" zegt Sekhar Lahiri, directeur van Metaal Nederland., Daarnaast geldt de tegemoetkoming alleen voor het mkb. ""Wij hebben ook grote bedrijven in onze achterban en die laat de overheid nu in de kou staan. Dat terwijl andere landen wel forse steunpakketten hebben uitgeschreven, ook voor die bedrijven."" Metaal Nederland vreest voor een ongelijk speelveld., Eerder waren er bezwaren tegen een regeling voor mkb'ers. Zo is het moeilijk om een gemiddeld energieverbruik vast te stellen en kan er sprake zijn van ongeoorloofde staatssteun. Daarom noemden betrokkenen het ""super complex."" Ook waarschuwde minister Adriaansens ervoor dat het kabinet ""niet ongebreideld"" met steun kan komen omdat dat de economie op de lange termijn kan verstoren., Economie, Deel artikel:]"
2,2447102.0,https://nos.nl/artikel/2447102-puinspoor-van-10-000-kilometer-volgt-ruimterots-die-botste-met-sonde,Puinspoor van 10.000 kilometer volgt ruimterots die botste met sonde,2022-10-04,22:33:13,[https://cdn.nos.nl/image/2022/10/04/902882/1024x576a.jpg],"[De planetoïde Dimorphos die vorige week met opzet werd geraakt door een ruimtesonde van NASA, wordt nu gevolgd door duizenden kilometers puin van de inslag. Astronomen legden het tafereel miljoenen kilometers verderop vast met een telescoop in Chili., Op de foto is een uitdijende, komeetachtige staart van meer dan 10.000 kilometer lang te zien, die uit stof en ander materiaal bestaat. De foto werd twee dagen na de botsing gemaakt., Wetenschappers verwachten dat de staart nog langer wordt en zich nog meer verspreidt, en op een gegeven moment zo dun wordt dat hij niet meer te detecteren is. ""Op dat moment zal het hetzelfde zijn als andere ruimtestof die in het zonnestelsel rondzweeft"", zegt Matthew Knight van het U.S. Naval Research Laboratory, die de waarneming met de telescoop deed, tegen persbureau Reuters., Dimorphos, een 160 meter brede planetoïde, werd door de ruimtesonde DART met zo'n 20.000 kilometer per uur geraakt. Het experiment heeft alles bij elkaar 325 miljoen dollar gekost., De botsing was een test waarmee de NASA onderzoekt of een dergelijke manoeuvre de koers zou kunnen veranderen van een planetoïde die dreigt in te slaan op de aarde. Dimorphos vormde overigens nooit een bedreiging voor de aarde., Hoeveel de koers van de ruimterots na de botsing veranderd is, moet de komende tijd blijken., De NASA was erg tevreden over de missie en ook over de beelden van de inslag:, Buitenland, Deel artikel:]"
3,2447100.0,https://nos.nl/artikel/2447100-begrip-bij-geemigreerde-boeren-voor-acties-wij-gaan-nooit-meer-terug,Begrip bij geëmigreerde boeren voor acties: 'Wij gaan nooit meer terug',2022-10-04,21:56:48,[https://cdn.nos.nl/image/2022/10/04/902869/1024x576a.jpg],"[Morgen presenteert Johan Remkes zijn langverwachte advies over de stikstofcrisis, maar sommige boeren wachten de toekomstplannen niet af en zoeken hun heil in het buitenland. Maar emigreren heeft ook nadelen en is niet voor iedereen de beste oplossing., Bij Interfarms, een agrarische makelaar die boeren ook helpt emigreren, zagen ze dit jaar een kleine opleving in de belangstelling. Toen de beruchte stikstofkaart verscheen waarop was aangegeven waar de uitstoot ver omlaag zou moeten, kwamen er meer vragen om informatie, zegt emigratiebegeleider Richard Roddenhof. ""Maar de belangstelling voor emigreren stijgt al jaren. Sinds de afschaffing van de melkquota en de invoering van de fosfaatrechten is het een opeenstapeling van regels, tegenstrijdigheden, onduidelijkheid en ad-hocbeleid. En nu hebben we weer het stikstofverhaal."", Vooral Denemarken, Zweden en Duitsland zijn in trek, weten ze bij Interfarms, maar ook Canada is populair. Het vergt enig kapitaal, maar daar staat tegenover dat boeren in Canada niet veel last hebben van overheidsbemoeienis., De familie Den Boer kan dat beamen. Het gezin vertrok in 2015 uit het Zuid-Hollandse Dirksland naar Taber in de provincie Alberta en heeft daar nu een florerend akkerbouwbedrijf. ""We hebben er ook 25 koeien bij, gewoon omdat we dat leuk vinden"", zegt Arnette den Boer. ""Maar daar is dus totaal geen regelgeving voor. Ook niet voor wat je met de mest doet, je hoeft niets te rapporteren."", Wel of niet vertrekken uit Nederland is een zware keuze, weet Arnette. ""Je laat alles achter, vrienden en familie. We hebben vrienden die een veehouderij hebben, die hebben er in het verleden ook over gedacht te emigreren. Toen hebben zij daar niet voor gekozen, maar ze zijn het nu aan het heroverwegen."", Zelf heeft ze geen moment spijt van hun keuze om naar Canada te gaan. ""Wij gaan nooit meer terug. Het enige waar we spijt van hebben, is dat we de stap niet vijftien jaar eerder hebben gezet. Vanwege de vrijheid en wat we hier op hebben kunnen bouwen."", De manier waarop de boerenprotesten dit jaar zijn geëscaleerd in Nederland vindt Den Boer jammer, maar ze snapt het wel. ""Mensen worden geraakt in hun bestaanszekerheid. De frustraties zijn begrijpelijk, maar je moet wel je verstand blijven gebruiken."", De meeste emigrerende boeren kiezen voor een nieuw bestaan wat minder ver weg. Vooral Denemarken is populair, maar dat land kent zijn eigen uitdagingen, waarschuwt Rick van Heesch. Hij is geboren in het Brabantse Oirschot en verhuisde als kind in 1994 met zijn ouders naar Skive in Jutland. Inmiddels heeft hij er zijn eigen melkveebedrijf., ""In Denemarken is veel meer plaats voor boeren. De grondprijs is lager en de stikstofproblematiek speelt hier niet zo, maar andere regels zijn strenger, vooral op het gebied van dierenwelzijn. Bijvoorbeeld het aantal vierkante meters per koe, daar wordt echt op gecontroleerd. Als de EU zegt: we willen het zo, dan willen ze het in Denemarken altijd nog beter doen. Het is in Nederland misschien op een punt moeilijker maar op andere punten weer makkelijker."", Tegelijkertijd heeft ook hij begrip voor de woede op het Nederlandse platteland. ""Er is geen waardering meer voor de boeren. Moet er een oorlog of hongersnood uitbreken voordat mensen snappen hoe belangrijk het is dat boeren kunnen blijven bestaan?"", Hij hoopt dat het lukt om een oplossing te vinden te vinden waarbij zoveel mogelijk boeren in Nederland hun bedrijf kunnen houden. Want emigreren is ook niet altijd een oplossing. Zelf heeft hij het regelmatig mis zien gaan. ""Je ziet dat mensen met 2 of 3 miljoen euro uit Nederland komen en hier een bedrijf kopen dat failliet is. Daar ging het al twee jaar moeilijk, alles is versleten, de koeien, de tractoren, de stallen. Daaraan zijn ze al hun geld kwijt, en vaak is het dan nog niet genoeg."", Waar sommige boeren zich ook op verkijken, is de schaalgrootte in Denemarken, zegt Van Heesch. ""Je ziet boeren die in een klap van 100 naar 400 koeien gaan. Dan werkt zo'n boer niet meer met koeien, maar met personeel, en dat heeft hij nooit gedaan. Hij was gewend zelf 14 uur per dag te werken, maar nu zit hij met werknemers die maar 6 of 7 uur werken. En dan zie je soms dat het mislukt. Dat is zonde."", Juist om die problemen te voorkomen, maakt Interfarms een screening van de boerderijen en een meerjarig bedrijfsplan. Roddenhof: ""Je kunt een mooie boerderij in Denemarken vinden, maar het moet wel toekomstbestendig en haalbaar zijn. Plus je hebt ook het sociale deel, met je gezin, dat moet ook goed voelen."", Intussen geeft de toegenomen belangstelling voor emigratie Roddenhof een dubbel gevoel. ""Het is prachtig om te zien hoe de boeren zich vestigen in het buitenland en weer plezier halen uit het ondernemen, maar ik zit tegenover steeds meer boeren die in Nederland geen perspectief meer zien en worstelen met de situatie."", Dat wil niet zeggen dat ze Nederland ontvluchten, benadrukt hij. ""Je bent ondernemer en je kijkt naar de mogelijkheden, en die liggen soms in het buitenland. Omdat je je huidige bedrijf niet meer verder kan ontwikkelen en niet kunt doen wat je graag zou willen doen. Veel gehoord is dat je in Nederland wist wat je had en koos voor die zekerheid, maar in de huidige tijd gaat die vlieger steeds vaker niet meer op."", Binnenland, Deel artikel:]"
4,2447098.0,https://nos.nl/artikel/2447098-vredesbesprekingen-regering-colombia-en-guerrillabeweging-worden-hervat,Vredesbesprekingen regering Colombia en guerrillabeweging worden hervat,2022-10-04,20:56:01,[https://cdn.nos.nl/image/2022/10/04/902861/1024x576a.jpg],"[De Colombiaanse regering en de linkse guerrillabeweging ELN hervatten volgende maand de vredesbesprekingen, zo hebben ze aangekondigd op een gezamenlijke persconferentie in de Venezolaanse hoofdstad Caracas., Gisteren werd al bekendgemaakt dat een delegatie van het extreemlinkse Nationaal Bevrijdingsleger (ELN) onderweg was naar Venezuela voor nieuwe vredesbesprekingen met de Colombiaanse regering., Bij de gesprekken zullen vertegenwoordigers van Cuba, Noorwegen en Venezuela aanwezig zijn, die gezamenlijk hebben geprobeerd het proces weer op gang te helpen, zeiden bronnen tegen persbureau Reuters., De vredebesprekingen tussen de Colombiaanse regering en extreemlinkse guerrillabewegingen hebben de afgelopen jaren wisselend succes gehad. In 2016 sloot de FARC een vredesakkoord met de regering, maar daarop scheidde een deel van de groep zich af., Het vredesoverleg met ELN begon in Ecuador onder de toenmalige president Santos voordat het naar Cuba werd verplaatst. De opvolger van Santos, Ivan Duque, zette het echter niet voort., ELN bestaat naar schatting uit 2400 strijders en wordt ervan beschuldigd zichzelf te financieren met drugshandel, illegale mijnbouw en ontvoeringen. Eerdere vredesonderhandelingen mislukten, deels ook door conflicten binnen de guerrillabeweging zelf., De ELN-onderhandelaars worden beschuldigd van misdaden zoals moord en terrorisme. Sommigen staan op Amerikaanse opsporingslijsten. Maar de Colombiaanse president Petro heeft arrestatiebevelen en uitleveringsverzoeken voor leden van de guerrillagroep opgeschort om de besprekingen te kunnen hervatten., Het geweld tussen de regering, extreemlinkse guerrillabewegingen, extreemrechtse paramilitaire organisaties en de vele drugsbendes in Colombia heeft in de afgelopen decennia aan bijna een half miljoen mensen het leven gekost., Dat geweld duurt nog altijd voort. Eerder deze maand werden bij een aanslag in het westen van Colombia zeven politieagenten gedood. Ze reden met een auto in een hinderlaag met explosieven, waarna ze werden doodgeschoten. In dat gebied zijn groeperingen actief die worden gezien als overblijfselen van de FARC., Buitenland, Deel artikel:]"
