# Load Libraries and Set Settings

In [1]:
# Libraries
import requests
from bs4 import BeautifulSoup
import pandas as pd
import PyPDF2
from io import BytesIO
from tqdm import tqdm
import time
import csv
import sys
from random import randint

# Other Settings
pd.set_option('display.max.colwidth', None) # max display width

# Load Data

In [34]:
# Load data from CSV file into a DataFrame
article_link_directory = pd.read_csv('article_link_directory.csv')

### Subset the data for quick-time tests

In [41]:
practice_article_link_directory = article_link_directory.head(10)

In [42]:
practice_article_link_directory.head(1)

Unnamed: 0,Content Links,Publishing Info,Collected Links,Outside PDF Text,Full Collected Links
0,https://www.regeringen.se/remisser/2023/11/inbjudan-till-larosaten-myndigheter-och-organisationer-att-inkomma-med-synpunkter-till-regeringens-forskningspolitik/,Publicerad02 november 2023· Uppdaterad10 november 2023·RemissfrånUtbildningsdepartementet,/contentassets/c9981cbd1c054e3fa1a2a917d3e22939/inbjudan-till-larosatena-att-inkomma-med-underlag-till-regeringens-forskningspolitik.pdf,NO CONTENT,https://www.regeringen.se/contentassets/c9981cbd1c054e3fa1a2a917d3e22939/inbjudan-till-larosatena-att-inkomma-med-underlag-till-regeringens-forskningspolitik.pdf


# Collect Text Data from PDF Links

### Collect data

In [43]:
# COLLECT PDF TEXT CONTENT

# Initialize an empty list to collect text data from PDFs
pdf_text_data = []

for pdf_url in tqdm(practice_article_link_directory['Full Collected Links'], desc = "Step 2: Collecting PDF Text", unit = "link"):
    
    # Check if the URL contains the NO CONTENT alert
    if "NO CONTENT" in pdf_url:
        # If yes, append "NO CONTENT" to pdf_text_data and continue to the next URL
        pdf_text_data.append("NO CONTENT")

    else:
        try:
            # Send an HTTP GET request to the PDF URL
            response = requests.get(pdf_url)

            # Check if the request was successful (status code 200)
            if response.status_code == 200:
                # Wrap the response content in a BytesIO object
                pdf_bytes = BytesIO(response.content)

                # Create a PDF reader object
                pdf_reader = PyPDF2.PdfReader(pdf_bytes)

                # Initialize an empty string to store the text data
                text_data = ""

                # Use len(reader.pages) to determine the number of pages
                for page_num in range(len(pdf_reader.pages)):
                    page = pdf_reader.pages[page_num]
                    text_data += page.extract_text()

                # Append the extracted text to the pdf_text_data list
                pdf_text_data.append(text_data)
            else:
                print(f"Failed to fetch PDF URL: {pdf_url}, Status code: {response.status_code}")
                pdf_text_data.append("NO CONTENT")

        except Exception as e:
            print(f"An error occurred while processing PDF URL: {pdf_url}, Error: {str(e)}")
            pdf_text_data.append("NO CONTENT")

    # Introduce a random delay time before the next request
    time.sleep(3)  # Adjust the delay time as needed


Step 2: Collecting PDF Text: 100%|██████████| 10/10 [00:55<00:00,  5.55s/link]


In [44]:
# Create a new column "Inside PDF Text" in article_link_directory and assign pdf_text_data to it
practice_article_link_directory['Inside PDF Text'] = pdf_text_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  practice_article_link_directory['Inside PDF Text'] = pdf_text_data


In [45]:
practice_article_link_directory.head(1)

Unnamed: 0,Content Links,Publishing Info,Collected Links,Outside PDF Text,Full Collected Links,Inside PDF Text
0,https://www.regeringen.se/remisser/2023/11/inbjudan-till-larosaten-myndigheter-och-organisationer-att-inkomma-med-synpunkter-till-regeringens-forskningspolitik/,Publicerad02 november 2023· Uppdaterad10 november 2023·RemissfrånUtbildningsdepartementet,/contentassets/c9981cbd1c054e3fa1a2a917d3e22939/inbjudan-till-larosatena-att-inkomma-med-underlag-till-regeringens-forskningspolitik.pdf,NO CONTENT,https://www.regeringen.se/contentassets/c9981cbd1c054e3fa1a2a917d3e22939/inbjudan-till-larosatena-att-inkomma-med-underlag-till-regeringens-forskningspolitik.pdf,"\n \n \n \n2023 -04-26 \nU2023/01467 \n \n \n \nUtbildningsdepartementet \nUtbildningsministern Rektorer enligt sändlista \n \n \nTelefonväxel: 08 -405 10 00 \nFax: 08 -24 46 31 \nWebb: www.regeringen.se Postadress: 103 33 Stockholm \nBesöksadress: Drottninggatan 16 \nE-post: u.registrator@regeringskansliet.se \n \nInbjudan att inkomma med underlag till regeringens forsknings - \noch innovationspolitik \nSom ett led i regeringens arbete med en kommande forsknings - och \ninnovationspolitisk proposition, bjuder regeringen in universitet och \nhögskolor att inkomma med underlag som kan bidra till regeringens \nforsknings - och innovationspolitik, vars fokus är excellens, internationa -\nlisering och innovation. \nI regeringsförklaringen 2022 har statsministern uttalat att utbildning och \nforskning av hög kvalitet är h elt avgörande för Sveriges välstånd och att det \nsvenska näringslivet är ett drivhus för innovation och är världsledande inom \nhållbarhet . Obunden forskning är en omistlig beståndsdel i det öppna sam -\nhället. Högre utbildning och forskning är avgörande för Sv eriges kompetens -\nförsörjning och för att Sverige ska kunna möta olika samhällsutmaningar. \nRegeringen anser att en tydlig inriktning mot excellens krävs för att svensk \nforskning ska vara konkurrenskraftig. Utbildning och forskning ska hålla en \ninternationel lt sett hög kvalitet och bedrivas effektivt. Internationalisering, \ninklusive student -, doktorand - och forskarmobilitet, är viktiga medel för att \nsvensk forskning och innovation ska kunna nå högsta kvalitet. Det ska finnas \nbra villkor för forskning och inno vation för det svenska näringslivet. Läro -\nsätena ska ha goda förutsättningar att nyttiggöra forskningsresultat samt att \nbidra till innovation och svensk konkurrenskraft . Den akademiska friheten \nska främjas, värnas och bidra till ett öppet samhälle. Lärosät ena ska samverka \nmed det omgivande samhället för ömsesidigt utbyte och verka för att utbild -\nning och forskning kommer samhället till nytta. En fråga som vi behöver ha \nett förstärkt fokus på framöver är samtidigt de utmaningar och säkerhets -\nrisker som internationa lisering kan innebära . 2 (4) \n \n Med detta brev vill jag inbjuda er att inkomma med underlag inför \nkommande forsknings - och innovationspolitiska proposition. Delge gärna de \nforsknings prioriteringar som har gjorts på ert lärosäte och hur den framtida \ninriktningen ser ut. Kommentera i synnerhet hur lärosätets verksamhet \nförhåller sig till de politiska prioriteringarna hög kvalitet i forskning och \nutbildning, internationalisering och innovation. Kommentera även ert arbete \nmed samverkan, med fokus på hur fors kningsresultat kan nyttiggöras. \nKommentera gärna i ert underlag hur ni arbetar med profilområden. Att \nlärosätena arbetar strategiskt med att profilera sin forskning kan bidra till \nexcellens och konkurrenskraft och regeringen kommer därför följa det \narbete som pågår och vilka överväganden som lärosätena hittills har gjort när \ndet gäller profilområden. Regeringen avser att i den forsknings - och innova -\ntions politiska propositionen återkomma i frågan om hur lärosätenas anslag \ntill forskning och utbildning på forskarnivå ska fördelas. Något ansöknings -\nförfarande rörande profilområden kommer inte att initieras innan dess. \nEventuella synpunkter avseende den statliga organisationen för extern \nforsknings - och innovationsfinansiering lämnas inte i det ta underlag. Det \nkommer att finnas möjlighet att lämna sådana synpunkter efter att den \npågående utredningen En effektiv organisation för statlig forsknings -\nfinansiering (U2022:06) har lämnat sitt betänkande. \nRegeringen har även gett Forskningsrådet för hä lsa, arbetsliv och välfärd \n(Forte), Forskningsrådet för miljö, areella näringar och samhällsbyggande \n(Formas), Rymdstyrelsen, Statens energimyndighet , Verket för innovations -\nsystem (Vinnova) och Vetenskapsrådet i uppdrag att utifrån sina respektive \nansvars områden göra analyser och lämna rekommendationer som kan bidra \ntill regeringens forsknings - och innovationspolitik (dnr. U2023/01317 ). \nSenas t den 31 oktober 2023 önskar Utbildningsdepartementet ta emot \nunderlaget till u.registrator@regeringskansliet.se . Ange dnr. U2023/01467. \nNär det gäller Sveriges Lantbruksuniversitet skickas underlag et till både \nUtbildningsdepartementet och Landsbygds - och infrastruktur departementet. \nSvaren kommer att läggas ut på regeringens hemsida. \nVänliga hälsningar, \n \nMats Persson 3 (4) \n \n Sändlista \nUppsala universitet \nLunds universitet \nGöteborgs universitet \nStockholms universitet \nUmeå universitet \nLinköpings universitet \nKarolinska institutet \nKungl. Tekniska högskolan \nLuleå tekniska universitet \nKarlstads universitet \nLinnéuniversitetet \nÖrebro universitet \nMittuniversitetet \nMalmö universitet \nMälardal ens universitet \nSveriges lantbruksuniversitet \nBlekinge tekniska högskola \nFörsvarshögskolan \nGymnastik - och idrottshögskolan \nHögskolan i Borås \nHögskolan Dalarna \nHögskolan i Gävle \nHögskolan i Halmstad \nHögskolan Kristianstad \nHögskolan i Skövde \nHögskolan Väst \nKonstfack \nKungl. Konsthögskolan \nKungl. Musikhögskolan i Stockholm \nStockholms konstnärliga högskola \nSödertörns högskola \nAkademi för Ledarskap och Teologi \nBeckmans skola AB \nChalmers Tekniska Högskola AB \nEnskilda Högskolan Stockholm AB \nEricastiftelsen \nJohannelunds teologiska högskola 4 (4) \n \n Handelshögskolan i Stockholm \nMarie Cederschiöld högskola AB \nNewmaninstitutet AB \nSophiahemmet, Ideell förening \nStiftelsen Högskolan i Jönköping \nStiftelsen Rödakorshemmet \nStiftelsen Stockholms Musikpedagogiska Institut \n \n \n"
