In [1]:
from bs4 import BeautifulSoup
import requests
import csv
import os

In [2]:
html_parser = {
    'title': 'art-title',
    'department': 'art-product-name',
    'author': 'art-author',
    'date': 'art-datetime',
    'text': 'art_paragraph'
    }

def get_articles(url):
    soup = BeautifulSoup(requests.get(url).text, "html.parser")
    articles = soup.find_all(class_='result-item-link',href=True)
    return articles

def get_article_data(link):
    data = {
        'title': None,
        'department': None,
        'author': None,
        'date': None,
        'text': None,
        'link': link
    }
    soup = BeautifulSoup(requests.get(link).text, "html.parser")
    for key, value in html_parser.items():
        try:
            if key == 'text':
                paragraphs = soup.find_all(class_=value)
                data[key] = " ".join([paragraph.text for  paragraph in paragraphs]).replace('\n',"").strip()
            else:
                data[key] = soup.find(class_=value).text.replace('\n',"").strip()
        except:
            print(f"Key: {key} not found in {link}")
    return data

In [32]:
csv_file = 'wyborcza.csv'
if not os.path.exists(csv_file):
    column_names = ['Title', 'Department', 'Author', 'Date', 'Text', 'Link']
    with open(csv_file, 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(column_names)

In [3]:
page = 0
with open('wyborcza.csv', 'a', newline='') as file:
    writer = csv.writer(file)
    while True:
        print(f"Page: {page}")
        link_page = f'https://classic.wyborcza.pl/archiwumGW/0,160510.html?searchForm=&datePeriod=0&initDate=2017-01-01&endDate=2017-05-15&publicationsString=1%3B5&author=&page={page}&sort=OLDEST'
        
        data_list = []    
        articles = get_articles(link_page)
        if len(articles) == 0:
            print("No articles found")
            break
        for article in articles:
            link='https://classic.wyborcza.pl/archiwumGW/'+article['href']
            data = get_article_data(link)
            data_list.append(data)
        for data in data_list:
            writer.writerow([data['title'], data['department'], data['author'], data['date'], data['text'], data['link']])    
        page += 1

Page: 0
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225050/WYNIKI
Page: 1
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225048/Petarda-Kamila-Stocha
Page: 2
Page: 3
Page: 4
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8224909/Alez-to-byl-sylwester--Caly-rynek-tanczyl-i-spiewl
Page: 5
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225133/POZNAN-WYBORCZA-PL
Page: 6
Page: 7
Page: 8
Page: 9
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225201/Co-sie-wydarzylo-w-Elku
Page: 10
Page: 11
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225344/Mama-w-moich-oczach
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225532/Nagradzani-i-lajkowani
Page: 12
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225448/Michal-Mak-wraca-do-Lechii
Page: 13
Key: author not found in https://classic.wyborcza.pl/archiwumGW/8225371/Luksusowe-posiadlosci--ktore-sprzedaja-wroc

KeyboardInterrupt: 

In [4]:
import pandas as pd
df = pd.read_csv('wyborcza.csv')
df

Unnamed: 0,Title,Department,Author,Date,Text,Link
0,"WYTRESUJ MNIE, DYRYGENCIE",Gazeta Wyborcza - Kraj,JACEK ŚWIĄDER; ROZMAWIAŁ PAWEŁ T. FELIS,2015-01-02,"Zapierający dech w piersiach ""Whiplash"" rozpal...",https://classic.wyborcza.pl/archiwumGW/7971901...
1,Uczymy prawdziwej matematyki,Gazeta Wyborcza - Kraj,ROZMAWIAŁA JUSTYNA SUCHECKA,2015-01-02,AGATA LUDWA: Od lat pokazują bardzo podobne pr...,https://classic.wyborcza.pl/archiwumGW/7971880...
2,ZAPIS NA NERGALA I CZUBASZEK,Gazeta Wyborcza - Kraj,WOJCIECH MAZIARSKI (GAZETA WYBORCZA),2015-01-02,Empik zaprosił do przedświątecznej kampanii re...,https://classic.wyborcza.pl/archiwumGW/7971879...
3,Z SZACUNKIEM DO SAMOSIEJKI,Gazeta Wyborcza - Kraj,ADAM WAJRAK,2015-01-02,"Mam poczucie, że czujemy coraz większy szacune...",https://classic.wyborcza.pl/archiwumGW/7971905...
4,HYDRAULIK ZNÓW LATA,Gazeta Wyborcza - Kraj,RADOSŁAW LENIARSKI (GARMISCH-PARTENKIRCHEN),2015-01-02,Pierwszy skok w drugim konkursie TCS Stocha by...,https://classic.wyborcza.pl/archiwumGW/7971909...
...,...,...,...,...,...,...
41723,Punkty są istotne mimo podziału,Gazeta Lokalna - Bialystok,TOMASZ PIEKARSKI,2017-04-14,Od pierwszego dnia byłem przeciwny tej reformi...,https://classic.wyborcza.pl/archiwumGW/8248787...
41724,Czy widziałem cud? Oczywiście,Gazeta Lokalna - Gdansk,; ROZMAWIAŁA ILONA GODLEWSKA,2017-04-14,"DR N. MED. KRZYSZTOF ADAMOWICZ *: Oczywiście, ...",https://classic.wyborcza.pl/archiwumGW/8248763...
41725,Pani od chrzanu,Gazeta Lokalna - Lódz,BLANKA ROGOWSKA,2017-04-14,Po 1945 roku Polacy rozparcelowali majątek. I ...,https://classic.wyborcza.pl/archiwumGW/8248731...
41726,Matka Boska robotnicza,Gazeta Lokalna - Lódz,IGOR RAKOWSKI-KŁOS,2017-04-14,Do połowy lat 80. XIX w. ustawodawstwo fabrycz...,https://classic.wyborcza.pl/archiwumGW/8248733...
