In [None]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup

# Uruchomienie przeglądarki
driver = webdriver.Edge()
URL = "https://www.filmweb.pl/ranking/vod/serial/2024"
driver.get(URL)
time.sleep(3)  # Czekamy na załadowanie strony

# Akceptacja cookies
try:
    accept_button = driver.find_element(By.ID, "didomi-notice-agree-button")
    accept_button.click()
    time.sleep(2)
except:
    print("Brak przycisku cookies.")

# Scrollowanie strony
scroll_amount = 1000
for _ in range(15):  # Scrollujemy kilka razy
    driver.execute_script(f"window.scrollBy(0, {scroll_amount});")
    time.sleep(2)

# Pobranie kodu HTML po załadowaniu
page_source = driver.page_source
driver.quit()  # Zamykamy Selenium, resztę robi BeautifulSoup

# Parsowanie HTML
soup = BeautifulSoup(page_source, "html.parser")

# Wyszukiwanie elementów
serials = []
for item in soup.find_all("div", class_="rankingType"):
    try:
        title = item.find("h2", class_="rankingType__title").text.strip()
        rating = item.find("span", class_="rankingType__rate--value").text.strip()
        
        # Pobieranie linku do okładki
        cover_image_tag = item.find("div", class_="efficientPoster").find("img")
        cover_image_url = cover_image_tag["src"] if cover_image_tag else None
        
        # Pobieranie gatunków
        genres = item.find("div", class_="rankingType__genres")
        genres_list = [g.text.strip() for g in genres.find_all("a", class_="tag")] if genres else []
        genres_str = ", ".join(genres_list)

        serials.append([title, rating, cover_image_url, genres_str])
    except Exception as e:
        print(f"Błąd: {e}")

# Tworzenie DataFrame
df = pd.DataFrame(serials, columns=["Tytuł", "Ocena", "Link do okładki", "Gatunek"])

# ✅ Zapis do pliku CSV
df.to_csv("filmweb_serials.csv", index=False, encoding="utf-8")

# ✅ Wyświetlenie DataFrame w notebooku
df.head()

Unnamed: 0,Tytuł,Ocena,Link do okładki,Gatunek
0,1. X-Men '97,806,https://fwcdn.pl/fpo/66/29/10016629/8119717_1....,"Animacja, Akcja, Sci-Fi"
1,2. Pingwin,806,https://fwcdn.pl/fpo/02/62/10010262/8143252.7....,Kryminał
2,3. Dan Da Dan,781,https://fwcdn.pl/fpo/89/86/10058986/8139984.7....,"Akcja, Sci-Fi, Anime"
3,4. Królowa łez,778,https://fwcdn.pl/fpo/82/25/10038225/8115080_1....,Komedia rom.
4,5. Szōgun,776,https://fwcdn.pl/fpo/50/08/10025008/8111087_1....,"Przygodowy, Dramat historyczny"


mediakrytyk

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Funkcja do pobrania listy filmów z rankingu Mediakrytyk
def scrape_mediakrytyk_movies():
    url = "https://mediakrytyk.pl/filmy/ranking"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}
    
    response = requests.get(url, headers=headers)
    if response.status_code != 200:
        print(f"Błąd: {response.status_code}")
        return []
    
    soup = BeautifulSoup(response.text, "html.parser")
    movies = []
    
    for item in soup.select("ul > li > div > div:nth-of-type(3) > div > div:nth-of-type(1) > h3 > a"):  # Ścieżka oparta na podanym XPath
        title = item.text.strip()
        parent = item.find_parent("li")  # Przechodzimy do głównego kontenera filmu
        
        # Sprawdzanie roku
        year_element = parent.select_one("a.label_small.link")
        year = year_element.text.strip() if year_element else "Brak roku"
        
        critic_rating_element = parent.select_one("a.movie_full_vscore_symbol.score_symbol.link.background.small.level_1.small_hide")
        critic_rating = critic_rating_element.text.strip() if critic_rating_element else "Brak oceny krytyków"
        
        # Sprawdzanie oceny użytkowników z różnych elementów
        user_rating_element = parent.select_one("a.movie_full_vuscore_symbol.score_symbol.link.background.rounded.small.level_1.promoted.small_hide")
        if not user_rating_element:
            user_rating_element = parent.select_one("a.movie_full_vuscore_symbol.score_symbol.link.background.rounded.small.level_1.small_hide")
        
        user_rating = user_rating_element.text.strip() if user_rating_element else "Brak oceny użytkowników"
        
        # Dodawanie danych filmu do listy
        movies.append({
            "Tytuł": title,
            "Rok": year,
            "Ocena krytyków": critic_rating,
            "Ocena użytkowników": user_rating
        })
    
    return movies

# Wykonanie funkcji i zapisanie wyników jako DataFrame
films = scrape_mediakrytyk_movies()
# if films:
df = pd.DataFrame(films)  # Tworzymy DataFrame z listy słowników
df.head()  # Wyświetlamy tylko pierwsze 40 wyników


Unnamed: 0,Tytuł,Rok,Ocena krytyków,Ocena użytkowników
0,2001: Odyseja kosmiczna,1968,9.8,8.6
1,Władca Pierścieni: Powrót króla,2003,9.8,8.4
2,Obywatel Kane,1941,9.7,8.2
3,Dzisiejsze czasy,1936,9.7,7.3
4,Bez przebaczenia,1992,9.7,8.2
