In [1]:
#A2 Параметры запуска (меняйте здесь)

from pathlib import Path
import sys, subprocess, os

START_URL = "https://ru.wikipedia.org/wiki/Категория:Фильмы_по_алфавиту"

# Ограничение по количеству фильмов для отладки (потом увеличите)
MAX_FILMS = 50

# 0 = без IMDb, 1 = с IMDb (через Wikidata -> IMDb)
IMDB_ENABLED = 0

# Папка проекта
PROJECT_DIR = Path("wiki_movies_project").resolve()
OUT_CSV = Path("movies.csv").resolve()

print("PROJECT_DIR:", PROJECT_DIR)
print("OUT_CSV:", OUT_CSV)
print("START_URL:", START_URL)

PROJECT_DIR: C:\Users\Larchik\wiki_movies_project
OUT_CSV: C:\Users\Larchik\movies.csv
START_URL: https://ru.wikipedia.org/wiki/Категория:Фильмы_по_алфавиту


In [2]:
#A3 Создание Scrapy-проекта (как в слайдах: startproject)

if not PROJECT_DIR.exists():
    subprocess.run([sys.executable, "-m", "scrapy", "startproject", PROJECT_DIR.name], check=True)
else:
    print("Проект уже существует:", PROJECT_DIR)

# Переходим в папку проекта
os.chdir(PROJECT_DIR)
print("CWD:", Path.cwd())

Проект уже существует: C:\Users\Larchik\wiki_movies_project
CWD: C:\Users\Larchik\wiki_movies_project


In [3]:
#A4 Создание spider-файла (spiders/wiki_movies.py)

from pathlib import Path

spider_path = Path(PROJECT_DIR.name) / "spiders" / "wiki_movies.py"
spider_path.parent.mkdir(parents=True, exist_ok=True)

spider_code = r'''
import re
import json
import scrapy
from scrapy.exceptions import CloseSpider


def _clean_text(s: str) -> str:
    if not s:
        return ""
    s = s.replace("\xa0", " ")
    s = re.sub(r"\[\d+\]", "", s)          # убрать сноски [1]
    s = re.sub(r"\s+", " ", s).strip()
    return s


def _uniq_preserve(seq):
    seen = set()
    out = []
    for x in seq:
        if x not in seen:
            seen.add(x)
            out.append(x)
    return out


class WikiMoviesSpider(scrapy.Spider):
    name = "wiki_movies"
    allowed_domains = ["ru.wikipedia.org", "www.wikidata.org", "imdb.com", "www.imdb.com"]
    start_urls = []

    custom_settings = {
        # аккуратно по скорости (из слайдов: блокировки/ресурсы)
        "ROBOTSTXT_OBEY": True,
        "DOWNLOAD_DELAY": 0.5,
        "AUTOTHROTTLE_ENABLED": True,
        "AUTOTHROTTLE_START_DELAY": 0.5,
        "AUTOTHROTTLE_MAX_DELAY": 10.0,
        "CONCURRENT_REQUESTS": 8,

        # кеш (чтобы не долбить сайт при отладке)
        "HTTPCACHE_ENABLED": True,
        "HTTPCACHE_EXPIRATION_SECS": 24 * 3600,

        # лог
        "LOG_LEVEL": "INFO",
        "USER_AGENT": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120 Safari/537.36",
    }

    def __init__(self, start_url=None, max_films=200, imdb=0, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.start_urls = [start_url] if start_url else ["https://ru.wikipedia.org/wiki/Категория:Фильмы_по_алфавиту"]
        self.max_films = int(max_films)

        imdb_s = str(imdb).strip().lower()
        self.imdb_enabled = imdb_s in {"1", "true", "yes", "y"}

        self.seen_categories = set()
        self.seen_films = set()
        self.film_count = 0

    # ---------- CATEGORY PARSING ----------

    def parse(self, response):
        yield from self.parse_category(response)

    def parse_category(self, response):
        if response.url in self.seen_categories:
            return
        self.seen_categories.add(response.url)

        # 1) Подкатегории (если есть)
        for href in response.xpath('//div[@id="mw-subcategories"]//a/@href').getall():
            url = response.urljoin(href)
            if url not in self.seen_categories:
                yield scrapy.Request(url, callback=self.parse_category)

        # 2) Ссылки на страницы в категории
        for a in response.xpath('//div[@id="mw-pages"]//li/a[starts-with(@href, "/wiki/")]'):
            href = a.xpath("./@href").get()
            title = _clean_text(a.xpath("string(.)").get())

            if not href:
                continue

            # фильтры мусора
            if ":" in href:                       # Категория:, Служебная:, Файл: и т.п.
                continue
            if title.startswith("Список "):       # часто это не фильм
                continue

            url = response.urljoin(href)
            if url in self.seen_films:
                continue

            self.seen_films.add(url)

            # лимит по количеству фильмов (для отладки)
            if self.film_count >= self.max_films:
                raise CloseSpider(f"Reached max_films={self.max_films}")

            yield scrapy.Request(url, callback=self.parse_film)

        # 3) Пагинация категории ("Следующая страница")
        next_href = response.xpath('//a[contains(., "Следующая страница")]/@href').get()
        if next_href:
            yield scrapy.Request(response.urljoin(next_href), callback=self.parse_category)

    # ---------- FILM PAGE PARSING ----------

    def _infobox_td(self, response, labels):
        """
        Находит td в инфобоксе по заголовку th, содержащему один из labels.
        """
        for label in labels:
            td = response.xpath(
                f'//table[contains(@class,"infobox")]//tr[th//text()[contains(., "{label}")]]/td[1]'
            )
            if td and td.get():
                return td
        return None

    def _td_to_value(self, td_sel):
        """
        Превращает td в значение: предпочитаем тексты ссылок (они аккуратнее),
        иначе берём весь текст.
        """
        if td_sel is None:
            return ""

        link_texts = [t.strip() for t in td_sel.xpath('.//a//text()').getall() if t.strip()]
        link_texts = [t for t in link_texts if t not in {"[", "]"}]
        link_texts = _uniq_preserve(link_texts)
        if link_texts:
            return _clean_text("; ".join(link_texts))

        raw = " ".join([t.strip() for t in td_sel.xpath(".//text()").getall() if t.strip()])
        return _clean_text(raw)

    def _extract_year(self, text):
        text = _clean_text(text)
        m = re.search(r"(18|19|20)\d{2}", text)
        return m.group(0) if m else ""

    def parse_film(self, response):
        # базовая проверка: есть ли инфобокс
        infobox = response.xpath('//table[contains(@class,"infobox")]')
        if not infobox or not infobox.get():
            return

        title = _clean_text(response.xpath('string(//h1[@id="firstHeading"])').get())
        wiki_url = response.url

        genre = self._td_to_value(self._infobox_td(response, ["Жанр", "Жанры"]))
        director = self._td_to_value(self._infobox_td(response, ["Режиссёр", "Режиссер", "Режиссёры", "Режиссеры"]))
        country = self._td_to_value(self._infobox_td(response, ["Страна", "Страны"]))

        year_raw = self._td_to_value(self._infobox_td(response, ["Год", "Годы", "Премьера", "Дата выхода"]))
        year = self._extract_year(year_raw)

        item = {
            "title": title,
            "genre": genre,
            "director": director,
            "country": country,
            "year": year,
            "wiki_url": wiki_url,
        }

        # счётчик (факт успешной обработки фильма)
        self.film_count += 1

        # IMDb (опционально): Wikipedia -> Wikidata -> IMDb
        if not self.imdb_enabled:
            yield item
            return

        wikidata_href = response.xpath('//li[@id="t-wikibase"]/a/@href').get()
        if not wikidata_href or "wikidata.org/wiki/" not in wikidata_href:
            # fallback: без imdb
            item["imdb_id"] = ""
            item["imdb_rating"] = ""
            yield item
            return

        qid = wikidata_href.rsplit("/", 1)[-1].split("#")[0].strip()
        wd_json_url = f"https://www.wikidata.org/wiki/Special:EntityData/{qid}.json?flavor=dump"

        yield scrapy.Request(
            wd_json_url,
            callback=self.parse_wikidata,
            meta={"item": item, "qid": qid},
        )

    def parse_wikidata(self, response):
        item = response.meta["item"]
        qid = response.meta["qid"]

        try:
            data = json.loads(response.text)
            ent = data["entities"][qid]
            claims = ent.get("claims", {})
            p345 = claims.get("P345", [])
            imdb_id = ""
            if p345:
                imdb_id = p345[0]["mainsnak"]["datavalue"]["value"]
            imdb_id = str(imdb_id).strip()
        except Exception:
            imdb_id = ""

        item["imdb_id"] = imdb_id

        if not imdb_id:
            item["imdb_rating"] = ""
            yield item
            return

        imdb_url = f"https://www.imdb.com/title/{imdb_id}/"
        item["imdb_url"] = imdb_url

        yield scrapy.Request(
            imdb_url,
            callback=self.parse_imdb,
            meta={"item": item},
            headers={"Accept-Language": "en-US,en;q=0.9"},
        )

    def parse_imdb(self, response):
        item = response.meta["item"]

        rating = ""
        # На IMDb часто есть JSON-LD со структурой и aggregateRating
        scripts = response.xpath('//script[@type="application/ld+json"]/text()').getall()
        for s in scripts:
            s = s.strip()
            if not s:
                continue
            try:
                js = json.loads(s)
                if isinstance(js, list):
                    # иногда несколько объектов
                    for obj in js:
                        ar = obj.get("aggregateRating", {}) if isinstance(obj, dict) else {}
                        if ar.get("ratingValue"):
                            rating = str(ar.get("ratingValue"))
                            break
                elif isinstance(js, dict):
                    ar = js.get("aggregateRating", {})
                    if ar.get("ratingValue"):
                        rating = str(ar.get("ratingValue"))
                if rating:
                    break
            except Exception:
                continue

        item["imdb_rating"] = rating
        yield item
'''

spider_path.write_text(spider_code, encoding="utf-8")
print("Spider saved to:", spider_path)

Spider saved to: wiki_movies_project\spiders\wiki_movies.py


In [4]:
#B5 Патч spider: фикс реактора для Windows + убираем CloseSpider по лимиту

from pathlib import Path
import re

spider_path = Path("wiki_movies_project") / "spiders" / "wiki_movies.py"
text = spider_path.read_text(encoding="utf-8")

# 1) Добавляем TWISTED_REACTOR в custom_settings (если ещё не добавлен)
if "TWISTED_REACTOR" not in text:
    text = text.replace(
        '"USER_AGENT": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120 Safari/537.36",',
        '"USER_AGENT": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120 Safari/537.36",\n'
        '        "TWISTED_REACTOR": "twisted.internet.selectreactor.SelectReactor",'
    )

# 2) Убираем raise CloseSpider(...) чтобы не закрывать процесс "ошибкой"
text = text.replace(
    'raise CloseSpider(f"Reached max_films={self.max_films}")',
    'return'
)

spider_path.write_text(text, encoding="utf-8")
print("OK patched:", spider_path)


OK patched: wiki_movies_project\spiders\wiki_movies.py


In [5]:
#C4 Запуск Scrapy из Jupyter так, чтобы CSV точно создавался (Windows-safe)

import os
from pathlib import Path
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

# 1) Убедимся, что мы в корне проекта (где scrapy.cfg)
print("CWD:", Path.cwd(), "| scrapy.cfg:", Path("scrapy.cfg").exists())

# 2) Пишем В ОТНОСИТЕЛЬНЫЙ файл (иначе Scrapy на Windows воспринимает C:\ как URI-схему "c")
OUT_CSV_LOCAL = Path("movies.csv")        # относительный путь в корне проекта
OUT_CSV_ABS = (Path.cwd() / OUT_CSV_LOCAL).resolve()

# чистим старый файл
if OUT_CSV_LOCAL.exists():
    OUT_CSV_LOCAL.unlink()

# 3) Настройки проекта + FEEDS
settings = get_project_settings()
settings.set("FEEDS", {
    str(OUT_CSV_LOCAL): {"format": "csv", "encoding": "utf-8", "overwrite": True}
})
settings.set("TELNETCONSOLE_ENABLED", False)  # чтобы не занимал порт

# 4) Запуск без сигнал-хендлеров (иначе падает _handleSignals)
from wiki_movies_project.spiders.wiki_movies import WikiMoviesSpider

process = CrawlerProcess(settings)
process.crawl(
    WikiMoviesSpider,
    start_url=START_URL,
    max_films=MAX_FILMS,
    imdb=IMDB_ENABLED
)
process.start(install_signal_handlers=False)

print("DONE. CSV:", OUT_CSV_ABS, "exists:", OUT_CSV_ABS.exists(), "size:", OUT_CSV_ABS.stat().st_size if OUT_CSV_ABS.exists() else None)

2026-01-30 19:38:28 [scrapy.utils.log] INFO: Scrapy 2.8.0 started (bot: wiki_movies_project)
2026-01-30 19:38:28 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.4, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 23.10.0, Python 3.11.7 | packaged by Anaconda, Inc. | (main, Dec 15 2023, 18:05:47) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 24.0.0 (OpenSSL 3.0.13 30 Jan 2024), cryptography 42.0.2, Platform Windows-10-10.0.19045-SP0
2026-01-30 19:38:28 [scrapy.crawler] INFO: Overridden settings:
{'AUTOTHROTTLE_ENABLED': True,
 'AUTOTHROTTLE_MAX_DELAY': 10.0,
 'AUTOTHROTTLE_START_DELAY': 0.5,
 'BOT_NAME': 'wiki_movies_project',
 'CONCURRENT_REQUESTS': 8,
 'DOWNLOAD_DELAY': 0.5,
 'FEED_EXPORT_ENCODING': 'utf-8',
 'HTTPCACHE_ENABLED': True,
 'HTTPCACHE_EXPIRATION_SECS': 86400,
 'LOG_LEVEL': 'INFO',
 'NEWSPIDER_MODULE': 'wiki_movies_project.spiders',
 'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['wiki_movies_project.spiders'],
 'TELNE

CWD: C:\Users\Larchik\wiki_movies_project | scrapy.cfg: True


2026-01-30 19:38:28 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats',
 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware']
2026-01-30 19:38:28 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermid

DONE. CSV: C:\Users\Larchik\wiki_movies_project\movies.csv exists: True size: 131704


In [6]:
#C5 Читаем CSV и смотрим первые строки

import pandas as pd

df = pd.read_csv(OUT_CSV_ABS)
display(df.head(10))

print("\nRows:", len(df))
print("\nMissing (%) by column:")
print((df.isna().mean() * 100).round(1).sort_values(ascending=False))

2026-01-30 19:44:20 [numexpr.utils] INFO: NumExpr defaulting to 8 threads.


Unnamed: 0,title,genre,director,country,year,wiki_url
0,1+1 (фильм),комедийная драма; бадди-муви,Оливье Накаш; 2; Эрик Толедано,Франция,2011.0,https://ru.wikipedia.org/wiki/1%2B1_(%D1%84%D0...
1,01-99,комедия,Амасий Мартиросян,СССР,1959.0,https://ru.wikipedia.org/wiki/01-99
2,1 % (фильм),криминальный,Стив МакКаллум,Австралия,2017.0,https://ru.wikipedia.org/wiki/1_%25_(%D1%84%D0...
3,1 миля до тебя,драма; мелодрама,Лейф Тильден,США,2017.0,https://ru.wikipedia.org/wiki/1_%D0%BC%D0%B8%D...
4,0-41*,документальный; драма; комедия,Сенна Хегде,Индия,2016.0,https://ru.wikipedia.org/wiki/0-41*
5,1 (документальный фильм),документальный,Пол Краудер,США,2013.0,https://ru.wikipedia.org/wiki/1_(%D0%B4%D0%BE%...
6,(Не)бывшие,драма; мелодрама,Стефан Бризе,Франция,2023.0,https://ru.wikipedia.org/wiki/(%D0%9D%D0%B5)%D...
7,(Не)идеальные роботы,романтическая комедия; научно-фантастический ф...,Энтони Хайнс; Каспер Кристенсен,США,2023.0,https://ru.wikipedia.org/wiki/(%D0%9D%D0%B5)%D...
8,«SOS» над тайгой,драма; приключения,Аркадий Кольцатый,СССР,1976.0,https://ru.wikipedia.org/wiki/%C2%ABSOS%C2%BB_...
9,"«Москвич», любовь моя",драма,Арам Шахбазян,Армения; Франция; Россия,2015.0,https://ru.wikipedia.org/wiki/%C2%AB%D0%9C%D0%...



Rows: 515

Missing (%) by column:
year        6.8
country     5.2
genre       4.5
director    0.6
title       0.0
wiki_url    0.0
dtype: float64
