## Данные о ремонтах и закрытиях на станциях метро, МЦК и МЦД

Сбор данных о проведении ремонтных работ инфраструктуры Московского метрополитена, МЦК и МЦД с сайта [transport.mos.ru](https://transport.mos.ru/metro/repairs_closures_metro) (в ознакомительных целях).

In [2]:
# Устанавливаем библиотеку playwright
!pip install playwright nest_asyncio

Note: you may need to restart the kernel to use updated packages.


In [24]:
# Устанавливаем библиотеку для работы с Google Sheets API
!pip install gspread

Collecting gspread
  Downloading gspread-6.1.3-py3-none-any.whl.metadata (11 kB)
Downloading gspread-6.1.3-py3-none-any.whl (57 kB)
Installing collected packages: gspread
Successfully installed gspread-6.1.3


In [7]:
# Устанавливаем браузер для работы playwright
!playwright install

Downloading Chromium 120.0.6099.28 (playwright build v1091)[2m from https://playwright.azureedge.net/builds/chromium/1091/chromium-mac-arm64.zip[22m
Chromium 120.0.6099.28 (playwright build v1091) downloaded to /Users/andrey/Library/Caches/ms-playwright/chromium-1091
Downloading FFMPEG playwright build v1009[2m from https://playwright.azureedge.net/builds/ffmpeg/1009/ffmpeg-mac-arm64.zip[22m
FFMPEG playwright build v1009 downloaded to /Users/andrey/Library/Caches/ms-playwright/ffmpeg-1009
Downloading Firefox 119.0 (playwright build v1429)[2m from https://playwright.azureedge.net/builds/firefox/1429/firefox-mac-13-arm64.zip[22m






Firefox 119.0 (playwright build v1429) downloaded to /Users/andrey/Library/Caches/ms-playwright/firefox-1429
Downloading Webkit 17.4 (playwright build v1944)[2m from https://playwright.azureedge.net/builds/webkit/1944/webkit-mac-13-arm64.zip[22m
Webkit 17.4 (playwright build v1944) downloaded to /Users/andrey/Library/Caches/ms-playwright/webkit-1944


In [1]:
import nest_asyncio
import asyncio
from playwright.async_api import async_playwright

import gspread
import json
import pandas as pd

from datetime import datetime

nest_asyncio.apply()

Работа с данным заключается в сборе информации с веб-страницы. На ней представлены данные в табличной форме, которые собираются в список и передаются в Гугл-таблицу, где производится их последующая обработка и анализ.

In [2]:
# Создаём пустой список, куда будут добавляться данные, собранные с веб-страницы
data_list = []

# Создаём переменную для записи даты и времени получения данных
date_update = datetime.now().strftime("%d.%m.%Y %H:%M")

async def run_playwright():
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=False)
        page = await browser.new_page()
        
        # Переходим по ссылке с графиком закрытий и ремонтов
        await page.goto("https://transport.mos.ru/metro/repairs_closures_metro")
        # Ожидаем прогрузки на странице данных в табличном селекторе  
        await page.wait_for_selector("table")
        
        try:
            # Возвращаем текстовые данные из тега <td class="second_col">
            data = await page.evaluate('''() => {
                return Array.from(document.querySelectorAll('td.second_col')).map(td => td.innerText);
            }''')
            
            # Поэлементно добавляем данные, полученные выше, в список
            for item in data:
                data_list.append(item)
        
        except: # проверка на отсутствие данных
            data = "Нет данных."
            data_list.append(data)
            
        await browser.close()
        
import asyncio
asyncio.run(run_playwright())

In [31]:
data_list

['С 10.05.2023 по 31.12.2024 выходы № 3-4 станции «Каширская» Замоскворецкой линии закрыты на ремонт. Вход и выход пассажиров – через южный вестибюль Большой кольцевой линии (выходы № 1-2).',
 'С 08.07.2023 по 30.11.2024 выходы № 3-4 станции «Говорово» закрыты на ремонт. Вход и выход пассажиров – через выходы № 1-2.',
 'С 01.09.2023 по 31.12.2024 выходы № 1-12 (поочерёдно) и часть подуличного перехода станции «Пражская» закроют на ремонт.',
 'Выходы № 7-8 станции «Калужская» и № 9-10 станции «Воронцовская» с 18:00 до 19:00 по будням работают только на выход и пересадку. Для входа пользуйтесь выходами № 1-6 станции «Калужская» и № 11-12 станции «Воронцовская» или бесплатной наземной пересадкой.',
 'С 31.12.2023 по 31.12.2024 выход № 1 станции «Нагатинская» закрыт на ремонт.',
 'С 27.02.2024 по 27.12.2024 на станции «Пушкинская» (выходы № 1-4) закрыт на ремонт эскалатор.',
 'Платформа станции «Партизанская» разделена по центру дополнительным путём. Пожалуйста, будьте внимательны при нахо

In [3]:
# Выводим количество элементов в списке
len(data_list)

59

In [None]:
# Создание учётной записи в Google Sheets API
# https://docs.gspread.org/en/v6.1.3/oauth2.html#enable-api-access
# https://www.youtube.com/watch?v=RmEsC2T8dwE
# Читаем файл json
key_file = json.load(open("///.json"))
key_file

In [None]:
# Подключаем сервисный аккаунт Google Sheets API
gc = gspread.service_account(filename="///.json")

# Открываем первый лист нужной Гугл-таблицы
wks = gc.open("График ремонтов метро").sheet1

# Задаём переменную с размерами строк и столбцов, по которой будут вноситься данные на лист таблицы
cell_range = f"A3:A{len(data_list) + 2}"
cell_list = wks.range(cell_range)

# С помощью индексированного цикла передаём элементы списка с данными в подготовленный шаблон
# с заданными параметрами строк и столбцов
for i, cell in enumerate(cell_list):
    cell.value = data_list[i]

# Передаём подготовленные данные в таблицу
wks.update_cells(cell_list)

# Заполняем первую ячейку на листе датой и временем, когда были собраны данные с сайта
wks.update_cell(1, 1, date_update)


#cell_list = wks.range("A3:A")

# Задаём номер строки
#j = 3

#for i in range(len(data_list)):
    #l = data_list[i]
    #wks.update_cell(j, 1, l)
    #j += 1 # увеличиваем номер строки на единицу после каждой итерации

{'spreadsheetId': '1iS7W50iH13uJBoOXuaoVjgm4lUO3WhBusjFSPbb5oKU',
 'updatedRange': 'Current!A1',
 'updatedRows': 1,
 'updatedColumns': 1,
 'updatedCells': 1}