<a href="https://colab.research.google.com/github/konstantins7/rabota1/blob/main/medvitrina__200.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:
!pip install google-auth requests pandas google-api-python-client beautifulsoup4 lxml

import requests
import pandas as pd
import datetime
import os
import urllib.request
from bs4 import BeautifulSoup
from google.oauth2 import service_account
from google.auth.transport.requests import AuthorizedSession
import time
from google.colab import drive  # Добавлен импорт для монтирования Google Drive

# Монтирование Google Drive
drive.mount('/content/gdrive')

# Настройки
DAILY_QUOTA = 200  # Пример дневной квоты, замените на ваше значение
INDEXING_URL = "https://indexing.googleapis.com/v3/urlNotifications:publish"
LONG_OPERATION_THRESHOLD = 300  # Порог времени для длительной операции (в секундах)

# Пути к файлам
MED_VITRINA_KEY_FILE_LOCATION = '/content/gdrive/MyDrive/Colab Notebooks/medvitrina24kz-61856b49ec6e.json'
MED_VITRINA_TXT_FILE_PATH = '/content/gdrive/MyDrive/Colab Notebooks/medvitrina24_urls.txt'
MED_VITRINA_PROGRESS_FILE_PATH = '/content/gdrive/MyDrive/Colab Notebooks/medvitrina24_indexing_progress.csv'
MED_VITRINA_SITEMAP_URL = 'https://med.vitrina24.kz/sitemap.xml'
TELEGRAM_TOKEN_FILE = '/content/gdrive/MyDrive/Colab Notebooks/tgtokenvitrina24kz.txt'
TELEGRAM_CHAT_ID = '-1002207415181'  # chat_id для Telegram канала

# Области доступа OAuth
SCOPES = ["https://www.googleapis.com/auth/indexing"]

# Функция для загрузки токена из файла
def load_telegram_token(token_file):
    token = None
    with open(token_file, 'r') as file:
        token = file.read().strip()
    return token

# Функция для отправки сообщений в Telegram
def send_telegram_message(token, chat_id, message):
    url = f'https://api.telegram.org/bot{token}/sendMessage'
    data = {'chat_id': chat_id, 'text': message}
    response = requests.post(url, data=data)
    if response.status_code != 200:
        print(f"Ошибка отправки сообщения в Telegram: {response.status_code} - {response.text}")
    return response.json()

# Функция для логирования сообщений и отправки их в Telegram
def log_message(message):
    print(message)  # Вывод сообщения для отладки
    send_telegram_message(load_telegram_token(TELEGRAM_TOKEN_FILE), TELEGRAM_CHAT_ID, message)

# Функция для проверки наличия файлов
def check_file_exists(file_path):
    if not os.path.exists(file_path):
        log_message(f"Ошибка: Файл {file_path} не найден.")
        return False
    return True

# Функция для получения URL-адресов из sitemap
def get_urls_from_sitemap(sitemap_url):
    sitemap_urls = []
    try:
        response = urllib.request.urlopen(sitemap_url)
        soup = BeautifulSoup(response, 'xml')
        for loc in soup.find_all('loc'):
            sitemap_urls.append(loc.text)
    except Exception as e:
        log_message(f"Ошибка получения sitemap: {e}")
    return sitemap_urls

# Функция для отправки URL на индексацию
def publish_url(url, authed_session):
    data = {
        "url": url,
        "type": "URL_UPDATED"
    }
    response = authed_session.post(INDEXING_URL, json=data)
    return response

# Функция для индексации URL-адресов
def index_urls():
    # Проверка наличия ключевого файла
    if not check_file_exists(MED_VITRINA_KEY_FILE_LOCATION):
        return

    # Отправка сообщения о начале индексации
    send_telegram_message(load_telegram_token(TELEGRAM_TOKEN_FILE), TELEGRAM_CHAT_ID, "Начата индексация для med.vitrina24.kz.")

    # Создание учетных данных и авторизованного сеанса
    try:
        credentials = service_account.Credentials.from_service_account_file(MED_VITRINA_KEY_FILE_LOCATION, scopes=SCOPES)
        authed_session = AuthorizedSession(credentials)
        log_message("Учетные данные успешно созданы и сессия авторизована.")
    except Exception as e:
        log_message(f"Ошибка создания учетных данных: {e}")
        return

    # Загрузка данных из TXT файла или sitemap
    if check_file_exists(MED_VITRINA_TXT_FILE_PATH):
        with open(MED_VITRINA_TXT_FILE_PATH, 'r') as file:
            urls = [line.strip() for line in file]
        log_message(f"Файл {MED_VITRINA_TXT_FILE_PATH} успешно прочитан.")
    else:
        urls = get_urls_from_sitemap(MED_VITRINA_SITEMAP_URL)
        with open(MED_VITRINA_TXT_FILE_PATH, 'w') as file:
            for url in urls:
                file.write(f"{url}\n")
        log_message(f"Создан новый файл {MED_VITRINA_TXT_FILE_PATH} с URL-адресами из sitemap.")

    # Создание или загрузка файла прогресса
    try:
        progress = pd.read_csv(MED_VITRINA_PROGRESS_FILE_PATH)
        log_message(f"Файл прогресса {MED_VITRINA_PROGRESS_FILE_PATH} успешно загружен.")
    except FileNotFoundError:
        progress = pd.DataFrame(urls, columns=['Product URL'])
        progress['Indexed'] = False
        progress.to_csv(MED_VITRINA_PROGRESS_FILE_PATH, index=False)
        log_message(f"Создан новый файл прогресса: {MED_VITRINA_PROGRESS_FILE_PATH}")

    # Проверка квоты перед началом индексации
    try:
        response = authed_session.get(f"https://indexing.googleapis.com/v3/urlNotifications/metadata?url=https://med.vitrina24.kz")
        quota_info = response.json()
        log_message(f"Информация о квоте: {quota_info}")
    except Exception as e:
        log_message(f"Ошибка при проверке квоты: {e}")
        return

    # Отслеживание количества отправленных URL
    urls_sent_today = 0
    start_time = time.time()
    for index, row in progress.iterrows():
        if urls_sent_today >= DAILY_QUOTA:
            log_message("Достигнута дневная квота. Попробуйте снова завтра.")
            break

        if not row['Indexed']:
            url = row['Product URL']
            response = publish_url(url, authed_session)

            if response.status_code == 200:
                progress.at[index, 'Indexed'] = True
                urls_sent_today += 1
                log_message(f"URL отправлен успешно: {url}")
            elif response.status_code == 429:
                log_message("Достигнута дневная квота. Попробуйте снова завтра.")
                break
            elif response.status_code == 403:
                log_message(f"Ошибка при отправке {url}: {response.status_code} {response.json()}")
                break
            else:
                log_message(f"Ошибка при отправке {url}: {response.status_code} {response.json()}")

            # Проверка на длительность выполнения операции
            if time.time() - start_time > LONG_OPERATION_THRESHOLD:
                log_message("Длительная операция - продолжение индексации.")
                start_time = time.time()

    # Сохранение файла прогресса
    progress.to_csv(MED_VITRINA_PROGRESS_FILE_PATH, index=False)
    log_message(f"Прогресс сохранен в файл {MED_VITRINA_PROGRESS_FILE_PATH}")

    # Отправка сообщения об окончании индексации
    send_telegram_message(load_telegram_token(TELEGRAM_TOKEN_FILE), TELEGRAM_CHAT_ID, "Индексация завершена для med.vitrina24.kz.")

# Вызов основной функции для индексации URL
index_urls()


Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).
Учетные данные успешно созданы и сессия авторизована.
Файл /content/gdrive/MyDrive/Colab Notebooks/medvitrina24_urls.txt успешно прочитан.
Файл прогресса /content/gdrive/MyDrive/Colab Notebooks/medvitrina24_indexing_progress.csv успешно загружен.
Информация о квоте: {'url': 'https://med.vitrina24.kz', 'latestUpdate': {'url': 'https://med.vitrina24.kz', 'type': 'URL_UPDATED', 'notifyTime': '2024-06-19T22:55:38.083581868Z'}}
Прогресс сохранен в файл /content/gdrive/MyDrive/Colab Notebooks/medvitrina24_indexing_progress.csv
