Чтобы создать образец clients_data.xlsx файл, вы можете использовать следующий фрагмент кода Python, который использует библиотеку pandas:

# Создадим EXEL для примера

In [15]:
import pandas as pd

data = {
    'Siebel ID': ['1-13B49-27', '1-25A32-35', '77034039801'],
    'Фамилия': ['Петров', 'Смирнов', 'Иванов'],
    'Имя': ['Петр', 'Александр', 'Иван'],
    'Отчество': ['Петрович', 'Александрович', 'Иванович'],
    'Дата рождения': ['01.01.1999', '15.06.1985', '01.01.1980'],
    'Номер паспорта': ['1234567890', '0987654321', '1122334455'],
    'Дата выдачи': ['21.08.2020', '05.10.2005', '01.01.2020'],
    'ИНН': ['123456789012', '234567890123', '345678901234']
}

clients_df = pd.DataFrame(data)
clients_df.to_excel('clients_data.xlsx', index=False)


In [16]:
clients_df

Unnamed: 0,Siebel ID,Фамилия,Имя,Отчество,Дата рождения,Номер паспорта,Дата выдачи,ИНН
0,1-13B49-27,Петров,Петр,Петрович,01.01.1999,1234567890,21.08.2020,123456789012
1,1-25A32-35,Смирнов,Александр,Александрович,15.06.1985,987654321,05.10.2005,234567890123
2,77034039801,Иванов,Иван,Иванович,01.01.1980,1122334455,01.01.2020,345678901234


Чтобы выполнить эту задачу, мы можем разбить шаги следующим образом:

1. Установите необходимые библиотеки.
2. Прочтите файл Excel, содержащий данные клиентов.
3. Извлеките ИНН для каждого клиента.
4. Найдите информацию о банкротстве клиентов по их ИНН на сайте "Коммерсанта".
5. Сохраните найденные объявления в формате PDF.
6. Обновите файл Excel найденной информацией.

1. Установите необходимые библиотеки
Для этой задачи нам понадобятся pandas, openpyxl, requests и selenium. Вы можете установить их с помощью pip:

In [None]:
!pip install pandas openpyxl requests selenium enrich_tin

Кроме того, загрузите соответствующий WebDriver для вашего браузера с https://www.selenium.dev/documentation/en/webdriver/driver_requirements / и добавьте его местоположение в ПУТЬ к вашей системе.

# Извлечение ИНН для каждого клиента
Предполагая, что модуль Python для обогащения назван get_itin

In [None]:
import pandas as pd
import datetime

# define function to simulate IFNS website lookup
def get_itin(passport_number):
    # simulate lookup by returning a randomly generated ITIN
    return str(10**11 + int(10**11 * (passport_number / 10**10)))

# load client data into DataFrame
data = {
    'Siebel ID': ['1-13B49-27', '1-25A32-35'],
    'Фамилия': ['Петров', 'Смирнов'],
    'Имя': ['Петр', 'Александр'],
    'Отчество': ['Петрович', 'Александрович'],
    'Дата рождения': ['01.01.1999', '15.06.1985'],
    'Номер паспорта': ['1234567890', '0987654321'],
    'Дата выдачи': ['21.08.2020', '05.10.2005'],
}
clients_df = pd.DataFrame(data)

# simulate updating DataFrame with ITINs retrieved from IFNS website
itins = []
check_times = []
for i, row in clients_df.iterrows():
    passport_number = row['Номер паспорта']
    itin = get_itin(int(passport_number))
    itins.append(itin)
    check_times.append(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S.%f"))

# add ITIN and check time columns to DataFrame
clients_df['ИНН'] = itins
clients_df['Время проверки ИНН'] = check_times

# save DataFrame to Excel file
clients_df.to_excel('clients_data_with_itins.xlsx', index=False)


# С помощью скрипта, мы могли бы найти информацию о банкротстве клиентов, используя их ИНН, на сайте "Коммерсанта"

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os
import datetime

def search_bankruptcy_by_tin(tin):
    driver.get("https://bankruptcy.kommersant.ru/search/index.php")
    search_box = driver.find_element(By.NAME, "q")
    search_box.send_keys(tin)
    search_box.send_keys(Keys.RETURN)

    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//div[@class="search-results__found"]')))

    ads = driver.find_elements(By.XPATH, '//div[@class="search-results__item"]')
    return ads

driver = webdriver.Chrome()  # or any other browser
driver.get("https://bankruptcy.kommersant.ru/search/index.php")


На сайте присутсвует CAPTCHA, если вы не можете обойти CAPTCHA, подход к парсингу
веб-страниц будет неосуществим для решения этой проблемы. Предоставленный код был предназначен для демонстрации того, как искать информацию о банкротстве с помощью веб-сайта "Коммерсантъ", но из-за наличия CAPTCHA этот подход не сработает.

В этом случае лучше поискать альтернативные решения для сбора необходимой информации. Вот пара предложений:

Используйте общедоступный API: найдите общедоступный API, предоставляющий информацию о банкротстве. Этот подход обычно более надежен и менее подвержен ошибкам по сравнению с веб-очисткой, поскольку API предназначены для программного доступа.

Сбор данных вручную: Если API недоступен, а количество клиентов, которых вам нужно проверить, относительно невелико, вы можете рассмотреть возможность ручного поиска информации на сайте "Коммерсанта" или в других источниках. Это отнимает много времени, но может быть единственным вариантом, если отсутствуют API или другие доступные источники данных.

Код, приведенный в предыдущих ответах, больше не применим, учитывая проблему с CAPTCHA. Я приношу извинения за любую путаницу, которая могла возникнуть. Важно изучить альтернативные методы получения необходимой информации, соблюдая при этом условия предоставления услуг веб-сайтов, которые вы используете.

Для удобства демонтсрации предположим, что на сайте нет CAPTCHA и наш алгоритм может сохранить резльутаты в pdf

# Сохраним pdf 

In [None]:
def save_ad_as_pdf(ad, siebel_id, surname, name, ads_count):
    ad_title = f"Siebel-{siebel_id}_{surname}_{name}_No.-{ads_count}.pdf"
    ad_dir = os.path.join('bankruptcy_ads', str(datetime.date.today()))
    os.makedirs(ad_dir, exist_ok=True)
    pdf_file = os.path.join(ad_dir, ad_title)

    # Save ad as PDF using browser's print to PDF functionality (browser-dependent)

    return pdf_file

In [None]:
ads_count = 0
for index, row in clients_df.iterrows():
    ads = search_bankruptcy_by_tin(row['ИНН'])
    for ad in ads:
        ads_count += 1
        pdf_file = save_ad_as_pdf(ad, row['Siebel ID'], row['Фамилия'], row['Имя'], ads_count)
        clients_df.at[index, 'Найдено в Ъ'] = pdf_file
        clients_df.at[index, 'Время проверки в Ъ:'] = datetime.datetime.now()

Исходя из приведенного примера, кажется, что вы хотите извлечь определенную информацию из PDF-файла, а затем добавить еще два столбца в существующий файл Excel. Для достижения этой цели вы можете использовать библиотеку PyPDF2 для извлечения текста из PDF-файла и библиотеку pandas для работы с файлом Excel.

In [None]:
!pip install PyPDF2 pandas openpyxl

# Парсинг данных из pdf чтобы обновить exel

In [None]:
import os
import PyPDF2
import pandas as pd
import re
from datetime import datetime

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        text = ''
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

def extract_siebel_id(text):
    match = re.search(r'№\s*(\d+)', text)
    return match.group(1) if match else None

def extract_inn_check_date(text):
    match = re.search(r'№\d+\(\d+\) от (\d{2}\.\d{2}\.\d{4})', text)
    return match.group(1) if match else None

def extract_inn_check_result(text):
    inn_section = re.findall(r'ИНН\s+(\d+)', text)
    return inn_section[0] if inn_section else None

# Load the Excel file into a DataFrame
file_path = 'clients_data.xlsx'
df = pd.read_excel(file_path)

# Add new columns to the DataFrame
df['Время проверки ИНН'] = None
df['Найдено в Ъ'] = None
df['INN'] = None

# Folder containing the PDF files
pdf_folder_path = 'pdffolder'

# Loop through all PDF files in the folder
for file_name in os.listdir(pdf_folder_path):
    if file_name.endswith('.pdf'):
        pdf_path = os.path.join(pdf_folder_path, file_name)
        pdf_text = extract_text_from_pdf(pdf_path)

        # Parse and extract the necessary information from the text
        siebel_id = extract_siebel_id(pdf_text)
        inn_check_date = extract_inn_check_date(pdf_text)
        inn_check_result = extract_inn_check_result(pdf_text)

        # Get the current time and format it
        file_creation_time = os.path.getctime(pdf_path)
        now = datetime.fromtimestamp(file_creation_time).strftime('%Y-%m-%d %H:%M:%S')

        # Update the DataFrame with the extracted information
        if siebel_id and inn_check_date and inn_check_result:
            df.loc[df['Siebel ID'] == siebel_id, 'Время проверки ИНН'] = now
            df.loc[df['Siebel ID'] == siebel_id, 'Найдено в Ъ'] = inn_check_result
            df.loc[df['Siebel ID'] == siebel_id, 'INN'] = inn_check_result

# Fill missing values with default strings
df['Время проверки ИНН'].fillna('Время проверки ИНН не подтверждено', inplace=True)
df['Найдено в Ъ'].fillna('Информация об ИНН не найдена', inplace=True)
df['INN'].fillna('ИНН не найден', inplace=True)

# Save the updated DataFrame to a new Excel file
df.to_excel('updated_clients.xlsx', index=False)

# Описать подробную логику наиболее оптимальной реализации п.6

Вот оптимальный пошаговый подход к загрузке данных в CRM:

1. Извлечение данных: Прочитайте расширенный файл Excel, используя библиотеку Python, такую как pandas, чтобы извлечь соответствующие данные в структурированный формат, такой как DataFrame. Это позволит легко манипулировать данными и преобразовывать их перед загрузкой в CRM.

In [None]:
import pandas as pd

file_path = 'enriched_data.xlsx'
data_df = pd.read_excel(file_path)

2. Преобразование данных: Выполните любые необходимые преобразования данных, чтобы обеспечить правильное отображение данных в CRM-системе. Например, вам может потребоваться преобразовать форматы дат или объединить определенные столбцы.

In [None]:
data_df['Date of Birth'] = pd.to_datetime(data_df['Date of Birth']).dt.strftime('%Y-%m-%d')

3. Аутентификация: Аутентифицируйтесь в CRM-системе, используя предоставленный ключ API или учетные данные. Это может включать OAuth2 или любой другой механизм аутентификации, поддерживаемый CRM.

In [None]:
import requests

crm_auth_url = 'https://crm.example.com/auth'
crm_api_key = 'your_api_key'
headers = {'Authorization': f'Bearer {crm_api_key}'}

4. Загрузка данных: Выполните итерацию по фрейму данных, создавая или обновляя записи в CRM для каждого клиента. Используйте API CRM для отправки необходимых запросов. Обязательно обработайте ошибки, которые могут возникнуть во время процесса.

In [None]:
crm_base_url = 'https://crm.example.com'

for index, row in data_df.iterrows():
    client_data = row.to_dict()
    try
        # Prepare the payload for the API request
        payload = {
            'Siebel_ID': client_data['Siebel ID'],
            'Last_Name': client_data['Last Name'],
            'First_Name': client_data['First Name'],
            'Patronymic': client_data['Patronymic'],
            'Date_of_Birth': client_data['Date of Birth'],
            'Passport_Number': client_data['Passport Number'],
            'Date_of_Passport_Issuance': client_data['Date of Passport Issuance'],
            'TIN': client_data['TIN'],
            'Time_of_TIN_Verification': client_data['Time of TIN Verification'],
            'Found_in_B': client_data['Found in B'],
            'Check_Time': client_data['Check Time']
        }

        # Make the API request to create or update the client record in the CRM
        response = requests.post(f'{crm_base_url}/clients', json=payload, headers=headers)

        # Check if the request was successful
        if response.status_code == 200 or response.status_code == 201:
            print(f"Client {client_data['Siebel ID']} uploaded successfully.")
        else:
            print(f"Error uploading client {client_data['Siebel ID']}: {response.text}")

    except Exception as e:
        print(f"Error processing client {client_data['Siebel ID']}: {str(e)}")

5. Загрузка файла: Для каждой записи клиента, созданной или обновленной в CRM-системе, загрузите соответствующий PDF-файл (ы), полученный из bankruptcy.kommersant.ru веб-сайт. Это можно сделать с помощью CRM API для загрузки файлов или любым другим методом, предоставляемым
CRM-системой. Обязательно обработайте ошибки, которые могут возникнуть в процессе загрузки файла.

In [None]:
pdf_folder_path = 'path/to/pdf/folder'

for index, row in data_df.iterrows():
    client_data = row.to_dict()
    siebel_id = client_data['Siebel ID']
    pdf_file_name = f'Siebel-{siebel_id}_family_and_No.-ads.pdf'
    pdf_file_path = f'{pdf_folder_path}/{pdf_file_name}'

    try:
        # Check if the PDF file exists
        if os.path.isfile(pdf_file_path):
            # Read the PDF file as binary data
            with open(pdf_file_path, 'rb') as file:
                pdf_data = file.read()

            # Prepare the payload for the API request
            files = {'file': (pdf_file_name, pdf_data, 'application/pdf')}

            # Make the API request to upload the PDF file to the CRM
            response = requests.post(f'{crm_base_url}/clients/{siebel_id}/upload', files=files, headers=headers)

            # Check if the request was successful
            if response.status_code == 200 or response.status_code == 201:
                print(f"PDF file for client {siebel_id} uploaded successfully.")
            else:
                print(f"Error uploading PDF file for client {siebel_id}: {response.text}")

        else:
            print(f"PDF file for client {siebel_id} not found.")

    except Exception as e:
        print(f"Error uploading PDF file for client {siebel_id}: {str(e)}")

При таком подходе вы можете оптимально загрузить подготовленные данные и PDF-файлы в CRM-систему, одновременно обрабатывая любые ошибки, которые могут возникнуть в процессе. Это гарантирует, что данные загружены правильно и любые проблемы регистрируются для дальнейшего расследования.