In [19]:
from sqlalchemy import create_engine, text
import pandas as pd
from config.settings import DATABASES
import datetime

# Логирование времени
start_time = datetime.datetime.now()
print(f"Начало процесса загрузки данных: {start_time}")

# Конфигурация таблиц и параметров
table_name = "data_loader_omsdata"
table_name_temp = "temp_oms_data"

column_check = "patient"
columns_for_update = ['talon', 'source']
sep = ';'
dtype = str
encoding = 'utf-8'

column_mapping = {
    "Талон": "talon",
    "Источник": "source",
    "Статус": "status",
    "Цель": "goal",
    "Пациент": "patient",
    "Дата рождения": "birth_date",
    "Пол": "gender",
    "Код СМО": "smo_code",
    "ЕНП": "enp",
    "Начало лечения": "treatment_start",
    "Окончание лечения": "treatment_end",
    "Врач": "doctor",
    "Посещения": "visits",
    "Посещения в МО": "mo_visits",
    "Посещения на Дому": "home_visits",
    "Диагноз основной (DS1)": "main_diagnosis",
    "Сопутствующий диагноз (DS2)": "additional_diagnosis",
    "Первоначальная дата ввода": "initial_input_date",
    "Дата последнего изменения": "last_change_date",
    "Сумма": "amount",
    "Санкции": "sanctions",
    "КСГ": "ksg",
    "Отчетный период выгрузки": "report_period",
}

# Настройка подключения к базе данных
postgres_settings = DATABASES['default']
engine = create_engine(
    f'postgresql://{postgres_settings["USER"]}:{postgres_settings["PASSWORD"]}@{postgres_settings["HOST"]}:{postgres_settings["PORT"]}/{postgres_settings["NAME"]}'
)

# Счетчики для отслеживания процесса
row_counts = {}

# Подсчёт строк в основной таблице до обработки
with engine.connect() as connection:
    initial_count_query = f"SELECT COUNT(*) FROM {table_name};"
    row_counts["before_processing"] = connection.execute(text(initial_count_query)).scalar()

print(f"Количество строк в {table_name} до обработки: {row_counts['before_processing']}")

# Чтение CSV
try:
    df = pd.read_csv(r'C:\Users\frdro\Downloads\Telegram Desktop\journal_20241004(2).csv', sep=sep, dtype=str, encoding=encoding)
except Exception as e:
    print(f"Ошибка при чтении CSV: {e}")
    raise

# Переименование и фильтрация столбцов
df = df[list(column_mapping.keys())].rename(columns=column_mapping)
df.dropna(subset=[column_check], inplace=True)
df.fillna('-', inplace=True)
df = df.replace('`', '', regex=True)
df.replace('\u00A0', ' ', regex=True, inplace=True)
df = df.astype(str)

# Удаление дубликатов из DataFrame
df = df.drop_duplicates(subset=columns_for_update)

# Подсчёт строк после чтения CSV
row_counts["after_reading_csv"] = len(df)
print(f"Количество строк в CSV после чтения и обработки: {row_counts['after_reading_csv']}")

# Проверка существования временной таблицы и её очистка
with engine.connect() as connection:
    exists = connection.execute(
        text(f"SELECT EXISTS (SELECT 1 FROM information_schema.tables WHERE table_name = '{table_name_temp}')")
    ).scalar()
    if exists:
        connection.execute(text(f"TRUNCATE TABLE {table_name_temp};"))
        print(f"Таблица {table_name_temp} очищена")
    else:
        print(f"Таблица {table_name_temp} отсутствует, будет создана автоматически при загрузке данных")

# Вставка новых данных во временную таблицу
df.to_sql(table_name_temp, engine, if_exists='replace', index=False)

# Создание индексов
with engine.connect() as connection:
    create_index_query = f"""
    DO $$ BEGIN
        IF NOT EXISTS (
            SELECT 1 
            FROM pg_indexes 
            WHERE schemaname = 'public' 
              AND tablename = '{table_name}' 
              AND indexname = 'idx_{table_name}_update'
        ) THEN
            CREATE INDEX idx_{table_name}_update
            ON {table_name} ({', '.join(columns_for_update)});
        END IF;
    END $$;
    """
    connection.execute(text(create_index_query))
    print("Индекс создан для основной таблицы.")

# Вычисление строк для обновления и вставки
with engine.connect() as connection:
    rows_to_update_query = f"""
    SELECT COUNT(*)
    FROM {table_name_temp} AS temp
    INNER JOIN {table_name} AS target
    ON { ' AND '.join([f'temp.{col} = target.{col}' for col in columns_for_update]) }
    """
    row_counts["to_update"] = connection.execute(text(rows_to_update_query)).scalar()

    rows_to_insert_query = f"""
    SELECT COUNT(*)
    FROM {table_name_temp} AS temp
    LEFT JOIN {table_name} AS target
    ON { ' AND '.join([f'temp.{col} = target.{col}' for col in columns_for_update]) }
    WHERE target.{columns_for_update[0]} IS NULL
    """
    row_counts["to_insert"] = connection.execute(text(rows_to_insert_query)).scalar()

print(f"Количество строк для обновления: {row_counts['to_update']}")
print(f"Количество строк для добавления: {row_counts['to_insert']}")

# Получение недостающих столбцов
with engine.connect() as connection:
    table_columns_query = f"""
    SELECT column_name
    FROM information_schema.columns
    WHERE table_name = '{table_name}'
    """
    table_columns = [row[0] for row in connection.execute(text(table_columns_query)).fetchall()]

    temp_table_columns_query = f"""
    SELECT column_name
    FROM information_schema.columns
    WHERE table_name = '{table_name_temp}'
    """
    temp_table_columns = [row[0] for row in connection.execute(text(temp_table_columns_query)).fetchall()]

missing_columns = [col for col in table_columns if col not in temp_table_columns and col != 'id']

# Формирование и выполнение SQL-запроса
merge_query = f"""
INSERT INTO {table_name} ({', '.join(column_mapping.values()) + ', ' + ', '.join(missing_columns)})
SELECT {', '.join(column_mapping.values())}, {', '.join([f"'-' AS {col}" for col in missing_columns])}
FROM {table_name_temp}
ON CONFLICT ({', '.join(columns_for_update)})
DO UPDATE SET
{', '.join([f"{col} = EXCLUDED.{col}" for col in column_mapping.values() if col not in columns_for_update])},
{', '.join([f"{col} = COALESCE(EXCLUDED.{col}, '-')" for col in missing_columns])};
"""

# Удаляем символы новой строки
merge_query = " ".join(merge_query.split())


try:
    with engine.begin() as connection:
        connection.execute(text(merge_query))

    print(f"Данные успешно вставлены/обновлены в таблице {table_name}.")
except Exception as e:
    print(f"Ошибка при выполнении merge-запроса: {e}")
# Подсчёт строк после обработки
with engine.connect() as connection:
    final_count_query = f"SELECT COUNT(*) FROM {table_name};"
    row_counts["after_processing"] = connection.execute(text(final_count_query)).scalar()

print(f"Количество строк в {table_name} после загрузки и обновления: {row_counts['after_processing']}")

# Итоговая статистика
end_time = datetime.datetime.now()
print("Итоговые показатели обработки:")
print(f"1. Количество строк в {table_name} до обработки: {row_counts['before_processing']}")
print(f"2. Количество строк в CSV после чтения и обработки: {row_counts['after_reading_csv']}")
print(f"3. Количество строк обновленных в {table_name}: {row_counts['to_update']}")
print(f"4. Количество строк добавленных в {table_name}: {row_counts['to_insert']}")
print(f"5. Количество строк в {table_name} после загрузки и обновления: {row_counts['after_processing']}")
print(f"Общее время выполнения: {end_time - start_time}")


In [20]:
from sqlalchemy import create_engine, text
import pandas as pd
from config.settings import DATABASES
import datetime

In [21]:
# Настройки
file_path = r'C:\Users\frdro\Downloads\Telegram Desktop\journal_20241004(2).csv'
table_name = "data_loader_omsdata"
table_name_temp = "temp_oms_data"
column_check = "patient"
columns_for_update = ['talon', 'source']
sep = ';'
dtype = str
encoding = 'utf-8'

column_mapping = {
    "Талон": "talon",
    "Источник": "source",
    "Статус": "status",
    "Цель": "goal",
    "Пациент": "patient",
    "Дата рождения": "birth_date",
    "Пол": "gender",
    "Код СМО": "smo_code",
    "ЕНП": "enp",
    "Начало лечения": "treatment_start",
    "Окончание лечения": "treatment_end",
    "Врач": "doctor",
    "Посещения": "visits",
    "Посещения в МО": "mo_visits",
    "Посещения на Дому": "home_visits",
    "Диагноз основной (DS1)": "main_diagnosis",
    "Сопутствующий диагноз (DS2)": "additional_diagnosis",
    "Первоначальная дата ввода": "initial_input_date",
    "Дата последнего изменения": "last_change_date",
    "Сумма": "amount",
    "Санкции": "sanctions",
    "КСГ": "ksg",
    "Отчетный период выгрузки": "report_period",
}

# Настройка подключения к базе данных
postgres_settings = DATABASES['default']
engine = create_engine(
    f'postgresql://{postgres_settings["USER"]}:{postgres_settings["PASSWORD"]}@{postgres_settings["HOST"]}:{postgres_settings["PORT"]}/{postgres_settings["NAME"]}'
)


In [22]:
# Логирование времени
start_time = datetime.datetime.now()
print(f"Начало процесса загрузки данных: {start_time}")

# Счетчики для отслеживания процесса
row_counts = {}

# Подсчёт строк в основной таблице до обработки
with engine.connect() as connection:
    initial_count_query = f"SELECT COUNT(*) FROM {table_name};"
    row_counts["before_processing"] = connection.execute(text(initial_count_query)).scalar()

print(f"Количество строк в {table_name} до обработки: {row_counts['before_processing']}")

Начало процесса загрузки данных: 2025-01-16 00:47:42.194476
Количество строк в data_loader_omsdata до обработки: 658396


In [23]:
# Чтение и обработка CSV файла
try:
    df = pd.read_csv(file_path, sep=sep, dtype=str, encoding=encoding)
except Exception as e:
    print(f"Ошибка при чтении CSV: {e}")
    raise

# Переименование и фильтрация столбцов
df = df[list(column_mapping.keys())].rename(columns=column_mapping)
df.dropna(subset=[column_check], inplace=True)
df.fillna('-', inplace=True)
df = df.replace('`', '', regex=True)
df.replace('\u00A0', ' ', regex=True, inplace=True)
df = df.astype(str)

# Удаление дубликатов из DataFrame
df = df.drop_duplicates(subset=columns_for_update)

# Подсчёт строк после чтения CSV
row_counts["after_reading_csv"] = len(df)
print(f"Количество строк в CSV после чтения и обработки: {row_counts['after_reading_csv']}")

Количество строк в CSV после чтения и обработки: 597711


In [24]:
# Проверка существования временной таблицы и её очистка
with engine.connect() as connection:
    exists = connection.execute(
        text(f"SELECT EXISTS (SELECT 1 FROM information_schema.tables WHERE table_name = '{table_name_temp}')")
    ).scalar()
    if exists:
        connection.execute(text(f"TRUNCATE TABLE {table_name_temp};"))
        print(f"Таблица {table_name_temp} очищена")
    else:
        print(f"Таблица {table_name_temp} отсутствует, будет создана автоматически при загрузке данных")

# Вставка новых данных во временную таблицу
df.to_sql(table_name_temp, engine, if_exists='replace', index=False)


Таблица temp_oms_data очищена


711

In [25]:
# Создание индексов
with engine.connect() as connection:
    create_index_query = f"""
    DO $$ BEGIN
        IF NOT EXISTS (
            SELECT 1 
            FROM pg_indexes 
            WHERE schemaname = 'public' 
              AND tablename = '{table_name}' 
              AND indexname = 'idx_{table_name}_update'
        ) THEN
            CREATE INDEX idx_{table_name}_update
            ON {table_name} ({', '.join(columns_for_update)});
        END IF;
    END $$;
    """
    create_index_query_temp = f"""
    DO $$ BEGIN
        IF NOT EXISTS (
            SELECT 1 
            FROM pg_indexes 
            WHERE schemaname = 'public' 
              AND tablename = '{table_name_temp}' 
              AND indexname = 'idx_{table_name_temp}_update'
        ) THEN
            CREATE INDEX idx_{table_name_temp}_update
            ON {table_name_temp} ({', '.join(columns_for_update)});
        END IF;
    END $$;
    """
    connection.execute(text(create_index_query))
    print(f"Индекс создан для {table_name}.")

    connection.execute(text(create_index_query_temp))

    print(f"Индекс создан для {table_name_temp}.")


Индекс создан для data_loader_omsdata.
Индекс создан для temp_oms_data.


In [26]:
# Вычисление строк для обновления и вставки
with engine.connect() as connection:
    rows_to_update_query = f"""
    SELECT COUNT(*)
    FROM {table_name_temp} AS temp
    INNER JOIN {table_name} AS target
    ON { ' AND '.join([f'temp.{col} = target.{col}' for col in columns_for_update]) }
    """
    row_counts["to_update"] = connection.execute(text(rows_to_update_query)).scalar()

    rows_to_insert_query = f"""
    SELECT COUNT(*)
    FROM {table_name_temp} AS temp
    LEFT JOIN {table_name} AS target
    ON { ' AND '.join([f'temp.{col} = target.{col}' for col in columns_for_update]) }
    WHERE target.{columns_for_update[0]} IS NULL
    """
    row_counts["to_insert"] = connection.execute(text(rows_to_insert_query)).scalar()

print(f"Количество строк для обновления: {row_counts['to_update']}")
print(f"Количество строк для добавления: {row_counts['to_insert']}")

Количество строк для обновления: 597711
Количество строк для добавления: 0


In [27]:
# Получение недостающих столбцов
with engine.connect() as connection:
    table_columns_query = f"""
    SELECT column_name
    FROM information_schema.columns
    WHERE table_name = '{table_name}'
    """
    table_columns = [row[0] for row in connection.execute(text(table_columns_query)).fetchall()]

    temp_table_columns_query = f"""
    SELECT column_name
    FROM information_schema.columns
    WHERE table_name = '{table_name_temp}'
    """
    temp_table_columns = [row[0] for row in connection.execute(text(temp_table_columns_query)).fetchall()]

missing_columns = [col for col in table_columns if col not in temp_table_columns and col != 'id']


In [28]:
# Формирование и выполнение SQL-запроса
merge_query = f"""
INSERT INTO {table_name} ({', '.join(column_mapping.values()) + ', ' + ', '.join(missing_columns)})
SELECT {', '.join(column_mapping.values())}, {', '.join([f"'-' AS {col}" for col in missing_columns])}
FROM {table_name_temp}
ON CONFLICT ({', '.join(columns_for_update)})
DO UPDATE SET
{', '.join([f"{col} = EXCLUDED.{col}" for col in column_mapping.values() if col not in columns_for_update])},
{', '.join([f"{col} = COALESCE(EXCLUDED.{col}, '-')" for col in missing_columns])};
"""

# Удаляем символы новой строки
merge_query = " ".join(merge_query.split())


try:
    with engine.begin() as connection:
        connection.execute(text(merge_query))

    print(f"Данные успешно вставлены/обновлены в таблице {table_name}.")
except Exception as e:
    print(f"Ошибка при выполнении merge-запроса: {e}")

Данные успешно вставлены/обновлены в таблице data_loader_omsdata.


In [29]:
# Подсчёт строк после обработки
with engine.connect() as connection:
    final_count_query = f"SELECT COUNT(*) FROM {table_name};"
    row_counts["after_processing"] = connection.execute(text(final_count_query)).scalar()

print(f"Количество строк в {table_name} после загрузки и обновления: {row_counts['after_processing']}")

# Итоговая статистика
end_time = datetime.datetime.now()
print("Итоговые показатели обработки:")
print(f"1. Количество строк в {table_name} до обработки: {row_counts['before_processing']}")
print(f"2. Количество строк в CSV после чтения и обработки: {row_counts['after_reading_csv']}")
print(f"3. Количество строк обновленных в {table_name}: {row_counts['to_update']}")
print(f"4. Количество строк добавленных в {table_name}: {row_counts['to_insert']}")
print(f"5. Количество строк в {table_name} после загрузки и обновления: {row_counts['after_processing']}")
print(f"Общее время выполнения: {end_time - start_time}")

Количество строк в data_loader_omsdata после загрузки и обновления: 658396
Итоговые показатели обработки:
1. Количество строк в data_loader_omsdata до обработки: 658396
2. Количество строк в CSV после чтения и обработки: 597711
3. Количество строк обновленных в data_loader_omsdata: 597711
4. Количество строк добавленных в data_loader_omsdata: 0
5. Количество строк в data_loader_omsdata после загрузки и обновления: 658396
Общее время выполнения: 0:01:55.211622


In [8]:
import pandas as pd
import requests

# URL для авторизации и получения токена
login_url = "http://10.36.0.142:9090"

# Данные для авторизации
credentials = {
    "username": "ВГП3",
    "password": "3c9Hz0fMY"
}
login_response = requests.post(login_url, json=credentials)
login_response.raise_for_status()  # проверка на ошибки
token = login_response.json().get("token")


HTTPError: 404 Client Error: Not Found for url: http://10.36.0.142:9090/

In [16]:
import requests

token_url = "http://10.36.0.142:9090/oauth/token"
data = {
    "grant_type": "password",
    "username": "ВГП3",
    "password": "3c9Hz0fMY",
    "client_id": "000001",
    "client_secret": "твой_client_secret"  # если требуется
}

response = requests.post(token_url, data=data)
response.raise_for_status()
token_data = response.json()
print("Полученный токен:", token_data.get("access_token"))


HTTPError: 500 Server Error: Internal Server Error for url: http://10.36.0.142:9090/oauth/token

In [15]:
import requests

# Создаем сессию для сохранения cookies
session = requests.Session()

# Заголовки, эмулирующие запрос из браузера
default_headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
    "Referer": "http://10.36.0.142:9090/"
}

# 1. Авторизация: отправляем POST-запрос с логином и паролем
auth_url = "http://10.36.0.142:9090/oauth/auth"
credentials = {
    "login": "sysdba",       # ваш логин
    "password": "key704"      # ваш пароль
}

# Выполняем запрос без автоматических редиректов, чтобы увидеть процесс
auth_response = session.post(auth_url, data=credentials, headers=default_headers, allow_redirects=True)
print("Статус авторизации:", auth_response.status_code)
print("Текущий URL (после редиректов):", auth_response.url)
print("Cookies после авторизации:", session.cookies.get_dict())

# Извлекаем токен из cookie RIR_AUTH_SESSION
token = session.cookies.get("RIR_AUTH_SESSION")
if not token:
    raise Exception("Не удалось получить cookie RIR_AUTH_SESSION!")
print("Полученный токен:", token)

# 2. Формируем заголовки для API-запроса. Попробуем передать JWT в Authorization
api_headers = {
    "Authorization": f"Bearer {token}",
    "User-Agent": default_headers["User-Agent"],
    "Referer": "http://10.36.0.142:9000/"
}

api_url = "http://10.36.0.142:9000/dictionaries/screening_types"  # замените на нужный API endpoint

# 2.1. Пробуем запрос с заголовком Authorization
api_response = session.get(api_url, headers=api_headers)
print("\n--- Запрос с заголовком Authorization ---")
print("API статус (Authorization):", api_response.status_code)
print("API ответ (Authorization):", api_response.text)

# 3. Альтернативный вариант: передаем токен через cookie вручную.
# Устанавливаем cookie для домена API (10.36.0.142) на путь "/"
session.cookies.set("RIR_AUTH_SESSION", token, domain="10.36.0.142", path="/")

# Выполняем запрос к API с дополнительными заголовками (без явного Authorization)
api_response_cookie = session.get(api_url, headers={
    "User-Agent": default_headers["User-Agent"],
    "Referer": "http://10.36.0.142:9000/"
})
print("\n--- Запрос с установкой cookie вручную ---")
print("API статус (Cookie):", api_response_cookie.status_code)
print("API ответ (Cookie):", api_response_cookie.text)


Статус авторизации: 200
Текущий URL (после редиректов): http://10.36.0.142:9090/profiles/18
Cookies после авторизации: {'RIR_AUTH_SESSION': 'eyJhbGciOiJIUzI1NiJ9.eyJkYXRhIjp7InVzZXIiOiIxNCIsInByb2ZpbGUiOiIxOCJ9LCJleHAiOjE3NDM2NzcxMzIsIm5iZiI6MTc0MzY3NjUzMiwiaWF0IjoxNzQzNjc2NTMyfQ.xoNNIdPw7NCNuiUwoQ0cXerMYdq2Z2wyqdYV36LTV2c'}
Полученный токен: eyJhbGciOiJIUzI1NiJ9.eyJkYXRhIjp7InVzZXIiOiIxNCIsInByb2ZpbGUiOiIxOCJ9LCJleHAiOjE3NDM2NzcxMzIsIm5iZiI6MTc0MzY3NjUzMiwiaWF0IjoxNzQzNjc2NTMyfQ.xoNNIdPw7NCNuiUwoQ0cXerMYdq2Z2wyqdYV36LTV2c

--- Запрос с заголовком Authorization ---
API статус (Authorization): 401
API ответ (Authorization): 

--- Запрос с установкой cookie вручную ---
API статус (Cookie): 401
API ответ (Cookie): 
