In [3]:
import pandas as pd

# 📌 Путь к файлу
file_path = "/Users/leonid/scientific_work/data_analysis/Данные/полная_выборка.xlsx"

# Загружаем данные, пропуская строку с пояснениями
df = pd.read_excel(file_path, skiprows=[1], engine="openpyxl")

# 🔹 Словарь замены русских заголовков на английские
column_rename = {
    "Номер истории": "history_id",
    "Возраст": "age",
    "Пол": "gender",
    "Выявленные инфекции": "infections",
    "Основное заболевание": "main_disease",
    "Дата забора анализа": "analysis_date",
    "WBC- Лейкоциты в крови": "wbc",
    "Глюкоза в ликворе": "glucose_csf",
    "Глюкоза ликвора/Глюкоза крови": "glucose_ratio",
    "Лактат в ликворе": "lactate_csf",
    "Общий белок в ликворе": "protein_csf",
    "СМЖ Цитоз": "cytosis_csf",
    "Посев": "cultivation",
    "ригидность": "rigidity",
    "температура": "temperature",
    "RBC- Эритроциты в крови": "rbc_blood",
    "СМЖ Эритроциты": "rbc_csf",
    "СМЖ1 Лимфоциты": "csf1_lymphocytes",
    "СМЖ1 Макрофаги": "csf1_macrophages",
    "СМЖ1 Нейтрофилы": "csf1_neutrophils",
    "СМЖ1 Плазматические клетки": "csf1_plasma_cells",
    "СМЖ2 Моноциты": "csf2_monocytes",
    "СМЖ3 Макрофаги": "csf3_macrophages",
    "СМЖ3 Моноциты": "csf3_monocytes",
    "Дегенерированные клетки": "degenerative_cells",
    "Зернистые шары": "granular_bodies",
    "Альбумин крови": "albumin_blood",
    "Общий белок крови": "protein_blood",
    "длительность операции": "surgery_duration",
    "продолжительность реоперации": "reoperation_duration",
    "реоперация": "reoperation",
    "сд": "sd",
    "ликворея": "liquorrhea",
    "исход": "outcome",
    "примечания": "notes"
}

# 🔹 Переименовываем столбцы
df.rename(columns=column_rename, inplace=True)

# 🔹 Приведение данных к нужным типам
convert_types = {
    "age": "int",
    "infections": "int",
    "analysis_date": "datetime64",
    "wbc": "float",
    "glucose_csf": "float",
    "glucose_ratio": "float",
    "lactate_csf": "float",
    "protein_csf": "float",
    "cytosis_csf": "float",
    "cultivation": "int",
    "rigidity": "int",
    "temperature": "float",
    "rbc_blood": "float",
    "rbc_csf": "int",
    "csf1_lymphocytes": "int",
    "csf1_macrophages": "int",
    "csf1_neutrophils": "int",
    "csf1_plasma_cells": "int",
    "csf2_monocytes": "int",
    "csf3_macrophages": "int",
    "csf3_monocytes": "int",
    "degenerative_cells": "int",
    "granular_bodies": "int",
    "albumin_blood": "float",
    "protein_blood": "float",
    "surgery_duration": "int",
    "reoperation_duration": "int",
    "reoperation": "int",
    "sd": "int",
    "liquorrhea": "int"
}

# 🔹 Применяем преобразование типов
for col, dtype in convert_types.items():
    if col in df.columns:
        if dtype == "datetime64":
            df[col] = pd.to_datetime(df[col], errors="coerce")
        else:
            df[col] = pd.to_numeric(df[col], errors="coerce")
    else:
        print(f"⚠️ Пропущен столбец: {col} (его нет в DataFrame)")

# Удаляем все столбцы, у которых название состоит только из пробелов, точек или 'Unnamed'
df = df.loc[:, ~df.columns.str.match(r'^\s*$|^Unnamed.*|^\.\d+$| .2| .1', na=False)]

# 🔹 Проверяем итоговую информацию
# Проверяем, какие столбцы остались
print("✅ Чистый список столбцов после удаления лишних:", df.columns.tolist())
print(df.info())

# 🔹 Проверяем пропущенные значения
print("Пропуски в данных:\n", df.isnull().sum())

# 🔹 Сохраняем обработанный файл
output_path = "//Users/leonid/scientific_work/data_analysis/Данные/full_data_parsed.csv"
df.to_csv(output_path, index=False)
print(f"✅ Данные успешно обработаны и сохранены в {output_path}")

✅ Чистый список столбцов после удаления лишних: ['history_id', 'age', 'gender', 'infections', 'main_disease', 'analysis_date', 'csf1_neutrophils', 'csf1_lymphocytes', 'glucose_csf', 'glucose_ratio', 'lactate_csf', 'protein_csf', 'cytosis_csf', 'cultivation', 'rigidity', 'temperature', 'rbc_blood', 'wbc', 'rbc_csf', 'csf1_macrophages', 'csf1_plasma_cells', 'csf2_monocytes', 'csf3_macrophages', 'csf3_monocytes', 'degenerative_cells', 'granular_bodies', 'albumin_blood', 'protein_blood', 'surgery_duration', 'reoperation_duration', 'reoperation', 'sd', 'liquorrhea', 'outcome', 'notes']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 921 entries, 0 to 920
Data columns (total 35 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   history_id            921 non-null    object        
 1   age                   921 non-null    int64         
 2   gender                921 non-null    object        
 3   infections  