In [2]:
# Полный Google Colab-скрипт: Data Visualizer (имитация PyQt-приложения через ipywidgets)
# Что делает:
# - создаёт sample CSV и sqlite DB
# - предоставляет интерфейс с 5 вкладками:
#   1) Статистика + выбор таблицы из БД
#   2) Pairplot (корреляция) - seaborn
#   3) Тепловая карта (heatmap)
#   4) Линейный график по выбранному числовому столбцу
#   5) Ход работы (лог)
#
# - Загружать файлы заранее не нужно — можно загрузить CSV через интерфейс или использовать sample CSV.
# - Путь к sample CSV: /mnt/data/sample_dataset.csv
# - Путь к sqlite db: /mnt/data/app_data.db


import io
import os
import sqlite3
from datetime import datetime

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import ipywidgets as widgets
from IPython.display import display, clear_output

sns.set(style="whitegrid")

# -------------------- ПУТИ --------------------
DATA_DIR = "/content/data"                # безопасная директория в Colab
os.makedirs(DATA_DIR, exist_ok=True)      # <-- создаём директорию если её нет

SAMPLE_CSV_PATH = os.path.join(DATA_DIR, "sample_dataset.csv")
SQLITE_DB_PATH = os.path.join(DATA_DIR, "app_data.db")
# если у вас есть загруженный файл (из истории):
UPLOADED_DOCX_PATH = "/mnt/data/4_ЛР1_2810_10_Асмолов_Новиков.docx"  # путь из истории (может существовать)

# -------------------- HELPERS --------------------
def ensure_sample_csv(csv_path=SAMPLE_CSV_PATH):
    """Создаёт sample CSV в DATA_DIR если ещё нет."""
    if os.path.exists(csv_path):
        return csv_path
    dates = pd.date_range(start="2024-01-01", periods=200, freq="D")
    df = pd.DataFrame({
        "Date": dates,
        "Temperature": 15 + np.sin(np.linspace(0, 10, len(dates))) * 10 + np.random.randn(len(dates)),
        "Humidity": 50 + (np.random.rand(len(dates)) * 20),
        "Pressure": 1000 + np.random.randint(-5, 6, len(dates)).cumsum() * 0.1,
        "WindSpeed": 2 + np.abs(np.random.randn(len(dates))) * 2
    })
    # гарантируем, что родительская папка существует
    parent = os.path.dirname(csv_path)
    os.makedirs(parent, exist_ok=True)
    df.to_csv(csv_path, index=False)
    return csv_path

def ensure_sqlite_db_from_csv(csv_path, db_path=SQLITE_DB_PATH, table_name="applied_methods"):
    """Создаёт SQLite DB и загружает в неё CSV как таблицу (если таблицы ещё нет)."""
    parent = os.path.dirname(db_path)
    os.makedirs(parent, exist_ok=True)
    conn = sqlite3.connect(db_path)
    cur = conn.cursor()
    df = pd.read_csv(csv_path)
    existing = [row[0] for row in cur.execute("SELECT name FROM sqlite_master WHERE type='table'").fetchall()]
    if table_name in existing:
        conn.close()
        return db_path, table_name
    df.to_sql(table_name, conn, if_exists='replace', index=False)
    conn.close()
    return db_path, table_name

def list_tables(db_path=SQLITE_DB_PATH):
    if not os.path.exists(db_path):
        return []
    conn = sqlite3.connect(db_path)
    cur = conn.cursor()
    cur.execute("SELECT name FROM sqlite_master WHERE type='table'")
    tables = [row[0] for row in cur.fetchall()]
    conn.close()
    return tables

def read_table(db_path, table_name):
    conn = sqlite3.connect(db_path)
    df = pd.read_sql_query(f"SELECT * FROM [{table_name}]", conn)
    conn.close()
    return df

# -------------------- STATE & LOG --------------------
STATE = {"df": None, "db_path": SQLITE_DB_PATH, "current_table": None, "log": []}

def log(msg):
    t = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    entry = f"{t} — {msg}"
    STATE["log"].append(entry)
    log_area.value = "\n".join(STATE["log"])

# -------------------- Prepare sample data and DB --------------------
ensure_sample_csv()   # теперь CSV будет создаваться в /content/data
ensure_sqlite_db_from_csv(SAMPLE_CSV_PATH, SQLITE_DB_PATH, table_name="applied_methods")
print("Sample CSV:", SAMPLE_CSV_PATH)
print("SQLite DB:", SQLITE_DB_PATH)

# -------------------- UI WIDGETS (как раньше) --------------------
out_table_preview = widgets.Output(layout={'border': '1px solid #ccc', 'height': '280px', 'overflow': 'auto'})
out_stats = widgets.Output(layout={'border': '1px solid #ccc', 'height': '160px', 'overflow': 'auto'})
out_corr = widgets.Output(layout={'border': '1px solid #ccc', 'height': '480px', 'overflow': 'auto'})
out_heat = widgets.Output(layout={'border': '1px solid #ccc', 'height': '480px', 'overflow': 'auto'})
out_line = widgets.Output(layout={'border': '1px solid #ccc', 'height': '480px', 'overflow': 'auto'})
log_area = widgets.Textarea(value="", layout={'width':'100%', 'height':'220px'})

file_uploader = widgets.FileUpload(accept=".csv", multiple=False, description="Загрузить CSV")
btn_import_to_db = widgets.Button(description="Импорт в БД (новая таблица)", button_style='success')
import_table_name = widgets.Text(value="uploaded_table", description="Имя таблицы:")
tables_dropdown = widgets.Dropdown(options=list_tables(SQLITE_DB_PATH), description="Таблицы БД:")
btn_load_table = widgets.Button(description="Загрузить таблицу в просмотр", button_style='info')

pairplot_btn = widgets.Button(description="Построить Pairplot", button_style='primary')
pairplot_sample = widgets.IntSlider(value=500, min=100, max=5000, step=100, description='max rows')

heatmap_btn = widgets.Button(description="Построить Heatmap", button_style='warning')
heatmap_mask = widgets.Checkbox(value=False, description='Показывать только треугольник')

line_y_dropdown = widgets.Dropdown(options=[], description="Y (число):")
line_x_dropdown = widgets.Dropdown(options=["(index)"], description="X (ось):")
line_plot_btn = widgets.Button(description="Построить линейный график", button_style='info')

deadlines_html = widgets.HTML(value="<b>Сроки сдачи:</b><br>Группа 234: неделя с 28.10 по 04.11<br>Группа 237: неделя с 17.11 по 24.11<br>")

# -------------------- CALLBACKS (как раньше) --------------------
def refresh_tables_dropdown():
    tables_dropdown.options = list_tables(SQLITE_DB_PATH)

def import_uploaded_csv_to_db(b):
    if len(file_uploader.value) == 0:
        log("Нет загруженного файла для импорта.")
        return
    key = list(file_uploader.value.keys())[0]
    content = file_uploader.value[key]['content']
    name = import_table_name.value.strip() or os.path.splitext(key)[0]
    try:
        df = pd.read_csv(io.BytesIO(content))
    except Exception as e:
        log(f"Ошибка чтения CSV: {e}")
        return
    try:
        conn = sqlite3.connect(SQLITE_DB_PATH)
        df.to_sql(name, conn, if_exists='replace', index=False)
        conn.close()
        log(f"Импортирован CSV как таблица '{name}' ({df.shape[0]}x{df.shape[1]})")
        refresh_tables_dropdown()
        tables_dropdown.value = name
    except Exception as e:
        log(f"Ошибка при записи в БД: {e}")

btn_import_to_db.on_click(import_uploaded_csv_to_db)

def load_selected_table(b):
    tbl = tables_dropdown.value
    if not tbl:
        log("Таблица не выбрана")
        return
    try:
        df = read_table(SQLITE_DB_PATH, tbl)
    except Exception as e:
        log(f"Ошибка чтения таблицы {tbl}: {e}")
        return
    STATE['df'] = df
    STATE['current_table'] = tbl
    out_table_preview.clear_output()
    out_stats.clear_output()
    with out_table_preview:
        display(df.head(500))
    with out_stats:
        display(df.describe(include='all').transpose())
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    line_y_dropdown.options = numeric_cols
    dates = []
    for col in df.columns:
        try:
            parsed = pd.to_datetime(df[col], errors='coerce')
            if parsed.notna().sum() / max(1, len(parsed)) > 0.5:
                dates.append(col)
        except:
            pass
    line_x_dropdown.options = ["(index)"] + dates
    log(f"Загружена таблица '{tbl}' в память (строк: {df.shape[0]}, столбцов: {df.shape[1]})")

btn_load_table.on_click(load_selected_table)

def build_pairplot(b):
    df = STATE.get('df')
    if df is None:
        log("Сначала загрузите таблицу из БД (вкладка 'Статистика').")
        return
    nums = df.select_dtypes(include=[np.number]).columns.tolist()
    if len(nums) < 2:
        log("Недостаточно числовых столбцов для pairplot.")
        return
    rows = min(pairplot_sample.value, len(df))
    sample_df = df[nums].dropna().sample(rows) if len(df) > rows else df[nums].dropna()
    out_corr.clear_output()
    with out_corr:
        try:
            g = sns.pairplot(sample_df)
            g.fig.suptitle('Pairplot (sample)', y=1.02)
            plt.show()
            log(f"Pairplot построен (кол-во строк: {len(sample_df)})")
        except Exception as e:
            log(f"Ошибка при построении pairplot: {e}")

pairplot_btn.on_click(build_pairplot)

def build_heatmap(b):
    df = STATE.get('df')
    if df is None:
        log("Сначала загрузите таблицу из БД (вкладка 'Статистика').")
        return
    nums = df.select_dtypes(include=[np.number]).columns.tolist()
    if len(nums) < 2:
        log("Недостаточно числовых столбцов для тепловой карты.")
        return
    corr = df[nums].corr()
    out_heat.clear_output()
    with out_heat:
        plt.figure(figsize=(10,8))
        if heatmap_mask.value:
            mask = np.triu(np.ones_like(corr, dtype=bool))
            sns.heatmap(corr, annot=True, mask=mask, fmt=".2f", cmap="coolwarm", square=True)
        else:
            sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", square=True)
        plt.title("Матрица корреляций")
        plt.show()
    log("Тепловая карта построена.")

heatmap_btn.on_click(build_heatmap)

def build_line_plot(b):
    df = STATE.get('df')
    if df is None:
        log("Сначала загрузите таблицу из БД (вкладка 'Статистика').")
        return
    ycol = line_y_dropdown.value
    if not ycol:
        log("Выберите числовой столбец Y.")
        return
    xcol = line_x_dropdown.value
    out_line.clear_output()
    with out_line:
        plt.figure(figsize=(12,5))
        if xcol == "(index)":
            plt.plot(df[ycol].values)
            plt.xlabel("index")
        else:
            xvals = pd.to_datetime(df[xcol], errors='coerce')
            plt.plot(xvals, df[ycol].values)
            plt.gcf().autofmt_xdate()
            plt.xlabel(xcol)
        plt.ylabel(ycol)
        plt.title(f"Линейный график: {ycol} vs {xcol}")
        plt.grid(True)
        plt.show()
    log(f"Построен линейный график по {ycol} (X: {xcol})")

line_plot_btn.on_click(build_line_plot)

# -------------------- LAYOUT --------------------
tab1_left = widgets.VBox([
    widgets.HTML("<b>DB / Файлы</b>"),
    widgets.HBox([file_uploader, import_table_name, btn_import_to_db]),
    widgets.HTML("<small>Список таблиц в SQLite DB:</small>"),
    widgets.HBox([tables_dropdown, btn_load_table]),
    widgets.HTML("<i>Пример таблицы (sample CSV) уже загружен в БД: <b>applied_methods</b></i>")
])

tab1_right = widgets.VBox([
    widgets.HTML("<b>Просмотр таблицы (preview):</b>"),
    out_table_preview,
    widgets.HTML("<b>Описательная статистика:</b>"),
    out_stats
], layout={'width':'70%'})

tab1 = widgets.HBox([tab1_left, tab1_right], layout={'align_items':'flex-start'})
tab2 = widgets.VBox([widgets.HBox([pairplot_sample, pairplot_btn]), out_corr])
tab3 = widgets.VBox([widgets.HBox([heatmap_btn, heatmap_mask]), out_heat])
tab4 = widgets.VBox([widgets.HBox([line_y_dropdown, line_x_dropdown, line_plot_btn]), out_line])
tab5 = widgets.VBox([widgets.HTML("<b>Ход работы (лог действий)</b>"), log_area])

tabs = widgets.Tab(children=[tab1, tab2, tab3, tab4, tab5])
tabs.set_title(0, "Статистика / БД")
tabs.set_title(1, "Графики корреляции")
tabs.set_title(2, "Тепловая карта")
tabs.set_title(3, "Линейный график")
tabs.set_title(4, "Ход работы")

top_info = widgets.VBox([widgets.HTML("<h2>Приложение: Визуализация данных (Colab UI)</h2>"), deadlines_html])
ui = widgets.VBox([top_info, tabs])
display(ui)

log("Интерфейс готов. Загрузите CSV или выберите таблицу из БД.")



Sample CSV: /content/data/sample_dataset.csv
SQLite DB: /content/data/app_data.db


VBox(children=(VBox(children=(HTML(value='<h2>Приложение: Визуализация данных (Colab UI)</h2>'), HTML(value='<…