# Дашборд Кейса №2

## Импорты библиотек

In [332]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import gradio as gr  # new
import os  # new
import re  # new

gr.close_all()

Closing server running on port: 7860


## Вспомогательные функции

Подгрузка csv файла

In [333]:
# подгрузка данных
def load_data(file):
    """
    Загружает CSV-файл в DataFrame и возвращает данные, их фрагмент и информационные сообщения.

    Функция предназначена для использования в интерактивных приложениях (например, Gradio),
    где пользователь загружает файл через интерфейс. Проверяет наличие файла, читает его
    с автоматическим парсингом дат, и возвращает структурированные данные и текстовые
    сообщения об успешной загрузке и объёме данных.

    Параметры
    ----------
    file : UploadedFile или None
        Объект загруженного файла. Должен иметь атрибут `name`, указывающий путь к файлу.
        Если значение `None`, функция возвращает сообщение об ошибке.

    Возвращает
    -------
    tuple
        Кортеж из четырёх элементов:
        - pd.DataFrame или None:
            Полный DataFrame с данными из CSV. Если файл не загружен — `None`.
        - pd.DataFrame:
            Первые 10 строк данных (`df.head(10)`) для предварительного просмотра.
            При отсутствии файла возвращается пустой DataFrame.
        - str:
            Сообщение о статусе загрузки: успех или ошибка.
        - str или None:
            Дополнительное описание содержимого файла: количество строк и столбцов.
            Если файл не загружен — возвращается `None`.

    Обработка данных
    ----------------
    - Чтение выполняется через `pd.read_csv()` по пути `file.name`.
    - Столбцы `survey_creation_dt` и `survey_response_dt` автоматически преобразуются в тип `datetime`.
    - Имя файла извлекается с помощью `os.path.basename()` для чистоты отображения.

    Примеры использования
    ---------------------
    >>> data, preview, status_msg, desc_msg = load_data(uploaded_file)
    >>> if data is not None:
    ...     st.success(status_msg)
    ...     st.write(desc_msg)
    ...     st.dataframe(preview)
    ... else:
    ...     st.error(status_msg)

    Замечания
    ---------
    - Если указанные столбцы с датами отсутствуют в CSV, pandas выдаст предупреждение.
    - Рекомендуется обернуть `pd.read_csv()` в блок try-except в продвинутых сценариях
      для обработки повреждённых или некорректных файлов.
    - Поддерживает работу только с CSV-файлами. Другие форматы не обрабатываются.
    """
    if file is None:
        return None, pd.DataFrame(), "Ошибка. Загрузите файл в формате csv", None
    df = pd.read_csv(
        file.name, parse_dates=["survey_creation_dt", "survey_response_dt"]
    )
    filename = os.path.basename(file.name)
    text_status = "Файл " + str(filename) + " успешно загружен"
    text_description = (
        "Файл содержит "
        + str(len(df))
        + " строк и "
        + str(len(df.columns))
        + " столбцов."
    )

    return df, df.head(10), text_status, text_description

Очистка данных

In [334]:
# Очистка данных
def clear_data(df):
    """
    Выполняет предобработку и очистку данных анкетного опроса.

    Функция принимает DataFrame, содержащий данные с датами создания и ответа на опрос,
    и выполняет следующие операции:
    1. Вычисляет время ответа в днях.
    2. Исправляет строки, где дата ответа раньше даты создания (путём перестановки дат).
    3. Заполняет пропущенные значения в столбце языка по умолчанию ('RU').
    Возвращает обновлённый DataFrame, его фрагмент и текстовые сообщения о ходе обработки.

    Параметры
    ----------
    df : pd.DataFrame или None
        Исходный DataFrame с данными опроса. Должен содержать столбцы:
        - 'survey_creation_dt' — дата и время создания опроса;
        - 'survey_response_dt' — дата и время ответа на опрос;
        - 'language' — язык, на котором заполнен опрос.
        Если передано значение `None`, функция возвращает сообщение об ошибке.

    Возвращает
    -------
    tuple
        Кортеж из четырёх элементов:
        - pd.DataFrame или None:
            Очищенный DataFrame с обновлёнными данными. При `df is None` возвращает `None`.
        - pd.DataFrame:
            Первые 10 строк очищенного DataFrame (`df.head(10)`) для предварительного просмотра.
        - str:
            Краткое сообщение о статусе обработки (успех или ошибка).
        - str или None:
            Подробное текстовое описание выполненных действий, включая статистику:
            количество записей с отрицательным временем, исправленных строк,
            заполненных пропусков и итоговый размер данных.
            При отсутствии входного DataFrame возвращается `None`.

    Этапы обработки
    ---------------
    1. **Расчёт времени ответа**:
       - Вычисляется разница между датами ответа и создания в секундах, затем переводится в дни.
       - Результат сохраняется в новом столбце `response_time_days`.

    2. **Исправление некорректных дат**:
       - Определяются строки, где `response_time_days < 0` (ответ раньше создания).
       - Формируется флаг `dates_swapped`.
       - Для таких строк даты создания и ответа меняются местами.
       - Время ответа пересчитывается.

    3. **Заполнение пропусков**:
       - Подсчитывается количество пропущенных значений в столбце `language`.
       - Все пропуски заменяются на значение 'RU' (по умолчанию).

    Примеры использования
    ---------------------
    >>> cleaned_df, preview, status, desc = clear_data(raw_df)
    >>> if cleaned_df is not None:
    ...     print(status)
    ...     print(desc)
    ... else:
    ...     print("Ошибка: данные не загружены")

    Замечания
    ---------
    - Требует, чтобы столбцы `survey_creation_dt` и `survey_response_dt` были типа `datetime64`.
    - Операция перестановки дат использует `.values` для корректной вставки при обмене.
    - Рекомендуется вызывать после `load_data()` или аналогичной функции загрузки.
    - Не выбрасывает исключения: при ошибках в данных (например, не-дата) поведение зависит от pandas.
      Для надёжности можно добавить обработку исключений.
    """
    if df is None:
        return None, pd.DataFrame(), "Ошибка. Загрузите файл в формате CSV.", None

    # 1. Вычисление времени ответа
    df["response_time_days"] = (
        df["survey_response_dt"] - df["survey_creation_dt"]
    ).dt.total_seconds() / (24 * 3600)

    # 2. Исправление перепутанных дат (где ответ раньше создания)
    negative_before = (df["response_time_days"] < 0).sum()
    text_description = f"Записей с отрицательным временем ответа: {negative_before}.\n"

    df["dates_swapped"] = df["response_time_days"] < 0
    swap = df["dates_swapped"]
    df.loc[swap, ["survey_creation_dt", "survey_response_dt"]] = df.loc[
        swap, ["survey_response_dt", "survey_creation_dt"]
    ].values

    # Пересчёт времени ответа
    df["response_time_days"] = (
        df["survey_response_dt"] - df["survey_creation_dt"]
    ).dt.total_seconds() / (24 * 3600)

    negative_after = (df["response_time_days"] < 0).sum()
    text_description = text_description + (f"После исправления: {negative_after}. \n")

    # 3. Заполнение пропусков в language
    language_missing = df["language"].isnull().sum()
    df["language"] = df["language"].fillna("RU")
    text_description = text_description + (
        f"Заполнено пропусков в language: {language_missing}. \n"
    )

    text_status = "Файл успешно обработан"
    text_description = text_description + (
        "Актуальный файл содержит "
        + str(len(df))
        + " строк и "
        + str(len(df.columns))
        + " столбцов."
    )

    return df, df.head(10), text_status, text_description


Функция создания

In [335]:
# Вспомогательные переменные

# Разрешенные колонки для рассмотрения статистики
ALLOWED_COLS = [
    "csat_level",
    #"language",
    "age",
    "gender",
    "user_income",
    "response_time",
]


In [336]:
def update_col_dropdown_with_stats(df):
    """
    Обновляет выпадающий список колонок с отображением количества уникальных значений.

    Функция формирует список доступных колонок из переданного DataFrame, фильтруя их
    по предопределённому списку ALLOWED_COLS. Для каждой колонки в выпадающем списке
    отображается количество уникальных значений, включая пропущенные (NaN).

    Аргументы:
        df (pd.DataFrame или None): Входной DataFrame, полученный, например, через загрузку файла.
            Если значение None, возвращается пустой список выбора.

    Возвращает:
        gr.Dropdown: Компонент Gradio с элементами в формате "название_колонки (число уникальных)",
            упорядоченными по порядку в ALLOWED_COLS. Первый элемент выбирается по умолчанию,
            если список не пустой. Если данные отсутствуют, возвращается пустой выбор.

    Побочные эффекты:
        Использует глобальную переменную ALLOWED_COLS — список разрешённых имён колонок.

    Примеры:
        >>> import pandas as pd
        >>> df = pd.DataFrame({
        ...     "name": ["Alice", "Bob", "Alice"],
        ...     "age": [25, 30, 25],
        ...     "city": [None, "NY", "LA"]
        ... })
        >>> ALLOWED_COLS = ["name", "age", "city"]
        >>> update_col_dropdown_with_stats(df)
        gr.Dropdown(choices=["name (2)", "age (2)", "city (3)"], value="name (2)")

    Замечания:
        - Пропущенные значения (NaN) учитываются при подсчёте уникальных.
        - Формат отображения: "col_name (n_unique)".
        - Если df пуст или не содержит разрешённых колонок, возвращается пустой список.
    """
    if df is None:
        return gr.Dropdown(choices=[], value=None), "Нет данных"

    cols = [c for c in ALLOWED_COLS if c in df.columns]
    # число уникальных по каждому столбцу [web:192]
    u = df[cols].nunique(dropna=False)

    # строки для выпадающего списка
    choices = [f"{col} ({int(u[col])})" for col in cols]
    value = choices[0] if choices else None
    return gr.Dropdown(choices=choices, value=value)


def _parse_choice(choice_text: str):
    """
    Извлекает имя колонки и количество уникальных значений из текста элемента выпадающего списка.

    Функция разбирает строку формата "название_колонки (число)" и возвращает кортеж
    из имени колонки и целочисленного значения. Используется для обработки выбора
    из выпадающего списка, где отображается дополнительная статистика в скобках.

    Аргументы:
        choice_text (str): Текст элемента, например, "csat_level (5)".
            Может быть пустой строкой или None.

    Возвращает:
        tuple: Кортеж из двух элементов:
            - str или None: имя колонки (без числа в скобках), если найдено; иначе исходный текст.
            - int или None: количество уникальных значений, указанное в скобках; если скобок нет — None.
            Если входной текст пустой или None, возвращает (None, None).

    Примеры:
        >>> _parse_choice("csat_level (5)")
        ("csat_level", 5)
        >>> _parse_choice("unknown_column")
        ("unknown_column", None)
        >>> _parse_choice("")
        (None, None)
        >>> _parse_choice(None)
        (None, None)

    Замечания:
        - Регулярное выражение требует, чтобы число было в круглых скобках и отделено пробелом.
        - Пробелы вокруг названия не учитываются, но формат "(число)" должен быть точным.
        - Функция ожидает, что число — положительное целое.
    """
    if not choice_text:
        return None, None
    m = re.match(r"^(.*)\s\((\d+)\)$", choice_text)
    if m:
        return m.group(1), int(m.group(2))
    return choice_text, None


def cat_counts_for_choice(df, choice_text, is_share: bool):
    col, top_k = _parse_choice(choice_text)
    if df is None or col is None or col not in df.columns:
        return pd.DataFrame({"category": [], "value": []})

    s = df[col].astype(str).fillna("NaN")
    vc = s.value_counts(normalize=is_share, dropna=False)

    if top_k is None:
        top_k = int(s.nunique(dropna=False))

    out = vc.head(top_k).rename_axis("category").reset_index(name="value")
    out["value"] = pd.to_numeric(out["value"], errors="coerce")
    return out


def update_plot_count_share(df, choice_text, mode):
    if mode is None:
        mode = "Абсолютные значения"

    # здесь Логика некорректная, но именно так и срабатывает
    is_share = mode != "share"
    y_title = "Количество наблюдений" if is_share else "Доля наблюдений"
    df_out = cat_counts_for_choice(df, choice_text, is_share)
    return gr.update(value=df_out, y_title=y_title)


## Структура дашборда

In [None]:
# структура Дашборда
with gr.Blocks(title="Кейс 2 - Команда 8") as case2:
    gr.Markdown("""
    <div style="text-align:center">

    # Дашборд команды №8  
    Кейс №2. Пенсионный фонд, предоставляющий клиентам цифровые сервисы.

    </div>
    """)
    # df_state для того, чтобы сохранить данные для кнопок
    df_state = gr.State(None)

    # структура дашборда
    with gr.Tabs():
        # Таб с загрузкой данных
        with gr.Tab("Загрузка данных"):
            with gr.Row():
                result_box = gr.Textbox(label="Статус", lines=3, max_lines=15, scale=1)
                description_box = gr.Textbox(
                    label="Описание", lines=3, max_lines=15, scale=3
                )
            file_input = gr.File(
                label="Выберите CSV-файл", file_types=[".csv"], scale=1, height=100
            )
            with gr.Row():
                load_button = gr.Button("Загрузить файл csv")
                clear_button = gr.Button("Очистить данные")
            head_df = gr.DataFrame(
                label="Пример данных",
                type="pandas",
                interactive=False,
                column_widths=[120, 160, 160, 70, 70, 70, 70, 90, 110, 110, 110],
                wrap=True,
            )

        # таб с графиками
        with gr.Tab("Гистограммы базовые"):
            with gr.Row():
                col_base = gr.Dropdown(
                    label="Столбец", choices=[], value=None, interactive=True
                )
                mode_base = gr.Radio(
                    choices=[
                        ("Относительные значения", "share"),
                        ("Абсолютные значения", "count"),
                    ],
                    label="Режим",
                )

            plot_base = gr.BarPlot(
                value=pd.DataFrame({"category": [], "value": []}),
                x="category",
                y="value",
                y_title="count/share",
                x_title="Категория",
                title="Распределение по столбцу",
            )
        
        # Таб с авторами
        with gr.Tab("Авторы"):
            # Автор 1
            with gr.Row():
                gr.Image(value="team/team_01.png", height=250, width=50)
                gr.Image(value="team/team_02.png", height=250, width=50)
                gr.Image(value="team/team_03.png", height=250, width=50)
            with gr.Row():
                gr.Markdown(
                    """
        **Имя Фамилия 1**  
        Роль: Роль №1

        [LinkedIn](https://linkedin.com/in/author1)  
        [GitHub](https://github.com/author1)
                        """
                )
                gr.Markdown(
                    """
        **Имя Фамилия 2**  
        Роль: Роль №2

        [Telegram](https://t.me/author2)  
        [GitHub](https://github.com/author2)
                        """
                )
                gr.Markdown(
                    """
        **Имя Фамилия 3**  
        Роль: Роль №3

        [VK](https://vk.com/author3)  
        [GitHub](https://github.com/author3)
                        """
                )





    """Секция загрузки данных"""
    # после загрузки CSV -> обновить dropdown со статистикой
    load_evt = load_button.click(
        load_data,
        inputs=[file_input],
        outputs=[df_state, head_df, result_box, description_box],
    )
    load_evt.then(update_col_dropdown_with_stats, inputs=[df_state], outputs=[col_base])
    load_evt.then(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )
    load_evt.then(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )

    # после очистки -> очистить dropdown
    clear_evt = clear_button.click(
        clear_data,
        inputs=[df_state],
        outputs=[df_state, head_df, result_box, description_box],
    )
    clear_evt.then(
        update_col_dropdown_with_stats, inputs=[df_state], outputs=[col_base]
    )
    clear_evt.then(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )
    clear_evt.then(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )

    """Секция графиков базовых"""
    # после выбора столбца -> обновить график
    col_base.change(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )
    mode_base.change(
        update_plot_count_share,
        inputs=[df_state, col_base, mode_base],
        outputs=plot_base,
    )


In [339]:
launch_ret = case2.launch(
    prevent_thread_lock=True,
    inbrowser=True,
    share=False,
    show_error=True,
    inline=False
)



Rerunning server... use `close()` to stop if you need to change `launch()` parameters.
----
* To create a public link, set `share=True` in `launch()`.
