In [None]:
%pip install --upgrade pip
%pip install mysql-connector-python sqlalchemy pandas
%pip install langchain langchain-community langchain-core
%pip install langchain-google-genai google-generativeai


In [1]:
%env GOOGLE_API_KEY=ВАШ_КЛЮЧ_СЮДА


env: GOOGLE_API_KEY=ВАШ_КЛЮЧ_СЮДА


In [4]:
# ===== AI ENGINEER — TEXT-TO-SQL AGENT =====

import os
import pandas as pd
from langchain_community.utilities import SQLDatabase
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.messages import SystemMessage, HumanMessage

# --- Проверяем, что ключ установлен ---
assert "GOOGLE_API_KEY" in os.environ, "Сначала запусти ячейку: %env GOOGLE_API_KEY=твой_ключ"

# --- Подключение к MySQL ---
db = SQLDatabase.from_uri(
    "mysql+mysqlconnector://root:20052005simon@localhost:3306/superstore_db"
)

schema = db.get_table_info()
print("СХЕМА ТАБЛИЦ (превью):")
print(schema[:1500])

# --- Gemini LLM ---
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0
)

# --- System Prompt ---
system_text = f"""
Ты — SQL-ассистент, работающий строго с синтаксисом MySQL.

Вот структура базы:
{schema}

Требования:
- Пиши ТОЛЬКО SQL-код, без текста, пояснений, markdown или обратных кавычек.
- Можно писать несколько SQL-запросов, разделённых ';', но каждый должен быть валидным.
- НЕ используй PRAGMA, sqlite_master или любые фичи SQLite.
- Используй только таблицы и поля, которые реально есть в схеме.
- SQL должен быть совместим с MySQL 5.7+ / MySQL 8.
"""

system_msg = SystemMessage(content=system_text)

# --- Базовая функция: выполняем все запросы по очереди ---
def ask(question: str):
    print("\n=== ВОПРОС ===")
    print(question)

    human_msg = HumanMessage(content=question)

    # 1. Генерация SQL через LLM
    response = llm.invoke([system_msg, human_msg])
    raw_sql = response.content.strip()

    print("\n=== СЫРОЙ SQL ОТ МОДЕЛИ ===")
    print(raw_sql)

    # 2. Режем по ';' на отдельные запросы
    statements = [s.strip() for s in raw_sql.split(";") if s.strip()]

    results = []

    for i, stmt in enumerate(statements, start=1):
        print(f"\n--- ВЫПОЛНЯЮ ЗАПРОС #{i} ---")
        print(stmt)
        try:
            res = db.run(stmt)
            print("\nРЕЗУЛЬТАТ:")
            print(res)
            results.append((stmt, res))
        except Exception as e:
            print("\n!!! ОШИБКА ПРИ ВЫПОЛНЕНИИ ЭТОГО ЗАПРОСА !!!")
            print(e)

    if len(results) == 1:
        return results[0][1]
    return results  # список кортежей (sql, результат)

# --- Красивая табличка для подсчётов (опционально) ---
def ask_pretty(question: str):
    res = ask(question)
    if not isinstance(res, list):
        print("\nОжидался список результатов (несколько запросов).")
        return res

    rows = []
    for sql, result_str in res:
        # Попробуем вытащить число из '[(793,)]'
        count = result_str
        try:
            if isinstance(result_str, str) and result_str.startswith("[("):
                count = int(result_str.split("(")[2].split(",")[0])
        except Exception:
            pass
        rows.append({"sql": sql, "value": count})

    df = pd.DataFrame(rows)
    return df

print("\n AI Text-to-SQL агент готов! Примеры:")
print("ask('Сколько строк в каждой таблице?')")


СХЕМА ТАБЛИЦ (превью):

CREATE TABLE customers (
	`Customer_ID` VARCHAR(50) NOT NULL, 
	`Customer_Name` VARCHAR(255) NOT NULL, 
	`Segment` VARCHAR(50) NOT NULL, 
	PRIMARY KEY (`Customer_ID`)
)DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_0900_ai_ci ENGINE=InnoDB

/*
3 rows from customers table:
Customer_ID	Customer_Name	Segment
AA-10315	Alex Avila	Consumer
AA-10375	Allen Armold	Consumer
AA-10480	Andrew Allen	Consumer
*/


CREATE TABLE locations (
	`Postal_Code` INTEGER NOT NULL, 
	`City` VARCHAR(100) NOT NULL, 
	`State` VARCHAR(100), 
	`Country` VARCHAR(100), 
	`Region` VARCHAR(50), 
	PRIMARY KEY (`Postal_Code`)
)DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_0900_ai_ci ENGINE=InnoDB

/*
3 rows from locations table:
Postal_Code	City	State	Country	Region
1040	Holyoke	Massachusetts	United States	East
1453	Leominster	Massachusetts	United States	East
1752	Marlborough	Massachusetts	United States	East
*/


CREATE TABLE order_items (
	`Row_ID` INTEGER NOT NULL, 
	`Order_ID` VARCHAR(50) NOT NULL, 
	`Produc

In [5]:
def insight(question: str):
    """
    1) AI генерирует SQL и выполняет его
    2) Смотрим результат
    3) Просим AI кратко объяснить, что показывают данные (инсайт)
    """
    print("\n=== ВОПРОС ДЛЯ ИНСАЙТА ===")
    print(question)

    human_msg = HumanMessage(content=question)
    sql_response = llm.invoke([system_msg, human_msg])
    sql = sql_response.content.strip()

    print("\n=== СГЕНЕРИРОВАННЫЙ SQL ===")
    print(sql)

    # Выполним только первый statement для простоты
    stmt = sql.split(";")[0].strip()
    try:
        result = db.run(stmt)
        print("\n=== РЕЗУЛЬТАТ SQL ===")
        print(result)
    except Exception as e:
        print("\n!!! ОШИБКА SQL !!!")
        print(e)
        return

    explain_prompt = f"""
    Вот SQL запрос:
    {stmt}

    Вот его результат:
    {result}

    Дай, пожалуйста, краткий бизнес-инсайт в 2-3 предложениях:
    - что показывают данные;
    - какой вывод может сделать бизнес;
    - к какому действию это может привести.
    """

    explanation = llm.invoke([HumanMessage(content=explain_prompt)])
    print("\n=== ИНСАЙТ ИИ ===")
    print(explanation.content)
    return explanation.content


In [7]:
# 1) Региональная прибыльность + скидки
db.run("""
CREATE OR REPLACE VIEW vw_regional_profitability AS
SELECT
    l.Region,
    SUM(oi.Sales) AS total_sales,
    SUM(oi.Profit) AS total_profit,
    AVG(oi.Discount) AS avg_discount
FROM Orders o
JOIN Locations l ON o.Postal_Code = l.Postal_Code
JOIN Order_Items oi ON o.Order_ID = oi.Order_ID
GROUP BY l.Region;
""")

# 2) Логистика: Ship Mode, скорость и прибыль
db.run("""
CREATE OR REPLACE VIEW vw_shipping_performance AS
SELECT
    o.Ship_Mode,
    AVG(DATEDIFF(o.Ship_Date, o.Order_Date)) AS avg_delivery_days,
    SUM(oi.Sales) AS total_sales,
    SUM(oi.Profit) AS total_profit
FROM Orders o
JOIN Order_Items oi ON o.Order_ID = oi.Order_ID
GROUP BY o.Ship_Mode;
""")

# 3) Топовые клиенты
db.run("""
CREATE OR REPLACE VIEW vw_customer_revenue AS
SELECT
    c.Customer_ID,
    c.Customer_Name,
    c.Segment,
    SUM(oi.Sales) AS total_sales,
    SUM(oi.Profit) AS total_profit,
    COUNT(DISTINCT o.Order_ID) AS total_orders
FROM Customers c
JOIN Orders o ON c.Customer_ID = o.Customer_ID
JOIN Order_Items oi ON o.Order_ID = oi.Order_ID
GROUP BY c.Customer_ID, c.Customer_Name, c.Segment;
""")

# 4) Сезонность по подкатегориям
db.run("""
CREATE OR REPLACE VIEW vw_subcategory_sales_trends AS
SELECT
    p.Sub_Category,
    YEAR(o.Order_Date) AS year,
    MONTH(o.Order_Date) AS month,
    SUM(oi.Sales) AS total_sales,
    SUM(oi.Profit) AS total_profit
FROM Orders o
JOIN Order_Items oi ON o.Order_ID = oi.Order_ID
JOIN Products p ON oi.Product_ID = p.Product_ID
GROUP BY p.Sub_Category, YEAR(o.Order_Date), MONTH(o.Order_Date);
""")

print(" VIEW'ы созданы: vw_regional_profitability, vw_shipping_performance, vw_customer_revenue, vw_subcategory_sales_trends")


 VIEW'ы созданы: vw_regional_profitability, vw_shipping_performance, vw_customer_revenue, vw_subcategory_sales_trends


In [10]:
# 0. Базовая проверка
ask("Сколько строк в каждой таблице?")





=== ВОПРОС ===
Сколько строк в каждой таблице?

=== СЫРОЙ SQL ОТ МОДЕЛИ ===
SELECT COUNT(*) FROM customers;
SELECT COUNT(*) FROM locations;
SELECT COUNT(*) FROM order_items;
SELECT COUNT(*) FROM orders;
SELECT COUNT(*) FROM products;
SELECT COUNT(*) FROM raw_superstore;

--- ВЫПОЛНЯЮ ЗАПРОС #1 ---
SELECT COUNT(*) FROM customers

РЕЗУЛЬТАТ:
[(793,)]

--- ВЫПОЛНЯЮ ЗАПРОС #2 ---
SELECT COUNT(*) FROM locations

РЕЗУЛЬТАТ:
[(629,)]

--- ВЫПОЛНЯЮ ЗАПРОС #3 ---
SELECT COUNT(*) FROM order_items

РЕЗУЛЬТАТ:
[(9694,)]

--- ВЫПОЛНЯЮ ЗАПРОС #4 ---
SELECT COUNT(*) FROM orders

РЕЗУЛЬТАТ:
[(4931,)]

--- ВЫПОЛНЯЮ ЗАПРОС #5 ---
SELECT COUNT(*) FROM products

РЕЗУЛЬТАТ:
[(1812,)]

--- ВЫПОЛНЯЮ ЗАПРОС #6 ---
SELECT COUNT(*) FROM raw_superstore

РЕЗУЛЬТАТ:
[(9694,)]


[('SELECT COUNT(*) FROM customers', '[(793,)]'),
 ('SELECT COUNT(*) FROM locations', '[(629,)]'),
 ('SELECT COUNT(*) FROM order_items', '[(9694,)]'),
 ('SELECT COUNT(*) FROM orders', '[(4931,)]'),
 ('SELECT COUNT(*) FROM products', '[(1812,)]'),
 ('SELECT COUNT(*) FROM raw_superstore', '[(9694,)]')]

In [None]:
# 1. Regional & Product Profitability (Problem 1)
insight("Найди регионы с наименьшей прибылью и покажи, как на неё влияет средняя скидка, используя vw_regional_profitability.")


=== ВОПРОС ДЛЯ ИНСАЙТА ===
Найди регионы с наименьшей прибылью и покажи, как на неё влияет средняя скидка, используя vw_regional_profitability.

=== СГЕНЕРИРОВАННЫЙ SQL ===
SELECT
  T1.Region,
  SUM(T2.Profit) AS Total_Profit,
  AVG(T2.Discount) AS Average_Discount
FROM locations AS T1
INNER JOIN orders AS T3
  ON T1.Postal_Code = T3.Postal_Code
INNER JOIN order_items AS T2
  ON T3.Order_ID = T2.Order_ID
GROUP BY
  T1.Region
ORDER BY
  Total_Profit ASC;

=== РЕЗУЛЬТАТ SQL ===
[('Central', Decimal('40128.95'), Decimal('0.238469')), ('South', Decimal('46036.00'), Decimal('0.145440')), ('East', Decimal('90672.04'), Decimal('0.143179')), ('West', Decimal('106021.47'), Decimal('0.110035'))]

=== ИНСАЙТ ИИ ===
Данные показывают, что регионы с более высокими средними скидками, такие как Центральный, имеют значительно меньшую общую прибыль, в то время как Западный регион наиболее прибылен при самых низких скидках. Это указывает на то, что текущая стратегия скидок в менее прибыльных регионах м

'Данные показывают, что регионы с более высокими средними скидками, такие как Центральный, имеют значительно меньшую общую прибыль, в то время как Западный регион наиболее прибылен при самых низких скидках. Это указывает на то, что текущая стратегия скидок в менее прибыльных регионах может негативно влиять на маржу. Бизнесу следует пересмотреть и, возможно, сократить средние скидки в Центральном регионе, чтобы повысить его прибыльность.'

In [12]:

# 2. Shipping & Logistics Optimization (Problem 2)
insight("Используя vw_shipping_performance, определи, какой Ship Mode самый быстрый по доставке и насколько он прибыльный по сравнению с другими.")



=== ВОПРОС ДЛЯ ИНСАЙТА ===
Используя vw_shipping_performance, определи, какой Ship Mode самый быстрый по доставке и насколько он прибыльный по сравнению с другими.

=== СГЕНЕРИРОВАННЫЙ SQL ===
SELECT
  T1.Ship_Mode,
  AVG(DATEDIFF(T1.Ship_Date, T1.Order_Date)) AS Average_Shipping_Days,
  SUM(T2.Profit) AS Total_Profit
FROM orders AS T1
INNER JOIN order_items AS T2
  ON T1.Order_ID = T2.Order_ID
GROUP BY
  T1.Ship_Mode
ORDER BY
  Average_Shipping_Days ASC;

=== РЕЗУЛЬТАТ SQL ===
[('Same Day', Decimal('0.0455'), Decimal('16025.53')), ('First Class', Decimal('2.1812'), Decimal('48778.94')), ('Second Class', Decimal('3.2365'), Decimal('56505.60')), ('Standard Class', Decimal('5.0048'), Decimal('161548.39'))]

=== ИНСАЙТ ИИ ===
Данные показывают, что существует обратная зависимость между скоростью обработки заказа (от даты заказа до даты отгрузки) и общей прибылью. Наибольшую прибыль (~161 тыс.) приносит режим доставки 'Standard Class', который имеет самый долгий средний срок отгрузки (5 д

"Данные показывают, что существует обратная зависимость между скоростью обработки заказа (от даты заказа до даты отгрузки) и общей прибылью. Наибольшую прибыль (~161 тыс.) приносит режим доставки 'Standard Class', который имеет самый долгий средний срок отгрузки (5 дней), в то время как 'Same Day' является самым быстрым (0.05 дня), но наименее прибыльным (~16 тыс.). Бизнесу следует проанализировать причины этой корреляции (например, состав заказов, их стоимость или операционные издержки для разных режимов) и рассмотреть стратегии для увеличения прибыльности быстрых доставок или стимулирования клиентов к выбору более прибыльных стандартных опций."

In [13]:


# 3. High-Value Customers (Problem 3)
insight("Используя vw_customer_revenue, найди топ-10 клиентов по продажам и опиши, что это значит для стратегии работы с клиентами.")




=== ВОПРОС ДЛЯ ИНСАЙТА ===
Используя vw_customer_revenue, найди топ-10 клиентов по продажам и опиши, что это значит для стратегии работы с клиентами.

=== СГЕНЕРИРОВАННЫЙ SQL ===
SELECT
    c.Customer_ID,
    c.Customer_Name,
    SUM(oi.Sales) AS TotalSales
FROM
    customers AS c
JOIN
    orders AS o ON c.Customer_ID = o.Customer_ID
JOIN
    order_items AS oi ON o.Order_ID = oi.Order_ID
GROUP BY
    c.Customer_ID,
    c.Customer_Name
ORDER BY
    TotalSales DESC
LIMIT 10;

=== РЕЗУЛЬТАТ SQL ===
[('SM-20320', 'Sean Miller', Decimal('25043.07')), ('TC-20980', 'Tamara Chand', Decimal('19017.85')), ('RB-19360', 'Raymond Buch', Decimal('15117.35')), ('TA-21385', 'Tom Ashbrook', Decimal('14595.62')), ('AB-10105', 'Adrian Barton', Decimal('14355.61')), ('SC-20095', 'Sanjit Chand', Decimal('14142.34')), ('KL-16645', 'Ken Lonsdale', Decimal('14071.92')), ('HL-15040', 'Hunter Lopez', Decimal('12873.30')), ('SE-20110', 'Sanjit Engle', Decimal('12209.44')), ('CC-12370', 'Christopher Conant', Dec

'Данные показывают топ-10 клиентов, которые принесли наибольший доход компании, с Шоном Миллером в качестве лидера по объему продаж. Бизнес может сделать вывод, что эти клиенты являются наиболее ценными и критически важными для выручки. Это должно привести к разработке программ лояльности, персонализированных предложений или улучшенного обслуживания для их удержания и стимулирования дальнейших покупок.'

In [14]:


# 4. Inventory Planning & Forecasting (Problem 4)
insight("Проанализируй vw_subcategory_sales_trends и сделай вывод, в какие месяцы и по каким подкатегориям продажи достигают пика.")


=== ВОПРОС ДЛЯ ИНСАЙТА ===
Проанализируй vw_subcategory_sales_trends и сделай вывод, в какие месяцы и по каким подкатегориям продажи достигают пика.

=== СГЕНЕРИРОВАННЫЙ SQL ===
SELECT
  MONTH(T1.Order_Date) AS SalesMonth,
  T3.Sub_Category,
  SUM(T2.Sales) AS TotalSales
FROM orders AS T1
INNER JOIN order_items AS T2
  ON T1.Order_ID = T2.Order_ID
INNER JOIN products AS T3
  ON T2.Product_ID = T3.Product_ID
GROUP BY
  SalesMonth,
  T3.Sub_Category
ORDER BY
  TotalSales DESC,
  SalesMonth,
  T3.Sub_Category;

=== РЕЗУЛЬТАТ SQL ===
[(12, 'Chairs', Decimal('57429.05')), (11, 'Phones', Decimal('56220.94')), (9, 'Chairs', Decimal('51577.24')), (11, 'Chairs', Decimal('47759.98')), (12, 'Tables', Decimal('39193.27')), (12, 'Phones', Decimal('38816.96')), (9, 'Phones', Decimal('37774.93')), (10, 'Copiers', Decimal('37019.76')), (9, 'Binders', Decimal('36887.53')), (11, 'Storage', Decimal('36194.41')), (3, 'Machines', Decimal('35051.91')), (11, 'Machines', Decimal('33807.32')), (11, 'Tables', 

'Данные показывают общие продажи по месяцам и подкатегориям, выявляя, что «Chairs» и «Phones» являются наиболее прибыльными подкатегориями, особенно в последнем квартале года (сентябрь-декабрь). Бизнес может сделать вывод, что эти продукты являются ключевыми драйверами дохода с сильной сезонностью. Это должно привести к стратегическому планированию запасов и целенаправленным маркетинговым кампаниям для «Chairs» и «Phones» в преддверии и во время пикового сезона продаж.'