<a href="https://colab.research.google.com/github/YoshiyukiKono/gen_ai-sandbox/blob/main/Query_CQL_with_ChatGPT_Jpn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Using LLMs to Generate CQL

Since LLMs seem to excel at a lot of things, we wanted to show how they can be used to generate CQL to query your Cassandra tables. This notebook provides a guide derived from the [SQL-PaLM](https://arxiv.org/abs/2306.00739) paper on how to automatically show the LLM your DB schema, and let it inform the LLM on querying your data.

## Setup

#### Requirements

In [None]:
# Install requirements, if not already installed
!pip install openai cassandra-driver

#### Connect to Services

In [None]:
# Initialize the OpenAI Client
import os

from getpass import getpass
import openai

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass("OpenAI API Key: ")

client = openai.OpenAI()


OpenAI API Key: ··········


In [4]:
!curl -o secure-connect-vec2.zip 'https://datastax-cluster-config-prod.s3.us-east-2.amazonaws.com/1014346a-a40c-4d1a-b1a3-78769cc72312-1/secure-connect-vec2.zip?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIA2AIQRQ76S2JCB77W%2F20240307%2Fus-east-2%2Fs3%2Faws4_request&X-Amz-Date=20240307T082632Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&X-Amz-Signature=30da0c2299919bab75b2eb546b62b66cda84eff99b9ee0973bdfa930528c47ce'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 12248  100 12248    0     0  27793      0 --:--:-- --:--:-- --:--:-- 27836


In [5]:
!ls -l

total 16
drwxr-xr-x 1 root root  4096 Mar  5 14:31 sample_data
-rw-r--r-- 1 root root 12248 Mar  7 08:26 secure-connect-vec2.zip


In [6]:
# Connect to a Cassandra Cluster and initialize the session
import re

from cassandra.cluster import Cluster
from cassandra.auth import PlainTextAuthProvider
from getpass import getpass
from google.colab import files

ASTRA_TOKEN = os.environ.get(
    "ASTRA_DB_TOKEN",
    getpass("Astra DB Token: ")
)

ASTRA_BUNDLE_PATH = os.environ.get(
    "ASTRA_DB_BUNDLE_PATH",
    #list(files.upload().keys())[0],
    input("Secure Connect Bundle: ")
)

Astra DB Token: ··········
Secure Connect Bundle: secure-connect-vec2.zip


In [7]:
ASTRA_KEYSPACE = os.environ.get(
    "ASTRA_DB_KEYSPACE",
    input("Astra DB Keyspace: "),
)

Astra DB Keyspace: cql


In [8]:
cloud_config = {
    'secure_connect_bundle': ASTRA_BUNDLE_PATH
}
auth_provider = PlainTextAuthProvider("token", ASTRA_TOKEN)
cluster = Cluster(cloud=cloud_config, auth_provider=auth_provider)
session = cluster.connect(keyspace=ASTRA_KEYSPACE)


def execute_statement(statement: str):
    # This is a simple wrapper around executing CQL statements in our
    # Cassandra cluster, and either raising an error or returning the results
    try:
        rows = session.execute(statement)
        return rows.all()
    except:
        print(f"Query Failed: {statement}")
        raise


ERROR:cassandra.connection:Closing connection <AsyncoreConnection(140523850244416) 1014346a-a40c-4d1a-b1a3-78769cc72312-us-east1.db.astra.datastax.com:29042:1d697378-8188-4e0b-8e91-9185bbadb837> due to protocol error: Error from server: code=000a [Protocol error] message="Beta version of the protocol used (5/v5-beta), but USE_BETA flag is unset"


#### (Optional) Dummy DB Setup

Feel free to skip this section if you are instead adapting the notebook to fit your existing Cassandra Database. Here, we will utilize the python `cassandra-driver` package to connect to a DB and create some fake tables. This schema is pulled from [this DataStax example](https://www.datastax.com/learn/data-modeling-by-example/digital-library-data-model) on creating a data model for a digital music library.

In [None]:
# Create all necessary tables
create_tables_cql = """CREATE TABLE performers (
    name TEXT PRIMARY KEY,
    type TEXT,
    country TEXT,
    born INT,
    died INT,
    founded INT
);

CREATE TABLE albums_by_performer (
    performer TEXT,
    year INT,
    title TEXT,
    genre TEXT,
    PRIMARY KEY (performer, year, title)
) WITH CLUSTERING ORDER BY (year DESC, title ASC);

CREATE TABLE albums_by_title (
    title TEXT,
    year INT,
    performer TEXT,
    genre TEXT,
    PRIMARY KEY (title, year)
) WITH CLUSTERING ORDER BY (year DESC);

CREATE TABLE albums_by_genre (
    genre TEXT,
    year INT,
    performer TEXT,
    title TEXT,
    PRIMARY KEY (genre, year, performer, title)
) WITH CLUSTERING ORDER BY (year DESC);

CREATE TABLE tracks_by_title (
    title TEXT,
    album_title TEXT,
    album_year INT,
    number INT,
    length INT,
    genre TEXT,
    PRIMARY KEY (title, album_title, album_year, number)
) WITH CLUSTERING ORDER BY (album_title ASC, album_year DESC, number ASC);

CREATE TABLE tracks_by_album (
    album_title TEXT,
    album_year INT,
    number INT,
    title TEXT,
    length INT,
    genre TEXT STATIC,
    PRIMARY KEY (album_title, album_year, number)
) WITH CLUSTERING ORDER BY (album_year DESC, number ASC);

CREATE TABLE users (
    id UUID PRIMARY KEY,
    name TEXT
);

CREATE TABLE tracks_by_user (
    id UUID,
    month DATE,
    timestamp TIMESTAMP,
    album_title TEXT,
    album_year INT,
    number INT,
    title TEXT,
    length INT,
    PRIMARY KEY (id, timestamp)
) WITH CLUSTERING ORDER BY (timestamp DESC);"""

In [None]:
# This parses the text above into executable strings by the driver
for statement in create_tables_cql.split(";"):
    if len(statement.strip()):
        execute_statement(statement.strip())

In [None]:
# Now populate with some fake data
insert_fake_data_cql = """
-- Insert data into performers
INSERT INTO performers (name, type, country, born, died, founded) VALUES ('The Beatles', 'Band', 'UK', 1960, NULL, 1960);
INSERT INTO performers (name, type, country, born, died, founded) VALUES ('Adele', 'Solo', 'UK', 1988, NULL, NULL);
INSERT INTO performers (name, type, country, born, died, founded) VALUES ('Elton John', 'Solo', 'UK', 1947, NULL, NULL);
INSERT INTO performers (name, type, country, born, died, founded) VALUES ('Queen', 'Band', 'UK', 1970, NULL, 1970);
INSERT INTO performers (name, type, country, born, died, founded) VALUES ('Taylor Swift', 'Solo', 'USA', 1989, NULL, NULL);

-- Insert data into albums by performer, title, and genre
-- Assuming 'Pop' as a genre for all for simplicity
INSERT INTO albums_by_performer (performer, year, title, genre) VALUES ('The Beatles', 1967, 'Sgt. Pepper''s Lonely Hearts Club Band', 'Pop');
INSERT INTO albums_by_performer (performer, year, title, genre) VALUES ('Adele', 2015, '25', 'Pop');
INSERT INTO albums_by_performer (performer, year, title, genre) VALUES ('Elton John', 1973, 'Goodbye Yellow Brick Road', 'Pop');
INSERT INTO albums_by_performer (performer, year, title, genre) VALUES ('Queen', 1975, 'A Night at the Opera', 'Pop');
INSERT INTO albums_by_performer (performer, year, title, genre) VALUES ('Taylor Swift', 2014, '1989', 'Pop');

-- Repeat for albums_by_title
INSERT INTO albums_by_title (title, year, performer, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 'The Beatles', 'Pop');
INSERT INTO albums_by_title (title, year, performer, genre) VALUES ('25', 2015, 'Adele', 'Pop');
INSERT INTO albums_by_title (title, year, performer, genre) VALUES ('Goodbye Yellow Brick Road', 1973, 'Elton John', 'Pop');
INSERT INTO albums_by_title (title, year, performer, genre) VALUES ('A Night at the Opera', 1975, 'Queen', 'Pop');
INSERT INTO albums_by_title (title, year, performer, genre) VALUES ('1989', 2014, 'Taylor Swift', 'Pop');

-- Repeat for albums_by_genre
INSERT INTO albums_by_genre (genre, year, performer, title) VALUES ('Pop', 1967, 'The Beatles', 'Sgt. Pepper''s Lonely Hearts Club Band');
INSERT INTO albums_by_genre (genre, year, performer, title) VALUES ('Pop', 2015, 'Adele', '25');
INSERT INTO albums_by_genre (genre, year, performer, title) VALUES ('Pop', 1973, 'Elton John', 'Goodbye Yellow Brick Road');
INSERT INTO albums_by_genre (genre, year, performer, title) VALUES ('Pop', 1975, 'Queen', 'A Night at the Opera');
INSERT INTO albums_by_genre (genre, year, performer, title) VALUES ('Pop', 2014, 'Taylor Swift', '1989');

-- Insert data into tracks_by_title and tracks_by_album
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Lucy in the Sky with Diamonds', 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 1, 208, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('With a Little Help from My Friends', 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 2, 163, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 3, 122, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Getting Better', 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 4, 174, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Fixing a Hole', 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 5, 139, 'Pop');

INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Hello', '25', 2015, 1, 295, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Send My Love', '25', 2015, 2, 223, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('I Miss You', '25', 2015, 3, 350, 'Pop');

INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Candle in the Wind', 'Goodbye Yellow Brick Road', 1973, 1, 219, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Bennie and the Jets', 'Goodbye Yellow Brick Road', 1973, 2, 323, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Goodbye Yellow Brick Road', 'Goodbye Yellow Brick Road', 1973, 3, 193, 'Pop');

INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Bohemian Rhapsody', 'A Night at the Opera', 1975, 1, 354, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Love of My Life', 'A Night at the Opera', 1975, 2, 220, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Youre My Best Friend', 'A Night at the Opera', 1975, 3, 178, 'Pop');

INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Welcome to New York', '1989', 2014, 1, 212, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Blank Space', '1989', 2014, 2, 231, 'Pop');
INSERT INTO tracks_by_title (title, album_title, album_year, number, length, genre) VALUES ('Style', '1989', 2014, 3, 230, 'Pop');

-- Repeat for tracks_by_album with corresponding track numbers
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 1, 'Lucy in the Sky with Diamonds', 208, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 2, 'With a Little Help from My Friends', 163, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 3, 'Sgt. Pepper''s Lonely Hearts Club Band', 122, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 4, 'Getting Better', 174, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Sgt. Pepper''s Lonely Hearts Club Band', 1967, 5, 'Fixing a Hole', 139, 'Pop');

INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('25', 2015, 1, 'Hello', 295, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('25', 2015, 2, 'Send My Love', 223, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('25', 2015, 3, 'I Miss You', 350, 'Pop');

INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Goodbye Yellow Brick Road', 1973, 1, 'Candle in the Wind', 219, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Goodbye Yellow Brick Road', 1973, 2, 'Bennie and the Jets', 323, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('Goodbye Yellow Brick Road', 1973, 3, 'Goodbye Yellow Brick Road', 193, 'Pop');

INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('A Night at the Opera', 1975, 1, 'Bohemian Rhapsody', 354, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('A Night at the Opera', 1975, 2, 'Love of My Life', 220, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('A Night at the Opera', 1975, 3, 'Youre My Best Friend', 178, 'Pop');

INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('1989', 2014, 1, 'Welcome to New York', 212, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('1989', 2014, 2, 'Blank Space', 231, 'Pop');
INSERT INTO tracks_by_album (album_title, album_year, number, title, length, genre) VALUES ('1989', 2014, 3, 'Style', 230, 'Pop');

-- Insert data into users
INSERT INTO users (id, name) VALUES (uuid(), 'John Doe');
INSERT INTO users (id, name) VALUES (uuid(), 'Jane Smith');
INSERT INTO users (id, name) VALUES (uuid(), 'Emily Johnson');
INSERT INTO users (id, name) VALUES (uuid(), 'Michael Brown');
INSERT INTO users (id, name) VALUES (uuid(), 'Jessica Davis');

-- Insert data into tracks_by_user
-- User ids should be copied from the users insert statements once generated
-- The following are placeholders and should be replaced with actual UUIDs
INSERT INTO tracks_by_user (id, month, timestamp, album_title, album_year, number, title, length) VALUES (uuid(), '2024-01-01', toTimestamp(now()), 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 1, 'Lucy in the Sky with Diamonds', 208);
INSERT INTO tracks_by_user (id, month, timestamp, album_title, album_year, number, title, length) VALUES (uuid(), '2024-01-01', toTimestamp(now()), 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 2, 'With a Little Help from My Friends', 163);
INSERT INTO tracks_by_user (id, month, timestamp, album_title, album_year, number, title, length) VALUES (uuid(), '2024-01-01', toTimestamp(now()), 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 3, 'Sgt. Pepper''s Lonely Hearts Club Band', 122);
INSERT INTO tracks_by_user (id, month, timestamp, album_title, album_year, number, title, length) VALUES (uuid(), '2024-01-01', toTimestamp(now()), 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 4, 'Getting Better', 174);
INSERT INTO tracks_by_user (id, month, timestamp, album_title, album_year, number, title, length) VALUES (uuid(), '2024-01-01', toTimestamp(now()), 'Sgt. Pepper''s Lonely Hearts Club Band', 1967, 5, 'Fixing a Hole', 139);

"""

In [None]:
# This parses the text above into executable strings by the driver
for line in insert_fake_data_cql.split("\n"):
    sc_loc = line.find(";")
    if sc_loc > -1:
        execute_statement(line[:sc_loc])

## (Optional) Give the LLM Additional Context with the Built-in 'Comments' Column

LLM response quality greatly depends on the context they've been given - the more concise descriptions they have access to, the better. We can choose to augment the DB schema we pass to the model by utilizing the built-in `comment` property of CQL tables.

NOTE: You can also include these comments at table creation by using the `WITH <table property 1> AND <table property 2> ... AND comment = '<comment>'` syntax

In [None]:
add_comments_cql = f"""
ALTER TABLE albums_by_genre WITH comment = 'Albums partitioned by musical genre';
ALTER TABLE albums_by_performer WITH comment = 'Albums partitioned by name of performer/artist';
ALTER TABLE albums_by_title WITH comment = 'Albums partitioned by album title';
ALTER TABLE performers WITH comment = 'Performers/artists partitioned by performer name';
ALTER TABLE tracks_by_album WITH comment = 'Tracks/songs partitioned by album title';
ALTER TABLE tracks_by_title WITH comment = 'Tracks/songs partitioned by song title';
ALTER TABLE tracks_by_user WITH comment = 'Tracks/songs users listened to partitioned by user ID and time of listen';
ALTER TABLE users WITH comment = 'Users partitioned by user ID';
"""

In [None]:
# This parses the text above into executable strings by the driver
for line in add_comments_cql.split("\n"):
    sc_loc = line.find(";")
    if sc_loc > -1:
        execute_statement(line[:sc_loc])

## Run Queries from User Questions

#### Generating & Executing CQL

Now, we can ask ChatGPT to provide us with some queries that answer our questions! The prompt template we use is taken from [SQL-PaLM](https://arxiv.org/abs/2306.00739), and adapted to fit the CQL use case. In order to use it though, we need to retrieve the schema from our DB.

In [9]:
TEXT2CQL_PROMPT = """Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
{schema}

[Partition Keys]
{partition_keys}

[Clustering Keys]
{clustering_keys}

[Q]
{question}

[CQL]
"""


def generate_schema_partition_clustering_keys(keyspace: str = ASTRA_KEYSPACE) -> (str, str):
    """Generates a TEXT2CQL_PROMPT compatible schema for a keyspace"""
    # Get all table names in our keyspace
    table_names = execute_statement(
        f"SELECT table_name, comment FROM system_schema.tables WHERE keyspace_name = '{keyspace}'"
    )
    tn_str = ", ".join(["'" + tn.table_name + "'" for tn in table_names])

    # Now get all the column names corresponding to those tables
    columns = execute_statement(
        f"SELECT * FROM system_schema.columns WHERE table_name IN ({tn_str}) AND keyspace_name = '{keyspace}' ALLOW FILTERING"
    )

    # Now, we construct our prompt template formatted schema, partition_keys, and clustering keys
    # from the table and column objects returned from the DB
    schema = " | ".join([
        f"{table.table_name} '{table.comment}' : " + " , ".join([
            f"{col.column_name} ({col.type})"
            for col in columns
            if col.table_name == table.table_name
        ])
        for table in table_names
    ])
    partition_keys = " | ".join([
        f"{table.table_name} : " + " , ".join([
            col.column_name for col in columns
            if col.table_name == table.table_name
            and col.kind == "partition_key"
        ])
        for table in table_names
    ])
    clustering_keys = " | ".join([
        f"{table.table_name} : " + " , ".join([
            f"{col.column_name} ({col.clustering_order})" for col in columns
            if col.table_name == table.table_name
            and col.kind == "clustering"
        ])
        for table in table_names
    ])
    return schema, partition_keys, clustering_keys


def execute_query_from_question(question: str, debug_cql: bool = True, debug_prompt: bool = False, return_cql: bool = False):
    """Generates and executes CQL from a user question based on LLM output"""
    # Get all of the variables necessary to fill out the prompt
    schema, partition_keys, clustering_keys = generate_schema_partition_clustering_keys()
    prompt = TEXT2CQL_PROMPT.format(
        schema=schema,
        partition_keys=partition_keys,
        clustering_keys=clustering_keys,
        question=question,
    )

    if debug_prompt:
        print(f"Prompting model with:\n{prompt}")

    # Get generated CQL from the LLM (in this case gpt-3.5-turbo)
    completion = client.chat.completions.create(
        messages=[{
            "role": "user",
            "content": prompt,
        }],
        model="gpt-3.5-turbo",
    ).choices[0].message.content

    if debug_cql:
        print(f"Question: {question}\nGenerated Query: {completion}\n")

    # Need to trim trailing ';' if present to work with cassandra-driver
    if completion.find(";") > -1:
        completion = completion[:completion.find(";")]

    results = execute_statement(completion)

    if return_cql:
        return (results, completion)
    else:
        return results

In [10]:
# Show full prompting trace
execute_query_from_question("What songs are on A Night at the Opera?", debug_prompt=True)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
albums_by_genre 'Albums partitioned by musical genre' : genre (text) , performer (text) , title (text) , year (int) | albums_by_performer 'Albums partitioned by name of performer/artist' : genre (text) , performer (text) , title (text) , year (int) | albums_by_title 'Albums partitioned by album title' : genre (text) , performer (text) , title (text) , year (int) | performers 'Performers/artists partitioned by performer name' : born (int) , country (text) , died (int) , founded (int) , name (text) , type (text) | tracks_by_album 'Tracks/songs partitioned by album title' : album_title (text) , album_year (int) , genre (text) , length (int) , number (int) , title (text) | tracks_by_title 'Tracks/songs partitioned by song title' : album_title (text)

[Row(title='Bohemian Rhapsody'),
 Row(title='Love of My Life'),
 Row(title='Youre My Best Friend')]

In [11]:
execute_query_from_question("What are some of the most recent Pop albums in the last decade?")

Question: What are some of the most recent Pop albums in the last decade?
Generated Query: SELECT title, performer, year FROM albums_by_genre WHERE genre = 'Pop' AND year > 2011 ALLOW FILTERING; 

OR 

This data model does not support efficiently retrieving the most recent Pop albums in the last decade.



[Row(title='25', performer='Adele', year=2015),
 Row(title='1989', performer='Taylor Swift', year=2014)]

In [12]:
execute_query_from_question("How many albums has Taylor Swift made?")

Question: How many albums has Taylor Swift made?
Generated Query: SELECT COUNT(*) FROM albums_by_performer WHERE performer = 'Taylor Swift';



[Row(count=1)]

Pretty cool that it can find the data to answer our questions! Let's see if we can take this one step further, and actually generate coherent responses using this data:

#### End to End Question Answering

Now, let's wrap up by showing how we can make a subsequent LLM call to answer the user's question with natural language. This completes a full "RAG" style pipeline!

In [13]:
ANSWER_PROMPT = """Query:
```
{cql}
```

Output:
```
{results_repr}
```
===

Given the above results from querying the DB, answer the following user question:

{question}
"""


def answer_question(question: str, debug_cql: bool = False, debug_prompt: bool = False) -> str:
    """Conducts a full RAG pipeline where the LLM retrieves relevant information
    and references it to answer the question in natural language.
    """
    # Get necessary fields to fill out prompt
    query_results, cql = execute_query_from_question(
        question=question,
        debug_cql=debug_cql,
        debug_prompt=debug_prompt,
        return_cql=True,
    )
    prompt = ANSWER_PROMPT.format(
        question=question,
        results_repr=str(query_results),
        cql=cql,
    )

    if debug_prompt:
        print(f"Prompting model with:\n{prompt}")

    # Return the generated answer from the LLM
    return client.chat.completions.create(
        messages=[{
            "role": "user",
            "content": prompt,
        }],
        model="gpt-3.5-turbo",
    ).choices[0].message.content


In [14]:
# Show full prompting trace
print(
    answer_question("What songs are on A Night at the Opera?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
albums_by_genre 'Albums partitioned by musical genre' : genre (text) , performer (text) , title (text) , year (int) | albums_by_performer 'Albums partitioned by name of performer/artist' : genre (text) , performer (text) , title (text) , year (int) | albums_by_title 'Albums partitioned by album title' : genre (text) , performer (text) , title (text) , year (int) | performers 'Performers/artists partitioned by performer name' : born (int) , country (text) , died (int) , founded (int) , name (text) , type (text) | tracks_by_album 'Tracks/songs partitioned by album title' : album_title (text) , album_year (int) , genre (text) , length (int) , number (int) , title (text) | tracks_by_title 'Tracks/songs partitioned by song title' : album_title (text)

In [15]:
print(
    answer_question("What are some of the most recent Pop albums in the last decade?")
)

Query Failed: The data model does not support answering such a question in a performant way.


SyntaxException: <Error from server: code=2000 [Syntax error in CQL query] message="line 1:0 no viable alternative at input 'The' ([The]...)">

In [16]:
print(
    answer_question("How many albums has Taylor Swift made?")
)

Taylor Swift has made 1 album.


Awesome! Our model is answering questions based on just the data in our dummy DB, and is able to construct queries for retrieving that data in a fully automated way.

# Japanese Dataset



In [17]:
%%writefile books.csv
ID,title,author,publisher,price,year,description
001,ネットワークセキュリティ入門,山田太郎,技術書典,4500,2021,ネットワークセキュリティの基本原則と実践的な手法に焦点を当てた入門書。
002,ビジネスデータ分析の基礎,田中花子,ビジネスブックス,3800,2020,ビジネスにおけるデータ分析の基本的な手法とツールの使い方を解説。
003,クラウドアーキテクチャデザイン,鈴木次郎,技術出版株式会社,5500,2022,クラウドネイティブなアプリケーションのアーキテクチャデザインとベストプラクティスを詳細に解説。
004,金融取引のアルゴリズム,林美香,データ出版社,5200,2019,金融市場におけるアルゴリズムトレーディングの基本原則と実践手法に焦点を当てた実践的なガイド。
005,人事マネジメントの実践,佐藤健太,ビジネスパートナーズ,4800,2020,組織内の人材マネジメントに関する基本的な原則と実践的な手法を紹介。
006,自然言語処理入門,伊藤さやか,技術書典,4200,2021,自然言語処理の基本概念から、実践的なテキストデータ処理手法までを解説。
007,マーケティング戦略の立案,山口直樹,ビジネスブックス,3600,2018,市場分析、セグメンテーション、ポジショニングなど、マーケティング戦略の構築手法を学ぶ。
008,ディープラーニングアプリケーション,田村徹,技術出版株式会社,6500,2019,ディープラーニングを使用した実践的なアプリケーション開発手法に焦点を当てた実践書。
009,投資ポートフォリオ管理,高橋優一,金融情報出版,3700,2020,効果的な投資ポートフォリオの構築と管理に関する手法を解説。
010,サイバーセキュリティ実践ガイド,中村あや,技術書典,4800,2021,サイバーセキュリティの基本から、脆弱性診断、セキュリティ対策までを詳細に解説。
011,ビジネスリーダーシップの原則,大塚和夫,ビジネスパートナーズ,4200,2020,ビジネスにおけるリーダーシップの基本原則と実践的なリーダーシップスキルの向上を目指す手法を紹介。
012,コンピュータネットワークの基礎,西村さゆり,技術書典,3500,2022,コンピュータネットワークの基本概念から、実践的なネットワーク設計までを解説。
013,ビジネスプロセス最適化,小林太郎,ビジネスブックス,4600,2019,ビジネスプロセスの最適化手法とツールを駆使して企業の効率を向上させる手法を詳細に解説。
014,データウェアハウス設計入門,川上美香,データ出版社,5000,2021,データウェアハウスの基本概念から、実践的な設計手法までを解説。
015,マネジャーのためのコーチング,森田健太,ビジネスパートナーズ,3900,2018,リーダーシップとコーチングの基本原則と実践的なスキル向上のための手法を解説。
016,組み込みシステム開発ガイド,伊藤美和,技術出版株式会社,5500,2019,組み込みシステムの開発手法とデバッグテクニックに焦点を当てた実践的なガイド。
17,ディープラーニング実践入門,岡田淳,技術出版株式会社,4800,2022,ディープラーニングの基本理論から実践的な応用までを解説。
18,ビジネスプロセス改善ガイド,松本美香,ビジネスブックス,3500,2021,効果的なビジネスプロセス改善手法とツールを紹介。
19,Pythonデータサイエンス,田中健太,技術書典,4200,2020,Pythonを使用したデータサイエンスの基本と実践手法を学ぶ。
20,金融工学入門,林美香,データ出版社,5500,2019,金融商品の設計と価格付けに関する基本原則と数学的手法の解説。
21,チームリーダーシップの手引き,佐藤健太,ビジネスパートナーズ,4000,2020,効果的なチームリーダーシップの構築と維持に関するガイド。
22,React.js開発入門,伊藤さやか,技術書典,3800,2022,React.jsを使用したモダンなWebアプリケーションの開発手法を学ぶ。
23,戦略的マーケティング,山口直樹,ビジネスブックス,4500,2018,市場分析と戦略の構築に焦点を当てたマーケティング戦略のガイド。
24,機械学習プロジェクト管理,田村徹,技術出版株式会社,4900,2019,機械学習プロジェクトの計画と実行に関する手法を解説。
25,投資戦略の戦術,高橋優一,金融情報出版,3600,2021,リスク管理と効果的な投資戦略の構築に焦点を当てた投資戦略の戦術を解説。
26,サイバーセキュリティ対策,中村あや,技術書典,4300,2021,サイバーセキュリティの基本概念と対策手法を解説。
27,効果的なプロジェクトマネジメント,大塚和夫,ビジネスパートナーズ,4100,2020,プロジェクトの計画と実行に関する基本原則と実践的な手法を学ぶ。
28,データウェアハウス設計と実践,川上美香,データ出版社,5200,2021,データウェアハウスの設計と実践的なデータ統合手法を解説。
29,マーケットリサーチ入門,森田健太,ビジネスブックス,3700,2018,効果的なマーケットリサーチの実施とデータ分析手法を学ぶ。
30,クラウドセキュリティベストプラクティス,西村さゆり,技術出版株式会社,4700,2019,クラウド環境でのセキュリティのベストプラクティスを解説。
31,データサイエンティストのための統計学,小林太郎,データ書典,4400,2020,データサイエンスにおける統計学の基本と高度な手法までを解説。
32,リーダーシップ開発プログラム,中村美和,ビジネスパートナーズ,3900,2021,リーダーシップスキルの開発とチームビルディングの手法を学ぶ。
33,モバイルアプリケーション開発,高橋健一,技術書典,5000,2019,モバイルアプリケーションの開発手法とデザイン原則に焦点を当てた実践的なガイド。
34,投資ポートフォリオ戦略,田村美香,金融情報出版,4100,2020,リスク管理と効果的なポートフォリオの構築に焦点を当てた投資戦略の構築手法を解説。
35,サイバーセキュリティ実践入門,伊藤健太,技術書典,4600,2021,サイバーセキュリティの基本から、実践的な対策手法までを詳細に解説。
36,量子コンピューティング入門,岡本太郎,技術書典,5800,2022,量子コンピューティングの基礎理論から実践的な応用までを解説。
37,組織開発と変革マネジメント,村田花子,ビジネスブックス,4200,2021,組織の成熟度と変革マネジメントの手法に焦点を当てた実践的なガイド。
38,Javaマイクロサービスアーキテクチャ,佐々木健太,技術出版株式会社,4800,2020,Javaを使用したマイクロサービスアーキテクチャの基本と設計手法を学ぶ。
39,新時代のプロダクトマネジメント,林さやか,ビジネスパートナーズ,5500,2019,デジタルプロダクトのマネジメントにおける新たな手法とアプローチを解説。
40,ネットワークセキュリティ実践ガイド,高橋徹,技術書典,4600,2020,ネットワークセキュリティの実践的な対策手法とセキュアなネットワーク構築手法を学ぶ。
41,スタートアップのための財務戦略,伊東美和,ビジネスブックス,4000,2021,スタートアップ企業の財務戦略と資金調達の手法に焦点を当てたガイド。
42,自然言語処理と機械翻訳,山岸直樹,技術出版株式会社,5300,2018,自然言語処理と機械翻訳の基本原則と応用手法を学ぶ。
43,企業価値の最大化,佐野美香,データ出版社,4900,2019,企業価値の向上と最大化に向けた戦略と実践手法を解説。
44,データサイエンスとビジネス分析,鈴木健一,金融情報出版,3600,2020,データサイエンスとビジネスアナリティクスの基本概念と手法を学ぶ。
45,クラウドセキュリティポリシー,中川美和,技術書典,4400,2021,クラウド環境でのセキュリティポリシーの設計と実践手法に焦点を当てた実践ガイド。
46,リーダーシップ心理学,大西美香,ビジネスパートナーズ,4100,2018,リーダーシップと心理学の関連性と、組織内での実践手法を解説。
47,フロントエンド開発ベストプラクティス,田島健太,技術出版株式会社,4900,2019,モダンなフロントエンド開発のベストプラクティスと設計原則に焦点を当てた実践的なガイド。
48,投資リスク管理戦略,堀田直樹,金融情報出版,4200,2020,効果的な投資リスク管理戦略とポートフォリオの構築手法を解説。
49,セキュアなソフトウェア開発,大久保美和,技術書典,5500,2021,セキュアなソフトウェアの設計と実装に関する基本原則と手法を学ぶ。
50,ビジネスインテリジェンス基礎,小川美香,データ出版社,4700,2020,ビジネスインテリジェンスの基本的な原則とデータ分析手法を解説。
51,デジタルマーケティング入門,石田健太,ビジネスブックス,4000,2022,デジタル時代におけるマーケティング戦略と実践的なデジタル広告手法に焦点を当てた入門書。
52,モバイルセキュリティベストプラクティス,中山さやか,技術書典,4400,2022,モバイルアプリケーションのセキュリティ設計と対策手法を解説。
53,ビジネスプランの作成法,渡辺徹,ビジネスパートナーズ,3800,2019,効果的なビジネスプランの作成と実行に向けた手法を学ぶ。
54,クラウドネイティブアーキテクチャ,吉田太郎,技術出版株式会社,5200,2022,クラウドネイティブなアプリケーションの設計と構築に関する包括的なガイド。
55,組織学習の手法,石井花子,ビジネスブックス,4300,2021,組織が持続的に学習し成長するための手法と実践例を解説。
56,JavaScriptデザインパターン,小林次郎,技術書典,4600,2020,JavaScriptにおけるデザインパターンと実践的なプログラミング手法を学ぶ。
57,デジタルトランスフォーメーション戦略,鈴木美和,ビジネスパートナーズ,5400,2019,組織全体でのデジタルトランスフォーメーション戦略の策定と実行に関するガイド。
58,ネットワークプログラミング実践,田村健太,技術書典,4800,2020,ネットワークプログラミングの基本概念から、実践的なアプリケーション開発までを解説。
59,マーケットセグメンテーション,山本直樹,ビジネスブックス,4000,2021,効果的なマーケットセグメンテーションの手法と市場分析に焦点を当てた入門書。
60,サーバレスアーキテクチャ設計,田中美香,技術出版株式会社,5000,2018,サーバレスなアプリケーションの設計とデプロイに関する手法を解説。
61,人材育成プログラム,高橋直樹,ビジネスパートナーズ,3700,2019,組織内での効果的な人材育成プログラムの構築と実践手法を学ぶ。
62,Python機械学習実践ガイド,西村美和,技術書典,5300,2021,Pythonを使用した機械学習の基本理論から実践的な応用までを解説。
63,金融市場データ分析,堀田太郎,データ出版社,4600,2022,金融市場データの分析手法と取引戦略に焦点を当てた実践ガイド。
64,サイバーセキュリティリーダーシップ,矢田美香,技術出版株式会社,4800,2019,組織全体でのサイバーセキュリティリーダーシップの原則と実践手法を解説。
65,効果的なマーケティングコミュニケーション,小野次郎,ビジネスブックス,4200,2020,ターゲットに向けた効果的なマーケティングコミュニケーション戦略を解説。
66,データエンジニアリング入門,松井あや,技術書典,4900,2021,データエンジニアリングの基本概念と実践的なデータ処理手法を学ぶ。
67,戦略的イノベーションマネジメント,大木徹,ビジネスパートナーズ,5500,2020,企業における戦略的なイノベーションマネジメントの手法と実践例を解説。
68,ソフトウェアアーキテクチャ設計,藤田健一,技術出版株式会社,5100,2019,ソフトウェアアーキテクチャの基本原則と設計手法に焦点を当てた実践的なガイド。
69,投資ポートフォリオ最適化,石井さやか,金融情報出版,4300,2020,リスクとリターンのバランスを考慮した投資ポートフォリオ最適化の手法を解説。
70,マイクロサービスアーキテクチャ実践,森下太郎,技術出版株式会社,5200,2022,マイクロサービスアーキテクチャの実践的な設計と運用に関するガイド。
71,戦略的リーダーシップ,大橋美和,ビジネスブックス,4500,2021,組織戦略とリーダーシップの統合に焦点を当てた戦略的リーダーシップのガイド。
72,データウェアハウス最適化,田口健太,技術書典,4700,2020,データウェアハウスの最適化手法とパフォーマンスチューニングに関する実践的な知識。
73,プログラマのためのアルゴリズム,小山直樹,技術出版株式会社,3800,2019,プログラマ向けの基本的なアルゴリズムとデータ構造に焦点を当てた解説書。
74,デジタル戦略の構築,鈴木花子,ビジネスパートナーズ,5100,2019,デジタル時代におけるビジネス戦略の構築手法と実践例を解説。
75,ネットワークセキュリティベストプラクティス,高田徹,技術書典,4400,2022,ネットワークセキュリティのベストプラクティスと脅威対策に関するガイド。
76,人材評価と報酬戦略,小林美和,ビジネスブックス,4300,2021,組織内での効果的な人材評価と報酬戦略の構築手法を学ぶ。
77,リアクティブプログラミング入門,西野健太,技術出版株式会社,4800,2020,リアクティブなアプリケーション開発の基本理論と実践手法を解説。
78,データサイエンスと医療,大谷花子,データ出版社,5400,2021,医療データの解析とデータサイエンスの応用に焦点を当てた入門書。
79,クラウドアーキテクト設計,佐々木徹,技術書典,5000,2022,クラウドシステムのアーキテクト設計とベストプラクティスに関するガイド。
80,ビジネスエシックス,中川美和,ビジネスパートナーズ,3700,2020,ビジネス環境における倫理とエシックスの基本原則と実践的なガイド。
81,機械学習モデル解釈,高木健太,技術書典,4600,2019,機械学習モデルの解釈手法とモデルの透明性向上に焦点を当てた実践書。
82,セキュアなWeb開発,石崎さやか,技術出版株式会社,4300,2021,セキュアなWebアプリケーションの開発手法とセキュリティ対策に関するガイド。
83,デジタルマーケティング戦略,小野徹,ビジネスブックス,4900,2020,デジタルマーケティング戦略の立案と実行に関する実践的な手法を解説。
84,サーバーサイド開発入門,伊東美香,技術書典,4100,2022,サーバーサイド開発の基本概念から、実践的なアプリケーション開発までを解説。
85,データアーキテクチャ設計,松永直樹,データ出版社,5200,2019,データアーキテクチャの設計と実践的なデータ管理手法を学ぶ。
86,クラウドセキュリティアーキテクチャ,田辺美香,技術出版株式会社,5300,2022,クラウド環境におけるセキュリティアーキテクチャの設計と実践手法を解説。
87,リーダーシップ開発プログラム,小野さやか,ビジネスブックス,4100,2021,リーダーシップスキルの開発とチームビルディングの手法を学ぶ。
88,自然言語処理とテキストマイニング,村上健太,技術書典,4700,2020,自然言語処理とテキストマイニングの基本原則と実践手法を学ぶ。
89,デジタル戦略の実践,渡辺花子,ビジネスパートナーズ,5500,2019,デジタル時代におけるビジネス戦略の実践的な構築と実行に関するガイド。
90,フロントエンド開発ベストプラクティス,石井美和,技術出版株式会社,4800,2020,モダンなフロントエンド開発のベストプラクティスと設計原則に焦点を当てた実践的なガイド。
91,イノベーションマネジメント,佐々木太郎,ビジネスブックス,4300,2021,組織内での効果的なイノベーションマネジメントの手法と実践例を解説。
92,Pythonデータサイエンティスト養成,矢田さやか,技術出版株式会社,5100,2018,Pythonを使用したデータサイエンスの基本から実践までの養成ガイド。
93,金融市場リスク管理,山口健太,データ出版社,4900,2019,金融市場におけるリスク管理の基本原則と実践手法を解説。
94,マーケティングデータ分析,大塚美香,金融情報出版,4200,2020,効果的なマーケティングデータ分析の手法と意思決定への応用に焦点を当てた実践ガイド。
95,サイバーセキュリティリスクマネジメント,小川さやか,技術書典,4600,2022,サイバーセキュリティリスクの評価とマネジメントの手法に焦点を当てたガイド。
96,戦略的マーケティングプラン,松本美和,ビジネスパートナーズ,4700,2021,組織のビジョンと目標に基づく戦略的なマーケティングプランの構築手法を解説。
97,データサイエンスとビッグデータ,石田美香,技術書典,5300,2020,データサイエンスとビッグデータの基本原則から実践までの手法を学ぶ。
98,アジャイル開発プラクティス,吉田花子,技術出版株式会社,4000,2021,アジャイルなソフトウェア開発のプラクティスとスクラムの導入手法を解説。
99,サプライチェーンマネジメント,中村健太,データ出版社,5200,2022,効果的なサプライチェーンマネジメントの原則と実践手法を解説。
100,量子コンピュータ応用,田島美和,技術書典,4900,2020,量子コンピュータの応用領域と実践的な利用事例に焦点を当てたガイド。
101,エンタープライズアーキテクチャ,小林花子,ビジネスパートナーズ,4400,2019,エンタープライズ全体のアーキテクチャ設計と最適化手法に関する実践ガイド。
102,プロジェクトポートフォリオマネジメント,松井直樹,技術出版株式会社,5000,2020,プロジェクトポートフォリオの戦略的なマネジメント手法と実践例を解説。
103,マネジメント情報システム,大木美和,データブックス,4600,2021,組織内でのマネジメント情報システムの設計と運用に焦点を当てたガイド。

Writing books.csv


In [18]:
!head books.csv

ID,title,author,publisher,price,year,description
001,ネットワークセキュリティ入門,山田太郎,技術書典,4500,2021,ネットワークセキュリティの基本原則と実践的な手法に焦点を当てた入門書。
002,ビジネスデータ分析の基礎,田中花子,ビジネスブックス,3800,2020,ビジネスにおけるデータ分析の基本的な手法とツールの使い方を解説。
003,クラウドアーキテクチャデザイン,鈴木次郎,技術出版株式会社,5500,2022,クラウドネイティブなアプリケーションのアーキテクチャデザインとベストプラクティスを詳細に解説。
004,金融取引のアルゴリズム,林美香,データ出版社,5200,2019,金融市場におけるアルゴリズムトレーディングの基本原則と実践手法に焦点を当てた実践的なガイド。
005,人事マネジメントの実践,佐藤健太,ビジネスパートナーズ,4800,2020,組織内の人材マネジメントに関する基本的な原則と実践的な手法を紹介。
006,自然言語処理入門,伊藤さやか,技術書典,4200,2021,自然言語処理の基本概念から、実践的なテキストデータ処理手法までを解説。
007,マーケティング戦略の立案,山口直樹,ビジネスブックス,3600,2018,市場分析、セグメンテーション、ポジショニングなど、マーケティング戦略の構築手法を学ぶ。
008,ディープラーニングアプリケーション,田村徹,技術出版株式会社,6500,2019,ディープラーニングを使用した実践的なアプリケーション開発手法に焦点を当てた実践書。
009,投資ポートフォリオ管理,高橋優一,金融情報出版,3700,2020,効果的な投資ポートフォリオの構築と管理に関する手法を解説。


In [19]:
import pandas as pd

df = pd.read_csv("books.csv")
df

Unnamed: 0,ID,title,author,publisher,price,year,description
0,1,ネットワークセキュリティ入門,山田太郎,技術書典,4500,2021,ネットワークセキュリティの基本原則と実践的な手法に焦点を当てた入門書。
1,2,ビジネスデータ分析の基礎,田中花子,ビジネスブックス,3800,2020,ビジネスにおけるデータ分析の基本的な手法とツールの使い方を解説。
2,3,クラウドアーキテクチャデザイン,鈴木次郎,技術出版株式会社,5500,2022,クラウドネイティブなアプリケーションのアーキテクチャデザインとベストプラクティスを詳細に解説。
3,4,金融取引のアルゴリズム,林美香,データ出版社,5200,2019,金融市場におけるアルゴリズムトレーディングの基本原則と実践手法に焦点を当てた実践的なガイド。
4,5,人事マネジメントの実践,佐藤健太,ビジネスパートナーズ,4800,2020,組織内の人材マネジメントに関する基本的な原則と実践的な手法を紹介。
...,...,...,...,...,...,...,...
98,99,サプライチェーンマネジメント,中村健太,データ出版社,5200,2022,効果的なサプライチェーンマネジメントの原則と実践手法を解説。
99,100,量子コンピュータ応用,田島美和,技術書典,4900,2020,量子コンピュータの応用領域と実践的な利用事例に焦点を当てたガイド。
100,101,エンタープライズアーキテクチャ,小林花子,ビジネスパートナーズ,4400,2019,エンタープライズ全体のアーキテクチャ設計と最適化手法に関する実践ガイド。
101,102,プロジェクトポートフォリオマネジメント,松井直樹,技術出版株式会社,5000,2020,プロジェクトポートフォリオの戦略的なマネジメント手法と実践例を解説。


In [20]:
ASTRA_KEYSPACE = os.environ.get(
    "ASTRA_DB_KEYSPACE",
    input("Astra DB Keyspace: "),
)

Astra DB Keyspace: bookstore


In [21]:
cloud_config = {
    'secure_connect_bundle': ASTRA_BUNDLE_PATH
}
auth_provider = PlainTextAuthProvider("token", ASTRA_TOKEN)
cluster = Cluster(cloud=cloud_config, auth_provider=auth_provider)
session = cluster.connect(keyspace=ASTRA_KEYSPACE)


def execute_statement(statement: str):
    # This is a simple wrapper around executing CQL statements in our
    # Cassandra cluster, and either raising an error or returning the results
    try:
        rows = session.execute(statement)
        return rows.all()
    except:
        print(f"Query Failed: {statement}")
        raise

ERROR:cassandra.connection:Closing connection <AsyncoreConnection(140523871733696) 1014346a-a40c-4d1a-b1a3-78769cc72312-us-east1.db.astra.datastax.com:29042:4c9f2907-5645-4539-81a1-8ef1409a8055> due to protocol error: Error from server: code=000a [Protocol error] message="Beta version of the protocol used (5/v5-beta), but USE_BETA flag is unset"


In [22]:

session.execute("""
CREATE TABLE  books (
id text,
title text,
author text,
publisher text,
price int,
year int,
description text,
PRIMARY KEY((author, publisher), title, id)
);
        """
)

<cassandra.cluster.ResultSet at 0x7fce43750df0>

In [24]:
session.execute("CREATE CUSTOM INDEX idx_price_book ON books(price) USING 'org.apache.cassandra.index.sai.StorageAttachedIndex'")
session.execute("CREATE CUSTOM INDEX idx_year_book ON books(year) USING 'org.apache.cassandra.index.sai.StorageAttachedIndex'")

<cassandra.cluster.ResultSet at 0x7fce421cbc10>

In [26]:
query = "INSERT INTO books(id,title,author,publisher,price,year,description) VALUES (?,?,?,?,?,?,?)"
prepared = session.prepare(query)

In [28]:

params_list = []
for index, row in df.iterrows():
  params = [str(row['ID']),row['title'],row['author'],row['publisher'],row['price'],row['year'],row['description']]
  params_list.append(params)

In [29]:
from cassandra.concurrent import execute_concurrent_with_args
execute_concurrent_with_args(session, prepared, params_list)

[ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c177ee0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c154700>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c154340>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c155ff0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c155b40>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c154dc0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c1550c0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c1559c0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7fce2c155e40>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object a

In [32]:
print(
    answer_question("How many books are published in 2020?")
)

Query Failed: SELECT COUNT(*) FROM albums_by_genre WHERE year = 2020


InvalidRequest: Error from server: code=2200 [Invalid query] message="table albums_by_genre does not exist"

In [33]:
def generate_schema_partition_clustering_keys(keyspace: str = ASTRA_KEYSPACE) -> (str, str):
    """Generates a TEXT2CQL_PROMPT compatible schema for a keyspace"""
    # Get all table names in our keyspace
    table_names = execute_statement(
        f"SELECT table_name, comment FROM system_schema.tables WHERE keyspace_name = '{keyspace}'"
    )
    tn_str = ", ".join(["'" + tn.table_name + "'" for tn in table_names])

    # Now get all the column names corresponding to those tables
    columns = execute_statement(
        f"SELECT * FROM system_schema.columns WHERE table_name IN ({tn_str}) AND keyspace_name = '{keyspace}' ALLOW FILTERING"
    )

    # Now, we construct our prompt template formatted schema, partition_keys, and clustering keys
    # from the table and column objects returned from the DB
    schema = " | ".join([
        f"{table.table_name} '{table.comment}' : " + " , ".join([
            f"{col.column_name} ({col.type})"
            for col in columns
            if col.table_name == table.table_name
        ])
        for table in table_names
    ])
    partition_keys = " | ".join([
        f"{table.table_name} : " + " , ".join([
            col.column_name for col in columns
            if col.table_name == table.table_name
            and col.kind == "partition_key"
        ])
        for table in table_names
    ])
    clustering_keys = " | ".join([
        f"{table.table_name} : " + " , ".join([
            f"{col.column_name} ({col.clustering_order})" for col in columns
            if col.table_name == table.table_name
            and col.kind == "clustering"
        ])
        for table in table_names
    ])
    return schema, partition_keys, clustering_keys


In [35]:
print(
    answer_question("How many books are published in 2020?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
books '' : author (text) , description (text) , id (text) , price (int) , publisher (text) , title (text) , year (int)

[Partition Keys]
books : author , publisher

[Clustering Keys]
books : id (asc) , title (asc)

[Q]
How many books are published in 2020?

[CQL]





Prompting model with:
Query:
```
SELECT COUNT(*) FROM books WHERE year = 2020
```

Output:
```
[Row(count=29)]
```
===

Given the above results from querying the DB, answer the following user question:

How many books are published in 2020?

There are 29 books published in 2020.


In [36]:
print(
    answer_question("2020年に何冊の本が出版されましたか?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
books '' : author (text) , description (text) , id (text) , price (int) , publisher (text) , title (text) , year (int)

[Partition Keys]
books : author , publisher

[Clustering Keys]
books : id (asc) , title (asc)

[Q]
2020年に何冊の本が出版されましたか?

[CQL]

Query Failed: The data model does not support answering how many books were published in a specific year in a performant way.


SyntaxException: <Error from server: code=2000 [Syntax error in CQL query] message="line 1:0 no viable alternative at input 'The' ([The]...)">

In [37]:
print(
    answer_question("山田太郎の著書を教えて?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
books '' : author (text) , description (text) , id (text) , price (int) , publisher (text) , title (text) , year (int)

[Partition Keys]
books : author , publisher

[Clustering Keys]
books : id (asc) , title (asc)

[Q]
山田太郎の著書を教えて?

[CQL]

Query Failed: SELECT * FROM books WHERE author = '山田太郎'


InvalidRequest: Error from server: code=2200 [Invalid query] message="Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING"

In [39]:
print(
    answer_question("山田太郎が技術書典から出版した著書のタイトルを教えて?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
books '' : author (text) , description (text) , id (text) , price (int) , publisher (text) , title (text) , year (int)

[Partition Keys]
books : author , publisher

[Clustering Keys]
books : id (asc) , title (asc)

[Q]
山田太郎が技術書典から出版した著書のタイトルを教えて?

[CQL]

Prompting model with:
Query:
```
SELECT title FROM books WHERE author = '山田太郎' AND publisher = '技術書典'
```

Output:
```
[Row(title='ネットワークセキュリティ入門')]
```
===

Given the above results from querying the DB, answer the following user question:

山田太郎が技術書典から出版した著書のタイトルを教えて?

ネットワークセキュリティ入門


In [41]:
print(
    answer_question("田中花子がビジネスブックスから出版した著書のタイトルと値段を教えて?", debug_prompt=True)
)

Prompting model with:
Convert the question to CQL (Cassandra Query Language) that can retrieve an appropriate answer, or answer saying that the data model does not support answering such a question in a performant way:

[Schema : values (type)]
books '' : author (text) , description (text) , id (text) , price (int) , publisher (text) , title (text) , year (int)

[Partition Keys]
books : author , publisher

[Clustering Keys]
books : id (asc) , title (asc)

[Q]
田中花子がビジネスブックスから出版した著書のタイトルと値段を教えて?

[CQL]

Prompting model with:
Query:
```
SELECT title, price FROM books WHERE author = '田中花子' AND publisher = 'ビジネスブックス'
```

Output:
```
[Row(title='ビジネスデータ分析の基礎', price=3800)]
```
===

Given the above results from querying the DB, answer the following user question:

田中花子がビジネスブックスから出版した著書のタイトルと値段を教えて?

田中花子がビジネスブックスから出版した著書は「ビジネスデータ分析の基礎」で、価格は3800円です。
