Recursos:
 - https://docs.datastax.com/en/developer/python-driver/3.25/getting_started/
 - https://cassandra.apache.org/doc/latest/cassandra/faq/
 - https://openwebinars.net/blog/como-usar-apache-cassandra-con-python/
 - https://docs.datastax.com/en/cql-oss/3.3/cql/cql_reference/cqlCreateTable.html
 - https://www.datastax.com/blog/most-important-thing-know-cassandra-data-modeling-primary-key

## Testeando la conexión a cassandra y algunas queries

In [1]:
import pandas as pd
import numpy as np

In [2]:
from cassandra.cluster import Cluster

#Conexion al cluster
#Es importante haber mapeado el puerto usando -p 9042:9042 al crear el contenedor

cluster = Cluster(['127.0.0.1'], port=9042)
#session = cluster.connect('bdnosql') #El keyspace lo creé desde la terminal

ModuleNotFoundError: No module named 'cassandra'

In [8]:
session = cluster.connect()

session.execute(
    """
    CREATE KEYSPACE bdnosql 
    WITH replication = {'class' : 'SimpleStrategy', 'replication_factor':1};
    """
)
session.set_keyspace('bdnosql')

session.execute(
    """
    CREATE TABLE estaciones(
    id int PRIMARY KEY,
    nombre text
    );
    """
)

<cassandra.cluster.ResultSet at 0x7ff5a08a02e0>

In [10]:
# Insertar cosas a la tabla estaciones 
sentencia = session.prepare( 
    """
    INSERT INTO estaciones (id, nombre)
    VALUES (?, ?)
    """
)

row = (2, 'Verano')
session.execute(sentencia, row)

row2 = (3, 'Otoño')
resultado = session.execute(sentencia, row2)

<cassandra.cluster.ResultSet at 0x7ff590160430>

In [15]:
# Leer cosas de la tabla
rows = session.execute('SELECT id, nombre FROM estaciones')
for row in rows:
    print(row.id, row.nombre)

5 OtraEstacion
2 Verano
4 Invierno
3 Otoño


In [13]:
sentencia_2 = session.prepare("SELECT id, nombre FROM estaciones WHERE id=?")
rows = session.execute(sentencia_2, [3])
for row in rows:
    print(row[0], row[1])

3 Otoño


In [14]:
#Insertando desde un dataFrame de pandas
import pandas as pd

data = [[4, 'Invierno'], [5, 'OtraEstacion']]
data = pd.DataFrame(data)

for row in data.values:
    session.execute(sentencia, row)

## Reconstrucción de tablas para precargarlas a base de datos

Para cargar los datos queremos:
 - Definir las tablas dentro del keyspace
 - Definir los métodos para popularlas
 - Cargar los datos 

 Dudas:
- ¿Las categorías están preestablecidas o cada usuario puede crear nuevas?

Consideraciones:
- El usuario al ingresar un nuevo libro no conoce el id, solo el título. Debe ser posible acceder al id del libro a partir de su nombre.

In [29]:
data = pd.read_csv('DatosBBDDE_test.csv')
data.columns = ['categoria', 'usuario', 'libro', 'calificacion']
data = data[['usuario', 'libro', 'categoria', 'calificacion']]

In [33]:
data.head()

Unnamed: 0,usuario,libro,categoria,calificacion
0,Yeudiel,Harry Potter,Fantasia,5
1,Eduardo,One Shot,Suspenso,5
2,FernandoA,On the road,Novela,5
3,Edgar,The Pillars of the Earth,Novela,4
4,Daniel,100 años de soledad,Realismo mágico,5


---------

## Creación de keyspace y tablas

In [106]:
session = cluster.connect()

session.execute(
    """
    DROP KEYSPACE IF EXISTS bd_libros;
    """
)

# Creación del keyspace
session.execute(
    """
    CREATE KEYSPACE bd_libros 
    WITH replication = {'class' : 'SimpleStrategy', 'replication_factor':1};
    """
)
session.set_keyspace('bd_libros')


### Creación de las tablas

#1. LIBROS POR CLIENTE (Queries 1,2,3)
session.execute(
    """
    CREATE TABLE libros_por_cliente (
    id_cliente text,
    titulo_libro text,
    autor_libro text,
    categoria text,
    calificacion int,
    nombre_cliente text STATIC,
    pais text STATIC,
    membresia text STATIC,
    PRIMARY KEY(id_cliente, categoria, titulo_libro, autor_libro)
    );
    """
)


#2. CLIENTES POR LIBRO (Query 4)
session.execute(
    """
    CREATE TABLE clientes_por_libro (
    titulo_libro text,
    autor_libro text,
    calificacion int,
    id_cliente text,
    PRIMARY KEY((titulo_libro, autor_libro), calificacion, id_cliente)
    );
    """
)

#3. LIBROS POR CATEGORIA (Query 5)
session.execute(
    """
    CREATE TABLE libros_por_categoria (
    categoria text,
    titulo_libro text,
    autor_libro text,
    calificacion int,
    id_cliente text,
    PRIMARY KEY (categoria, titulo_libro, autor_libro),
    );
    """
)

<cassandra.cluster.ResultSet at 0x7f8c5832c700>

Quizá no es necesario tener un id_libro y es suficiente con usar el nombre del libro como identificador único.

## Queries

In [107]:
def Q1_alta_usuario(id_cliente:str, nombre_cliente:str, pais:str, membresia:str):
    existe_usuario = session.execute(
        """
        SELECT * FROM libros_por_cliente
        WHERE id_cliente = %s
        LIMIT 1
        """,
        [id_cliente]
    )

    if existe_usuario:
        return None

    session.execute(
        """
        INSERT INTO libros_por_cliente
        (id_cliente, nombre_cliente, pais, membresia)
        VALUES (%s, %s, %s, %s)
        """,
        (id_cliente, nombre_cliente, pais, membresia)
    )
    return 

In [108]:
def Q2_agregar_calificacion(id_cliente:str , titulo_libro:str, autor_libro:str, categoria:str, calificacion:int):

    session.execute(
        """
        INSERT INTO libros_por_cliente 
        (id_cliente, titulo_libro, autor_libro, categoria, calificacion)
        VALUES (%s, %s, %s, %s, %s)
        """,
        (id_cliente, titulo_libro, autor_libro, categoria, calificacion)
    )
    session.execute(
        """
        INSERT INTO clientes_por_libro 
        (titulo_libro, autor_libro, id_cliente, calificacion)
        VALUES (%s, %s, %s, %s)
        """,
        (titulo_libro, autor_libro, id_cliente, calificacion)
    )
    session.execute(
        """
        INSERT INTO libros_por_categoria
        (categoria, titulo_libro, autor_libro, calificacion, id_cliente)
        VALUES (%s, %s, %s, %s, %s)
        """,
        (categoria, titulo_libro, autor_libro, calificacion, id_cliente)
    )

    return 

In [155]:
# Falta seleccionar la categoría de mejor puntuación
def Q3_categoría_preferida_por_cliente(id_cliente:str):
    
    resultado = session.execute(
        """
        SELECT categoria, AVG(calificacion) FROM libros_por_cliente
        WHERE id_cliente=%s
        GROUP BY categoria
        LIMIT 1
        """,
        [id_cliente]
    )
    categoria = resultado.one()[0]
    calificacion = resultado.one()[1] 
    
    return { 'categoria_preferida':categoria, 'calificacion_promedio':calificacion } 

In [156]:
def Q4_mas_disfrutaron_libro(titulo_libro:str, autor_libro:str):
    
    resultado_max_calif = session.execute(
        """
        SELECT MAX(calificacion) FROM clientes_por_libro
        WHERE titulo_libro=%s
        AND autor_libro=%s
        LIMIT 1
        """,
        (titulo_libro, autor_libro)
    )

    if resultado_max_calif is None:
        return None

    max_calif = resultado_max_calif.one()[0]

    resultado_clientes = session.execute(
        """
        SELECT id_cliente FROM clientes_por_libro
        WHERE titulo_libro=%s
        AND autor_libro=%s
        AND calificacion=%s
        """, 
        (titulo_libro, autor_libro, max_calif)
    )

    clientes = []
    for row in resultado_clientes:
        clientes.append(row.id_cliente)
        
    return max_calif, clientes

In [163]:
# Falta seleccionar el libro de mejor rating
def Q5_mejores_libros_por_categoria(categoria:str, n:int=3):
    
    res = session.execute(
        """
        SELECT titulo_libro, autor_libro, AVG(calificacion)  FROM libros_por_categoria
        WHERE categoria=%s
        GROUP BY titulo_libro, autor_libro
        LIMIT %s;
        """,
        (categoria, n)
    )
    return res.all()

## Testing las queries

In [164]:
#LLENANDO LAS TABLAS

# Dar de alta usuarios
Q1_alta_usuario('MarceCL', 'Marcela Cruz', 'México', 'Estudiante')
Q1_alta_usuario('Yeu_L', 'Yeudiel Lara', 'Francia', 'Profesor')
Q1_alta_usuario('pabs', 'Pablo del Valle', 'Chile', 'Premium')

# Añadir libros y calificaciones
Q2_agregar_calificacion('MarceCL', 'Duna', 'Frank Herbert', 'Ciencia Ficción', 4)
Q2_agregar_calificacion('Yeu_L', 'Duna', 'Frank Herbert', 'Ciencia Ficción', 3)
Q2_agregar_calificacion('pabs', 'La Máquina del Tiempo', 'Herbert George Wells', 'Ciencia Ficción', 5)
Q2_agregar_calificacion('MarceCL', 'El psicoanalista', 'John Katzenbach', 'Thriller', 5)

In [165]:
res = session.execute(
        """
        SELECT * FROM libros_por_cliente
        """
    )
res = pd.DataFrame(res.all())
res

Unnamed: 0,id_cliente,categoria,titulo_libro,autor_libro,membresia,nombre_cliente,pais,calificacion
0,pabs,Ciencia Ficción,La Máquina del Tiempo,Herbert George Wells,Premium,Pablo del Valle,Chile,5
1,MarceCL,Ciencia Ficción,Duna,Frank Herbert,Estudiante,Marcela Cruz,México,4
2,MarceCL,Thriller,El psicoanalista,John Katzenbach,Estudiante,Marcela Cruz,México,5
3,Yeu_L,Ciencia Ficción,Duna,Frank Herbert,Profesor,Yeudiel Lara,Francia,3


In [166]:
res = session.execute(
        """
        SELECT * FROM clientes_por_libro
        """
    )
res = pd.DataFrame(res.all())
res

Unnamed: 0,titulo_libro,autor_libro,calificacion,id_cliente
0,El psicoanalista,John Katzenbach,5,MarceCL
1,Duna,Frank Herbert,3,Yeu_L
2,Duna,Frank Herbert,4,MarceCL
3,La Máquina del Tiempo,Herbert George Wells,5,pabs


In [167]:
res = session.execute(
        """
        SELECT * FROM libros_por_categoria
        """
    )
res = pd.DataFrame(res.all())
res

Unnamed: 0,categoria,titulo_libro,autor_libro,calificacion,id_cliente
0,Ciencia Ficción,Duna,Frank Herbert,3,Yeu_L
1,Ciencia Ficción,La Máquina del Tiempo,Herbert George Wells,5,pabs
2,Thriller,El psicoanalista,John Katzenbach,5,MarceCL


In [168]:
# CONSULTANDO LAS TABLAS

res1 = Q3_categoría_preferida_por_cliente('MarceCL')
print(res1)

res2 = Q4_mas_disfrutaron_libro('Duna', 'Frank Herbert')
print(res2)

res3 = Q5_mejores_libros_por_categoria('Ciencia Ficción')
print(res3)

{'categoria_preferida': 'Ciencia Ficción', 'calificacion_promedio': 4}
(4, ['MarceCL'])
[Row(titulo_libro='Duna', autor_libro='Frank Herbert', system_avg_calificacion=3), Row(titulo_libro='La Máquina del Tiempo', autor_libro='Herbert George Wells', system_avg_calificacion=5)]
