In [1]:
from cassandra.cluster import Cluster

# Configura la conexión a tu cluster de Cassandra
cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
session = cluster.connect()

# Selecciona el keyspace adecuado
session.set_keyspace('key_inspeccionrestaurante')  # Reemplaza 'key_inspeccionrestaurante' con el nombre de tu keyspace

# Define tu consulta DELETE con la instrucción DROP TABLE
query = "DROP TABLE IF EXISTS inspeccionRestaurantes"  # Utiliza IF EXISTS para evitar errores si la tabla no existe

# Ejecuta la consulta DELETE
session.execute(query)

# Cierra la conexión

cluster.shutdown()


In [7]:
from cassandra.cluster import Cluster

# Establecer conexión con el clúster de Cassandra
cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
session = cluster.connect()

# Define el nombre del keyspace que deseas crear
keyspace_name = "key_inspeccionrestaurante"

# Define las opciones de configuración para el keyspace (puedes ajustar estos valores según tus necesidades)
keyspace_options = {
    "class": "SimpleStrategy",
    "replication_factor": 1  # Puedes ajustar el factor de replicación según tu configuración
}

# Crea el keyspace
create_keyspace_query = f"CREATE KEYSPACE IF NOT EXISTS {keyspace_name} WITH replication = {str(keyspace_options)}"
session.execute(create_keyspace_query)

# Cierra la conexión con el clúster de Cassandra
cluster.shutdown()

print(f"Keyspace '{keyspace_name}' creado con éxito.")


Keyspace 'key_inspeccionrestaurante2' creado con éxito.


In [92]:
import pandas as pd
from cassandra.cluster import Cluster

def create_table_from_csv(csv_file_path, keyspace, table_name):
    # Leer el archivo CSV utilizando pandas y obtener los nombres de las columnas de la primera fila
    df = pd.read_csv(csv_file_path)
    column_names = df.columns.tolist()

    # Establecer conexión con el cluster de Cassandra
    cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
    session = cluster.connect()

    # Usar el keyspace
    session.set_keyspace(keyspace)

    # Construir la consulta CREATE TABLE utilizando los nombres de las columnas
    create_table_query = f"CREATE TABLE IF NOT EXISTS {keyspace}.{table_name} ("

    # Agregar las columnas dinámicamente a la declaración
    for column_name in column_names:
        create_table_query += f"{column_name} TEXT,"

    # Agregar la clave primaria al final
    create_table_query += f"PRIMARY KEY ({column_names[0]})"
    create_table_query += ")"

    # Ejecutar la consulta para crear la tabla
    session.execute(create_table_query)

    # Cerrar la conexión con el cluster
    session.shutdown()
    cluster.shutdown()

    # Imprimir un mensaje indicando que la tabla se ha creado con éxito
    print(f"La tabla '{table_name}' se ha creado correctamente en el keyspace '{keyspace}'.")

if __name__ == "__main__":
    # Reemplaza 'nombre_del_keyspace' y 'nombre_de_la_tabla' con los nombres deseados
    create_table_from_csv('swiggy.csv', 'key_inspeccionrestaurante', 'swiggy')


La tabla 'swiggy' se ha creado correctamente en el keyspace 'key_inspeccionrestaurante'.


In [93]:
import pandas as pd
from cassandra.cluster import Cluster

def insert_data_from_csv(csv_file_path, keyspace, table_name):
    # Leer el archivo CSV utilizando pandas
    df = pd.read_csv(csv_file_path)

    # Establecer conexión con el cluster de Cassandra
    cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
    session = cluster.connect()

    # Usar el keyspace
    session.set_keyspace(keyspace)

    # Construir la consulta INSERT dinámicamente
    insert_query = f"INSERT INTO {keyspace}.{table_name} ("

    # Agregar los nombres de las columnas a la consulta
    insert_query += ", ".join(df.columns.tolist())
    insert_query += ") VALUES ("

    # Agregar marcadores de posición para los valores
    insert_query += ", ".join(["?" for _ in df.columns])
    insert_query += ")"

    # Preparar la consulta INSERT
    prepared_insert = session.prepare(insert_query)

    # Insertar los datos desde el DataFrame en Cassandra
    for index, row in df.iterrows():
        # Convertir cada valor en la fila en una cadena antes de insertarlo
        values = [str(val) for val in row.tolist()]
        session.execute(prepared_insert, tuple(values))

    # Cerrar la conexión con el cluster
    session.shutdown()
    cluster.shutdown()

    # Imprimir un mensaje indicando que los datos se han insertado con éxito
    print(f"Los datos se han insertado correctamente en la tabla '{table_name}'.")

if __name__ == "__main__":
    # Reemplaza 'nombre_del_keyspace' y 'nombre_de_la_tabla' con los nombres deseados
    insert_data_from_csv('swiggy.csv', 'key_inspeccionrestaurante', 'swiggy')



Los datos se han insertado correctamente en la tabla 'swiggy'.


In [94]:
from cassandra.cluster import Cluster

def count_records_in_table(keyspace, table_name):
    # Establecer conexión con el cluster de Cassandra
    cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
    session = cluster.connect()

    # Usar el keyspace
    session.set_keyspace(keyspace)

    # Construir la consulta SELECT para contar los registros en la tabla
    count_query = f"SELECT COUNT(*) FROM {keyspace}.{table_name}"

    # Ejecutar la consulta
    result = session.execute(count_query)

    # Obtener el valor del conteo
    total_records = result.one()[0]

    # Cerrar la conexión con el cluster
    session.shutdown()
    cluster.shutdown()

    # Imprimir el total de registros en la tabla
    print(f"Total de registros en la tabla '{table_name}': {total_records}")

    
if __name__ == "__main__":
    # Reemplaza 'nombre_del_keyspace' y 'nombre_de_la_tabla' con los nombres correctos
    count_records_in_table('key_inspeccionrestaurante', 'swiggy')


Total de registros en la tabla 'swiggy': 148541


In [95]:
from cassandra.cluster import Cluster
import couchdb

def transfer_data_to_couchdb(keyspace, cassandra_table_name, couchdb_database_name):
    try:
        # Establecer conexión con el cluster de Cassandra
        cluster = Cluster(['127.0.0.1'])  # Reemplaza '127.0.0.1' con la dirección IP de tu nodo de Cassandra
        session = cluster.connect()

        # Usar el keyspace
        session.set_keyspace(keyspace)

        # Obtener los datos de la tabla Cassandra
        query = f"SELECT * FROM {keyspace}.{cassandra_table_name}"
        rows = session.execute(query)

        # Establecer conexión con CouchDB
        couch = couchdb.Server('http://admin:admin@localhost:5984/')

        # Crear la base de datos si no existe
        if couchdb_database_name not in couch:
            couch.create(couchdb_database_name)

        # Obtener o crear la base de datos CouchDB
        db = couch[couchdb_database_name]

        # Transferir datos a CouchDB
        for row in rows:
            # Crear un documento a partir de la fila de Cassandra
            doc = dict(row._asdict())

            # Agregar un campo con el nombre de la tabla como registro
            doc['tabla'] = cassandra_table_name

            # Eliminar la clave primaria (_id) de CouchDB si está presente
            if "_id" in doc:
                del doc["_id"]

            # Insertar el documento en CouchDB
            db.save(doc)

        print(f"Datos transferidos de la tabla '{cassandra_table_name}' de Cassandra a CouchDB correctamente.")

    except Exception as e:
        print(f"Error: {e}")

    finally:
        # Cerrar la conexión con el cluster de Cassandra
        session.shutdown()
        cluster.shutdown()

if __name__ == "__main__":
    # Reemplaza los nombres de keyspace, tabla de Cassandra y base de datos de CouchDB según tus configuraciones
    transfer_data_to_couchdb('key_inspeccionrestaurante', 'swiggy', 'proyectoanalisis')


Datos transferidos de la tabla 'swiggy' de Cassandra a CouchDB correctamente.


In [105]:
import pyodbc
import couchdb

def transfer_data_to_sql_server(couchdb_database_name):
    try:
        # Establecer conexión con CouchDB
        couch = couchdb.Server('http://admin:admin@localhost:5984/')

        # Obtener la base de datos de CouchDB
        db = couch[couchdb_database_name]

        # Obtener los documentos de CouchDB
        documents = db.view('_all_docs', include_docs=True)

        # Verificar si existe la base de datos de SQL Server
        server = 'DESKTOP-V0DR71N\\SQLEXPRESS'  # Nombre del servidor SQL Server
        database = 'PROYECTO_ANALISIS'  # Nombre de la base de datos en SQL Server
        conn = pyodbc.connect(f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};Trusted_Connection=yes')
        cursor = conn.cursor()

        # Crear una tabla para cada valor único en el campo "tabla" si no existe
        existing_tables = set()
        for doc in documents:
            data = doc['doc']
            tabla = data.get("tabla")
            if tabla and tabla not in existing_tables:
                # Verificar si la tabla ya existe en SQL Server
                if not table_exists(cursor, tabla):
                    # Crear una nueva tabla en SQL Server
                    column_definitions = ", ".join([f"{key} NVARCHAR(MAX)" for key in data.keys()])
                    
                    create_table_query = f"""
                        CREATE TABLE {tabla} (
                            {column_definitions}
                        )
                    """
                    cursor.execute(create_table_query)
                    conn.commit()
                existing_tables.add(tabla)

        # Insertar los datos en las tablas de SQL Server según el valor en el campo "tabla"
        for doc in documents:
            data = doc['doc']
            tabla = data.get("tabla")
            if tabla:
                # Recortar los valores de "menu_item" si son demasiado largos
                if "menu_item" in data:
                    data["menu_item"] = data["menu_item"][:500]  # Ajusta la longitud máxima a 500 caracteres
                # Aumentar la longitud máxima para "reviews_list"
                if "reviews_list" in data:
                    data["reviews_list"] = data["reviews_list"][:2000]  # Ajusta la longitud máxima a 2000 caracteres o más
                column_names = ", ".join(data.keys())
                placeholders = ", ".join(["?" for _ in data])
                insert_query = f"INSERT INTO {tabla} ({column_names}) VALUES ({placeholders})"
                cursor.execute(insert_query, list(data.values()))
                conn.commit()

        print("Datos importados desde CouchDB a las tablas de SQL Server correctamente.")

        # Cerrar la conexión con SQL Server
        cursor.close()
        conn.close()

    except Exception as e:
        print(f"Error: {e}")

def table_exists(cursor, table_name):
    # Función para verificar si la tabla existe en SQL Server
    cursor.execute(f"SELECT COUNT(*) FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = N'{table_name}'")
    return cursor.fetchone()[0] == 1

if __name__ == "__main__":
    # Reemplaza 'proyectofinal' con el nombre de tu base de datos de CouchDB
    transfer_data_to_sql_server('proyectoanalisis')

Datos importados desde CouchDB a las tablas de SQL Server correctamente.


In [96]:
import pyodbc
import couchdb

def transfer_data_to_sql_server(couchdb_database_name, sql_server_table_name):
    try:
        # Establecer conexión con CouchDB
        couch = couchdb.Server('http://admin:admin@localhost:5984/')

        # Obtener la base de datos de CouchDB
        db = couch[couchdb_database_name]

        # Obtener los documentos de CouchDB
        documents = db.view('_all_docs', include_docs=True)

        # Verificar si existe la base de datos de SQL Server
        server = 'DESKTOP-V0DR71N\\SQLEXPRESS'  # Nombre del servidor SQL Server
        database = 'PROYECTO_ANALISIS'  # Nombre de la base de datos en SQL Server
        conn = pyodbc.connect(f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};Trusted_Connection=yes')
        cursor = conn.cursor()

        # Crear una tabla para cada valor único en el campo "tabla" si no existe
        existing_tables = set()
        for doc in documents:
            data = doc['doc']
            tabla = data.get("tabla")
            if tabla and tabla not in existing_tables:
                # Verificar si la tabla ya existe en SQL Server
                if not table_exists(cursor, tabla):
                    # Crear una nueva tabla en SQL Server
                    column_definitions = ", ".join([f"{key} VARCHAR(255)" for key in data.keys()])
                    create_table_query = f"""
                        CREATE TABLE {tabla} (
                            {column_definitions}
                        )
                    """
                    cursor.execute(create_table_query)
                    conn.commit()
                existing_tables.add(tabla)

        # Insertar los datos en las tablas de SQL Server según el valor en el campo "tabla"
        for doc in documents:
            data = doc['doc']
            tabla = data.get("tabla")
            if tabla:
                # Recortar los valores de "menu_item" si son demasiado largos
                if "menu_item" in data:
                    data["menu_item"] = data["menu_item"][:255]  # Ajusta la longitud máxima a 255 caracteres
                column_names = ", ".join(data.keys())
                placeholders = ", ".join(["?" for _ in data])
                insert_query = f"INSERT INTO {tabla} ({column_names}) VALUES ({placeholders})"
                cursor.execute(insert_query, list(data.values()))
                conn.commit()

        print("Datos importados desde CouchDB a las tablas de SQL Server correctamente.")

        # Cerrar la conexión con SQL Server
        cursor.close()
        conn.close()

    except Exception as e:
        print(f"Error: {e}")

def table_exists(cursor, table_name):
    # Función para verificar si la tabla existe en SQL Server
    cursor.execute(f"SELECT COUNT(*) FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = N'{table_name}'")
    return cursor.fetchone()[0] == 1

if __name__ == "__main__":
    # Reemplaza 'proyectofinal' con el nombre de tu base de datos de CouchDB
    table_name = input("Ingrese el nombre de la tabla en SQL Server donde desea importar los datos: ")
    transfer_data_to_sql_server('proyectoanalisis', 'swiggy')


Ingrese el nombre de la tabla en SQL Server donde desea importar los datos: swiggy


KeyboardInterrupt: 