Notebook para la conversión de db sqlite to pg

In [None]:
import sqlite3
import pandas as pd
import psycopg2
import sqlalchemy as al
from configparser import ConfigParser

Bloque 0: Definición de variables

In [None]:
sqliteDb = "D:/BDD-Sqlite(V1)/app.db"
newPostgreSQLDbName = 'demo' # No usar mayusculas

Bloque 1: Sqlite Dump File or dataframe

In [None]:
# Establece la conexion con una BDD SQlite
conn = sqlite3.connect(sqliteDb)

In [None]:
# Definicion de dataframe 'dbSchemaQueries' con sentencias SQL para la creacion del esquema de la BDD
dbSchemaQueries = pd.read_sql("select sql from sqlite_master", con=conn)
dbSchemaQueries = dbSchemaQueries.mask(dbSchemaQueries.eq(None)).dropna()

# Definicion de dataframe 'tableNames' con los nombres de las tablas
tableNames = pd.read_sql("SELECT name FROM sqlite_master WHERE (type='table')", con=conn)

# Definicion de 'dbData', lista que contendra multiples dataframes, cada uno con los datos de una tabla de la BDD
dbData = []
selectQuery = "SELECT * from "

# Iteracion en la que se carga 'dbData' con los datos de cada tabla de la BDD (un SELECT por tabla existente)
for i in range(len(tableNames)):
    currentTable = tableNames['name'][i]
    dbData.append(pd.read_sql_query(selectQuery + currentTable, con=conn))

In [None]:
conn.close()

Bloque 2: Datatypes convertion

In [None]:
# Cambia los datos de las columnas con identificadores a su tipo respectivo (boolean, timestamp, money, etc)
for i in dbData:
    for columnName in i.columns: 
        if "(BL)" in columnName:
            i[columnName] = i[columnName].astype(bool)
            #print(i[col_name])
        elif "date" in columnName:
            i[columnName] = pd.to_datetime(i[columnName])
            #print(i[col_name])


Bloque 3: Scheme Parser

In [None]:
# Definicion de funcion 'boolCHECKDelete' (limpia una Query SQL eliminando los CHECKS booleanos que pueda tener)
def boolCHECKDelete(query):

    # Define una variable auxiliar para procesar la query recibida
    parsedQuery = query

    # Define un substring con todos los CHECK de la query
    allChecks = parsedQuery[parsedQuery.index('\tCHECK'):-1]

    # Separa cada CHECK como un nuevo substring
    allChecks = allChecks.split('\n')

    # Recorre todos los CHECK que posee la query, busca si existe el tag '(BL)' y borra los que los posean (boolean CHECKS utilizados en SQlite) 
    for i in range(len(allChecks)):
        if '(BL)' in allChecks[i]:
            parsedQuery = parsedQuery.replace('\n'+allChecks[i], '')

    # Chequea si existe una ',' en el final de la query y la elimina para mantener correcta la sintaxis de la misma
    if ',' in parsedQuery[len(parsedQuery)-5:]:
        parsedQuery = parsedQuery[:len(parsedQuery)-5] + '' + parsedQuery[len(parsedQuery)-5] + '\n)'
    return parsedQuery

In [None]:
#Parseo de todas las queries de la BDD SQlite almacenadas en el dataframe 'dbSchemaQueries'

# Definicion de 'parsed_dbSchemaQueries', lista que contendra todas las queries parseadas
parsed_dbSchemaQueries = []

# Iteracion que recorre todo el dataframe, query a query.
for i in dbSchemaQueries.index:

    # Define una variable auxiliar para procesar la query actual
    currentQuery = dbSchemaQueries['sql'][i]
    
    # Reemplaza los campos DATETIME con TIMESTAMP para el pasaje a PosgreSQL
    currentQuery = currentQuery.replace('DATETIME', 'TIMESTAMP')

    # Conditions for table named "user".
    """currentQuery = currentQuery.replace('CREATE TABLE user', 'CREATE TABLE "user"')
    currentQuery = currentQuery.replace('CREATE TABLE "user"_', 'CREATE TABLE user_')
    currentQuery = currentQuery.replace('ON user', 'ON "user"')
    currentQuery = currentQuery.replace('ON "user"_', 'ON user_')
    currentQuery = currentQuery.replace('REFERENCES user', 'REFERENCES "user"')
    currentQuery = currentQuery.replace('REFERENCES "user"_', 'REFERENCES user_')"""

    # Sentencia ocasional debido al fallo en un campo de la tabla purchase, donde la longitud de los datos almacenados supera la asignada al campo
    currentQuery = currentQuery.replace('VARCHAR(16)', 'VARCHAR(32)')

    # Se verifica que la query posea CHECKS, en caso de tenerlos, ejecuta 'boolCHECKDelete' en la query actual
    if(currentQuery.find('CHECK') != -1):
        currentQuery = boolCHECKDelete(currentQuery)

    # Añade la query parseada a la lista
    parsed_dbSchemaQueries.append(currentQuery)

# Impresion por pantalla de las queries parseadas
for i in range(len(parsed_dbSchemaQueries)):
    print(parsed_dbSchemaQueries[i])

Bloque 3: Dump file to pg

In [None]:
# Extraccion de prametros del archivo 'pg.ini'
def config(archivo='pg.ini', seccion='postgresql'):
    # Crear el parser y leer el archivo
    parser = ConfigParser()
    parser.read(archivo)
 
    # Obtener la sección de conexión a la base de datos
    db = {}
    if parser.has_section(seccion):
        params = parser.items(seccion)
        for param in params:
            db[param[0]] = param[1]
        return db
    else:
        raise Exception('Secccion {0} no encontrada en el archivo {1}'.format(seccion, archivo))

Bloque 4: Conexión al servidor de bases de datos PostgreSQL y Creación de nueva BDD

In [None]:
# Creamos el cursor con el objeto conexion
params = config()
conexion = psycopg2.connect(**params)
conexion.autocommit = True
cur = conexion.cursor()

# creamos la nueva BDD utilizando el cursor
createDBQuery = 'CREATE DATABASE ' + newPostgreSQLDbName
cur.execute(createDBQuery)

# crea nuevos parametros para conectarse a la BDD recien creada
newDBparams = config()
newDBparams['database'] = newPostgreSQLDbName
#newDBparams['user'] = 'gdeluca'
#newDBparams['password'] = 'gdeluca'

# Cerramos la conexión
conexion.commit()
conexion.close()

Bloque 5: Creacion de las tablas en la nueva BDD

In [None]:
# Creamos el cursor con el objeto conexion
conexion = psycopg2.connect(**newDBparams)
conexion.autocommit = True
cur = conexion.cursor()

# iteracion en la cual el cursor ejecuta todas las queries previamente parseadas una a una. (Crea las tablas en la nueva BDD PostgreSQL)
for i in range(len(parsed_dbSchemaQueries)):
    cur.execute(parsed_dbSchemaQueries[i])

# Cerramos la conexión
conexion.commit()
conexion.close()

Bloque 6: Carga de los datos

In [None]:
# Creamos una conexion en 'engine' para utilizar SQLAlchemy
dbConexionString = 'postgresql://'+newDBparams['user']+':'+newDBparams['password']+'@192.168.1.105:5432/' + newPostgreSQLDbName
engine = al.create_engine(dbConexionString)

# Iteracion donde recorre cada dataframe en 'dbData' y carga los datos formateados de cada df a la tabla correspondiente en la nueva BDD
for i in range(len(dbData)):
    dbData[i].to_sql(tableNames['name'][i], con=engine, if_exists="append", index = False)