In [None]:
import pandas as pd
import numpy as np
import sqlite3 as sql
from datetime import datetime
from sqlite3 import IntegrityError
import gc
import itertools
import os
import pytz
brasil_tz = pytz.timezone('America/Sao_Paulo')

In [None]:
def valor_padrao(valor, padrao=-1):
    if pd.isna(valor) or str(valor).strip() == "":
        return padrao
    return valor

In [None]:
def criar_sexo(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_SEXO""")
  cursor.execute("""
  INSERT INTO DWCD_SEXO VALUES
  (-1, '-1', 'Inválido', ?),
  (1, '1', 'Masculino', ?),
  (2, 'M', 'Masculino', ?),
  (3, '2', 'Feminino', ?),
  (4, 'F', 'Feminino', ?),
  (5, 'I', 'Ignorado', ?),
  (6, '0', 'Ignorado', ?),
  (7, '9', 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora, agora, agora))

In [None]:
def criar_raca(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_RACA""")
  cursor.execute("""
  INSERT INTO DWCD_RACA VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'Branca', ?),
  (2, 2, 'Preta', ?),
  (3, 3, 'Amarela', ?),
  (4, 4, 'Parda', ?),
  (5, 5, 'Indígena', ?)
  """, (agora, agora, agora, agora, agora, agora))

In [None]:
def criar_obito_puerperio(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_OBITO_PUERPERIO""")
  cursor.execute("""
  INSERT INTO DWCD_OBITO_PUERPERIO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'Sim, até 42 dias após o parto', ?),
  (2, 2, 'Sim, de 43 dias a 1 ano', ?),
  (3, 3, 'Não', ?),
  (4, 9, 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora))

In [None]:
def criar_ocorrencia_obito(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_OCORRENCIA_OBITO""")
  cursor.execute("""
  INSERT INTO DWCD_OCORRENCIA_OBITO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'Na gravidez', ?),
  (2, 2, 'No parto', ?),
  (3, 3, 'No abortamento', ?),
  (4, 4, 'Até 42 dias após o término do parto', ?),
  (5, 5, 'De 43 dias a 1 ano após o término da gestação', ?),
  (6, 8, 'Não ocorreu nestes períodos', ?),
  (7, 9, 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora, agora, agora))

In [None]:
def criar_fonte_informacoes(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_FONTE_INFORMACAO""")
  cursor.execute("""
  INSERT INTO DWCD_FONTE_INFORMACAO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'ocorrência policial', ?),
  (2, 2, 'hospital', ?),
  (3, 3, 'família', ?),
  (4, 4, 'outra', ?),
  (5, 9, 'ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora))

In [None]:
def criar_local_tipo_ocorrencia(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_LOCAL_TIPO_OCORRENCIA""")
  cursor.execute("""
  INSERT INTO DWCD_LOCAL_TIPO_OCORRENCIA
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'via pública', ?),
  (2, 2, 'endereço de residência', ?),
  (3, 3, 'outro domicílio', ?),
  (4, 4, 'estabelecimento comercial', ?),
  (5, 5, 'outros', ?),
  (6, 9, 'ignorada', ?)
  """, (agora, agora, agora, agora, agora, agora, agora))

In [None]:
def criar_metodo_parto(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_METODO_PARTO""")
  cursor.execute("""
  INSERT INTO DWCD_METODO_PARTO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'vaginal', ?),
  (2, 2, 'cesáreo', ?),
  (3, 9, 'ignorado', ?)
  """, (agora, agora, agora, agora))

In [None]:
def criar_escolaridade(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_ESCOLARIDADE""")
  cursor.execute("""
  INSERT INTO DWCD_ESCOLARIDADE
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 0, 'Sem escolaridade', ?),
  (2, 1, 'Fundamental I (1ª a 4ª série)', ?),
  (3, 2, 'Fundamental II (5ª a 8ª série)', ?),
  (4, 3, 'Médio (antigo 2º Grau)', ?),
  (5, 4, 'Superior incompleto', ?),
  (6, 5, 'Superior completo', ?),
  (7, 9, 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora, agora, agora))

In [None]:
def criar_local_ocorrencia(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_LOCAL_OCORRENCIA""")
  cursor.execute("""
  INSERT INTO DWCD_LOCAL_OCORRENCIA
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'hospital', ?),
  (2, 2, 'outros estabelecimentos de saúde', ?),
  (3, 3, 'domicílio', ?),
  (4, 4, 'via pública', ?),
  (5, 5, 'outros', ?),
  (6, 6, 'aldeia indígena', ?),
  (7, 9, 'ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora, agora, agora))

In [None]:
def criar_estado_civil(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_ESTADO_CIVIL""")
  cursor.execute("""
  INSERT INTO DWCD_ESTADO_CIVIL
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'Solteiro', ?),
  (2, 2, 'Casado', ?),
  (3, 3, 'Viúvo', ?),
  (4, 4, 'Separado judicialmente/divorciado', ?),
  (5, 5, 'União estável', ?),
  (6, 9, 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora, agora))


In [None]:
def criar_circunstancia_obito(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_CIRCUNSTANCIA_OBITO""")
  cursor.execute("""
  INSERT INTO DWCD_CIRCUNSTANCIA_OBITO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'acidente', ?),
  (2, 2, 'suicídio', ?),
  (3, 3, 'homicídio', ?),
  (4, 4, 'outros', ?) ,
  (5, 9, 'ignorado', ?)
  """, (agora, agora, agora, agora, agora, agora))

In [None]:
def criar_tipo_gravidez(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_GESTACAO_MULTIPLA""")
  cursor.execute("""
  INSERT INTO DWCD_GESTACAO_MULTIPLA
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'única', ?),
  (2, 2, 'dupla', ?),
  (3, 3, 'tripla e mais', ?),
  (4, 9, 'ignorado', ?)
  """, (agora, agora, agora, agora, agora))

In [None]:
def limpar_pessoa_obito(cursor):
  cursor.execute("""DELETE FROM DWMV_OBITO""")
  cursor.execute("""DELETE FROM DWCD_PESSOA""")

In [None]:
def criar_pessoa_obito(cursor, caminho, ano):
    batch_size = 32677

    cursor.execute("SELECT SK_Dados_Demograficos FROM DWMV_Obito WHERE DT_Data LIKE ?", ('%' + str(ano),))
    sks_demograficos = cursor.fetchall()

    if sks_demograficos:
        lista_sks = [sk[0] for sk in sks_demograficos]
        cursor.execute("DELETE FROM DWMV_Obito WHERE DT_Data LIKE ?", ('%' + str(ano),))
        print(f"Deleted {len(lista_sks)} records from DWMV_Obito.")

        for i in range(0, len(lista_sks), batch_size):
            batch = lista_sks[i:i + batch_size]
            placeholders = ', '.join(['?'] * len(batch))
            cursor.execute(f"DELETE FROM DWCD_DADOS_DEMOGRAFICOS WHERE SK_Dados_Demograficos IN ({placeholders})", batch)
    else:
        print("No records found for the specified year.")

    df_cru = pd.read_csv(caminho, sep=';', quotechar='"', dtype=str, encoding='ISO-8859-1')
    df_cru['LINHAA'] = df_cru['LINHAA'].str.replace(r"\*|X$", "", regex=True)
    df_cru['HORAOBITO'] = df_cru['HORAOBITO'].astype(str).str.strip().replace({'nan': None})

    dt_times = pd.to_datetime(df_cru['HORAOBITO'], format='%H%M', errors='coerce')

    df_cru['HORAOBITO'] = dt_times.dt.strftime('%H:%M:%S')
    df_cru['HORAOBITO'] = df_cru['HORAOBITO'].where(df_cru['HORAOBITO'].notna(), None)

    df_cru['HORA'] = dt_times.dt.hour
    df_cru['HORA'] = df_cru['HORA'].where(df_cru['HORA'].notna(), None)
    df_cru = df_cru.replace("", -1).fillna(-1)
    agora = datetime.now(brasil_tz)
    agora = agora.strftime('%Y-%m-%d %H:%M:%S')

    nm_arquivo = os.path.basename(caminho)

    sexo_map = dict(cursor.execute("SELECT CAST(CD_Sexo AS TEXT), SK_Sexo FROM DWCD_SEXO").fetchall())
    raca_map = dict(cursor.execute("SELECT CAST(CD_Raca AS TEXT), SK_Raca FROM DWCD_RACA").fetchall())
    ocupacao_map = dict(cursor.execute("SELECT CAST(CD_Ocupacao AS TEXT), SK_Ocupacao FROM DWCD_OCUPACAO").fetchall())
    estado_civil_map = dict(cursor.execute("SELECT CAST(CD_Estado_Civil AS TEXT), SK_Estado_Civil FROM DWCD_ESTADO_CIVIL").fetchall())
    escolaridade_map = dict(cursor.execute("SELECT CAST(CD_Escolaridade AS TEXT), SK_Escolaridade FROM DWCD_ESCOLARIDADE").fetchall())
    municipio_map = dict(cursor.execute("SELECT CAST(CD_Municipio AS TEXT), SK_Municipio FROM DWCD_MUNICIPIO").fetchall())
    local_ocorrencia_map = dict(cursor.execute("SELECT CAST(CD_Local_Ocorrencia AS TEXT), SK_Local_Ocorrencia FROM DWCD_LOCAL_OCORRENCIA").fetchall())
    escolaridade_mae_map = escolaridade_map
    gestacao_multipla_map = dict(cursor.execute("SELECT CAST(CD_Gestacao_Multipla AS TEXT), SK_Gestacao_Multipla FROM DWCD_GESTACAO_MULTIPLA").fetchall())
    metodo_parto_map = dict(cursor.execute("SELECT CAST(CD_Metodo_Parto AS TEXT), SK_Metodo_Parto FROM DWCD_METODO_PARTO").fetchall())
    obito_parto_map = dict(cursor.execute("SELECT CAST(CD_Obito_Parto AS TEXT), SK_Obito_Parto FROM DWCD_OBITO_PARTO").fetchall())
    ocorrencia_obito_map = dict(cursor.execute("SELECT CAST(CD_Ocorrencia_Obito AS TEXT), SK_Ocorrencia_Obito FROM DWCD_OCORRENCIA_OBITO").fetchall())
    circunstancia_obito_map = dict(cursor.execute("SELECT CAST(CD_Circunstancia_Obito AS TEXT), SK_Circunstancia_Obito FROM DWCD_CIRCUNSTANCIA_OBITO").fetchall())
    fonte_informacao_map = dict(cursor.execute("SELECT CAST(CD_Fonte_Informacao AS TEXT), SK_Fonte_Informacao FROM DWCD_FONTE_INFORMACAO").fetchall())
    local_tipo_ocorrencia_map = dict(cursor.execute("SELECT CAST(CD_Local_Tipo_Ocorrencia AS TEXT), SK_Local_Tipo_Ocorrencia FROM DWCD_LOCAL_TIPO_OCORRENCIA").fetchall())
    obito_puerperio_map = dict(cursor.execute("SELECT CAST(CD_Obito_Puerperio AS TEXT), SK_Obito_Puerperio FROM DWCD_OBITO_PUERPERIO").fetchall())
    cid_map = dict(cursor.execute("SELECT CAST(CD_CID AS TEXT), SK_CID FROM DWCD_CID").fetchall())

    cursor.execute("SELECT COALESCE(MAX(SK_Dados_Demograficos), 0) FROM DWCD_DADOS_DEMOGRAFICOS")
    last_sk = cursor.fetchone()[0]
    sk_generator = itertools.count(last_sk + 1)

    dados_pessoa_batch = []
    dados_obito_batch = []

    for linha in df_cru.itertuples(index=False):
        sk_novo = next(sk_generator)

        sexo_sk = sexo_map.get(linha.SEXO, -1)
        raca_sk = raca_map.get(linha.RACACOR, -1)
        estado_civil_sk = estado_civil_map.get(linha.ESTCIV, -1)
        escolaridade_sk = escolaridade_map.get(linha.ESC, -1)
        municipio_residencia_sk = municipio_map.get(linha.CODMUNRES, -1)
        ocupacao_sk = ocupacao_map.get(linha.OCUP, -1)

        dados_pessoa_batch.append((
            sk_novo,
            nm_arquivo,
            sexo_sk,
            municipio_residencia_sk,
            raca_sk,
            estado_civil_sk,
            escolaridade_sk,
            ocupacao_sk,
            linha.NATURAL,
            linha.IDADE,
            linha.DTNASC,
            agora
        ))

        local_ocorrencia_sk = local_ocorrencia_map.get(linha.LOCOCOR, -1)
        municipio_ocorrencia_sk = municipio_map.get(linha.CODMUNOCOR, -1)
        escolaridade_mae_sk = escolaridade_mae_map.get(linha.ESCMAE2010, -1)
        gestacao_multipla_sk = gestacao_multipla_map.get(linha.GRAVIDEZ, -1)
        metodo_parto_sk = metodo_parto_map.get(linha.PARTO, -1)
        obito_parto_sk = obito_parto_map.get(linha.OBITOPARTO, -1)
        ocorrencia_obito_sk = ocorrencia_obito_map.get(linha.TPMORTEOCO, -1)
        circunstancia_obito_sk = circunstancia_obito_map.get(linha.CIRCOBITO, -1)
        fonte_informacao_sk = fonte_informacao_map.get(linha.FONTE, -1)
        local_tipo_ocorrencia_sk = local_tipo_ocorrencia_map.get(linha.TPOBITOCOR, -1)
        obito_puerperio_sk = obito_puerperio_map.get(linha.OBITOPUERP, -1)
        cid_sk = cid_map.get(linha.LINHAA, -1)
        ocupacao_mae_sk = ocupacao_map.get(linha.OCUPMAE, -1)
        causa_basica_sk = cid_map.get(linha.CAUSABAS, -1)

        dados_obito_batch.append((
            sk_novo,
            linha.TIPOBITO,
            linha.DTOBITO,
            linha.HORA,
            linha.HORAOBITO,
            local_ocorrencia_sk,
            municipio_ocorrencia_sk,
            linha.CODESTAB,
            linha.IDADEMAE,
            escolaridade_mae_sk,
            ocupacao_mae_sk,
            linha.QTDFILVIVO,
            linha.QTDFILMORT,
            linha.SEMAGESTAC,
            gestacao_multipla_sk,
            metodo_parto_sk,
            obito_parto_sk,
            linha.PESO,
            ocorrencia_obito_sk,
            linha.ASSISTMED,
            linha.NECROPSIA,
            cid_sk,
            causa_basica_sk,
            linha.ATESTANTE,
            linha.COMUNSVOIM,
            linha.DTATESTADO,
            circunstancia_obito_sk,
            linha.ACIDTRAB,
            fonte_informacao_sk,
            local_tipo_ocorrencia_sk,
            obito_puerperio_sk,
            linha.EXAME,
            linha.CIRURGIA,
            agora
        ))


    cursor.executemany("""
        INSERT INTO DWCD_DADOS_DEMOGRAFICOS (
            SK_Dados_Demograficos, NM_Arquivo, SK_Sexo, SK_Municipio_Residencia,
            SK_Raca, SK_Estado_Civil, SK_Escolaridade, SK_Ocupacao, SK_Naturalidade,
            DS_Idade, DT_Nascimento, DT_Carga
        ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
    """, dados_pessoa_batch)

    cursor.executemany("""
        INSERT INTO DWMV_OBITO (
            SK_Dados_Demograficos, ST_Obito_Fetal, DT_Data, DT_Hora, DT_Hora_Minuto, SK_Local_Ocorrencia, SK_Municipio,
            DS_Estabelecimento, DS_Idade_Mae, SK_Escolaridade_Mae, SK_Ocupacao_Mae, DS_Filhos_Vivos,
            DS_Filhos_Perdidos, DS_Semanas_Gestacao, SK_Gestacao_Multipla, SK_Metodo_Parto, SK_Obito_Parto,
            DS_Peso_Nascimento, SK_Ocorrencia_Obito, ST_Assistencia_Medica, ST_Necropsia, SK_CID,
            SK_Causa_Basica, DS_Atestado_Medico, DS_Municipio_SVO_IML, DT_Atestado, SK_Circunstancia_Obito,
            ST_Acidente_Trabalho, SK_Fonte_Informacao, SK_Local_Tipo_Ocorrencia_Acidente, SK_Obito_Puerperio,
            ST_Exame, ST_Cirurgia, DT_Carga
        ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
    """, dados_obito_batch)

    del df_cru, dados_pessoa_batch, dados_obito_batch
    gc.collect()


In [None]:
def criar_municipios(cursor, caminho):
    agora = datetime.now(brasil_tz).strftime('%Y-%m-%d %H:%M:%S')

    df_cru = pd.read_excel(caminho, skiprows=6, header=None)
    df_cru.columns = df_cru.iloc[0]
    df_municipio = df_cru[1:].reset_index(drop=True)

    cursor.execute("""
    INSERT INTO DWCD_MUNICIPIO (SK_Municipio, CD_Municipio, NM_Municipio, SK_UF, DT_Carga)
    VALUES (?, ?, ?, ?, ?)
    ON CONFLICT(CD_Municipio) DO NOTHING
    """, (-1, -1, "Inválido", -1, agora))

    UF_map = dict(cursor.execute("SELECT CAST(\"CD_UF\" AS TEXT), SK_UF FROM DWCD_UF").fetchall())

    for _, row in df_municipio.iterrows():
        codigo_ibge = int(row['Código Município Completo'])  # 7 dígitos
        codigo_base = codigo_ibge // 10  # remove dígito verificador
        UF_sk = UF_map.get(row['UF'], -1)

        cursor.execute("""
        INSERT INTO DWCD_MUNICIPIO (CD_Municipio, NM_Municipio, SK_UF, DT_Carga)
        VALUES (?, ?, ?, ?)
        ON CONFLICT(CD_Municipio)
        DO UPDATE SET
            NM_Municipio = excluded.NM_Municipio,
            SK_UF = excluded.SK_UF,
            DT_Carga = excluded.DT_Carga
        """, (codigo_base, row['Nome_Município'], UF_sk, agora))

In [None]:
def criar_obito_parto(cursor):
  agora = datetime.now(brasil_tz)
  agora = agora.strftime('%Y-%m-%d %H:%M:%S')
  cursor.execute("""DELETE FROM DWCD_OBITO_PARTO""")
  cursor.execute("""
  INSERT INTO DWCD_OBITO_PARTO
  VALUES
  (-1, -1, 'Inválido', ?),
  (1, 1, 'antes', ?),
  (2, 2, 'durante', ?),
  (3, 3, 'depois', ?),
  (4, 9, 'Ignorado', ?)
  """, (agora, agora, agora, agora, agora))

In [None]:
def criar_cid(cursor, caminho):
    agora = datetime.now(brasil_tz).strftime('%Y-%m-%d %H:%M:%S')
    df_raw = pd.read_csv(caminho, sep=';', encoding='ISO-8859-1')
    cursor.execute("""
    INSERT INTO DWCD_CID (SK_CID, CD_CID, DS_CID, DT_Carga)
    VALUES (?, ?, ?, ?)
    ON CONFLICT(CD_CID) DO NOTHING
    """, (-1, -1, "Inválido", agora))

    for _, row in df_raw.iterrows():
        cursor.execute("""
        INSERT INTO DWCD_CID (CD_CID, DS_CID, DT_Carga)
        VALUES (?, ?, ?)
        ON CONFLICT(CD_CID)
        DO UPDATE SET
            DS_CID = excluded.DS_CID,
            DT_Carga = excluded.DT_Carga
        """, (row.get('SUBCAT'), row.get('DESCRICAO'), agora))

In [None]:
def criar_uf(cursor, caminho):
    agora = datetime.now(brasil_tz).strftime('%Y-%m-%d %H:%M:%S')
    df_cru = pd.read_excel(caminho, skiprows=6, header=None)
    df_cru.columns = df_cru.iloc[0]
    df_municipio = df_cru[1:].reset_index(drop=True)
    df_uf_cru = df_municipio[['UF', 'Nome_UF']]
    df_uf = df_uf_cru.drop_duplicates()
    cursor.execute("""
    INSERT INTO DWCD_UF (SK_UF, CD_UF, NM_UF, DT_Carga)
    VALUES (?, ?, ?, ?)
    ON CONFLICT(CD_UF) DO NOTHING
    """, (-1, -1, "Inválido", agora))

    for _, row in df_uf.iterrows():
        cursor.execute("""
        INSERT INTO DWCD_UF (CD_UF, NM_UF, DT_Carga)
        VALUES (?, ?, ?)
        ON CONFLICT(CD_UF)
        DO UPDATE SET
            NM_UF = excluded.NM_UF,
            DT_Carga = excluded.DT_Carga
        """, (row['UF'], row['Nome_UF'], agora))

In [None]:
def criar_ocupacao(cursor, caminho):
    agora = datetime.now(brasil_tz).strftime('%Y-%m-%d %H:%M:%S')
    df = pd.read_csv(caminho, sep=';', quotechar='"', encoding='ISO-8859-1')
    cursor.execute("""
    INSERT INTO DWCD_OCUPACAO (SK_Ocupacao, CD_Ocupacao, DS_Ocupacao, DT_Carga)
    VALUES (?, ?, ?, ?)
    ON CONFLICT(CD_Ocupacao) DO NOTHING
    """, (-1, -1, "Inválido", agora))

    for _, row in df.iterrows():
        cursor.execute("""
        INSERT INTO DWCD_OCUPACAO (CD_Ocupacao, DS_Ocupacao, DT_Carga)
        VALUES (?, ?, ?)
        ON CONFLICT(CD_Ocupacao)
        DO UPDATE SET
            DS_Ocupacao = excluded.DS_Ocupacao,
            DT_Carga = excluded.DT_Carga
        """, (row['CODIGO'], row['TITULO'], agora))

In [None]:
def criar_base_de_dados(cursor):
  cursor.executescript("""
CREATE TABLE IF NOT EXISTS "DWCD_OCUPACAO" (
	"SK_Ocupacao" INTEGER NOT NULL,
	"CD_Ocupacao" INTEGER NOT NULL UNIQUE,
	"DS_Ocupacao" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Ocupacao")
);

CREATE TABLE IF NOT EXISTS "DWCD_UF" (
	"SK_UF" INTEGER NOT NULL,
	"CD_UF" INTEGER NOT NULL UNIQUE,
	"NM_UF" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_UF")
);

CREATE TABLE IF NOT EXISTS "DWCD_OBITO_PARTO" (
	"SK_Obito_Parto" INTEGER NOT NULL,
	"CD_Obito_Parto" INTEGER NOT NULL UNIQUE,
	"DS_Obito_Parto" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Obito_Parto")
);

CREATE TABLE IF NOT EXISTS "DWCD_CID" (
	"SK_CID" INTEGER NOT NULL,
	"CD_CID" VARCHAR NOT NULL UNIQUE,
	"DS_CID" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_CID")
);

CREATE TABLE IF NOT EXISTS "DWCD_DADOS_DEMOGRAFICOS" (
	"SK_Dados_Demograficos" INTEGER NOT NULL,
	"NM_Arquivo" VARCHAR NOT NULL,
	"SK_Sexo" INTEGER NOT NULL,
	"SK_Municipio_Residencia" INTEGER NOT NULL,
	"SK_Raca" INTEGER,
	"SK_Estado_Civil" INTEGER,
	"SK_Escolaridade" INTEGER,
	"SK_Ocupacao" INTEGER,
	"SK_Naturalidade" INTEGER,
	"DS_Idade" INTEGER,
	"DT_Nascimento" DATE,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Dados_Demograficos", "NM_Arquivo", "SK_Sexo", "SK_Municipio_Residencia"),
	FOREIGN KEY ("SK_Estado_Civil") REFERENCES "DWCD_ESTADO_CIVIL"("SK_Estado_Civil")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Raca") REFERENCES "DWCD_RACA"("SK_Raca")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Sexo") REFERENCES "DWCD_SEXO"("SK_Sexo")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Municipio_Residencia") REFERENCES "DWCD_MUNICIPIO"("SK_Municipio")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Naturalidade") REFERENCES "DWCD_MUNICIPIO"("SK_Municipio")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Escolaridade") REFERENCES "DWCD_ESCOLARIDADE"("SK_Escolaridade")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Ocupacao") REFERENCES "DWCD_OCUPACAO"("SK_Ocupacao")
	ON UPDATE NO ACTION ON DELETE NO ACTION
);

CREATE TABLE IF NOT EXISTS "DWMV_OBITO" (
	"SK_Dados_Demograficos" INTEGER NOT NULL UNIQUE,
	"SK_CID" INTEGER NOT NULL,
	"SK_Municipio" INTEGER NOT NULL,
	"SK_Local_Ocorrencia" INTEGER NOT NULL,
	"ST_Obito_Fetal" INTEGER NOT NULL,
	"DT_Data" DATE NOT NULL,
	"SK_Obito_Parto" INTEGER,
	"SK_Causa_Basica" INTEGER,
	"SK_Escolaridade_Mae" INTEGER,
	"SK_Ocupacao_Mae" INTEGER,
	"SK_Gestacao_Multipla" INTEGER,
	"SK_Metodo_Parto" INTEGER,
	"SK_Ocorrencia_Obito" INTEGER,
	"SK_Circunstancia_Obito" INTEGER,
	"SK_Local_Tipo_Ocorrencia_Acidente" INTEGER,
	"SK_Fonte_Informacao" INTEGER,
	"SK_Obito_Puerperio" INTEGER,
	"DT_Hora_Minuto" TIME,
	"DT_Hora" INTEGER,
	"DS_Estabelecimento" INTEGER,
	"DS_Idade_Mae" INTEGER,
	"DS_Filhos_Vivos" INTEGER,
	"DS_Filhos_Perdidos" INTEGER,
	"DS_Semanas_Gestacao" INTEGER,
	"DS_Peso_Nascimento" INTEGER,
	"DS_Atestado_Medico" INTEGER,
	"DS_Municipio_SVO_IML" INTEGER,
	"DT_Atestado" DATE,
	"ST_Necropsia" INTEGER,
	"ST_Acidente_Trabalho" INTEGER,
	"ST_Assistencia_Medica" INTEGER,
	"ST_Exame" INTEGER,
	"ST_Cirurgia" INTEGER,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Dados_Demograficos", "SK_CID", "SK_Municipio", "SK_Local_Ocorrencia", "ST_Obito_Fetal", "DT_Data"),
	FOREIGN KEY ("SK_Local_Ocorrencia") REFERENCES "DWCD_LOCAL_OCORRENCIA"("SK_Local_Ocorrencia")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Municipio") REFERENCES "DWCD_MUNICIPIO"("SK_Municipio")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Escolaridade_Mae") REFERENCES "DWCD_ESCOLARIDADE"("SK_Escolaridade")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Obito_Puerperio") REFERENCES "DWCD_OBITO_PUERPERIO"("SK_Obito_Puerperio")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Causa_Basica") REFERENCES "DWCD_CID"("SK_CID")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_CID") REFERENCES "DWCD_CID"("SK_CID")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Obito_Parto") REFERENCES "DWCD_OBITO_PARTO"("SK_Obito_Parto")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Local_Tipo_Ocorrencia_Acidente") REFERENCES "DWCD_LOCAL_TIPO_OCORRENCIA"("SK_Local_Tipo_Ocorrencia")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Fonte_Informacao") REFERENCES "DWCD_FONTE_INFORMACAO"("SK_Fonte_Informacao")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Circunstancia_Obito") REFERENCES "DWCD_CIRCUSTANCIA_OBITO"("SK_Circunstancia_Obito")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Ocorrencia_Obito") REFERENCES "DWCD_OCORRENCIA_OBITO"("SK_Ocorrencia_Obito")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Metodo_Parto") REFERENCES "DWCD_METODO_PARTO"("SK_Metodo_Parto")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Gestacao_Multipla") REFERENCES "DWCD_GESTACAO_MULTIPLA"("SK_Gestacao_Multipla")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Ocupacao_Mae") REFERENCES "DWCD_OCUPACAO"("SK_Ocupacao")
	ON UPDATE NO ACTION ON DELETE NO ACTION,
	FOREIGN KEY ("SK_Dados_Demograficos") REFERENCES "DWCD_DADOS_DEMOGRAFICOS"("SK_Dados_Demograficos")
	ON UPDATE NO ACTION ON DELETE NO ACTION
);

CREATE TABLE IF NOT EXISTS "DWCD_GESTACAO_MULTIPLA" (
	"SK_Gestacao_Multipla" INTEGER NOT NULL,
	"CD_Gestacao_Multipla" INTEGER NOT NULL UNIQUE,
	"DS_Gestacao_Multipla" VARCHAR NOT NULL UNIQUE,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Gestacao_Multipla")
);

CREATE TABLE IF NOT EXISTS "DWCD_MUNICIPIO" (
	"SK_Municipio" INTEGER NOT NULL,
	"CD_Municipio" INTEGER NOT NULL UNIQUE,
	"NM_Municipio" VARCHAR NOT NULL,
	"SK_UF" INTEGER NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Municipio"),
	FOREIGN KEY ("SK_UF") REFERENCES "DWCD_UF"("SK_UF")
	ON UPDATE NO ACTION ON DELETE NO ACTION
);

CREATE TABLE IF NOT EXISTS "DWCD_ESTADO_CIVIL" (
	"SK_Estado_Civil" INTEGER NOT NULL,
	"CD_Estado_Civil" INTEGER NOT NULL UNIQUE,
	"DS_Estado_Civil" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Estado_Civil")
);

CREATE TABLE IF NOT EXISTS "DWCD_LOCAL_OCORRENCIA" (
	"SK_Local_Ocorrencia" INTEGER NOT NULL,
	"CD_Local_Ocorrencia" INTEGER NOT NULL UNIQUE,
	"DS_Local_Ocorrencia" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Local_Ocorrencia")
);

CREATE TABLE IF NOT EXISTS "DWCD_ESCOLARIDADE" (
	"SK_Escolaridade" INTEGER NOT NULL,
	"CD_Escolaridade" INTEGER NOT NULL UNIQUE,
	"DS_Escolaridade" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Escolaridade")
);

CREATE TABLE IF NOT EXISTS "DWCD_METODO_PARTO" (
	"SK_Metodo_Parto" INTEGER NOT NULL,
	"CD_Metodo_Parto" INTEGER NOT NULL UNIQUE,
	"DS_Metodo_Parto" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Metodo_Parto")
);

CREATE TABLE IF NOT EXISTS "DWCD_OCORRENCIA_OBITO" (
	"SK_Ocorrencia_Obito" INTEGER NOT NULL,
	"CD_Ocorrencia_Obito" INTEGER NOT NULL UNIQUE,
	"DS_Ocorrencia_Obito" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Ocorrencia_Obito")
);

CREATE TABLE IF NOT EXISTS "DWCD_CIRCUNSTANCIA_OBITO" (
	"SK_Circunstancia_Obito" INTEGER NOT NULL,
	"CD_Circunstancia_Obito" INTEGER NOT NULL UNIQUE,
	"DS_Circunstancia_Obito" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Circunstancia_Obito")
);

CREATE TABLE IF NOT EXISTS "DWCD_FONTE_INFORMACAO" (
	"SK_Fonte_Informacao" INTEGER NOT NULL,
	"CD_Fonte_Informacao" INTEGER NOT NULL UNIQUE,
	"DS_Fonte_Informacao" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Fonte_Informacao")
);

CREATE TABLE IF NOT EXISTS "DWCD_LOCAL_TIPO_OCORRENCIA" (
	"SK_Local_Tipo_Ocorrencia" INTEGER NOT NULL,
	"CD_Local_Tipo_Ocorrencia" INTEGER NOT NULL UNIQUE,
	"DS_Local_Tipo_Ocorrencia" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Local_Tipo_Ocorrencia")
);

CREATE TABLE IF NOT EXISTS "DWCD_OBITO_PUERPERIO" (
	"SK_Obito_Puerperio" INTEGER NOT NULL,
	"CD_Obito_Puerperio" INTEGER NOT NULL UNIQUE,
	"DS_Obito_Puerperio" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Obito_Puerperio")
);

CREATE TABLE IF NOT EXISTS "DWCD_RACA" (
	"SK_Raca" INTEGER NOT NULL,
	"CD_Raca" INTEGER NOT NULL UNIQUE,
	"DS_Raca" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Raca")
);

CREATE TABLE IF NOT EXISTS "DWCD_SEXO" (
	"SK_Sexo" INTEGER NOT NULL,
	"CD_Sexo" VARCHAR NOT NULL UNIQUE,
	"DS_Sexo" VARCHAR NOT NULL,
	"DT_Carga" TIMESTAMP NOT NULL,
	PRIMARY KEY("SK_Sexo")
);
  """)

In [None]:
 with sql.connect('mortalidade.db') as conn:
  cursor = conn.cursor()
  criar_base_de_dados(cursor)
  criar_sexo(cursor)
  criar_raca(cursor)
  criar_obito_puerperio(cursor)
  criar_escolaridade(cursor)
  criar_fonte_informacoes(cursor)
  criar_local_ocorrencia(cursor)
  criar_ocorrencia_obito(cursor)
  criar_local_tipo_ocorrencia(cursor)
  criar_metodo_parto(cursor)
  criar_estado_civil(cursor)
  criar_tipo_gravidez(cursor)
  criar_circunstancia_obito(cursor)
  criar_uf(cursor, 'RELATORIO_DTB_BRASIL_2024_MUNICIPIOS.xls')
  criar_ocupacao(cursor, 'cbo2002-ocupacao.csv')
  criar_municipios(cursor, 'RELATORIO_DTB_BRASIL_2024_MUNICIPIOS.xls')
  criar_obito_parto(cursor)
  criar_cid(cursor, 'CID-10-SUBCATEGORIAS.CSV')
  for ano in range(2018, 2025):
    criar_pessoa_obito(cursor, 'Mortalidade_Geral_' + str(ano) + '.csv' , ano)