In [1]:
import pandas as pd
from unidecode import unidecode

In [2]:
def RemoveAcentosCaixaAlta(celula):
    if isinstance(celula, str):
        return unidecode(celula).upper()
    return celula

def ClassificaProfissao(profissao, arquivoComProfissoes):
    if pd.isna(profissao):
        return ""
    if profissao == "ESTUDANTE":
        return "ESTUDANTE"
    elif profissao in arquivoComProfissoes['Grupo 1'].values:
        return "GRUPO 1"
    elif profissao in arquivoComProfissoes['Grupo 2'].values:
        return "GRUPO 2"
    elif profissao in arquivoComProfissoes['Grupo 3'].values:
        return "GRUPO 3"
    elif profissao in arquivoComProfissoes['Grupo 4'].values:
        return "GRUPO 4"
    elif profissao in arquivoComProfissoes['Grupo 5'].values:
        return "GRUPO 5"
    else: 
        return "OUTROS"
    
def PadronizaMunicipio(municipio):
    if isinstance(municipio, str):
        municipioLimpo = municipio.split('|')[-1].strip()
        return municipioLimpo
    return municipio

def PadronizaPais(pais):
    if isinstance(pais, str) and '|' in pais:
        paisLimpo = pais.split('|')[-1].strip()
        return paisLimpo
    return pais

import pandas as pd

def ExportaExcelEmPartes(df, nomeDoArquivo):
    linhasPorParte=1000000
    # Criar um ExcelWriter
    with pd.ExcelWriter(nomeDoArquivo, engine='xlsxwriter') as writer:
        for i in range(0, len(df), linhasPorParte):
            # Escrever cada pedaço do DataFrame em uma nova aba
            df.iloc[i:i + linhasPorParte].to_excel(writer, 
                                                   sheet_name=f'Sheet{i // linhasPorParte + 1}', 
                                                   index=False)


# Leitura de arquivos necessários

In [3]:
# Lê o novo arquivo
novoArquivo = "ligue180-primeiro-semestre-2024.csv"
novaTabela = pd.read_csv(novoArquivo, sep=";", dtype=str, on_bad_lines='skip')

In [4]:
# Lê o arquivo de todo o período
tabelaDeTodoPeriodo = pd.read_csv('2014 a 2023-2.csv', sep=",", dtype=str)

In [5]:
# Lê o arquivo com dados desde 2020
tabelaDepoisDe2020 = pd.read_excel('2020-2 a 2023-2.xlsx', dtype=str)

In [6]:
# Lê o arquivo com o nome das colunas a serem subistituidas
tabelaComNomesDasColunas = pd.read_excel("Comparação dos campos de cada tabela.xlsx")

In [7]:
# Lê o arquivo com a lista de municípios do Brasil
arquivoComMunicipios = pd.read_csv("municipios.csv", dtype=str, delimiter=';', encoding = "ISO-8859-1")
arquivoComMunicipios['MUNICÍPIO - TOM'] = arquivoComMunicipios['MUNICÍPIO - TOM'].apply(unidecode)

In [8]:
# Lê o arquivo com as categorias de profissão do ENEM
arquivoComProfissoes = pd.read_excel("profissoes.xlsx", dtype=str)
arquivoComProfissoes = arquivoComProfissoes.map(lambda x: x.upper() if isinstance(x, str) else x)

# Verificação se a nova tabela manteve o mesmo padrão nos dados fornecidos

In [13]:
padraoAtual = tabelaComNomesDasColunas.iloc[17].tolist()
padraoAtual.pop(0)
padraoNaNovaTabela = novaTabela.columns.tolist()

if not set(padraoAtual) == set(padraoNaNovaTabela):
    print("A nova tabela mudou o padrão no dados. As seguintes colunas não batem:")

    colunasNaTabelaAtual = set(padraoAtual) - set(padraoNaNovaTabela)
    colunasNaTabelaAntiga = set(padraoNaNovaTabela) - set(padraoAtual)

    if colunasNaTabelaAtual:
        print("Valores na tabela antiga que não estão na nova tabela:", colunasNaTabelaAtual)
    if colunasNaTabelaAntiga:
        print("Valores na nova tabela que não estão na tabela antiga:", colunasNaTabelaAntiga)
else:

    print("A tabela antiga e a tabela nova possuem ainda as mesmas colunas.")
    print(f"Padrão atual:          {set(padraoAtual)}")
    print(f"Padrão na nova tabela: {set(padraoNaNovaTabela)}")

A tabela antiga e a tabela nova possuem ainda as mesmas colunas.
Padrão atual:          {'Profissão_da_vítima', 'Motivação', 'Denúncia_emergencial', 'Grupo_vulnerável', 'País_do_suspeito', 'Doença_rara_da_vítima', 'UF_da_vítima', 'Município', 'Deficiência_do_suspeito', 'sl_quantidade_vitimas', 'País', 'Vínculo_Órgão_PJ_do_suspeito', 'Data_de_cadastro', 'Faixa_etária_da_vítima', 'Início_das_violações', 'sl_vitima_naturalidade', 'Faixa_de_renda_da_vítima', 'sl_suspeito_naturalizado_municipio', 'Raça_Cor_da_vítima', 'Faixa_de_renda_do_suspeito', 'Vítima_preso_a', 'sl_suspeito_ramo', 'Orientação_sexual_da_vítima', 'Nacionalidade_da_vítima', 'sl_vitima_naturalizado_municipio', 'Frequência', 'Religião_da_vítima', 'suspeito_especificacao_etnia', 'Raça_Cor_do_suspeito', 'Faixa_etária_do_suspeito', 'Deficiência_relacionada_a_doença_rara_suspeito', 'Município_da_vítima', 'Suspeito_nacionalidade', 'Cenário_da_violação', 'Relação_vítima_suspeito', 'Grau_de_instrução_do_suspeito', 'sl_suspeito_natu

# Tratamento dos dados

In [14]:
# Obtenha o nome da primeira coluna
primeira_coluna = tabelaComNomesDasColunas.columns[0]

# Filtre as linhas onde o valor da primeira coluna é igual a 'valor_desejado'
linha_com_valor = tabelaComNomesDasColunas.loc[tabelaComNomesDasColunas[primeira_coluna] == '2023-2']

# Exibir o resultado
print(linha_com_valor)

       180 Unnamed: 1        Unnamed: 2            Unnamed: 3  \
14  2023-2       Hash  Data de cadastro  Canal de atendimento   

              Unnamed: 4   Unnamed: 5           Unnamed: 6 Unnamed: 7  \
14  Denúncia emergencial  Denunciante  Cenário da violação       País   

   Unnamed: 8 Unnamed: 9  ...                    Unnamed: 53  \
14         UF  Município  ...  Grau de instrução do suspeito   

             Unnamed: 54           Unnamed: 55        Unnamed: 56  \
14  Religião do suspeito  Raça\Cor do suspeito  Etnia do Suspeito   

                   Unnamed: 57                   Unnamed: 58  \
14  Faixa de renda do suspeito  Vínculo Órgão\PJ do suspeito   

         Unnamed: 59                   Unnamed: 60  \
14  sl suspeito ramo  suspeito especificacao etnia   

                   Unnamed: 61 Unnamed: 62  
14  vitima especificacao etnia   Violações  

[1 rows x 63 columns]


In [15]:
# Padroniza o nome das colunas na nova tabela, com base nas tabelas anteriores
novosNomesParaAsColunas = tabelaComNomesDasColunas.iloc[14].tolist()
novosNomesParaAsColunas.pop(0)
novosNomesParaAsColunas = [item for item in novosNomesParaAsColunas if not pd.isna(item)]
novaTabela.columns = novosNomesParaAsColunas

# Remove duplicatas com base na coluna de hash
novaTabela = novaTabela.drop_duplicates(subset='Hash', keep='first')

# Aplica sobre cada célula da tabela a fução que remove acentos e converte para caixa alta
novaTabela = novaTabela.map(RemoveAcentosCaixaAlta)

In [16]:
# Filtra os dados apenas de contra a mulher (se necessário)
#novaTabela['Grupo vulnerável'].unique()
#novaTabela = novaTabela[novaTabela['Grupo vulnerável'].isin([""])]

In [17]:
# Limpezas especificas
novaTabela = novaTabela.astype('string')
for coluna in novaTabela.columns: novaTabela[coluna] = novaTabela[coluna].replace(['NAO SABE INFORMAR', 'N/D', "ATENDIMENTO INTERROMPIDO", "DENUNCIANTE NAO SOUBE INFORMAR", "NAO INFORMADO"], '')
novaTabela = novaTabela.map(lambda x: x.strip() if isinstance(x, str) else x)

################################################################

novaTabela['País'] = novaTabela['País'].apply(PadronizaPais)

novaTabela['UF'] = novaTabela['UF'].str.strip()
novaTabela['UF'] = novaTabela['UF'].mask(~novaTabela['UF'].isin(['AC', 'AL', 'AP', 'AM', 'BA', 'CE', "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RS", "RO", "RR", "SC", "SP", "SE", "TO"]), '')

novaTabela['Município'] = novaTabela['Município'].apply(PadronizaMunicipio)
novaTabela['Município'] = novaTabela['Município'].where(novaTabela['Município'].isin(arquivoComMunicipios['MUNICÍPIO - TOM']), "")

################################################################

novaTabela['Nacionalidade da vítima'] = novaTabela['Nacionalidade da vítima'].apply(PadronizaPais)

novaTabela['País da vítima'] = novaTabela['País da vítima'].apply(PadronizaPais)

novaTabela['UF da vítima'] = novaTabela['UF da vítima'].str.strip()
novaTabela['UF da vítima'] = novaTabela['UF da vítima'].mask(~novaTabela['UF da vítima'].isin(['AC', 'AL', 'AP', 'AM', 'BA', 'CE', "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RS", "RO", "RR", "SC", "SP", "SE", "TO"]), '')

novaTabela['Município da vítima'] = novaTabela['Município da vítima'].apply(PadronizaMunicipio)
novaTabela['Município da vítima'] = novaTabela['Município da vítima'].where(novaTabela['Município da vítima'].isin(arquivoComMunicipios['MUNICÍPIO - TOM']), "")

novaTabela['sl vitima naturalizado uf'] = novaTabela['sl vitima naturalizado uf'].str.strip()
novaTabela['sl vitima naturalizado uf'] = novaTabela['sl vitima naturalizado uf'].mask(~novaTabela['sl vitima naturalizado uf'].isin(['AC', 'AL', 'AP', 'AM', 'BA', 'CE', "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RS", "RO", "RR", "SC", "SP", "SE", "TO"]), '')

novaTabela['sl vitima naturalizado municipio'] = novaTabela['sl vitima naturalizado municipio'].apply(PadronizaMunicipio)
novaTabela['sl vitima naturalizado municipio'] = novaTabela['sl vitima naturalizado municipio'].where(novaTabela['sl vitima naturalizado municipio'].isin(arquivoComMunicipios['MUNICÍPIO - TOM']), "")

################################################################

novaTabela['Suspeito nacionalidade'] = novaTabela['Nacionalidade da vítima'].apply(PadronizaPais)

novaTabela['País do suspeito'] = novaTabela['País do suspeito'].apply(PadronizaPais)

novaTabela['UF do suspeito'] = novaTabela['UF do suspeito'].str.strip()
novaTabela['UF do suspeito'] = novaTabela['UF do suspeito'].mask(~novaTabela['UF do suspeito'].isin(['AC', 'AL', 'AP', 'AM', 'BA', 'CE', "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RS", "RO", "RR", "SC", "SP", "SE", "TO"]), '')

novaTabela['Município do suspeito'] = novaTabela['Município do suspeito'].apply(PadronizaMunicipio)
novaTabela['Município do suspeito'] = novaTabela['Município do suspeito'].where(novaTabela['Município do suspeito'].isin(arquivoComMunicipios['MUNICÍPIO - TOM']), "")

novaTabela['sl suspeito naturalizado uf'] = novaTabela['sl suspeito naturalizado uf'].str.strip()
novaTabela['sl suspeito naturalizado uf'] = novaTabela['sl suspeito naturalizado uf'].mask(~novaTabela['sl suspeito naturalizado uf'].isin(['AC', 'AL', 'AP', 'AM', 'BA', 'CE', "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RS", "RO", "RR", "SC", "SP", "SE", "TO"]), '')

novaTabela['sl suspeito naturalizado municipio'] = novaTabela['sl suspeito naturalizado municipio'].apply(PadronizaMunicipio)
novaTabela['sl suspeito naturalizado municipio'] = novaTabela['sl suspeito naturalizado municipio'].where(novaTabela['sl suspeito naturalizado municipio'].isin(arquivoComMunicipios['MUNICÍPIO - TOM']), "")

################################################################

novaTabela['Sexo da vítima'] = novaTabela['Sexo da vítima'].mask(~novaTabela['Sexo da vítima'].isin(['FEMININO', 'MASCULINO']), '')
novaTabela['Sexo do suspeito'] = novaTabela['Sexo do suspeito'].mask(~novaTabela['Sexo do suspeito'].isin(['FEMININO', 'MASCULINO']), '')

novaTabela['Faixa etária da vítima'] = novaTabela['Faixa etária da vítima'].replace(['10 ANOS', '11 ANOS'], '10 A 11 ANOS')
novaTabela['Faixa etária da vítima'] = novaTabela['Faixa etária da vítima'].replace(['12 ANOS', '13 ANOS', '14 ANOS'], '12 A 14 ANOS')
novaTabela['Faixa etária do suspeito'] = novaTabela['Faixa etária do suspeito'].replace(['15 ANOS', '16 ANOS', '17 ANOS'], '15 A 17 ANOS')
novaTabela['Faixa etária do suspeito'] = novaTabela['Faixa etária do suspeito'].replace(['12 ANOS', '13 ANOS', '14 ANOS'], '12 A 14 ANOS')

novaTabela['Deficiência da vítima'] = novaTabela['Deficiência da vítima'].replace(['NAO'], 'NAO TEM DEFICIENCIA')
novaTabela['Deficiência do suspeito'] = novaTabela['Deficiência do suspeito'].replace(['NAO'], 'NAO TEM DEFICIENCIA')

novaTabela['Doença rara da vítima'] = novaTabela['Doença rara do suspeito'].replace(['NAO'], 'NAO TEM DOENCA RARA')
novaTabela['Doença rara do suspeito'] = novaTabela['Doença rara do suspeito'].replace(['NAO'], 'NAO TEM DOENCA RARA')

novaTabela['sl vitima cadastro'] = novaTabela['sl vitima cadastro'].replace(['COMUNIDADE', 'FAMILIA'], 'COMUNIDADE/FAMILIA')
novaTabela['Natureza Jurídica do Suspeito'] = novaTabela['Natureza Jurídica do Suspeito'].replace(['COMUNIDADE', 'FAMILIA'], 'COMUNIDADE/FAMILIA')

novaTabela['Orientação sexual da vítima'] = novaTabela['Orientação sexual da vítima'].replace(['HOMOSSEXUAL.LESBICA', 'HOMOSSEXUAL.GAY'], 'HOMOSSEXUAL')
novaTabela['Orientação sexual do suspeito'] = novaTabela['Orientação sexual do suspeito'].replace(['HOMOSSEXUAL.LESBICA', 'HOMOSSEXUAL.GAY'], 'HOMOSSEXUAL')

novaTabela['Grau de instrução da vítima'] = novaTabela['Grau de instrução da vítima'].replace(['ANALFABETO/SEM INSTRUCAO'], 'ANALFABETO')
novaTabela['Grau de instrução do suspeito'] = novaTabela['Grau de instrução do suspeito'].replace(['ANALFABETO/SEM INSTRUCAO'], 'ANALFABETO')

novaTabela['Religião da vítima'] = novaTabela['Religião da vítima'].replace(['ANALFABETO/SEM INSTRUCAO'], 'ANALFABETO')
novaTabela['Religião do suspeito'] = novaTabela['Religião do suspeito'].replace(['ANALFABETO/SEM INSTRUCAO'], 'ANALFABETO')

novaTabela['Etnia da vítima'] = novaTabela['Etnia da vítima'].replace(['PRETO', 'PARDO', 'PARDA'], '')
novaTabela['Etnia da vítima'] = novaTabela['Etnia da vítima'].replace(['COMUNIDADES QUILOMBOLAS'], 'QUILOMBOLAS')
novaTabela['Etnia da vítima'] = novaTabela['Etnia da vítima'].replace(['POVOS INDIGENAS'], 'INDIGENA')
novaTabela['Etnia da vítima'] = novaTabela['Etnia da vítima'].replace(['DEMAIS COMUNIDADES TRADICIONAIS'], 'POVOS E COMUNIDADES TRADICIONAIS')
novaTabela['Etnia da vítima'] = novaTabela['Etnia da vítima'].replace(['POVOS CIGANOS'], 'CIGANA')
novaTabela['Etnia do Suspeito'] = novaTabela['Etnia do Suspeito'].replace(['PRETO', 'PARDO', 'PARDA'], '')
novaTabela['Etnia do Suspeito'] = novaTabela['Etnia do Suspeito'].replace(['COMUNIDADES QUILOMBOLAS'], 'QUILOMBOLAS')
novaTabela['Etnia do Suspeito'] = novaTabela['Etnia do Suspeito'].replace(['POVOS INDIGENAS'], 'INDIGENA')
novaTabela['Etnia do Suspeito'] = novaTabela['Etnia do Suspeito'].replace(['DEMAIS COMUNIDADES TRADICIONAIS'], 'POVOS E COMUNIDADES TRADICIONAIS')
novaTabela['Etnia do Suspeito'] = novaTabela['Etnia do Suspeito'].replace(['POVOS CIGANOS'], 'CIGANO')

novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['ALUNO (A)'], 'ALUNO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['AMIGO (A)'], 'AMIGO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['AVO(O)'], 'AVO')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['COMPANHEIRO (A)'], 'COMPANHEIRO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['CUIDADOR (A)'], 'CUIDADOR(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['CUNHADO (A)'], 'CUNHADO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['EMPREGADO(HIERARQUICAMENTE INFERIOR)'], 'EMPREGADO (HIERARQUICAMENTE INFERIOR)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['EMPREGADOR/ PATRAO(HIERARQUICAMENTE SUPERIOR)', 'EMPREGADOR/PATRAO(HIERARQUICAMENTE SUPERIOR)'], 'EMPREGADOR/PATRAO (HIERARQUICAMENTE SUPERIOR)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['ESPOSA', 'MARIDO'], 'ESPOSO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['EX-COMPANHEIRO (A)'], 'EX-COMPANHEIRO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['EX-ESPOSA', 'EX-MARIDO'], 'EX-ESPOSO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['EX-NAMORADO (A)'], 'EX-NAMORADO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['FILHO (A)'], 'FILHO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['IRMAO (A)'], 'IRMAO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['LIDER RELIGIOSO'], 'LIDER RELIGIOSO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['MORA NA MESMA RESIDENCIA MAS NAO E FAMILIAR', 'MOROU NA MESMA RESIDENCIA MAS NAO E FAMILIAR'], 'MORA/MOROU NA MESMA RESIDENCIA MAS NAO E FAMILIAR')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['FAMILIARES', 'OUTROS FAMILIARES', 'OUTROS PROFISSIONAIS DA EDUCACAO'], 'OUTROS')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['PRESTADOR DE SERVICO'], 'PRESTADOR(A) DE SERVICO')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['TIO (A)'], 'TIO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['TREINADOR/TECNICO'], 'TREINADOR(A)/TECNICO(A)')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['TRISAVO(O)'], 'TRISAVO')
novaTabela['Relação vítima-suspeito'] = novaTabela['Relação vítima-suspeito'].replace(['VIZINHO (A)'], 'VIZINHO(A)')

novaTabela['Violações'] = novaTabela['Violações'].str.replace(';', '', regex=False)

substituicoes = {
    '1 A 3 SM': '1 A 3 SM',
    '3 A 5 SM': '3 A 5 SM',
    '5 A 15 SM': '5 A 15 SM',
    '6 A 15 SM': '5 A 15 SM',
    '8 A 15 SM': '5 A 15 SM',
    'ACIMA DE 15 SM': 'ACIMA DE 15 SM',
    'ATE 1 SM': 'ATE 1 SM',
    'ATE 1/2 SALARIO MINIMO': 'ATE 1/2 SM',
    'MAIS DE 1 A 2 SALARIOS MINIMOS': '1 A 3 SM',
    'MAIS DE 1/2 A 1 SALARIO MINIMO': 'ATE 1 SM',
    'MAIS DE 10 A 20 SALARIOS MINIMOS': '10 A 20 SM',
    'MAIS DE 2 A 5 SALARIOS MINIMOS': '3 A 5 SM',
    'MAIS DE 20 SALARIOS MINIMOS': 'MAIS DE 20 SM',
    'MAIS DE 5 A 10 SALARIOS MINIMOS': '5 A 15 SM',
    'SEM RENDIMENTO': 'SEM RENDIMENTO'
}

novaTabela['Faixa de renda da vítima'] = novaTabela['Faixa de renda da vítima'].replace(substituicoes)

novaTabela = novaTabela.drop('Hash', axis=1)
novaTabela = novaTabela.drop('Grupo vulnerável', axis=1)

# Padroniza conforme dicionario de dados do ENEM
novaTabela['Profissão da vítima'] = novaTabela['Profissão da vítima'].apply(lambda profissao: ClassificaProfissao(profissao, arquivoComProfissoes))
novaTabela['Profissão do suspeito'] = novaTabela['Profissão do suspeito'].apply(lambda profissao: ClassificaProfissao(profissao, arquivoComProfissoes))

# Faz a união da nova tabela com os dados de 2020 em diante e exporta o arquivo

In [18]:
# Inseri os novos dados na tabela com dados depois de 2020
novaTabelaDepoisDe2020 = pd.concat([novaTabela, tabelaDepoisDe2020], ignore_index=True)

In [23]:
# Salva a tabela unificada
novaTabelaDepoisDe2020.to_csv("2020-2 a 2024-1.xlsx", index=False)

# Faz a união da nova tabela com os dados de todo o período (2014 até hoje) trata os dados unidos e exporta o arquivo

In [20]:
# Inseri os novos dados na tabela com dados de todo período
novaTabelaDeTodoPeriodo = pd.concat([novaTabela, tabelaDeTodoPeriodo], ignore_index=True)

In [21]:
substituicoes = {
    'TELEFONICO': 'ATENDIMENTO TELEFÔNICO',
    'CENTRAL DE ATENDIMENTO': 'ATENDIMENTO TELEFÔNICO',
    'DENUNCIA - ATENDIMENTO TELEFONICO': 'ATENDIMENTO TELEFÔNICO',
    'ATENDIMENTO TELEFONICO': 'ATENDIMENTO TELEFÔNICO',
    'CENTRAL DE ATENDIMENTO SEPPIR': 'ATENDIMENTO TELEFÔNICO',
    
    'WHATSAPP': 'APLICATIVOS/ONLINE',
    'TELEGRAM': 'APLICATIVOS/ONLINE',
    'APLICATIVO': 'APLICATIVOS/ONLINE',
    'APLICATIVO/APP': 'APLICATIVOS/ONLINE',
    'MOBILE DH': 'APLICATIVOS/ONLINE',
    'PROTEJA BRASIL - APLICATIVO': 'APLICATIVOS/ONLINE',
    'MOBILE SABE': 'APLICATIVOS/ONLINE',
    'MOBILE GDF': 'APLICATIVOS/ONLINE',
    
    'E-MAIL': 'E-MAIL',
    'E-MAIL: LIGUE180@MDH.GOV.BR': 'E-MAIL',
    'DENUNCIA - ATENDIMENTO E-MAIL': 'E-MAIL',
    
    'WEBCHAT': 'WEB/ONLINE CHAT',
    'PORTAL': 'WEB/ONLINE CHAT',
    'E-OUV': 'WEB/ONLINE CHAT',
    'DENUNCIA WEB': 'WEB/ONLINE CHAT',
    
    'PRESENCIAL': 'CORRESPONDÊNCIA/PRESENCIAL',
    'CARTA': 'CORRESPONDÊNCIA/PRESENCIAL',
    'OFICIO': 'CORRESPONDÊNCIA/PRESENCIAL',
    'DENUNCIA - ATENDIMENTO PRESENCIAL': 'CORRESPONDÊNCIA/PRESENCIAL',
    'DENUNCIA - ATENDIMENTO OFICIO': 'CORRESPONDÊNCIA/PRESENCIAL',
    'DENUNCIA - ATENDIMENTO CARTA': 'CORRESPONDÊNCIA/PRESENCIAL',
    
    'VIDEOCHAMADA': 'VÍDEO/OUTROS',
    'PROCESSO SEI': 'VÍDEO/OUTROS',
    'AUTUACAO DE OFICIO': 'VÍDEO/OUTROS',
}
novaTabelaDeTodoPeriodo['Canal de atendimento'] = novaTabelaDeTodoPeriodo['Canal de atendimento'].replace(substituicoes)

substituicoes = {
    'A PROPRIA VITIMA': 'VITIMA',
    'COMPANHEIRO': 'PARCEIRO/COMPANHEIRO',
    'COMPANHEIRA (LESBICA)': 'PARCEIRO/COMPANHEIRO',
    'EX COMPANHEIRO': 'EX-PARCEIRO/COMPANHEIRO',
    'EX COMPANHEIRA (LESBICA)': 'EX-PARCEIRO/COMPANHEIRO',
    'CONJUGE': 'PARCEIRO/COMPANHEIRO',
    'NAMORADO': 'PARCEIRO/COMPANHEIRO',
    'NAMORADA (LESBICA)': 'PARCEIRO/COMPANHEIRO',
    'EX NAMORADO': 'EX-PARCEIRO/COMPANHEIRO',
    'EX NAMORADA (LESBICA)': 'EX-PARCEIRO/COMPANHEIRO',
    'ANONIMO': 'DESCONHECIDO',
    
    'OUTRO(A)': 'OUTROS',
    'PROPRIETARIO(A) DO IMOVEL EM QUE A VITIMA RESIDE': 'OUTROS',
    'TERCEIRO': 'OUTROS',
    'O PROPRIO AGRESSOR': 'OUTROS',
    'PESSOA COM DEFICIENCIA MENTAL': 'OUTROS',
    'PESSOA EM SOFRIMENTO PSIQUICO': 'OUTROS',
}
novaTabelaDeTodoPeriodo['Denunciante'] = novaTabelaDeTodoPeriodo['Denunciante'].replace(substituicoes)

substituicoes = {
    '1 A 3 SALARIOS MINIMOS': '1 A 3 SM',
    '1 A 3 SM': '1 A 3 SM',
    '3 A 5 SALARIOS MINIMOS': '3 A 5 SM',
    '3 A 5 SM': '3 A 5 SM',
    '5 A 15 SALARIOS MINIMOS': '5 A 15 SM',
    '5 A 15 SM': '5 A 15 SM',
    'ACIMA DE  15 SALARIOS MINIMOS': 'ACIMA DE 15 SM',
    'ACIMA DE 15 SM': 'ACIMA DE 15 SM',
    'ATE 1 SALARIO MINIMO': 'ATE 1 SM',
    'ATE 1 SM': 'ATE 1 SM',
    'ATE 1/2 SM': 'ATE 1/2 SM',
    '10 A 20 SM': '10 A 20 SM',
    'MAIS DE 20 SM': 'MAIS DE 20 SM',
    'SEM RENDIMENTO': 'SEM RENDIMENTO'
}
novaTabelaDeTodoPeriodo['Faixa de renda da vítima'] = novaTabelaDeTodoPeriodo['Faixa de renda da vítima'].replace(substituicoes)
novaTabelaDeTodoPeriodo['Faixa de renda do suspeito'] = novaTabelaDeTodoPeriodo['Faixa de renda do suspeito'].replace(substituicoes)

substituicoes = {
    '0 A 3 ANOS': '0 A 3 ANOS',
    '01 ANO': '0 A 3 ANOS',
    '02 ANOS': '0 A 3 ANOS',
    '03 ANOS': '0 A 3 ANOS',
    'MENOS DE 01 ANO': '0 A 3 ANOS',
    
    '04 ANOS': '4 A 7 ANOS',
    '05 ANOS': '4 A 7 ANOS',
    '06 ANOS': '4 A 7 ANOS',
    '07 ANOS': '4 A 7 ANOS',
    '4 A 7 ANOS': '4 A 7 ANOS',
    
    '08 ANOS': '8 A 11 ANOS',
    '10 A 11 ANOS': '8 A 11 ANOS',
    '8 A 11 ANOS': '8 A 11 ANOS',
    'ATE 9 ANOS': '8 A 11 ANOS',
    
    '12 A 14 ANOS': '12 A 14 ANOS',
    'ENTRE 10 E 14 ANOS': '12 A 14 ANOS',
    
    '15 ANOS': '15 A 17 ANOS',
    '16 ANOS': '15 A 17 ANOS',
    '17 ANOS': '15 A 17 ANOS',
    '15 A 17 ANOS': '15 A 17 ANOS',
    
    '18 A 19 ANOS': '18 A 24 ANOS',
    '18 A 24 ANOS': '18 A 24 ANOS',
    '20 A 24 ANOS': '18 A 24 ANOS',
    'ENTRE 15 E 19 ANOS': '18 A 24 ANOS',
    'ENTRE 20 E 24 ANOS': '18 A 24 ANOS',
    
    '25 A 29 ANOS': '25 A 29 ANOS',
    '25 A 30 ANOS': '25 A 29 ANOS',
    'ENTRE 25 E 29 ANOS': '25 A 29 ANOS',
    
    '30 A 34 ANOS': '30 A 34 ANOS',
    '31 A 35 ANOS': '30 A 34 ANOS',
    'ENTRE 30 E 34 ANOS': '30 A 34 ANOS',
    
    '35 A 39 ANOS': '35 A 39 ANOS',
    '36 A 40 ANOS': '35 A 39 ANOS',
    'ENTRE 35 E 39 ANOS': '35 A 39 ANOS',
    
    '40 A 44 ANOS': '40 A 44 ANOS',
    '41 A 45 ANOS': '40 A 44 ANOS',
    'ENTRE 40 E 44 ANOS': '40 A 44 ANOS',
    
    '45 A 49 ANOS': '45 A 49 ANOS',
    '46 A 50 ANOS': '45 A 49 ANOS',
    'ENTRE 45 E 49 ANOS': '45 A 49 ANOS',
    
    '50 A 54 ANOS': '50 A 54 ANOS',
    '51 A 55 ANOS': '50 A 54 ANOS',
    'ENTRE 50 E 54 ANOS': '50 A 54 ANOS',
    
    '55 A 59 ANOS': '55 A 59 ANOS',
    '56 A 60 ANOS': '55 A 59 ANOS',
    'ENTRE 55 E 59 ANOS': '55 A 59 ANOS',
    
    '60 A 64 ANOS': '60 A 64 ANOS',
    '61 A 65 ANOS': '60 A 64 ANOS',
    'ENTRE 60 E 64 ANOS': '60 A 64 ANOS',
    
    '65 A 69 ANOS': '65 A 69 ANOS',
    '66 A 70 ANOS': '65 A 69 ANOS',
    'ENTRE 65 E 69 ANOS': '65 A 69 ANOS',
    
    '70 A 74 ANOS': '70 A 74 ANOS',
    '71 A 75 ANOS': '70 A 74 ANOS',
    'MAIOR DE 70 ANOS': '70 A 74 ANOS',
    
    '75 A 79 ANOS': '75 A 79 ANOS',
    '76 A 80 ANOS': '75 A 79 ANOS',
    
    '80 A 84 ANOS': '80 A 84 ANOS',
    '81 A 85 ANOS': '80 A 84 ANOS',
    
    '85 A 89 ANOS': '85 A 89 ANOS',
    '85 A 90 ANOS': '85 A 89 ANOS',
    
    '91 ANOS OU MAIS': '90 ANOS OU MAIS',
    
    'CRIANCA/ADOLESCENTE IDADE NAO INFORMADA': 'CRIANCA/ADOLESCENTE IDADE NAO INFORMADA',
    'IDOSO IDADE NAO INFORMADA': 'IDOSO IDADE NAO INFORMADA',
    'NASCITURO': 'NASCITURO',
}
novaTabelaDeTodoPeriodo['Faixa etária da vítima'] = novaTabelaDeTodoPeriodo['Faixa etária da vítima'].replace(substituicoes)

substituicoes = {
    '0 A 3 ANOS': '0 A 3 ANOS',
    '00 A 1 ANO': '0 A 3 ANOS',
    'RECEM-NASCIDO': '0 A 3 ANOS',
    
    '02 A 04 ANOS': '4 A 7 ANOS',
    '4 A 7 ANOS': '4 A 7 ANOS',
    
    '05 A 09 ANOS': '5 A 9 ANOS',
    'ATE 9 ANOS': '5 A 9 ANOS',
    
    '8 A 11 ANOS': '8 A 11 ANOS',
    '10 A 11 ANOS': '8 A 11 ANOS',
    
    '12 A 14 ANOS': '12 A 14 ANOS',
    'ENTRE 10 E 14 ANOS': '12 A 14 ANOS',
    
    '15 A 17 ANOS': '15 A 17 ANOS',
    'ENTRE 15 E 19 ANOS': '15 A 17 ANOS',
    
    '18 A 19 ANOS': '18 A 24 ANOS',
    '18 A 24 ANOS': '18 A 24 ANOS',
    '20 A 24 ANOS': '18 A 24 ANOS',
    'ENTRE 20 E 24 ANOS': '18 A 24 ANOS',
    
    '25 A 29 ANOS': '25 A 29 ANOS',
    '25 A 30 ANOS': '25 A 29 ANOS',
    'ENTRE 25 E 29 ANOS': '25 A 29 ANOS',
    
    '30 A 34 ANOS': '30 A 34 ANOS',
    '31 A 35 ANOS': '30 A 34 ANOS',
    'ENTRE 30 E 34 ANOS': '30 A 34 ANOS',
    
    '35 A 39 ANOS': '35 A 39 ANOS',
    '36 A 40 ANOS': '35 A 39 ANOS',
    'ENTRE 35 E 39 ANOS': '35 A 39 ANOS',
    
    '40 A 44 ANOS': '40 A 44 ANOS',
    '41 A 45 ANOS': '40 A 44 ANOS',
    'ENTRE 40 E 44 ANOS': '40 A 44 ANOS',
    
    '45 A 49 ANOS': '45 A 49 ANOS',
    '46 A 50 ANOS': '45 A 49 ANOS',
    'ENTRE 45 E 49 ANOS': '45 A 49 ANOS',
    
    '50 A 54 ANOS': '50 A 54 ANOS',
    '51 A 55 ANOS': '50 A 54 ANOS',
    'ENTRE 50 E 54 ANOS': '50 A 54 ANOS',
    
    '55 A 59 ANOS': '55 A 59 ANOS',
    '56 A 60 ANOS': '55 A 59 ANOS',
    'ENTRE 55 E 59 ANOS': '55 A 59 ANOS',
    
    '60 A 64 ANOS': '60 A 64 ANOS',
    '61 A 65 ANOS': '60 A 64 ANOS',
    'ENTRE 60 E 64 ANOS': '60 A 64 ANOS',
    
    '65 A 69 ANOS': '65 A 69 ANOS',
    '66 A 70 ANOS': '65 A 69 ANOS',
    'ENTRE 65 E 69 ANOS': '65 A 69 ANOS',
    
    '70 A 74 ANOS': '70 A 74 ANOS',
    '71 A 75 ANOS': '70 A 74 ANOS',
    'MAIOR DE 70 ANOS': '70 A 74 ANOS',
    
    '75 A 79 ANOS': '75 A 79 ANOS',
    '76 A 80 ANOS': '75 A 79 ANOS',
    
    '80 A 84 ANOS': '80 A 84 ANOS',
    '80 ANOS OU MAIS': '80 A 84 ANOS',
    '81 A 85 ANOS': '80 A 84 ANOS',
    
    '85 A 89 ANOS': '85 A 89 ANOS',
    '85 A 90 ANOS': '85 A 89 ANOS',
    
    '90+': '90 ANOS OU MAIS',
    '91 ANOS OU MAIS': '90 ANOS OU MAIS',
    
    'CRIANCA/ADOLESCENTE IDADE NAO INFORMADA': 'CRIANCA/ADOLESCENTE IDADE NAO INFORMADA',
    'IDOSO IDADE NAO INFORMADA': 'IDOSO IDADE NAO INFORMADA',
    'NASCITURO': 'NASCITURO'
}
novaTabelaDeTodoPeriodo['Faixa etária do suspeito'] = novaTabelaDeTodoPeriodo['Faixa etária do suspeito'].replace(substituicoes)

substituicoes = {
    'DIARIAMENTE': 'DIARIAMENTE',
    'OCORRE TODOS OS DIAS': 'DIARIAMENTE',
    'TODA MANHA': 'DIARIAMENTE',
    'TODA TARDE': 'DIARIAMENTE',
    
    'SEMANALMENTE': 'SEMANALMENTE',
    'OCORRE ALGUMAS VEZES NA SEMANA': 'SEMANALMENTE',
    
    'QUINZENALMENTE': 'QUINZENALMENTE',
    
    'MENSALMENTE': 'MENSALMENTE',
    'OCORRE ALGUMAS VEZES NO DECORRER DO MES': 'MENSALMENTE',
    
    'OCASIONALMENTE': 'ANUALMENTE/OCASIONALMENTE',
    'OCORRE ALGUMAS VEZES NO DECORRER DO ANO': 'ANUALMENTE/OCASIONALMENTE',
    
    'OCORREU UMA VEZ': 'UNICA OCORRENCIA',
    'UNICA OCORRENCIA': 'UNICA OCORRENCIA',
    'UNICA VEZ': 'UNICA OCORRENCIA',
    
    'OUTRO': 'OUTRO',
}
novaTabelaDeTodoPeriodo['Frequência'] = novaTabelaDeTodoPeriodo['Frequência'].replace(substituicoes)

substituicoes = {
    'ANALFABETA(O)': 'ANALFABETO',
    'ANALFABETO': 'ANALFABETO',
    'ANALFABETO(A)': 'ANALFABETO',
    
    'ENSINO FUNDAMENTAL': 'ENSINO FUNDAMENTAL',
    'ENSINO FUNDAMENTAL COMPLETO': 'ENSINO FUNDAMENTAL',
    'ENSINO FUNDAMENTAL INCOMPLETO': 'ENSINO FUNDAMENTAL',
    
    'ENSINO MEDIO': 'ENSINO MEDIO',
    'ENSINO MEDIO COMPLETO': 'ENSINO MEDIO',
    'ENSINO MEDIO INCOMPLETO': 'ENSINO MEDIO',
    
    'ENSINO SUPERIOR': 'ENSINO SUPERIOR',
    'ENSINO SUPERIOR COMPLETO': 'ENSINO SUPERIOR',
    'ENSINO SUPERIOR INCOMPLETO': 'ENSINO SUPERIOR',
    'SUPERIOR COMPLETO': 'ENSINO SUPERIOR',
    'SUPERIOR INCOMPLETO': 'ENSINO SUPERIOR',
    
    'POS GRADUACAO': 'POS-GRADUACAO',
    'POS-DOUTORADO': 'POS-GRADUACAO',
    'POS-GRADUACAO': 'POS-GRADUACAO',
    'ESPECIALIZACAO': 'POS-GRADUACAO',
    'MESTRADO': 'POS-GRADUACAO',
    'DOUTORADO': 'POS-GRADUACAO',
    
    'NIVEL TECNICO': 'NIVEL TECNICO',
    
    'CRIANCA/ADOLESCENTE QUE NAO FREQUENTA INSTITUICAO DE ENSINO': 'CRIANCA/ADOLESCENTE QUE NAO FREQUENTA INSTITUICAO DE ENSINO'
}

novaTabelaDeTodoPeriodo['Grau de instrução da vítima'] = novaTabelaDeTodoPeriodo['Grau de instrução da vítima'].replace(substituicoes)
novaTabelaDeTodoPeriodo['Grau de instrução do suspeito'] = novaTabelaDeTodoPeriodo['Grau de instrução do suspeito'].replace(substituicoes)




In [22]:
novaTabelaDeTodoPeriodo.to_csv("2014 a 2024-1.xlsx", index=False)