In [2]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np
import glob

In [9]:
# Caminho da pasta que contém as planilhas
caminho_pasta = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Entrada\DMR_Bruto_2017_2025'
caminho_saida = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024'

# Garantir que a pasta de saída exista
os.makedirs(caminho_saida, exist_ok=True)

# Anos a serem processados
anos = list(range(2017, 2025))  # Inclui até 2024
lista_df = []

print("Resumo do processamento por ano:\n")
total_final = 0

for ano in anos:
    nome_arquivo = f'dmr_{ano}*.csv'  # O "*" vai garantir de pegar os dois arquivos - 2023 e 2023_2
    caminho_arquivo = os.path.join(caminho_pasta, nome_arquivo)

for ano in anos:
    padrao_arquivo = os.path.join(caminho_pasta, f'dmr_{ano}*.csv')  # busca todos com dmr_2023*.csv, por exemplo
    arquivos_ano = glob.glob(padrao_arquivo)

    total_ano = 0
    total_ano_original = 0
    total_ano_removido = 0

    for caminho_arquivo in arquivos_ano:
        try:
            df = pd.read_csv(caminho_arquivo, encoding='utf-8')
            total_original = len(df)
            df_filtrado = df[df['declaracao_descricao'] == 'DMR Mensal RSU'].copy()
            total_filtrado = len(df_filtrado)
            removidos = total_original - total_filtrado

            df_filtrado['ano'] = ano
            lista_df.append(df_filtrado)

            total_ano_original += total_original
            total_ano += total_filtrado
            total_ano_removido += removidos

        except Exception as e:
            print(f"Erro ao processar {caminho_arquivo}: {e}")

    print(f"Ano {ano}:")
    print(f" - Linhas totais (somando todos arquivos do ano): {total_ano_original}")
    print(f" - Filtradas ('DMR Mensal RSU'): {total_ano}")
    print(f" - Linhas removidas: {total_ano_removido}\n")
    total_final += total_ano

# Concatena todos os anos
df_concatenado = pd.concat(lista_df, ignore_index=True)

# Salva resultado final
arquivo_saida = os.path.join(caminho_saida, 'DMR_Mensal_RSU_2017_2024.csv')
df_concatenado.to_csv(arquivo_saida, index=False, encoding='utf-8')

print(f"Total de linhas no arquivo consolidado final: {total_final}")
print(f"Arquivo salvo em: {arquivo_saida}")

Resumo do processamento por ano:

Ano 2017:
 - Linhas totais (somando todos arquivos do ano): 139216
 - Filtradas ('DMR Mensal RSU'): 0
 - Linhas removidas: 139216

Ano 2018:
 - Linhas totais (somando todos arquivos do ano): 226018
 - Filtradas ('DMR Mensal RSU'): 0
 - Linhas removidas: 226018

Ano 2019:
 - Linhas totais (somando todos arquivos do ano): 243834
 - Filtradas ('DMR Mensal RSU'): 0
 - Linhas removidas: 243834

Ano 2020:
 - Linhas totais (somando todos arquivos do ano): 280147
 - Filtradas ('DMR Mensal RSU'): 0
 - Linhas removidas: 280147

Ano 2021:
 - Linhas totais (somando todos arquivos do ano): 319697
 - Filtradas ('DMR Mensal RSU'): 1
 - Linhas removidas: 319696

Ano 2022:
 - Linhas totais (somando todos arquivos do ano): 347097
 - Filtradas ('DMR Mensal RSU'): 4061
 - Linhas removidas: 343036

Ano 2023:
 - Linhas totais (somando todos arquivos do ano): 751425
 - Filtradas ('DMR Mensal RSU'): 13359
 - Linhas removidas: 738066

Ano 2024:
 - Linhas totais (somando todos 

In [10]:
# Caminho da planilha consolidada
arquivo_entrada = arquivo_saida
# Pasta de saída
caminho_saida = caminho_saida

# Leitura
df = pd.read_csv(arquivo_entrada, encoding='utf-8')

# Total original
total_original = len(df)

# Filtra nulos ou zeros na coluna 'declaracao_item_quantidade'
filtro_remover = df['declaracao_item_quantidade'].isna() | (df['declaracao_item_quantidade'] == 0)

# Cria DataFrames separados
df_removidos = df[filtro_remover]
df_filtrado = df[~filtro_remover]

# Totais
total_removidos = len(df_removidos)
total_restante = len(df_filtrado)

# Mensagem resumo
print("Resumo do filtro por 'declaracao_item_quantidade':")
print(f" - Total de linhas originais: {total_original}")
print(f" - Linhas com valor nulo ou zero: {total_removidos}")
print(f" - Linhas restantes: {total_restante}")

# Salvar arquivos (opcional, mas recomendado)
df_filtrado.to_csv(os.path.join(caminho_saida, 'DMRSU_Tratado_Limpo_2021_2024.csv'), index=False, encoding='utf-8')
df_removidos.to_csv(os.path.join(caminho_saida, 'DMRSU_Nulos.csv'), index=False, encoding='utf-8')

Resumo do filtro por 'declaracao_item_quantidade':
 - Total de linhas originais: 25705
 - Linhas com valor nulo ou zero: 8899
 - Linhas restantes: 16806


Separação das planilhas conforme a coluna "declaração_item_pessoa_tipo".

In [7]:
# Caminho da planilha consolidada (ajuste se necessário)
arquivo = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024\DMRSU_Tratado_Limpo_2021_2024.csv'
df = pd.read_csv(arquivo, encoding='utf-8')
caminho_saida = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024'

# Total original
total_original = len(df)

# Valores para cada grupo
valores_destinador = [
    'Destinador',
    'Destinador/Gerador',
    'Destinador/Transportador',
    'Destinador/Transportador/Gerador'
]

valores_gerador = [
    'Gerador',
    'Gerador/Destinador',
    'Gerador/Transportador',
    'Gerador/Transportador/Destinador',
    'Transportador/Gerador'
]

# Filtros
df_destinador = df[df['declaracao_item_pessoa_tipo'].isin(valores_destinador)].copy()
df_gerador = df[df['declaracao_item_pessoa_tipo'].isin(valores_gerador)].copy()
df_vazios = df[df['declaracao_item_pessoa_tipo'].isna()].copy()

# Totais
print("Resumo da separação por 'declaracao_item_pessoa_tipo':\n")
print(f"Total de linhas na planilha original: {total_original}")
print(f" - Linhas na planilha DESTINADOR: {len(df_destinador)}")
print(f" - Linhas na planilha GERADOR: {len(df_gerador)}")
print(f" - Linhas com valor VAZIO: {len(df_vazios)}")

# Caminho de saída
df_destinador.to_csv(os.path.join(caminho_saida, 'DMRSU_Parte_Destinador.csv'), index=False, encoding='utf-8')
df_gerador.to_csv(os.path.join(caminho_saida, 'DMRSU_Parte_Gerador.csv'), index=False, encoding='utf-8')
df_vazios.to_csv(os.path.join(caminho_saida, 'DMRSU_Parte_Vazios.csv'), index=False, encoding='utf-8')

Resumo da separação por 'declaracao_item_pessoa_tipo':

Total de linhas na planilha original: 16806
 - Linhas na planilha DESTINADOR: 3026
 - Linhas na planilha GERADOR: 7395
 - Linhas com valor VAZIO: 6385


Fluxo dos municípios

1. Filtrar os registros com declaracao_item_pessoa_tipo preenchido

2. Ordenar os municípios ("declaracao_item_municipio")

3. Agrupar por par de CNPJs e município,

4. Separar os dados entre destinadores e geradores com base nos tipos.

In [13]:
# Caminho do arquivo
caminho = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024\DMRSU_Tratado_Limpo_2021_2024.csv'

# Carregar o dataset
df = pd.read_csv(caminho, encoding='utf-8')

# 1. Remover linhas com valor nulo em 'declaracao_item_pessoa_tipo'
df = df[df['declaracao_item_pessoa_tipo'].notna()].copy()

# 2. Ordenar municípios de A a Z
df = df.sort_values(by='declaracao_item_municipio')

# 3. Agrupar por CNPJ do declarante, CNPJ do item e município (mantendo nomes originais)
df_agrupado = df.groupby(
    ['declaracao_pessoa_cnpj', 'declaracao_item_pessoa_cnpj', 'declaracao_item_municipio'],
    as_index=False
).sum(numeric_only=True)

# 4. Definir listas de tipos
valores_destinador = [
    'Destinador',
    'Destinador/Gerador',
    'Destinador/Transportador',
    'Destinador/Transportador/Gerador'
]

valores_gerador = [
    'Gerador',
    'Gerador/Destinador',
    'Gerador/Transportador',
    'Gerador/Transportador/Destinador',
    'Transportador/Gerador'
]

# 5. Separar e adicionar coluna indicativa
df_destinador = df[df['declaracao_item_pessoa_tipo'].isin(valores_destinador)].copy()
df_destinador['tipo_fluxo'] = 'Destinador'

df_gerador = df[df['declaracao_item_pessoa_tipo'].isin(valores_gerador)].copy()
df_gerador['tipo_fluxo'] = 'Gerador'

# 6. Concatenar tudo em uma única planilha
df_completo = pd.concat([df_destinador, df_gerador], ignore_index=True)

# 7. Salvar os resultados
saida_base = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024'
df_agrupado.to_csv(f'{saida_base}\\agrupado_por_cnpjs.csv', index=False, encoding='utf-8')
df_destinador.to_csv(f'{saida_base}\\somente_destinadores.csv', index=False, encoding='utf-8')
df_gerador.to_csv(f'{saida_base}\\somente_geradores.csv', index=False, encoding='utf-8')
df_completo.to_csv(f'{saida_base}\\fluxos_com_tipo_indicativo.csv', index=False, encoding='utf-8')

print("✅ Processamento concluído com separações + planilha unificada com 'tipo_fluxo'.")

✅ Processamento concluído com separações + planilha unificada com 'tipo_fluxo'.


In [15]:
# Caminho da planilha original tratada
caminho = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024\DMRSU_Tratado_Limpo_2021_2024.csv'
df = pd.read_csv(caminho, encoding='utf-8')

# 1. Criar planilha de declarantes únicos
declarantes_unicos = df[['declaracao_pessoa_nome', 'declaracao_pessoa_tipo', 'declaracao_municipio']].dropna().drop_duplicates()
declarantes_unicos = declarantes_unicos.sort_values(by='declaracao_pessoa_nome')

# 2. Criar planilha de itens únicos
itens_unicos = df[['declaracao_item_pessoa_nome', 'declaracao_item_pessoa_tipo', 'declaracao_item_municipio']].dropna().drop_duplicates()
itens_unicos = itens_unicos.sort_values(by='declaracao_item_pessoa_nome')

# 3. Salvar os resultados
saida_base = r'C:\Users\maria\OneDrive\Documentos\GitHub\RCEPRS\Dados_Saida\DMRSU_Tratado_2017_2024'
declarantes_unicos.to_csv(f'{saida_base}\\declarantes_unicos.csv', index=False, encoding='utf-8')
itens_unicos.to_csv(f'{saida_base}\\itens_unicos.csv', index=False, encoding='utf-8')

print("✅ Arquivos gerados com sucesso:")
print("- declarantes_unicos.csv")
print("- itens_unicos.csv")

✅ Arquivos gerados com sucesso:
- declarantes_unicos.csv
- itens_unicos.csv
