In [1]:
import pandas as pd
import numpy as np

def tratar_ids_duplicados(df, coluna_id='ID_Registro'):
    """
    Verifica IDs duplicados e trata conforme as regras:
    - Se dados duplicados: exclui linha
    - Se dados diferentes: gera novo ID inteiro √∫nico
    """
    
    # Fazer c√≥pia do dataframe para n√£o modificar o original
    df_tratado = df.copy()
    
    # Identificar IDs duplicados
    ids_duplicados = df_tratado[df_tratado.duplicated(subset=[coluna_id], keep=False)]
    
    if ids_duplicados.empty:
        print("‚úÖ Nenhum ID duplicado encontrado")
        return df_tratado
    
    print(f"‚ö†Ô∏è  Encontrados {len(ids_duplicados)} registros com IDs duplicados")
    
    # Encontrar o maior ID atual para gerar novos IDs acima dele
    max_id = df_tratado[coluna_id].max()
    novos_ids_gerados = 0
    linhas_excluidas = 0
    
    # Lista de todos os IDs existentes (para garantir unicidade)
    ids_existentes = set(df_tratado[coluna_id].tolist())
    
    # Processar cada grupo de IDs duplicados
    for id_valor, grupo in ids_duplicados.groupby(coluna_id):
        if len(grupo) == 1:
            continue  # Apenas um registro, n√£o precisa tratar
            
        print(f"\nProcessando ID {id_valor}: {len(grupo)} registros")
        
        # Verificar se todos os registros s√£o completamente duplicados
        colunas_verificar = [col for col in grupo.columns if col != coluna_id]
        duplicados_completos = grupo.duplicated(subset=colunas_verificar, keep='first')
        
        # Identificar √≠ndices para exclus√£o e modifica√ß√£o
        indices_para_excluir = []
        indices_para_modificar = []
        
        for idx, is_duplicado in duplicados_completos.items():
            if is_duplicado:
                indices_para_excluir.append(idx)
            else:
                indices_para_modificar.append(idx)
        
        # Excluir registros duplicados (mant√©m apenas o primeiro de cada grupo duplicado)
        if indices_para_excluir:
            df_tratado = df_tratado.drop(indices_para_excluir)
            linhas_excluidas += len(indices_para_excluir)
            print(f"   ‚ûñ Exclu√≠das {len(indices_para_excluir)} linhas duplicadas")
        
        # Gerar novos IDs para registros com dados diferentes
        if indices_para_modificar:
            # Pular o primeiro registro (mant√©m o ID original)
            indices_para_modificar = indices_para_modificar[1:] if indices_para_modificar else []
            
            for idx in indices_para_modificar:
                # Gerar novo ID inteiro √∫nico
                novo_id = max_id + 1
                while novo_id in ids_existentes:
                    novo_id += 1
                
                # Atualizar o ID
                df_tratado.loc[idx, coluna_id] = novo_id
                ids_existentes.add(novo_id)
                max_id = max(max_id, novo_id)
                novos_ids_gerados += 1
                
                print(f"   üîÑ Linha {idx}: ID modificado de {id_valor} para {novo_id}")
    
    # Relat√≥rio final
    print(f"\n{'='*60}")
    print("RELAT√ìRIO DO PROCESSAMENTO:")
    print(f"‚úÖ Linhas exclu√≠das (duplicados): {linhas_excluidas}")
    print(f"üÜî Novos IDs gerados: {novos_ids_gerados}")
    print(f"üìä Total de registros final: {len(df_tratado)}")
    
    # Verificar se ainda h√° duplicados ap√≥s o tratamento
    duplicados_finais = df_tratado[df_tratado.duplicated(subset=[coluna_id], keep=False)]
    if duplicados_finais.empty:
        print("‚úÖ Verifica√ß√£o final: Nenhum ID duplicado restante")
    else:
        print(f"‚ö†Ô∏è  ATEN√á√ÉO: Ainda existem {len(duplicados_finais)} IDs duplicados")
    
    return df_tratado

def verificar_duplicados_detalhado(df, coluna_id='ID_Registro'):
    """
    Fun√ß√£o para verificar detalhadamente os IDs duplicados
    """
    print("üîç VERIFICA√á√ÉO DETALHADA DE IDs DUPLICADOS")
    print("=" * 50)
    
    # Identificar IDs duplicados
    ids_duplicados = df[df.duplicated(subset=[coluna_id], keep=False)]
    
    if ids_duplicados.empty:
        print("Nenhum ID duplicado encontrado")
        return
    
    # Contar por ID
    contagem = ids_duplicados[coluna_id].value_counts()
    
    for id_valor, quantidade in contagem.items():
        registros = df[df[coluna_id] == id_valor]
        
        print(f"\nID: {id_valor} - {quantidade} registros")
        
        # Verificar se s√£o completamente duplicados
        colunas_dados = [col for col in registros.columns if col != coluna_id]
        duplicados_exatos = registros.duplicated(subset=colunas_dados).all()
        
        if duplicados_exatos:
            print("   Status: DUPLICADOS COMPLETOS (dados id√™nticos)")
        else:
            print("   Status: DADOS DIFERENTES")
            # Mostrar colunas com diferen√ßas
            colunas_diff = registros.columns[registros.nunique() > 1]
            print(f"   Colunas com diferen√ßas: {list(colunas_diff)}")

# Exemplo de uso completo
def exemplo_completo():
    # Criar dados de exemplo para teste
    dados_exemplo = {
        'ID_Registro': [1, 2, 3, 1, 2, 4, 5, 5, 5, 6, 7],
        'Tipo_Eletronico': ['Celular', 'Notebook', 'Tablet', 'Celular', 'Monitor', 
                           'TV', 'Impressora', 'Impressora', 'Scanner', 'Mouse', 'Teclado'],
        'Ano_Fabricacao': [2020, 2021, 2022, 2020, 2019, 
                          2020, 2021, 2021, 2022, 2023, 2022],
        'Origem': ['Residencial', 'Comercial', 'Residencial', 'Residencial', 'Comercial',
                  'Residencial', 'Comercial', 'Comercial', 'Industrial', 'Residencial', 'Comercial'],
        'Peso_kg': [0.2, 2.5, 0.6, 0.2, 5.0, 8.0, 4.5, 4.5, 3.2, 0.1, 0.3]
    }
    
    df = pd.DataFrame(dados_exemplo)
    
    print("üìã DATAFRAME ORIGINAL:")
    print(df)
    print(f"\nüìä Total de registros: {len(df)}")
    
    # Verificar duplicados detalhadamente
    print("\n" + "="*60)
    verificar_duplicados_detalhado(df, 'ID_Registro')
    
    # Tratar duplicados
    print("\n" + "="*60)
    print("üîÑ PROCESSANDO DUPLICADOS...")
    df_tratado = tratar_ids_duplicados(df, 'ID_Registro')
    
    # Mostrar resultado
    print("\n" + "="*60)
    print("üìã DATAFRAME TRATADO:")
    print(df_tratado)
    print(f"\nüìä Total de registros ap√≥s tratamento: {len(df_tratado)}")
    
    return df_tratado

# Para usar com seus dados reais:
# df = pd.read_csv('seu_arquivo.csv')  # ou seu dataframe
# verificar_duplicados_detalhado(df, 'ID_Registro')
# df_tratado = tratar_ids_duplicados(df, 'ID_Registro')

# Executar exemplo
if __name__ == "__main__":
    df_resultado = exemplo_completo()

üìã DATAFRAME ORIGINAL:
    ID_Registro Tipo_Eletronico  Ano_Fabricacao       Origem  Peso_kg
0             1         Celular            2020  Residencial      0.2
1             2        Notebook            2021    Comercial      2.5
2             3          Tablet            2022  Residencial      0.6
3             1         Celular            2020  Residencial      0.2
4             2         Monitor            2019    Comercial      5.0
5             4              TV            2020  Residencial      8.0
6             5      Impressora            2021    Comercial      4.5
7             5      Impressora            2021    Comercial      4.5
8             5         Scanner            2022   Industrial      3.2
9             6           Mouse            2023  Residencial      0.1
10            7         Teclado            2022    Comercial      0.3

üìä Total de registros: 11

üîç VERIFICA√á√ÉO DETALHADA DE IDs DUPLICADOS

ID: 5 - 3 registros
   Status: DADOS DIFERENTES
   Coluna

### üõ†Ô∏è Propostas

1. **Pontos de Coleta Segmentados**
   * Centros urbanos: coleta de computadores, celulares e impressoras.
   * Munic√≠pios rurais: coleta de baterias, TVs e geladeiras.
   * Rotas log√≠sticas otimizadas para transporte seguro de equipamentos pesados e t√≥xicos
2. **Campanhas Integradas de Educa√ß√£o Ambiental**
    * Associadas √† localiza√ß√£o de pontos de coleta.
    * Foco em conscientiza√ß√£o sobre riscos de metais pesados e destinos corretos.
3. **Pol√≠ticas de Incentivo e Responsabilidade do Fabricante**
    * Subs√≠dios ou cr√©ditos para √≥rg√£os governamentais e empresas privadas que realizem descarte formal.
    * Parcerias com cooperativas e recicladores locais.
    * Adapta√ß√£o de modelos de EPR inspirados em pa√≠ses como Alemanha, Jap√£o e Coreia do Sul, responsabilizando fabricantes pelo destino final seguro de seus produtos
4. **Monitoramento Din√¢mico**
   * Dashboards integrando origem, tipo, peso, destino e risco.
   * Identifica√ß√£o de munic√≠pios priorit√°rios para interven√ß√£o r√°pida.
   * Avalia√ß√£o cont√≠nua do impacto das campanhas e ajustes de rotas log√≠sticas.
5. **Planejamento Regional Diferenciado**
    * Estrat√©gias espec√≠ficas para grandes centros urbanos, munic√≠pios m√©dios e rurais.
    * Foco em redu√ß√£o de descarte informal em √°reas cr√≠ticas, sem negligenciar munic√≠pios menores que apresentam boas pr√°ticas.

O estudo evidencia que a gest√£o do lixo eletr√¥nico na Amaz√¥nia deve ser multidimensional, considerando simultaneamente tipo de eletr√¥nico, origem do res√≠duo, peso, risco t√≥xico, educa√ß√£o ambiental e infraestrutura log√≠stica. A integra√ß√£o desses fatores permite identificar padr√µes de risco, alocar recursos de forma estrat√©gica e aumentar a taxa de descarte formal. A proposta de pontos de coleta segmentados, associada a campanhas educativas e monitoramento din√¢mico, constitui uma abordagem pr√°tica e realista para reduzir impactos ambientais e proteger a sa√∫de das popula√ß√µes amaz√¥nicas. O relat√≥rio refor√ßa que pol√≠ticas p√∫blicas isoladas n√£o s√£o suficientes; apenas uma abordagem integrada e orientada por dados pode transformar informa√ß√£o em a√ß√£o eficaz, contribuindo para a preserva√ß√£o ambiental e para o cumprimento das metas de sustentabilidade na regi√£o amaz√¥nica.