In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# ============================================
# VERIFICADOR E UNIFICADOR DE ARQUIVOS CSV
# ============================================

class CSVMerger:
    """Classe para verificar e unir arquivos CSV"""
    
    def __init__(self, arquivo1, arquivo2, separador='|'):
        """
        Inicializa o verificador/unificador
        
        Args:
            arquivo1: Caminho do primeiro arquivo CSV
            arquivo2: Caminho do segundo arquivo CSV
            separador: Separador usado nos CSVs (padr√£o: |)
        """
        self.arquivo1 = arquivo1
        self.arquivo2 = arquivo2
        self.separador = separador
        self.df1 = None
        self.df2 = None
        self.df_merged = None
        self.compativel = False
        
    def carregar_arquivos(self):
        """Carrega os dois arquivos CSV"""
        print("üìÇ CARREGANDO ARQUIVOS...")
        print("=" * 60)
        
        try:
            # Tentar diferentes encodings se necess√°rio
            encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252']
            
            for encoding in encodings:
                try:
                    self.df1 = pd.read_csv(self.arquivo1, sep=self.separador, encoding=encoding)
                    print(f"‚úÖ Arquivo 1 carregado com encoding {encoding}")
                    print(f"   üìÅ {self.arquivo1}")
                    print(f"   üìä Dimens√µes: {len(self.df1)} linhas x {len(self.df1.columns)} colunas")
                    break
                except:
                    continue
                    
            for encoding in encodings:
                try:
                    self.df2 = pd.read_csv(self.arquivo2, sep=self.separador, encoding=encoding)
                    print(f"‚úÖ Arquivo 2 carregado com encoding {encoding}")
                    print(f"   üìÅ {self.arquivo2}")
                    print(f"   üìä Dimens√µes: {len(self.df2)} linhas x {len(self.df2.columns)} colunas")
                    break
                except:
                    continue
                    
            if self.df1 is None or self.df2 is None:
                raise Exception("N√£o foi poss√≠vel carregar os arquivos")
                
            return True
            
        except Exception as e:
            print(f"‚ùå Erro ao carregar arquivos: {e}")
            return False
    
    def analisar_estrutura(self):
        """Analisa e compara a estrutura dos dois CSVs"""
        print("\nüìã AN√ÅLISE DA ESTRUTURA")
        print("=" * 60)
        
        # Colunas
        cols1 = set(self.df1.columns)
        cols2 = set(self.df2.columns)
        
        print("\nüî§ COLUNAS:")
        print(f"Arquivo 1: {len(cols1)} colunas")
        print(f"Arquivo 2: {len(cols2)} colunas")
        
        # Colunas em comum
        colunas_comuns = cols1.intersection(cols2)
        print(f"\n‚úÖ Colunas em comum: {len(colunas_comuns)}")
        if len(colunas_comuns) <= 20:
            for col in sorted(colunas_comuns):
                print(f"   ‚Ä¢ {col}")
        else:
            for i, col in enumerate(sorted(colunas_comuns)[:10]):
                print(f"   ‚Ä¢ {col}")
            print(f"   ... e mais {len(colunas_comuns) - 10} colunas")
        
        # Colunas exclusivas
        exclusivas1 = cols1 - cols2
        exclusivas2 = cols2 - cols1
        
        if exclusivas1:
            print(f"\n‚ö†Ô∏è Colunas exclusivas do Arquivo 1: {len(exclusivas1)}")
            for col in sorted(exclusivas1)[:10]:
                print(f"   ‚Ä¢ {col}")
            if len(exclusivas1) > 10:
                print(f"   ... e mais {len(exclusivas1) - 10} colunas")
                
        if exclusivas2:
            print(f"\n‚ö†Ô∏è Colunas exclusivas do Arquivo 2: {len(exclusivas2)}")
            for col in sorted(exclusivas2)[:10]:
                print(f"   ‚Ä¢ {col}")
            if len(exclusivas2) > 10:
                print(f"   ... e mais {len(exclusivas2) - 10} colunas")
        
        # Verificar compatibilidade
        print("\nüîç VERIFICA√á√ÉO DE COMPATIBILIDADE:")
        print("-" * 40)
        
        if cols1 == cols2:
            print("‚úÖ Estruturas ID√äNTICAS - Uni√£o simples poss√≠vel")
            self.compativel = True
            self.tipo_uniao = "concat"
        elif len(colunas_comuns) > 0:
            print(f"‚ö†Ô∏è Estruturas PARCIALMENTE compat√≠veis")
            print(f"   {len(colunas_comuns)} colunas em comum podem ser unidas")
            self.compativel = True
            self.tipo_uniao = "merge"
        else:
            print("‚ùå Estruturas INCOMPAT√çVEIS - Nenhuma coluna em comum")
            self.compativel = False
            self.tipo_uniao = None
            
        return self.compativel
    
    def verificar_tipos_dados(self):
        """Verifica compatibilidade dos tipos de dados nas colunas comuns"""
        print("\nüìä TIPOS DE DADOS NAS COLUNAS COMUNS:")
        print("=" * 60)
        
        colunas_comuns = set(self.df1.columns).intersection(set(self.df2.columns))
        
        incompativeis = []
        for col in sorted(colunas_comuns)[:20]:  # Verificar primeiras 20 colunas
            tipo1 = self.df1[col].dtype
            tipo2 = self.df2[col].dtype
            
            if tipo1 != tipo2:
                incompativeis.append({
                    'coluna': col,
                    'tipo_arquivo1': str(tipo1),
                    'tipo_arquivo2': str(tipo2)
                })
                print(f"‚ö†Ô∏è {col}:")
                print(f"   Arquivo 1: {tipo1}")
                print(f"   Arquivo 2: {tipo2}")
        
        if not incompativeis:
            print("‚úÖ Todos os tipos de dados s√£o compat√≠veis!")
        else:
            print(f"\n‚ö†Ô∏è {len(incompativeis)} colunas com tipos diferentes")
            print("   (Ser√£o convertidas automaticamente na uni√£o)")
            
        return incompativeis
    
    def estatisticas_detalhadas(self):
        """Mostra estat√≠sticas detalhadas dos dois arquivos"""
        print("\nüìà ESTAT√çSTICAS DETALHADAS:")
        print("=" * 60)
        
        for i, df in enumerate([self.df1, self.df2], 1):
            print(f"\nüìÅ ARQUIVO {i}:")
            print("-" * 40)
            print(f"Total de linhas: {len(df):,}")
            print(f"Total de colunas: {len(df.columns)}")
            print(f"Total de c√©lulas: {df.size:,}")
            print(f"Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")
            
            # Valores nulos
            nulos = df.isnull().sum().sum()
            if nulos > 0:
                print(f"Valores nulos: {nulos:,} ({nulos/df.size*100:.2f}%)")
            
            # Valores duplicados
            duplicados = df.duplicated().sum()
            if duplicados > 0:
                print(f"Linhas duplicadas: {duplicados:,} ({duplicados/len(df)*100:.2f}%)")
            
            # Amostra de dados
            print(f"\nüîç Primeiras 3 linhas:")
            print(df.head(3).to_string(max_cols=5))
    
    def unir_arquivos(self, metodo='auto', remover_duplicados=True):
        """
        Une os dois arquivos CSV
        
        Args:
            metodo: 'auto', 'concat', 'merge', 'outer'
            remover_duplicados: Remove linhas duplicadas ap√≥s uni√£o
        
        Returns:
            DataFrame unificado
        """
        if not self.compativel:
            print("‚ùå Arquivos incompat√≠veis para uni√£o!")
            return None
            
        print("\nüîó UNINDO ARQUIVOS...")
        print("=" * 60)
        
        try:
            if metodo == 'auto':
                metodo = self.tipo_uniao
            
            if metodo == 'concat' or set(self.df1.columns) == set(self.df2.columns):
                # Uni√£o simples (estruturas id√™nticas)
                print("üìå M√©todo: Concatena√ß√£o simples (append)")
                # Adicionar coluna de origem
                self.df1['origem_arquivo'] = 'arquivo_1'
                self.df2['origem_arquivo'] = 'arquivo_2'
                self.df_merged = pd.concat([self.df1, self.df2], ignore_index=True)
                
            else:
                # Uni√£o com merge (estruturas diferentes)
                print("üìå M√©todo: Uni√£o externa (outer join)")
                # Adicionar coluna de origem antes do merge
                self.df1['origem_arquivo'] = 'arquivo_1'
                self.df2['origem_arquivo'] = 'arquivo_2'
                self.df_merged = pd.concat([self.df1, self.df2], ignore_index=True, sort=False)
            
            print(f"‚úÖ Uni√£o conclu√≠da!")
            print(f"   Total de linhas: {len(self.df_merged):,}")
            print(f"   Total de colunas: {len(self.df_merged.columns)}")
            
            # Remover duplicados se solicitado
            if remover_duplicados:
                antes = len(self.df_merged)
                # N√£o considerar a coluna origem_arquivo para detectar duplicados
                cols_para_verificar = [col for col in self.df_merged.columns if col != 'origem_arquivo']
                self.df_merged = self.df_merged.drop_duplicates(subset=cols_para_verificar, keep='first')
                depois = len(self.df_merged)
                if antes > depois:
                    print(f"   üóëÔ∏è {antes - depois:,} linhas duplicadas removidas")
            
            # Estat√≠sticas finais
            print(f"\nüìä RESULTADO FINAL:")
            print(f"   Linhas do arquivo 1: {len(self.df1):,}")
            print(f"   Linhas do arquivo 2: {len(self.df2):,}")
            print(f"   Linhas no arquivo unificado: {len(self.df_merged):,}")
            print(f"   Colunas no arquivo unificado: {len(self.df_merged.columns)}")
            
            return self.df_merged
            
        except Exception as e:
            print(f"‚ùå Erro ao unir arquivos: {e}")
            return None
    
    def salvar_resultado(self, nome_arquivo="ativos e inativos_full.csv", separador='|'):
        """
        Salva o arquivo unificado
        
        Args:
            nome_arquivo: Nome do arquivo de sa√≠da
            separador: Separador a usar no arquivo de sa√≠da
        """
        if self.df_merged is None:
            print("‚ùå Nenhum arquivo unificado para salvar!")
            return False
            
        try:
            print(f"\nüíæ SALVANDO ARQUIVO UNIFICADO...")
            print("=" * 60)
            
            self.df_merged.to_csv(nome_arquivo, sep=separador, index=False, encoding='utf-8')
            
            # Verificar arquivo salvo
            tamanho = Path(nome_arquivo).stat().st_size / 1024 / 1024
            
            print(f"‚úÖ Arquivo salvo com sucesso!")
            print(f"   üìÅ Nome: {nome_arquivo}")
            print(f"   üìä Tamanho: {tamanho:.2f} MB")
            print(f"   üìù Linhas: {len(self.df_merged):,}")
            print(f"   üìã Colunas: {len(self.df_merged.columns)}")
            print(f"   üî§ Separador: '{separador}'")
            
            return True
            
        except Exception as e:
            print(f"‚ùå Erro ao salvar arquivo: {e}")
            return False
    
    def executar_processo_completo(self):
        """Executa o processo completo de verifica√ß√£o e uni√£o"""
        print("üöÄ INICIANDO PROCESSO DE VERIFICA√á√ÉO E UNI√ÉO DE CSVs")
        print("=" * 60)
        
        # 1. Carregar arquivos
        if not self.carregar_arquivos():
            return False
        
        # 2. Analisar estrutura
        if not self.analisar_estrutura():
            print("\n‚ùå Processo interrompido: arquivos incompat√≠veis")
            return False
        
        # 3. Verificar tipos de dados
        self.verificar_tipos_dados()
        
        # 4. Mostrar estat√≠sticas
        self.estatisticas_detalhadas()
        
        # 5. Unir arquivos
        if self.unir_arquivos():
            # 6. Salvar resultado
            self.salvar_resultado()
            print("\n‚ú® PROCESSO CONCLU√çDO COM SUCESSO!")
            return True
        
        return False

# ============================================
# FUN√á√ïES AUXILIARES
# ============================================

def verificar_e_unir_csvs(arquivo1, arquivo2, separador='|', nome_saida="ativos e inativos_full.csv"):
    """
    Fun√ß√£o simplificada para verificar e unir dois CSVs
    
    Args:
        arquivo1: Caminho do primeiro arquivo
        arquivo2: Caminho do segundo arquivo
        separador: Separador usado nos CSVs
        nome_saida: Nome do arquivo de sa√≠da
    
    Returns:
        DataFrame unificado ou None se incompat√≠vel
    """
    merger = CSVMerger(arquivo1, arquivo2, separador)
    if merger.executar_processo_completo():
        return merger.df_merged
    return None

def analisar_multiplos_csvs(*arquivos, separador='|'):
    """
    Analisa m√∫ltiplos arquivos CSV para verificar compatibilidade
    
    Args:
        *arquivos: Lista de caminhos de arquivos
        separador: Separador usado nos CSVs
    """
    print("üìä AN√ÅLISE DE M√öLTIPLOS ARQUIVOS CSV")
    print("=" * 60)
    
    dataframes = []
    estruturas = []
    
    for i, arquivo in enumerate(arquivos, 1):
        try:
            df = pd.read_csv(arquivo, sep=separador)
            dataframes.append(df)
            estruturas.append(set(df.columns))
            print(f"‚úÖ Arquivo {i}: {arquivo}")
            print(f"   Linhas: {len(df):,}, Colunas: {len(df.columns)}")
        except Exception as e:
            print(f"‚ùå Erro no arquivo {i}: {e}")
            return None
    
    # Verificar compatibilidade geral
    colunas_comuns = set.intersection(*estruturas)
    print(f"\nüìã Colunas em comum em TODOS os arquivos: {len(colunas_comuns)}")
    
    if len(colunas_comuns) > 0:
        print("‚úÖ Arquivos podem ser unidos!")
        return dataframes
    else:
        print("‚ùå Arquivos incompat√≠veis para uni√£o")
        return None



In [2]:
# ============================================
# EXEMPLO DE USO
# ============================================

# Exemplo b√°sico - SUBSTITUA COM SEUS ARQUIVOS
print("üìù EXEMPLO DE USO:")
print("=" * 60)
print("""
# Para usar com seus arquivos, execute:

merger = CSVMerger(r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_ativos_com_sobreviveu.csv", r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_inativos_nao_sobreviveu_pipe.csv", separador='|')
merger.executar_processo_completo()

# Ou use a fun√ß√£o simplificada:
df_unificado = verificar_e_unir_csvs(
    'caminho/para/arquivo1.csv',
    'caminho/para/arquivo2.csv',
    separador='|',
    nome_saida='ativos e inativos_full.csv'
)
""")

merger = CSVMerger(r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_ativos_com_sobreviveu.csv", r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_inativos_nao_sobreviveu_pipe.csv", separador='|')
merger.executar_processo_completo()


# ============================================
# CRIAR ARQUIVOS DE EXEMPLO PARA TESTE
# ============================================

def criar_arquivos_exemplo():
    """Cria arquivos de exemplo para teste"""
    
    # Criar arquivo 1 - Ativos
    df_ativos = pd.DataFrame({
        'cnpj': ['06.303.914/0001-08', '11.222.333/0001-44', '99.888.777/0001-66'],
        'username': ['gruporezor', 'empresa2', 'empresa3'],
        'name': ['Grupo Rezor', 'Empresa 2', 'Empresa 3'],
        'followers_count': [955, 1200, 450],
        'status': ['ativo', 'ativo', 'ativo'],
        'timestamp': ['2025-06-04T18:04:48+0000', '2025-06-05T10:00:00+0000', '2025-06-06T14:30:00+0000']
    })
    
    # Criar arquivo 2 - Inativos
    df_inativos = pd.DataFrame({
        'cnpj': ['55.444.333/0001-22', '77.666.555/0001-11'],
        'username': ['empresa4', 'empresa5'],
        'name': ['Empresa 4', 'Empresa 5'],
        'followers_count': [200, 150],
        'status': ['inativo', 'inativo'],
        'timestamp': ['2025-01-15T09:00:00+0000', '2025-02-20T11:30:00+0000']
    })
    
    # Salvar arquivos de exemplo
    df_ativos.to_csv('exemplo_ativos.csv', sep='|', index=False)
    df_inativos.to_csv('exemplo_inativos.csv', sep='|', index=False)
    
    print("üìÅ Arquivos de exemplo criados:")
    print("   ‚Ä¢ exemplo_ativos.csv")
    print("   ‚Ä¢ exemplo_inativos.csv")
    print("\nüöÄ Execute o c√≥digo abaixo para test√°-los:")
    print("merger = CSVMerger('exemplo_ativos.csv', 'exemplo_inativos.csv', '|')")
    print("merger.executar_processo_completo()")
    
    return df_ativos, df_inativos

# Descomentar para criar arquivos de exemplo
# df_ativos, df_inativos = criar_arquivos_exemplo()

print("\n‚ú® C√≥digo pronto para uso! Substitua os nomes dos arquivos e execute.")

üìù EXEMPLO DE USO:

# Para usar com seus arquivos, execute:

merger = CSVMerger(r"D:\____________________FAPERGS\DADOS_dados_limpos\completo_ativos_com_sobreviveu.csv", r"D:\____________________FAPERGS\DADOS_dados_limpos\completo_inativos_nao_sobreviveu_pipe.csv", separador='|')
merger.executar_processo_completo()

# Ou use a fun√ß√£o simplificada:
df_unificado = verificar_e_unir_csvs(
    'caminho/para/arquivo1.csv',
    'caminho/para/arquivo2.csv',
    separador='|',
    nome_saida='ativos e inativos_full.csv'
)

üöÄ INICIANDO PROCESSO DE VERIFICA√á√ÉO E UNI√ÉO DE CSVs
üìÇ CARREGANDO ARQUIVOS...
‚úÖ Arquivo 1 carregado com encoding utf-8
   üìÅ D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_ativos_com_sobreviveu.csv
   üìä Dimens√µes: 1292775 linhas x 15 colunas
‚úÖ Arquivo 2 carregado com encoding utf-8
   üìÅ D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_inativos_nao_sobreviveu_pipe.csv
   üìä Dimens√µes: 239713 linhas x 2 colunas

üìã AN√ÅLI

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [3]:
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# ============================================
# VERIFICADOR E UNIFICADOR DE ARQUIVOS CSV
# ============================================

class CSVMerger:
    """Classe para verificar e unir arquivos CSV"""
    
    def __init__(self, arquivo1, arquivo2, separador='|'):
        """
        Inicializa o verificador/unificador
        
        Args:
            arquivo1: Caminho do primeiro arquivo CSV
            arquivo2: Caminho do segundo arquivo CSV
            separador: Separador usado nos CSVs (padr√£o: |)
        """
        self.arquivo1 = arquivo1
        self.arquivo2 = arquivo2
        self.separador = separador
        self.df1 = None
        self.df2 = None
        self.df_merged = None
        self.compativel = False
        
    def carregar_arquivos(self):
        """Carrega os dois arquivos CSV"""
        print("üìÇ CARREGANDO ARQUIVOS...")
        print("=" * 60)
        
        try:
            # Tentar diferentes encodings se necess√°rio
            encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252']
            
            # Carregar primeiro arquivo
            for encoding in encodings:
                try:
                    self.df1 = pd.read_csv(self.arquivo1, sep=self.separador, encoding=encoding, low_memory=False)
                    print(f"‚úÖ Arquivo 1 carregado com encoding {encoding}")
                    print(f"   üìÅ {Path(self.arquivo1).name}")
                    print(f"   üìä Dimens√µes: {len(self.df1):,} linhas x {len(self.df1.columns)} colunas")
                    break
                except UnicodeDecodeError:
                    continue
                except Exception as e:
                    if encoding == encodings[-1]:  # Se √© o √∫ltimo encoding
                        print(f"   ‚ùå Erro: {e}")
                    continue
            
            # Carregar segundo arquivo        
            for encoding in encodings:
                try:
                    self.df2 = pd.read_csv(self.arquivo2, sep=self.separador, encoding=encoding, low_memory=False)
                    print(f"‚úÖ Arquivo 2 carregado com encoding {encoding}")
                    print(f"   üìÅ {Path(self.arquivo2).name}")
                    print(f"   üìä Dimens√µes: {len(self.df2):,} linhas x {len(self.df2.columns)} colunas")
                    break
                except UnicodeDecodeError:
                    continue
                except Exception as e:
                    if encoding == encodings[-1]:  # Se √© o √∫ltimo encoding
                        print(f"   ‚ùå Erro: {e}")
                    continue
                    
            if self.df1 is None or self.df2 is None:
                raise Exception("N√£o foi poss√≠vel carregar um ou ambos os arquivos")
                
            return True
            
        except Exception as e:
            print(f"‚ùå Erro ao carregar arquivos: {e}")
            return False
    
    def analisar_estrutura(self):
        """Analisa e compara a estrutura dos dois CSVs"""
        print("\nüìã AN√ÅLISE DA ESTRUTURA")
        print("=" * 60)
        
        # Limpar nomes das colunas (remover espa√ßos extras)
        self.df1.columns = self.df1.columns.str.strip()
        self.df2.columns = self.df2.columns.str.strip()
        
        # Colunas
        cols1 = set(self.df1.columns)
        cols2 = set(self.df2.columns)
        
        print(f"\nüî§ COLUNAS:")
        print(f"Arquivo 1: {len(cols1)} colunas")
        print(f"Arquivo 2: {len(cols2)} colunas")
        
        # Colunas em comum
        colunas_comuns = cols1.intersection(cols2)
        print(f"\n‚úÖ Colunas em comum: {len(colunas_comuns)}")
        if len(colunas_comuns) <= 20:
            for col in sorted(colunas_comuns):
                print(f"   ‚Ä¢ {col}")
        else:
            for i, col in enumerate(sorted(colunas_comuns)[:10]):
                print(f"   ‚Ä¢ {col}")
            print(f"   ... e mais {len(colunas_comuns) - 10} colunas")
        
        # Colunas exclusivas
        exclusivas1 = cols1 - cols2
        exclusivas2 = cols2 - cols1
        
        if exclusivas1:
            print(f"\n‚ö†Ô∏è Colunas exclusivas do Arquivo 1: {len(exclusivas1)}")
            for col in list(sorted(exclusivas1))[:10]:
                print(f"   ‚Ä¢ {col}")
            if len(exclusivas1) > 10:
                print(f"   ... e mais {len(exclusivas1) - 10} colunas")
                
        if exclusivas2:
            print(f"\n‚ö†Ô∏è Colunas exclusivas do Arquivo 2: {len(exclusivas2)}")
            for col in list(sorted(exclusivas2))[:10]:
                print(f"   ‚Ä¢ {col}")
            if len(exclusivas2) > 10:
                print(f"   ... e mais {len(exclusivas2) - 10} colunas")
        
        # Verificar compatibilidade
        print("\nüîç VERIFICA√á√ÉO DE COMPATIBILIDADE:")
        print("-" * 40)
        
        if cols1 == cols2:
            print("‚úÖ Estruturas ID√äNTICAS - Uni√£o simples poss√≠vel")
            self.compativel = True
            self.tipo_uniao = "concat"
        elif len(colunas_comuns) > 0:
            print(f"‚ö†Ô∏è Estruturas PARCIALMENTE compat√≠veis")
            print(f"   {len(colunas_comuns)} colunas em comum podem ser unidas")
            self.compativel = True
            self.tipo_uniao = "merge"
        else:
            print("‚ùå Estruturas INCOMPAT√çVEIS - Nenhuma coluna em comum")
            self.compativel = False
            self.tipo_uniao = None
            
        return self.compativel
    
    def verificar_tipos_dados(self):
        """Verifica compatibilidade dos tipos de dados nas colunas comuns"""
        print("\nüìä TIPOS DE DADOS NAS COLUNAS COMUNS:")
        print("=" * 60)
        
        colunas_comuns = set(self.df1.columns).intersection(set(self.df2.columns))
        
        if not colunas_comuns:
            print("‚ö†Ô∏è Nenhuma coluna em comum para verificar tipos")
            return []
        
        incompativeis = []
        colunas_verificar = list(sorted(colunas_comuns))[:20]  # Verificar primeiras 20 colunas
        
        for col in colunas_verificar:
            tipo1 = self.df1[col].dtype
            tipo2 = self.df2[col].dtype
            
            if tipo1 != tipo2:
                incompativeis.append({
                    'coluna': col,
                    'tipo_arquivo1': str(tipo1),
                    'tipo_arquivo2': str(tipo2)
                })
                print(f"‚ö†Ô∏è {col}:")
                print(f"   Arquivo 1: {tipo1}")
                print(f"   Arquivo 2: {tipo2}")
        
        if not incompativeis:
            print("‚úÖ Todos os tipos de dados s√£o compat√≠veis!")
        else:
            print(f"\n‚ö†Ô∏è {len(incompativeis)} colunas com tipos diferentes")
            print("   (Ser√£o convertidas automaticamente na uni√£o)")
            
        return incompativeis
    
    def estatisticas_detalhadas(self):
        """Mostra estat√≠sticas detalhadas dos dois arquivos"""
        print("\nüìà ESTAT√çSTICAS DETALHADAS:")
        print("=" * 60)
        
        for i, df in enumerate([self.df1, self.df2], 1):
            print(f"\nüìÅ ARQUIVO {i}:")
            print("-" * 40)
            print(f"Total de linhas: {len(df):,}")
            print(f"Total de colunas: {len(df.columns)}")
            print(f"Total de c√©lulas: {df.size:,}")
            print(f"Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")
            
            # Valores nulos
            nulos = df.isnull().sum().sum()
            if nulos > 0:
                print(f"Valores nulos: {nulos:,} ({nulos/df.size*100:.2f}%)")
            
            # Valores duplicados
            duplicados = df.duplicated().sum()
            if duplicados > 0:
                print(f"Linhas duplicadas: {duplicados:,} ({duplicados/len(df)*100:.2f}%)")
            
            # Amostra de dados
            print(f"\nüîç Primeiras 3 linhas (primeiras 5 colunas):")
            colunas_amostra = list(df.columns)[:5]
            print(df[colunas_amostra].head(3).to_string())
    
    def unir_arquivos(self, metodo='auto', remover_duplicados=True):
        """
        Une os dois arquivos CSV
        
        Args:
            metodo: 'auto', 'concat', 'merge', 'outer'
            remover_duplicados: Remove linhas duplicadas ap√≥s uni√£o
        
        Returns:
            Boolean indicando sucesso da opera√ß√£o
        """
        if not self.compativel:
            print("‚ùå Arquivos incompat√≠veis para uni√£o!")
            return False
            
        print("\nüîó UNINDO ARQUIVOS...")
        print("=" * 60)
        
        try:
            if metodo == 'auto':
                metodo = self.tipo_uniao
            
            # Fazer c√≥pias para n√£o modificar os originais
            df1_copy = self.df1.copy()
            df2_copy = self.df2.copy()
            
            # Adicionar coluna de origem
            df1_copy['origem_arquivo'] = Path(self.arquivo1).name
            df2_copy['origem_arquivo'] = Path(self.arquivo2).name
            
            if metodo == 'concat' or set(self.df1.columns) == set(self.df2.columns):
                # Uni√£o simples (estruturas id√™nticas ou muito similares)
                print("üìå M√©todo: Concatena√ß√£o simples (append)")
                self.df_merged = pd.concat([df1_copy, df2_copy], ignore_index=True, sort=False)
                
            else:
                # Uni√£o com outer join (estruturas diferentes)
                print("üìå M√©todo: Uni√£o externa (outer join)")
                self.df_merged = pd.concat([df1_copy, df2_copy], ignore_index=True, sort=False)
            
            print(f"‚úÖ Uni√£o conclu√≠da!")
            print(f"   Total de linhas inicial: {len(self.df_merged):,}")
            print(f"   Total de colunas: {len(self.df_merged.columns)}")
            
            # Remover duplicados se solicitado
            if remover_duplicados:
                antes = len(self.df_merged)
                # N√£o considerar a coluna origem_arquivo para detectar duplicados
                cols_para_verificar = [col for col in self.df_merged.columns if col != 'origem_arquivo']
                
                if cols_para_verificar:  # Se houver colunas para verificar
                    self.df_merged = self.df_merged.drop_duplicates(subset=cols_para_verificar, keep='first')
                    depois = len(self.df_merged)
                    if antes > depois:
                        print(f"   üóëÔ∏è {antes - depois:,} linhas duplicadas removidas")
            
            # Estat√≠sticas finais
            print(f"\nüìä RESULTADO FINAL:")
            print(f"   Linhas do arquivo 1: {len(self.df1):,}")
            print(f"   Linhas do arquivo 2: {len(self.df2):,}")
            print(f"   Linhas no arquivo unificado: {len(self.df_merged):,}")
            print(f"   Colunas no arquivo unificado: {len(self.df_merged.columns)}")
            
            # Mostrar distribui√ß√£o por arquivo de origem
            print(f"\nüìç DISTRIBUI√á√ÉO POR ARQUIVO DE ORIGEM:")
            contagem_origem = self.df_merged['origem_arquivo'].value_counts()
            for origem, count in contagem_origem.items():
                print(f"   ‚Ä¢ {origem}: {count:,} linhas ({count/len(self.df_merged)*100:.1f}%)")
            
            return True
            
        except Exception as e:
            print(f"‚ùå Erro ao unir arquivos: {e}")
            import traceback
            traceback.print_exc()
            return False
    
    def salvar_resultado(self, nome_arquivo="ativos e inativos_full.csv", separador='|'):
        """
        Salva o arquivo unificado
        
        Args:
            nome_arquivo: Nome do arquivo de sa√≠da
            separador: Separador a usar no arquivo de sa√≠da
        """
        if self.df_merged is None:
            print("‚ùå Nenhum arquivo unificado para salvar!")
            return False
            
        try:
            print(f"\nüíæ SALVANDO ARQUIVO UNIFICADO...")
            print("=" * 60)
            
            # Salvar com encoding UTF-8
            self.df_merged.to_csv(nome_arquivo, sep=separador, index=False, encoding='utf-8-sig')
            
            # Verificar arquivo salvo
            if Path(nome_arquivo).exists():
                tamanho = Path(nome_arquivo).stat().st_size / 1024 / 1024
                
                print(f"‚úÖ Arquivo salvo com sucesso!")
                print(f"   üìÅ Nome: {nome_arquivo}")
                print(f"   üìä Tamanho: {tamanho:.2f} MB")
                print(f"   üìù Linhas: {len(self.df_merged):,}")
                print(f"   üìã Colunas: {len(self.df_merged.columns)}")
                print(f"   üî§ Separador: '{separador}'")
                print(f"   üî† Encoding: UTF-8 com BOM")
            
            return True
            
        except Exception as e:
            print(f"‚ùå Erro ao salvar arquivo: {e}")
            import traceback
            traceback.print_exc()
            return False
    
    def executar_processo_completo(self):
        """Executa o processo completo de verifica√ß√£o e uni√£o"""
        print("üöÄ INICIANDO PROCESSO DE VERIFICA√á√ÉO E UNI√ÉO DE CSVs")
        print("=" * 60)
        
        try:
            # 1. Carregar arquivos
            if not self.carregar_arquivos():
                return False
            
            # 2. Analisar estrutura
            if not self.analisar_estrutura():
                print("\n‚ùå Processo interrompido: arquivos incompat√≠veis")
                return False
            
            # 3. Verificar tipos de dados
            self.verificar_tipos_dados()
            
            # 4. Mostrar estat√≠sticas
            self.estatisticas_detalhadas()
            
            # 5. Unir arquivos
            sucesso_uniao = self.unir_arquivos()
            
            if sucesso_uniao:
                # 6. Salvar resultado
                self.salvar_resultado()
                print("\n‚ú® PROCESSO CONCLU√çDO COM SUCESSO!")
                return True
            else:
                print("\n‚ùå Falha na uni√£o dos arquivos")
                return False
                
        except Exception as e:
            print(f"\n‚ùå Erro no processo: {e}")
            import traceback
            traceback.print_exc()
            return False

# ============================================
# FUN√á√ïES AUXILIARES
# ============================================

def verificar_e_unir_csvs(arquivo1, arquivo2, separador='|', nome_saida="ativos_e_inativos_full.csv"):
    """
    Fun√ß√£o simplificada para verificar e unir dois CSVs
    
    Args:
        arquivo1: Caminho do primeiro arquivo
        arquivo2: Caminho do segundo arquivo
        separador: Separador usado nos CSVs
        nome_saida: Nome do arquivo de sa√≠da
    
    Returns:
        DataFrame unificado ou None se incompat√≠vel
    """
    merger = CSVMerger(arquivo1, arquivo2, separador)
    if merger.executar_processo_completo():
        return merger.df_merged
    return None

def analisar_multiplos_csvs(*arquivos, separador='|'):
    """
    Analisa m√∫ltiplos arquivos CSV para verificar compatibilidade
    
    Args:
        *arquivos: Lista de caminhos de arquivos
        separador: Separador usado nos CSVs
    """
    print("üìä AN√ÅLISE DE M√öLTIPLOS ARQUIVOS CSV")
    print("=" * 60)
    
    dataframes = []
    estruturas = []
    
    for i, arquivo in enumerate(arquivos, 1):
        try:
            df = pd.read_csv(arquivo, sep=separador, low_memory=False)
            dataframes.append(df)
            estruturas.append(set(df.columns))
            print(f"‚úÖ Arquivo {i}: {Path(arquivo).name}")
            print(f"   Linhas: {len(df):,}, Colunas: {len(df.columns)}")
        except Exception as e:
            print(f"‚ùå Erro no arquivo {i}: {e}")
            continue
    
    if not estruturas:
        print("‚ùå Nenhum arquivo p√¥de ser carregado")
        return None
    
    # Verificar compatibilidade geral
    colunas_comuns = set.intersection(*estruturas) if estruturas else set()
    print(f"\nüìã Colunas em comum em TODOS os arquivos: {len(colunas_comuns)}")
    
    if len(colunas_comuns) > 0:
        print("‚úÖ Arquivos podem ser unidos!")
        return dataframes
    else:
        print("‚ùå Arquivos incompat√≠veis para uni√£o")
        return None

# ============================================
# EXEMPLO DE USO
# ============================================

# Exemplo b√°sico - SUBSTITUA COM SEUS ARQUIVOS
print("üìù EXEMPLO DE USO:")
print("=" * 60)
print("""
# Para usar com seus arquivos, execute:

merger = CSVMerger('arquivo1.csv', 'arquivo2.csv', separador='|')
merger.executar_processo_completo()

# Ou use a fun√ß√£o simplificada:
df_unificado = verificar_e_unir_csvs(
    'caminho/para/arquivo1.csv',
    'caminho/para/arquivo2.csv',
    separador='|',
    nome_saida='ativos e inativos_full.csv'
)

# Para acessar o DataFrame resultado ap√≥s a execu√ß√£o:
# df_resultado = merger.df_merged
""")
merger = CSVMerger(r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_ativos_com_sobreviveu.csv", r"D:\____________________FAPERGS\DADOS\1_dados_limpos\completo_inativos_nao_sobreviveu_pipe.csv", separador='|')
merger.executar_processo_completo()

# ============================================
# CRIAR ARQUIVOS DE EXEMPLO PARA TESTE
# ============================================

def criar_arquivos_exemplo():
    """Cria arquivos de exemplo para teste"""
    
    # Criar arquivo 1 - Ativos
    df_ativos = pd.DataFrame({
        'cnpj': ['06.303.914/0001-08', '11.222.333/0001-44', '99.888.777/0001-66'],
        'username': ['gruporezor', 'empresa2', 'empresa3'],
        'name': ['Grupo Rezor', 'Empresa 2', 'Empresa 3'],
        'followers_count': [955, 1200, 450],
        'status': ['ativo', 'ativo', 'ativo'],
        'timestamp': ['2025-06-04T18:04:48+0000', '2025-06-05T10:00:00+0000', '2025-06-06T14:30:00+0000']
    })
    
    # Criar arquivo 2 - Inativos
    df_inativos = pd.DataFrame({
        'cnpj': ['55.444.333/0001-22', '77.666.555/0001-11'],
        'username': ['empresa4', 'empresa5'],
        'name': ['Empresa 4', 'Empresa 5'],
        'followers_count': [200, 150],
        'status': ['inativo', 'inativo'],
        'timestamp': ['2025-01-15T09:00:00+0000', '2025-02-20T11:30:00+0000']
    })
    
    # Salvar arquivos de exemplo
    df_ativos.to_csv('exemplo_ativos.csv', sep='|', index=False)
    df_inativos.to_csv('exemplo_inativos.csv', sep='|', index=False)
    
    print("üìÅ Arquivos de exemplo criados:")
    print("   ‚Ä¢ exemplo_ativos.csv")
    print("   ‚Ä¢ exemplo_inativos.csv")
    print("\nüöÄ Execute o c√≥digo abaixo para test√°-los:")
    print("merger = CSVMerger('exemplo_ativos.csv', 'exemplo_inativos.csv', '|')")
    print("merger.executar_processo_completo()")
    
    return df_ativos, df_inativos

# Descomentar para criar arquivos de exemplo
# df_ativos, df_inativos = criar_arquivos_exemplo()

print("\n‚ú® C√≥digo pronto para uso! Substitua os nomes dos arquivos e execute.")

üìù EXEMPLO DE USO:

# Para usar com seus arquivos, execute:

merger = CSVMerger('arquivo1.csv', 'arquivo2.csv', separador='|')
merger.executar_processo_completo()

# Ou use a fun√ß√£o simplificada:
df_unificado = verificar_e_unir_csvs(
    'caminho/para/arquivo1.csv',
    'caminho/para/arquivo2.csv',
    separador='|',
    nome_saida='ativos e inativos_full.csv'
)

# Para acessar o DataFrame resultado ap√≥s a execu√ß√£o:
# df_resultado = merger.df_merged

üöÄ INICIANDO PROCESSO DE VERIFICA√á√ÉO E UNI√ÉO DE CSVs
üìÇ CARREGANDO ARQUIVOS...
‚úÖ Arquivo 1 carregado com encoding utf-8
   üìÅ completo_ativos_com_sobreviveu.csv
   üìä Dimens√µes: 1,292,775 linhas x 15 colunas
‚úÖ Arquivo 2 carregado com encoding utf-8
   üìÅ completo_inativos_nao_sobreviveu_pipe.csv
   üìä Dimens√µes: 239,713 linhas x 2 colunas

üìã AN√ÅLISE DA ESTRUTURA

üî§ COLUNAS:
Arquivo 1: 15 colunas
Arquivo 2: 2 colunas

‚úÖ Colunas em comum: 1
   ‚Ä¢ sobreviveu

‚ö†Ô∏è Colunas exclusivas do Arquivo 1: 14
   