In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import os

folder_path = '/content/drive'

try:
    os.chdir(folder_path)
    print(f"Diretório de trabalho atual alterado para: {os.getcwd()}")
    print("Listando conteúdo do diretório para verificação:")
    !ls -F
except FileNotFoundError:
    print(f"ERRO: O caminho '{folder_path}' não foi encontrado. Por favor, verifique e corrija o caminho.")
except Exception as e:
    print(f"Ocorreu um erro ao mudar para o diretório '{folder_path}': {e}")

# Lista para armazenar todos os dataframes
all_dfs = []

# Itera sobre todos os arquivos no diretório
for file_name in os.listdir(folder_path):
    if file_name.endswith('.xlsx'):
        file_path = os.path.join(folder_path, file_name)
        try:
            # Carrega a planilha, ignorando o cabeçalho existente
            df = pd.read_excel(file_path, header=None)
            all_dfs.append(df)
            print(f"Arquivo '{file_name}' carregado com sucesso.")
        except Exception as e:
            print(f"Erro ao carregar o arquivo '{file_name}': {e}")

# Combina todos os dataframes em um único dataframe
if all_dfs:
    df_combined = pd.concat(all_dfs, ignore_index=True)
    print("\nTodos os arquivos Excel foram combinados em um único DataFrame.")
    print("Primeiras 5 linhas do DataFrame combinado:")
    display(df_combined.head())
else:
    print("Nenhum arquivo Excel encontrado para combinar.")
    df_combined = pd.DataFrame() # Cria um DataFrame vazio se nenhum arquivo for encontrado

Diretório de trabalho atual alterado para: /content/drive/My Drive/teste_marcacao/revisar
Listando conteúdo do diretório para verificação:
conteudo_lote_0406_unificado_classificado_20260113_232928.xlsx
conteudo_lote_0710_unificado_classificado_20260113_232949.xlsx
conteudo_lote_1114_unificado_classificado_20260113_233006.xlsx
conteudo_lote_15_unificado_classificado_20260113_232917.xlsx
conteudo_lote_16_unificado_classificado_20260113_232921.xlsx
conteudo_lote_17_unificado_classificado_20260113_232900.xlsx
conteudo_lote_18_unificado_classificado_20260113_232907.xlsx
conteudo_lote_19_unificado_classificado_20260113_232914.xlsx
conteudo_lote_20_unificado_classificado_20260113_232912.xlsx
conteudo_lote_21_unificado_classificado_20260113_232910.xlsx
conteudo_lote_22_unificado_classificado_20260113_233014.xlsx
conteudo_lote_23_unificado_classificado_20260113_233018.xlsx
conteudo_lote_24_unificado_classificado_20260113_232933.xlsx
conteudo_lote_25_unificado_classificado_20260113_232936.xlsx
m

Unnamed: 0,0,1,2,3,4,5
0,Link,excluir,conteudo,prob_X,marcacao_X,status_revisao
1,https://fflorestal.sp.gov.br/2017/09/incendio-...,,Fundação Florestal saopaulo.sp.gov.br Cidadão ...,0.350475,,CONFIANTE
2,https://www.abc.org.br/2017/09/25/mapeamento-d...,,Mapeamento da biodiversidade brasileira: áreas...,0.207806,,CONFIANTE
3,https://blog.ofitexto.com.br/meio-ambiente-rec...,,"Plantas do cerrado brasileiro: tipos, caracter...",0.19321,,CONFIANTE
4,https://ipam.org.br/incendios-recorrentes-afet...,,Incêndios afetam formigas e convertem floresta...,0.333955,,CONFIANTE


In [None]:
new_columns = ['link', 'excluir','conteudo','marcacao_X','status_revisao']
expected_col_indices = [0, 1, 2, 3, 4]

# Ensure df_combined has at least the expected number of columns, filling with pd.NA if missing
for col_idx in expected_col_indices:
    if col_idx not in df_combined.columns:
        df_combined[col_idx] = pd.NA

# Now select the first 5 columns, which are guaranteed to exist
df_combined = df_combined[expected_col_indices]

df_combined.columns = new_columns

df_combined = df_combined[~((df_combined['link'] == 'Link') & (df_combined['conteudo'] == 'conteudo'))]

print("Linhas indesejadas removidas:")
display(df_combined.head())

Linhas indesejadas removidas:


Unnamed: 0,link,excluir,conteudo,marcacao_X,status_revisao
1,https://fflorestal.sp.gov.br/2017/09/incendio-...,,Fundação Florestal saopaulo.sp.gov.br Cidadão ...,0.350475,
2,https://www.abc.org.br/2017/09/25/mapeamento-d...,,Mapeamento da biodiversidade brasileira: áreas...,0.207806,
3,https://blog.ofitexto.com.br/meio-ambiente-rec...,,"Plantas do cerrado brasileiro: tipos, caracter...",0.19321,
4,https://ipam.org.br/incendios-recorrentes-afet...,,Incêndios afetam formigas e convertem floresta...,0.333955,
5,https://uc.socioambiental.org/noticia/182650,,Incêndio consome 332 mil hectares no Parque Na...,0.256573,


In [None]:
output_file_path = 'planilha_combinada.xlsx'
df_combined.to_csv(output_file_path, index=False)
print(f"Planilha combinada salva em: {output_file_path}")

Planilha combinada salva em: planilha_combinada.xlsx
