In [11]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [12]:
import pandas as pd
import os

folder_path = '/content/drive/My Drive/teste_marcacao/revisar/resultados'

try:
    os.chdir(folder_path)
    print(f"Diretório de trabalho atual alterado para: {os.getcwd()}")
    print("Listando conteúdo do diretório para verificação:")
    !ls -F
except FileNotFoundError:
    print(f"ERRO: O caminho '{folder_path}' não foi encontrado. Por favor, verifique e corrija o caminho.")
except Exception as e:
    print(f"Ocorreu um erro ao mudar para o diretório '{folder_path}': {e}")

# Lista para armazenar todos os dataframes
all_dfs = []

# Itera sobre todos os arquivos no diretório
for file_name in os.listdir(folder_path):
    if file_name.endswith('.xlsx'):
        file_path = os.path.join(folder_path, file_name)
        try:
            # Carrega a planilha, ignorando o cabeçalho existente
            df = pd.read_excel(file_path, header=None)
            all_dfs.append(df)
            print(f"Arquivo '{file_name}' carregado com sucesso.")
        except Exception as e:
            print(f"Erro ao carregar o arquivo '{file_name}': {e}")

# Combina todos os dataframes em um único dataframe
if all_dfs:
    df_combined = pd.concat(all_dfs, ignore_index=True)
    print("\nTodos os arquivos Excel foram combinados em um único DataFrame.")
    print("Primeiras 5 linhas do DataFrame combinado:")
    display(df_combined.head())
else:
    print("Nenhum arquivo Excel encontrado para combinar.")
    df_combined = pd.DataFrame() # Cria um DataFrame vazio se nenhum arquivo for encontrado

Diretório de trabalho atual alterado para: /content/drive/My Drive/teste_marcacao/revisar/resultados
Listando conteúdo do diretório para verificação:
conteudo_lote_0406_filtrado_limpo.xlsx	conteudo_lote_21_filtrado_limpo.xlsx
conteudo_lote_0710_filtrado_limpo.xlsx	conteudo_lote_22_filtrado_limpo.xlsx
conteudo_lote_1114_filtrado_limpo.xlsx	conteudo_lote_23_filtrado_limpo.xlsx
conteudo_lote_15_filtrado_limpo.xlsx	conteudo_lote_24_filtrado_limpo.xlsx
conteudo_lote_16_filtrado_limpo.xlsx	conteudo_lote_25_filtrado_limpo.xlsx
conteudo_lote_17_filtrado_limpo.xlsx	filtrados/
conteudo_lote_18_filtrado_limpo.xlsx	limpar_arquivos.ipynb
conteudo_lote_19_filtrado_limpo.xlsx	planilha_combinada.xlsx
conteudo_lote_20_filtrado_limpo.xlsx	unir_planilhas.ipynb
Arquivo 'conteudo_lote_1114_filtrado_limpo.xlsx' carregado com sucesso.
Arquivo 'conteudo_lote_0710_filtrado_limpo.xlsx' carregado com sucesso.
Arquivo 'conteudo_lote_0406_filtrado_limpo.xlsx' carregado com sucesso.
Arquivo 'conteudo_lote_25_filtra

Unnamed: 0,0,1,2
0,Link,conteudo,
1,http://expedicaofitogeografica2012.blogspot.co...,Expedições Fitogeográficas - Brasil e América ...,
2,https://uc.socioambiental.org/noticia/121035,Parque Nacional Marinho inaugura praia com tot...,
3,https://envolverde.com.br/arquivo/mestres-em-s...,Mestres em Sustentabilidade pesquisam povos in...,
4,https://uc.socioambiental.org/pt-br/noticia/12...,Ibama realiza a soltura de 40 papagaios verdad...,


In [13]:
new_columns = ['link', 'conteudo']

# Select only the first two columns (0 and 1) before renaming
# Assuming 'link' is in column 0 and 'conteudo' is in column 1
df_combined = df_combined[[0, 1]]

df_combined.columns = new_columns

df_combined = df_combined[~((df_combined['link'] == 'Link') & (df_combined['conteudo'] == 'conteudo'))]

print("Linhas indesejadas removidas:")
display(df_combined.head())

Linhas indesejadas removidas:


Unnamed: 0,link,conteudo
1,http://expedicaofitogeografica2012.blogspot.co...,Expedições Fitogeográficas - Brasil e América ...
2,https://uc.socioambiental.org/noticia/121035,Parque Nacional Marinho inaugura praia com tot...
3,https://envolverde.com.br/arquivo/mestres-em-s...,Mestres em Sustentabilidade pesquisam povos in...
4,https://uc.socioambiental.org/pt-br/noticia/12...,Ibama realiza a soltura de 40 papagaios verdad...
5,https://revistacultivar.com.br/noticias/artigo...,Artigo: Relatos de Ocorrência de Animais Silve...


In [14]:
output_file_path = 'planilha_combinada.xlsx'
df_combined.to_csv(output_file_path, index=False)
print(f"Planilha combinada salva em: {output_file_path}")

Planilha combinada salva em: planilha_combinada.xlsx
