In [1]:
# --- Instalar pacotes necessários ---
!pip install pandas openpyxl requests tqdm

# --- Importar bibliotecas ---
import pandas as pd
import requests
import time
from tqdm.notebook import tqdm
from google.colab import files

# --- Configurações do usuário ---
ARQUIVO_ENTRADA = 'Planilha_corrigida.xlsx'   # Nome da sua planilha corrigida (faça upload abaixo)
COLUNA_NOME = 'name'                          # Nome da coluna que contém o nome dos compostos
ARQUIVO_SAIDA = 'Planilha_com_PubChem.xlsx'    # Nome final da planilha de saída
TEMPO_ESPERA = 0.2                             # Tempo de espera entre requisições (segundos)
TAMANHO_BLOCO = 500                            # Quantos compostos consultar por bloco

# --- Função para buscar dados no PubChem ---
def buscar_pubchem(nome):
    url = f'https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/{nome}/property/CanonicalSMILES,MolecularFormula,MolecularWeight,InChIKey,IUPACName/JSON'
    try:
        resposta = requests.get(url, timeout=10)
        if resposta.status_code == 200:
            dados = resposta.json()
            props = dados['PropertyTable']['Properties'][0]
            return {
                'CID': props.get('CID', None),
                'CanonicalSMILES': props.get('CanonicalSMILES', None),
                'MolecularFormula': props.get('MolecularFormula', None),
                'MolecularWeight': props.get('MolecularWeight', None),
                'InChIKey': props.get('InChIKey', None),
                'IUPACName': props.get('IUPACName', None)
            }
        else:
            return {
                'CID': None,
                'CanonicalSMILES': None,
                'MolecularFormula': None,
                'MolecularWeight': None,
                'InChIKey': None,
                'IUPACName': None
            }
    except Exception as e:
        print(f"Erro ao consultar '{nome}': {e}")
        return {
            'CID': None,
            'CanonicalSMILES': None,
            'MolecularFormula': None,
            'MolecularWeight': None,
            'InChIKey': None,
            'IUPACName': None
        }

# --- Fazer upload do arquivo para o Colab ---
print("Faça upload do seu arquivo 'Planilha_corrigida.xlsx'")
uploaded = files.upload()

# --- Ler o arquivo de entrada ---
df = pd.read_excel(ARQUIVO_ENTRADA)

# --- Preparar para busca em blocos ---
resultados_gerais = []
n_total = len(df)
n_blocos = (n_total // TAMANHO_BLOCO) + 1

# --- Processar cada bloco ---
for i in range(n_blocos):
    inicio = i * TAMANHO_BLOCO
    fim = min((i + 1) * TAMANHO_BLOCO, n_total)
    df_bloco = df.iloc[inicio:fim]

    print(f"\n🔵 Processando bloco {i+1}/{n_blocos} - linhas {inicio+1} a {fim}")

    resultados_bloco = []
    for nome in tqdm(df_bloco[COLUNA_NOME], desc=f"Consultando compostos {inicio+1}-{fim}"):
        if pd.isna(nome):
            resultados_bloco.append({
                'CID': None,
                'CanonicalSMILES': None,
                'MolecularFormula': None,
                'MolecularWeight': None,
                'InChIKey': None,
                'IUPACName': None
            })
            continue

        info = buscar_pubchem(nome)
        resultados_bloco.append(info)
        time.sleep(TEMPO_ESPERA)

    # Adiciona resultados do bloco
    resultados_gerais.extend(resultados_bloco)

# --- Converter todos os resultados em DataFrame ---
df_resultados = pd.DataFrame(resultados_gerais)

# --- Combinar o original com os resultados ---
df_final = pd.concat([df.reset_index(drop=True), df_resultados.reset_index(drop=True)], axis=1)

# --- Salvar tudo em um único arquivo Excel ---
df_final.to_excel(ARQUIVO_SAIDA, index=False)

# --- Disponibilizar para download ---
files.download(ARQUIVO_SAIDA)

print("\n✅ Consulta finalizada e arquivo salvo com sucesso:", ARQUIVO_SAIDA)


Faça upload do seu arquivo 'Planilha_corrigida.xlsx'


Saving Planilha_corrigida.xlsx to Planilha_corrigida.xlsx

🔵 Processando bloco 1/88 - linhas 1 a 500


Consultando compostos 1-500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 2/88 - linhas 501 a 1000


Consultando compostos 501-1000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 3/88 - linhas 1001 a 1500


Consultando compostos 1001-1500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 4/88 - linhas 1501 a 2000


Consultando compostos 1501-2000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 5/88 - linhas 2001 a 2500


Consultando compostos 2001-2500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 6/88 - linhas 2501 a 3000


Consultando compostos 2501-3000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 7/88 - linhas 3001 a 3500


Consultando compostos 3001-3500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 8/88 - linhas 3501 a 4000


Consultando compostos 3501-4000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 9/88 - linhas 4001 a 4500


Consultando compostos 4001-4500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 10/88 - linhas 4501 a 5000


Consultando compostos 4501-5000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 11/88 - linhas 5001 a 5500


Consultando compostos 5001-5500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 12/88 - linhas 5501 a 6000


Consultando compostos 5501-6000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 13/88 - linhas 6001 a 6500


Consultando compostos 6001-6500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 14/88 - linhas 6501 a 7000


Consultando compostos 6501-7000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 15/88 - linhas 7001 a 7500


Consultando compostos 7001-7500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 16/88 - linhas 7501 a 8000


Consultando compostos 7501-8000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 17/88 - linhas 8001 a 8500


Consultando compostos 8001-8500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 18/88 - linhas 8501 a 9000


Consultando compostos 8501-9000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 19/88 - linhas 9001 a 9500


Consultando compostos 9001-9500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 20/88 - linhas 9501 a 10000


Consultando compostos 9501-10000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 21/88 - linhas 10001 a 10500


Consultando compostos 10001-10500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 22/88 - linhas 10501 a 11000


Consultando compostos 10501-11000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 23/88 - linhas 11001 a 11500


Consultando compostos 11001-11500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 24/88 - linhas 11501 a 12000


Consultando compostos 11501-12000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 25/88 - linhas 12001 a 12500


Consultando compostos 12001-12500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 26/88 - linhas 12501 a 13000


Consultando compostos 12501-13000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 27/88 - linhas 13001 a 13500


Consultando compostos 13001-13500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 28/88 - linhas 13501 a 14000


Consultando compostos 13501-14000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 29/88 - linhas 14001 a 14500


Consultando compostos 14001-14500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 30/88 - linhas 14501 a 15000


Consultando compostos 14501-15000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 31/88 - linhas 15001 a 15500


Consultando compostos 15001-15500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 32/88 - linhas 15501 a 16000


Consultando compostos 15501-16000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 33/88 - linhas 16001 a 16500


Consultando compostos 16001-16500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 34/88 - linhas 16501 a 17000


Consultando compostos 16501-17000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 35/88 - linhas 17001 a 17500


Consultando compostos 17001-17500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 36/88 - linhas 17501 a 18000


Consultando compostos 17501-18000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 37/88 - linhas 18001 a 18500


Consultando compostos 18001-18500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 38/88 - linhas 18501 a 19000


Consultando compostos 18501-19000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 39/88 - linhas 19001 a 19500


Consultando compostos 19001-19500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 40/88 - linhas 19501 a 20000


Consultando compostos 19501-20000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 41/88 - linhas 20001 a 20500


Consultando compostos 20001-20500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 42/88 - linhas 20501 a 21000


Consultando compostos 20501-21000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 43/88 - linhas 21001 a 21500


Consultando compostos 21001-21500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 44/88 - linhas 21501 a 22000


Consultando compostos 21501-22000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 45/88 - linhas 22001 a 22500


Consultando compostos 22001-22500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 46/88 - linhas 22501 a 23000


Consultando compostos 22501-23000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 47/88 - linhas 23001 a 23500


Consultando compostos 23001-23500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 48/88 - linhas 23501 a 24000


Consultando compostos 23501-24000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 49/88 - linhas 24001 a 24500


Consultando compostos 24001-24500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 50/88 - linhas 24501 a 25000


Consultando compostos 24501-25000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 51/88 - linhas 25001 a 25500


Consultando compostos 25001-25500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 52/88 - linhas 25501 a 26000


Consultando compostos 25501-26000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 53/88 - linhas 26001 a 26500


Consultando compostos 26001-26500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 54/88 - linhas 26501 a 27000


Consultando compostos 26501-27000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 55/88 - linhas 27001 a 27500


Consultando compostos 27001-27500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 56/88 - linhas 27501 a 28000


Consultando compostos 27501-28000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 57/88 - linhas 28001 a 28500


Consultando compostos 28001-28500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 58/88 - linhas 28501 a 29000


Consultando compostos 28501-29000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 59/88 - linhas 29001 a 29500


Consultando compostos 29001-29500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 60/88 - linhas 29501 a 30000


Consultando compostos 29501-30000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 61/88 - linhas 30001 a 30500


Consultando compostos 30001-30500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 62/88 - linhas 30501 a 31000


Consultando compostos 30501-31000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 63/88 - linhas 31001 a 31500


Consultando compostos 31001-31500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 64/88 - linhas 31501 a 32000


Consultando compostos 31501-32000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 65/88 - linhas 32001 a 32500


Consultando compostos 32001-32500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 66/88 - linhas 32501 a 33000


Consultando compostos 32501-33000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 67/88 - linhas 33001 a 33500


Consultando compostos 33001-33500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 68/88 - linhas 33501 a 34000


Consultando compostos 33501-34000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 69/88 - linhas 34001 a 34500


Consultando compostos 34001-34500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 70/88 - linhas 34501 a 35000


Consultando compostos 34501-35000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 71/88 - linhas 35001 a 35500


Consultando compostos 35001-35500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 72/88 - linhas 35501 a 36000


Consultando compostos 35501-36000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 73/88 - linhas 36001 a 36500


Consultando compostos 36001-36500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 74/88 - linhas 36501 a 37000


Consultando compostos 36501-37000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 75/88 - linhas 37001 a 37500


Consultando compostos 37001-37500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 76/88 - linhas 37501 a 38000


Consultando compostos 37501-38000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 77/88 - linhas 38001 a 38500


Consultando compostos 38001-38500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 78/88 - linhas 38501 a 39000


Consultando compostos 38501-39000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 79/88 - linhas 39001 a 39500


Consultando compostos 39001-39500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 80/88 - linhas 39501 a 40000


Consultando compostos 39501-40000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 81/88 - linhas 40001 a 40500


Consultando compostos 40001-40500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 82/88 - linhas 40501 a 41000


Consultando compostos 40501-41000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 83/88 - linhas 41001 a 41500


Consultando compostos 41001-41500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 84/88 - linhas 41501 a 42000


Consultando compostos 41501-42000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 85/88 - linhas 42001 a 42500


Consultando compostos 42001-42500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 86/88 - linhas 42501 a 43000


Consultando compostos 42501-43000:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 87/88 - linhas 43001 a 43500


Consultando compostos 43001-43500:   0%|          | 0/500 [00:00<?, ?it/s]


🔵 Processando bloco 88/88 - linhas 43501 a 43745


Consultando compostos 43501-43745:   0%|          | 0/245 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


✅ Consulta finalizada e arquivo salvo com sucesso: Planilha_com_PubChem.xlsx


In [None]:
import pandas as pd
from google.colab import files
import os

# 1. Faça upload do arquivo "Planilha_C.csv"
uploaded = files.upload()
input_filename = list(uploaded.keys())[0]

# 2. Leitura do arquivo CSV
df = pd.read_csv(input_filename)

# 3. Remover duplicatas na coluna 'CID'
df_unique = df.drop_duplicates(subset='CID')

# 4. Salvar o resultado em um novo CSV
output_filename = 'Planilha_C_sem_duplicatas.csv'
df_unique.to_csv(output_filename, index=False)

# 5. Baixar o arquivo deduplicado
files.download(output_filename)

print(f"Processamento concluído! Baixe seu arquivo '{output_filename}'.")
