# Análise Automatizada de Currículos em PDF

Este notebook automatiza a leitura de currículos em PDF, localizados na pasta `INF1515/curriculos`, e verifica quais candidatos mencionam instituições específicas como:

- **PUC-Rio**
- **Pontifícia Universidade Católica do Rio de Janeiro**

O objetivo é filtrar automaticamente os arquivos relevantes para facilitar a triagem de candidatos.


In [16]:
!pip install pymupdf



In [17]:
import os
import PyPDF2
import fitz  # PyMuPDF

### Leitura automática de currículos em PDF

Esta automação percorre todos os arquivos PDF dentro da pasta `curriculos/` e verifica se o conteúdo menciona "PUC-Rio" ou "Pontifícia Universidade Católica do Rio de Janeiro".

Se encontrar, imprime o nome do arquivo (ou salva numa lista para posterior triagem).


In [12]:
# Caminho da pasta
pasta_curriculos = "C:/Users/pedro/INF1515/curriculos"

# Palavras-chave para buscar nos currículos
palavras_chave = ["PUC-Rio", "Pontifícia Universidade Católica do Rio de Janeiro"]


In [13]:
curriculos_filtrados = []

for nome_arquivo in os.listdir(pasta_curriculos):
    if nome_arquivo.endswith(".pdf"):
        caminho_completo = os.path.join(pasta_curriculos, nome_arquivo)
        doc = fitz.open(caminho_completo)
        texto = ""
        
        for pagina in doc:
            texto += pagina.get_text()
        
        if any(palavra in texto for palavra in palavras_chave):
            curriculos_filtrados.append(nome_arquivo)

# Resultado
print("Currículos que mencionam PUC-Rio ou equivalente:")
for nome in curriculos_filtrados:
    print("-", nome)


Currículos que mencionam PUC-Rio ou equivalente:
- candidato1.pdf
- candidato3.pdf
- candidato5.pdf


## Ultimo passo - salvar nomes candidatos num arquivo excel


In [18]:
import pandas as pd

df = pd.DataFrame(curriculos_filtrados, columns=["Currículos aprovados"])
df.to_excel("curriculos_filtrados.xlsx", index=False)
print("📄 Arquivo salvo como curriculos_filtrados.xlsx")


📄 Arquivo salvo como curriculos_filtrados.xlsx
