In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# URL base do repositório
base_url = "https://github.com/petrobras/3W/stargazers"

# Lista para armazenar os dados
data = []

# Função para realizar o scraping
def scrape_stargazers():
    page = 1
    while True:
        # Adiciona o número da página à URL
        url = f"{base_url}?page={page}"
        # Faz a requisição
        response = requests.get(url)

        # Verifica se a página existe
        if response.status_code != 200:
            print("Fim das páginas ou erro ao acessar.")
            break

        # Analisa o HTML com BeautifulSoup
        soup = BeautifulSoup(response.text, "html.parser")

        # Localiza os elementos contendo os perfis
        stargazers = soup.find_all("a", class_="d-inline-block")

        # Se não houver perfis, termina o loop
        if not stargazers:
            break

        # Extrai os dados dos perfis
        for stargazer in stargazers:
            # Extrai o nome do perfil e o link
            name = stargazer.find("img")["alt"].replace("@", "").strip()  # Nome correto
            profile_link = f"https://github.com{stargazer['href']}"          # Link do perfil

            # Faz uma requisição para a página do perfil
            profile_response = requests.get(profile_link)
            if profile_response.status_code == 200:
                profile_soup = BeautifulSoup(profile_response.text, "html.parser")

                # Extrai informações adicionais do perfil ou define como vazio
                name_tag = profile_soup.find("span", class_="p-name")
                full_name = name_tag.text.strip() if name_tag else ""

                location_tag = profile_soup.find("span", class_="p-label")
                location = location_tag.text.strip() if location_tag else ""

                company_tag = profile_soup.find("span", class_="p-org")
                company = company_tag.text.strip() if company_tag else ""

                utc_tag = profile_soup.find("relative-time")
                utc = utc_tag["datetime"] if utc_tag else ""

                # Capturando os links corretamente
                links = [a['href'] for a in profile_soup.find_all('a', {'class': 'Link--primary'}) if 'href' in a.attrs]

                # Adicionando os dados coletados à lista
                dados = {
                    "GitHub": name,
                    "URL": profile_link,
                    "Nome": full_name,
                    "Localização": location,
                    "Empresa": company,
                    "UTC": utc
                }

                # Adicionando os links em colunas separadas
                for i, link in enumerate(links):
                    dados[f"Link {i+1}"] = link

                data.append(dados)

            # Aguarda 1 segundo antes de acessar o próximo perfil
            time.sleep(1)

        # Avança para a próxima página
        page += 1

# Executa o scraping
scrape_stargazers()

# Converte os dados para um DataFrame e salva em um arquivo Excel
output_path = r"C:\Users\tiago_igx865i\Downloads\BOT\scraping.xlsx"
df = pd.DataFrame(data)
df.to_excel(output_path, index=False)

print(f"Dados salvos no arquivo Excel: '{output_path}'")


Dados salvos no arquivo Excel: 'C:\Users\tiago_igx865i\Downloads\BOT\scraping_detalhado.xlsx'
