<h1> Scrapping - Coleta de Dados

## Instala√ß√£o e importa√ß√£o das bibliotecas necess√°rias

In [6]:
%pip install selenium

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import time
import pandas as pd
import os

### üìå Etapa 1: Coleta de Conex√µes do LinkedIn

Nesta primeira etapa do processo, utilizamos perfis do LinkedIn previamente autenticados para extrair as conex√µes de cada usu√°rio. Para automatizar essa tarefa, foi empregada a biblioteca **Selenium**, que permite a navega√ß√£o automatizada em p√°ginas web.

O processo executado compreende as seguintes a√ß√µes:

1. **Acesso ao LinkedIn**  
   Inicia-se uma sess√£o no navegador e acessa-se a p√°gina inicial do LinkedIn.

2. **Autentica√ß√£o**  
   Realiza-se o login autom√°tico utilizando as credenciais do usu√°rio.

3. **Acesso √† P√°gina de Conex√µes**  
   Ap√≥s o login, o script navega at√© a se√ß√£o de conex√µes do perfil.

4. **Scroll Din√¢mico da P√°gina**  
   Como o LinkedIn carrega as conex√µes de forma incremental, o script executa *scrolls* sucessivos at√© o final da p√°gina, garantindo que todas as conex√µes sejam carregadas.

5. **Extra√ß√£o das URLs das Conex√µes**  
   S√£o coletados os links (URLs) dos perfis de todas as conex√µes vis√≠veis.

6. **Armazenamento dos Dados**  
   Todas as URLs extra√≠das s√£o salvas em um arquivo `.txt` para uso posterior nas pr√≥ximas etapas do processo.


In [None]:
driver = webdriver.Chrome()
driver.get("https://www.linkedin.com/login/pt")

EMAIL = "teste@gmail.com"
PASSWORD = "senha123"

driver.find_element(By.ID, "username").send_keys(EMAIL)
driver.find_element(By.ID, "password").send_keys(PASSWORD)
driver.find_element(By.XPATH, "//button[@type='submit']").click()
time.sleep(5)

driver.get("https://www.linkedin.com/mynetwork/invite-connect/connections/")
time.sleep(5)

for _ in range(523):
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
  time.sleep(3)

links = driver.find_elements(By.XPATH, "//a[contains(@href, '/in/')]")
urls = set([l.get_attribute('href') for l in links if l.get_attribute('href')])

with open("linkedin_connections_2.txt", "w", encoding="utf-8") as f:
  for url in sorted(urls):
    f.write(url + "\n")

print(f"{len(urls)} links salvos em linkedin_connections_2.txt")

driver.quit()


520 links salvos em linkedin_connections_2.txt


### üìå Etapa 2: Consolida√ß√£o das Conex√µes Extra√≠das

Ap√≥s a coleta das conex√µes de diferentes perfis do LinkedIn (etapa anterior), os dados foram armazenados em arquivos `.txt`. Nesta etapa, realizamos a leitura e unifica√ß√£o dessas informa√ß√µes.

As a√ß√µes executadas incluem:

1. **Leitura dos Arquivos**  
   Os arquivos `linkedin_connections.txt` e `linkedin_connections_2.txt`, contendo os links extra√≠dos, s√£o abertos e lidos linha por linha.

2. **Limpeza e Unifica√ß√£o**  
   As linhas vazias s√£o removidas e as URLs de ambos os arquivos s√£o combinadas em uma √∫nica lista.

3. **Cria√ß√£o do DataFrame**  
   A lista consolidada de URLs √© convertida em um `DataFrame` do pandas para facilitar a manipula√ß√£o e an√°lise dos dados.

4. **Remo√ß√£o de Duplicatas**  
   URLs repetidas s√£o eliminadas para garantir que cada conex√£o apare√ßa apenas uma vez.

5. **Salvar os dados em um arquivo `.csv`**  
   Os dados s√£o salvos em um arquivo `.csv` para a segunda parte do processo de coleta.


In [4]:
file_path = "linkedin_connections.txt"
file_path_2 = "linkedin_connections_2.txt"
with open(file_path, "r", encoding="utf-8") as f1, open(file_path_2, "r", encoding="utf-8") as f2:
  urls = [line.strip() for line in f1 if line.strip()] + [line.strip() for line in f2 if line.strip()]

df = pd.DataFrame(urls, columns=["LinkedInURL"]).drop_duplicates().reset_index(drop=True)
df

Unnamed: 0,LinkedInURL
0,https://www.linkedin.com/in/abdsmaciel/
1,https://www.linkedin.com/in/adan-medeiros-2994...
2,https://www.linkedin.com/in/adelmomaximo/
3,https://www.linkedin.com/in/ademir-guimaraes/
4,https://www.linkedin.com/in/adevancomp/
...,...
649,https://www.linkedin.com/in/ygldc/
650,https://www.linkedin.com/in/yubiferreira/
651,https://www.linkedin.com/in/yuri-barbosa-88453...
652,https://www.linkedin.com/in/yuri-kauan-4674722bb/


In [None]:
df.to_csv("linkedin_connections.csv", index=False)

### üìå Etapa 3: Coleta dos Perfis LinkedIn em Formato HTML

Nesta etapa, utilizamos a lista de URLs de conex√µes (extra√≠das e salvas anteriormente) para acessar e salvar os perfis completos do LinkedIn em arquivos HTML. Esse processo tamb√©m foi automatizado com a biblioteca **Selenium**.

As principais a√ß√µes desta etapa incluem:

1. **Configura√ß√£o de Login e Leitura dos Dados**
   - Carregamento da lista de URLs a partir do arquivo `linkedin_connections.csv`.
   - Defini√ß√£o das credenciais de acesso (e-mail e senha).
   - Cria√ß√£o da pasta de destino `html_perfis` para armazenar os arquivos HTML.

2. **Abertura do Navegador e Login**
   - O Chrome √© iniciado em modo maximizado com Selenium.
   - A automa√ß√£o realiza o login na plataforma do LinkedIn e aguarda at√© que o feed principal seja carregado.

3. **Navega√ß√£o pelos Perfis**
   - O script percorre os perfis a partir de um √≠ndice inicial customizado (`start_index`), permitindo retomadas em caso de interrup√ß√µes.
   - Cada perfil √© acessado individualmente.

4. **Scroll da P√°gina**
   - Para garantir que todos os elementos do perfil sejam carregados, √© realizado um scroll cont√≠nuo at√© o final da p√°gina.

5. **Extra√ß√£o e Salvamento**
   - O HTML da p√°gina inteira √© capturado via `driver.page_source`.
   - O conte√∫do √© salvo localmente em arquivos nomeados sequencialmente (`profile-<idx>.html`).

6. **Pausa Estrat√©gica**
   - A cada 20 perfis processados, o script pausa por 60 segundos para reduzir o risco de bloqueio autom√°tico por parte da plataforma.

Essa etapa resulta em um reposit√≥rio local completo dos perfis visitados.


In [None]:
df_raw_linkedin_connections = pd.read_csv('linkedin_connections.csv')
df_raw_linkedin_connections

In [None]:
EMAIL = "test@gmail.com"
SENHA = "12345"
CSV_PATH = "linkedin_connections.csv" 
OUTPUT_DIR = "html_perfis"

os.makedirs(OUTPUT_DIR, exist_ok=True)

df = pd.read_csv(CSV_PATH)
perfil_urls = df["LinkedInURL"].dropna().unique().tolist()

options = Options()
options.add_argument("--start-maximized")


driver = webdriver.Chrome(options=options)
wait = WebDriverWait(driver, 20)

try:
    driver.get("https://www.linkedin.com/login")
    wait.until(EC.presence_of_element_located((By.ID, "username"))).send_keys(EMAIL)
    driver.find_element(By.ID, "password").send_keys(SENHA)
    driver.find_element(By.XPATH, "//button[@type='submit']").click()
    wait.until(EC.url_contains("linkedin.com/feed"))
    print("‚úÖ Login realizado com sucesso!")
except Exception as e:
    print(f"‚ùå Erro no login: {e}")
    driver.quit()
    exit()

start_index = 502

for idx, url in enumerate(perfil_urls[start_index - 1:], start=start_index):
    try:
        print(f"\nüîó Acessando ({idx}/{len(perfil_urls)}): {url}")
        driver.get(url)
        wait.until(EC.visibility_of_element_located((By.TAG_NAME, "h1")))
        time.sleep(2)

        print("‚è≥ Fazendo scroll...")
        last_height = driver.execute_script("return document.body.scrollHeight")
        while True:
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)
            new_height = driver.execute_script("return document.body.scrollHeight")
            if new_height == last_height:
                break
            last_height = new_height
        print("‚úÖ Scroll completo")

        nome_arquivo = f"profile-{idx}.html"
        output_path = os.path.join(OUTPUT_DIR, nome_arquivo)

        html = driver.page_source
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(html)
        print(f"‚úÖ HTML salvo: {output_path}")

        if idx % 20 == 0:
            print("‚è∏Ô∏è Pausando por 60 segundos para evitar bloqueio...")
            time.sleep(60)

    except TimeoutException:
        print(f"‚ö†Ô∏è Timeout ao acessar: {url}")
    except Exception as e:
        print(f"‚ùå Erro ao processar {url}: {e}")

driver.quit()
print("\n‚úÖ Todos os perfis processados. Navegador fechado.")
