In [2]:
# scrape_remote_jobs.py
# --------------------------------------------------
# Bu script, RemoteRocketship sitesinden uzaktan (remote) Data Analyst iş ilanlarını toplar.
# İlan başlığı, linki ve açıklamasını çekip bir CSV dosyasına kaydeder.
# Kod adım adım açıklanmıştır.
# Yazan: [Yavuzcan ÇOLAK]
# Tarih: [09-05-2025]
# --------------------------------------------------

import requests                     # Web sitesine HTTP isteği göndermek için kullanılır
from bs4 import BeautifulSoup       # HTML içeriğini ayrıştırmak ve veri çekmek için kullanılır
import pandas as pd                 # Verileri tabloya çevirmek ve CSV olarak kaydetmek için kullanılır
import time                         # İstekler arasında bekleme süresi eklemek için kullanılır (ban yememek için)

# Web sitesine tarayıcı gibi davranmak için gerekli kullanıcı bilgileri (bot olarak algılanmamak için)
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}

# Tüm ilan linklerini tutacak liste
all_job_links = []

# İlk 5 sayfayı gezerek ilan linklerini çekiyoruz (her sayfada yaklaşık 20 ilan var)
for page in range(1, 6):
    url = f"https://www.remoterocketship.com/jobs/data-analyst?page={page}&sort=DateAdded&jobTitle=Data+Analyst"
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")

    # Sayfadaki "View Job" yazılı bağlantıları bul
    job_cards = soup.find_all("a", string="View Job")

    # Göreli linkleri tam hale getir ve listeye ekle
    job_links = ["https://www.remoterocketship.com" + job["href"] for job in job_cards]
    all_job_links.extend(job_links)  # Listeye ekle

print(f"\n✅ Toplam {len(all_job_links)} ilan linki toplandı.\n")

# İlan bilgilerini (başlık, link, açıklama) saklayacağımız liste
job_data = []

# Her linke girerek detaylı ilan bilgilerini çekiyoruz
for link in all_job_links:
    res = requests.get(link, headers=headers)
    soup = BeautifulSoup(res.content, "html.parser")

    # Başlık bilgisini <h1> etiketi içinden al (bulunamazsa "N/A")
    try:
        title = soup.find("h1").text.strip()
    except:
        title = "N/A"

    # Açıklama kısmını ilgili <p> class'ından çek
    try:
        description_tags = soup.find_all("p", class_="text-secondary whitespace-pre-line")
        description = " ".join([tag.get_text(strip=True) for tag in description_tags])
    except:
        description = "N/A"

    # Veriyi sözlük (dict) formatında listeye ekle
    job_data.append({
        "title": title,
        "link": link,
        "description": description
    })

    print(f"✅ Çekildi: {title}")  # İlerleme çıktısı
    time.sleep(0.5)  # Sunucuyu yormamak için kısa bekleme

# Veriyi DataFrame'e çevir ve CSV olarak kaydet
output_df = pd.DataFrame(job_data)
output_df.to_csv("data_analyst_jobs.csv", index=False)
print("\n💾 CSV dosyası kaydedildi: data_analyst_jobs.csv")



✅ Toplam 100 ilan linki toplandı.

✅ Çekildi: HR Data Analytics Intern
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analyst III
✅ Çekildi: Manager, Data Analytics - Reporting, SQL, Power BI
✅ Çekildi: Manager, Data Analytics & Reporting
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analytics and Visualization
✅ Çekildi: Data Analyst
✅ Çekildi: Senior Risk Adjustment Data Analyst
✅ Çekildi: Analytics Manager
✅ Çekildi: Data Analyst
✅ Çekildi: Senior Data Analyst - Product
✅ Çekildi: Data Analyst III - Healthcare Analytics
✅ Çekildi: Data Analytics Research Intern - EUV Process Optimization
✅ Çekildi: Senior Data Analyst - Remote
✅ Çekildi: Senior Growth Data Analyst
✅ Çekildi: Data Analyst
✅ Çekildi: VP - Data Analytics & Automation
✅ Çekildi: HR Data Analytics Intern
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analyst
✅ Çekildi: Data Analyst III
✅ Çekildi: Manager, Data Analytics - Reporting, SQL, Power BI
✅ Çekildi: Manager, Data Analytics & Reporting