In [6]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time
import pandas as pd

# Dummy sentiment analysis function
def analyze_sentiment(text):
    text = text.strip()
    if any(word in text for word in ['מת', 'נהרג', 'אסון', 'תאונה', 'פצוע', 'ירי', 'הרג']):
        return 'negative'
    elif any(word in text for word in ['נפתח', 'זכה', 'נבחר', 'חוגגים', 'שוחרר']):
        return 'positive'
    else:
        return 'neutral'

# Set up headless browser
options = Options()
options.add_argument("--headless=new")
options.add_argument("--disable-gpu")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

# Launch Chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# Load the Ynet news page
url = "https://www.ynet.co.il/news/category/184"
driver.get(url)

# Wait for JS to load
time.sleep(5)

# Parse the rendered HTML
soup = BeautifulSoup(driver.page_source, "html.parser")
driver.quit()

# Extract breaking news headlines
headlines = []
for section in soup.find_all('div', class_='AccordionSection'):
    title_tag = section.find('div', class_='title')
    if title_tag:
        text = title_tag.get_text(strip=True)
        sentiment = analyze_sentiment(text)
        headlines.append({'text': text, 'sentiment': sentiment})

# Convert to DataFrame
df = pd.DataFrame(headlines)
print(df)


                                                 text sentiment
0   ח"כ מילביצקי זומן לחקירה בלהב 433, החשד: עבירו...   neutral
1    צה"ל: כ-50 אזרחים ישראלים נכנסו במהלך הלילה לשכם   neutral
2       עיריית הרצליה: חוף השרון בעיר נפתח מחדש לרחצה  negative
3   רויטרס: ממשל טראמפ לא מצא ראיות לגניבה שיטתית ...   neutral
4     צה"ל: אלוף שי קלפר נכנס לתפקיד מפקד פיקוד העורף   neutral
..                                                ...       ...
95  אישום: נהגת חדשה גרמה למותן של שתי נוסעות, בהן...   neutral
96  דיווחים: הרוגים ופצועים בתקיפת מחסן תחמושת וטי...  negative
97  המתווך הפלסטיני-אמריקני בין ארה"ב לחמאס: "על י...  negative
98  רפאל תקיים ניסוי בקריות בשעות הצהריים, עשוי לה...   neutral
99  סוכנויות הידיעות המובילות פנו לישראל: לאפשר לע...   neutral

[100 rows x 2 columns]


#### Model sentiment based on LLM model from huggingface 

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time
import pandas as pd
import requests

# ✅ Insert your Hugging Face API Token here
HF_API_TOKEN = "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"  # ← replace this

# ✅ Hugging Face inference API URL for multilingual sentiment model
HF_API_URL =  "https://api-inference.huggingface.co/models/nlptown/bert-base-multilingual-uncased-sentiment"

#
# Sentiment analysis using Hugging Face API
def analyze_sentiment(text):
    headers = {"Authorization": "Bearer " + HF_API_TOKEN}
    payload = {"inputs": text}

    try:
        response = requests.post(HF_API_URL, headers=headers, json=payload)
        result = response.json()

        # Debugging: show API output
        #print("Text:", text)
        #print("Result:", result)

        if "error" in result:
            return "unknown"

        label = result[0][0]['label']  # e.g., "4 stars"
        stars = int(label[0])

        if stars <= 2:
            return "negative"
        elif stars == 3:
            return "neutral"
        else:
            return "positive"
    except Exception as e:
        print("Exception:", str(e))
        return "error"

# ✅ Set up headless Chrome browser
options = Options()
options.add_argument("--headless=new")
options.add_argument("--disable-gpu")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# ✅ Open Ynet breaking news page
url = "https://www.ynet.co.il/news/category/184"
driver.get(url)
time.sleep(5)  # Let JavaScript load

# ✅ Parse HTML using BeautifulSoup
soup = BeautifulSoup(driver.page_source, "html.parser")
driver.quit()

# ✅ Extract headlines and analyze sentiment
headlines = []
for section in soup.find_all('div', class_='AccordionSection'):
    title_tag = section.find('div', class_='title')
    if title_tag:
        text = title_tag.get_text(strip=True)
        sentiment = analyze_sentiment(text)
        headlines.append({'text': text, 'sentiment': sentiment})

# ✅ Convert to DataFrame
df = pd.DataFrame(headlines)
print(df)

# Optional: Save to CSV
#df.to_csv("ynet_headlines_sentiment.csv", index=False, encoding='utf-8-sig')


                                                 text sentiment
0             לפיד: "מי שאחראי על הרעב בעזה הוא חמאס"  negative
1     דיווחים בלבנון: פצוע בתקיפת אופנוע בדרום המדינה  negative
2   ראש אכ"א נפגש עם נציגי מילואימניקים: בשנה הבאה...  negative
3          3 לוחמי הנח"ל שסירבו להיכנס לעזה לא ייאסרו  negative
4              גרמניה תעביר אספקת סיוע מהאוויר לרצועה  positive
..                                                ...       ...
75  עקב תנאי מזג האוויר: עוצר אימונים בצה"ל עד יום...  positive
76   ארה"ב תטיל מכסים בשיעור של 15% על האיחוד האירופי  negative
77  נתניהו בוועידת הנצרות: "אתם נלחמים לצידנו בחזי...  negative
78  דיווח בבריטניה: הממשלה "תדון במצב בעזה", בצל ל...  negative
79     פרשת "קטאר-גייט": בכיר לשעבר במוסד נחקר באזהרה  negative

[80 rows x 2 columns]


##### Verify that the Api working well 

In [4]:
import requests

headers = {"Authorization": "Bearer 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"}
payload = {"inputs": "זה יום נפלא בישראל"}

response = requests.post(
    "https://api-inference.huggingface.co/models/nlptown/bert-base-multilingual-uncased-sentiment",
    headers=headers,
    json=payload
)

print(response.status_code)
print(response.json())


200
[[{'label': '1 star', 'score': 0.8551278710365295}, {'label': '2 stars', 'score': 0.0796511247754097}, {'label': '3 stars', 'score': 0.0329224169254303}, {'label': '5 stars', 'score': 0.020748702809214592}, {'label': '4 stars', 'score': 0.011549958027899265}]]
