# Google News híreinek kigyűjtése

## Szükséges modulok telepítése és importálása

In [1]:
# %pip install bs4

In [2]:
import os
import csv
import requests
from bs4 import BeautifulSoup as bs

## Felugró ablak kezelése

Inspect -> Application -> Cookies ->news.google.com -> <b>CONSENT</b> elmentése, majd lekérés indításánál <code>header</code> paraméterként megadva az első indításkor felugró ablakot tudjuk lekezelni.

In [3]:
headers = {"Cookie": "WP.289daa"}

url = "https://news.google.com/home?hl=hu&gl=HU&ceid=HU:hu"
page = requests.get(url, headers=headers)
soup = bs(page.text, "html.parser")

print(soup)

with open("sample_google_news.html", "w", encoding="utf-8") as file:
    file.write(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" lang="hu"><head><base href="https://news.google.com/"/><link href="//www.gstatic.com" ref="preconnect"/><meta content="origin" name="referrer"/><link href="https://news.google.com/home" rel="canonical"/><meta content="width=device-width,initial-scale=1,minimal-ui" name="viewport"/><meta content="AcBy5YFny2HQgVUCR18tO5YUTf6MpVlcJqGTd-a9-SI" name="google-site-verification"/><meta content="yes" name="mobile-web-app-capable"/><meta content="yes" name="apple-mobile-web-app-capable"/><meta content="Hírek" name="application-name"/><meta content="Hírek" name="apple-mobile-web-app-title"/><meta content="black" name="apple-mobile-web-app-status-bar-style"/><meta content="white" name="theme-color"/><meta content="no" name="msapplication-tap-highlight"/><link href="https://lh3.googleusercontent.com/-DR60l-K8vnyi99NZovm9HlXyZwQ85GMDxiwJWzoasZYCUrPuUM_P_4Rb7ei03j-0nRs0c4F=w16" rel="shortcut icon" sizes="16x16"/><link href="https://lh3.googleusercontent.com/-DR60l-K8vn

## Munkafolyamat egy előkészített mintán

In [4]:
g = open("sample_google_news.html", "r", encoding="utf-8")
soup = bs(g, "html.parser")

print(soup)

<!DOCTYPE html>

<html dir="ltr" lang="hu">
<head>
<base href="https://news.google.com/"/>
<link href="//www.gstatic.com" ref="preconnect"/>
<meta content="origin" name="referrer"/>
<link href="https://news.google.com/home" rel="canonical"/>
<meta content="width=device-width,initial-scale=1,minimal-ui" name="viewport"/>
<meta content="AcBy5YFny2HQgVUCR18tO5YUTf6MpVlcJqGTd-a9-SI" name="google-site-verification"/>
<meta content="yes" name="mobile-web-app-capable"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<meta content="Hírek" name="application-name"/>
<meta content="Hírek" name="apple-mobile-web-app-title"/>
<meta content="black" name="apple-mobile-web-app-status-bar-style"/>
<meta content="white" name="theme-color"/>
<meta content="no" name="msapplication-tap-highlight"/>
<link href="https://lh3.googleusercontent.com/-DR60l-K8vnyi99NZovm9HlXyZwQ85GMDxiwJWzoasZYCUrPuUM_P_4Rb7ei03j-0nRs0c4F=w16" rel="shortcut icon" sizes="16x16"/>
<link href="https://lh3.googleuserconten

## Cikke adatainak letöltése azonosító alapján

In [5]:
articles = soup.find_all("article")

article_list = []
content = []

for article in articles:
    article_list.append(article)

for article in article_list:
    atags = article.find_all("a")
    title = atags[1].text.strip()
    source = article.find("div", class_="vr1PYe")
    published = article.find("time").get("datetime")

    content.append((title, source.text.strip(), published))

for item in content:
    print(item)

('Az izraeli hadsereg egy dél-gázai út mellett leállította a hadműveleteket, „taktikai szünetet” tart', 'Telex', '2024-06-16T11:08:55Z')
('Taktikai tűszünetbe kezd Izrael', 'Portfolio', '2024-06-16T08:46:00Z')
('Az ENSZ szerint megtagadták egy segélykonvoj bejutását Gáza északi részére', '444.hu', '2024-06-14T19:21:14Z')
('Az izraeli hadsereg szünetelteti a nappali katonai tevékenységet a Gázai övezet déli részén', '24.hu', '2024-06-16T09:49:00Z')
('Megkezdődtek a tárgyalások az ukrán háború lezárásáról, három hónap ostrom után elesett Heorhijivka - Háborús híreink szombaton', 'Portfolio', '2024-06-15T19:26:00Z')
('Vadonatúj békejavaslat érkezett, kiverheti a biztosítékot Putyinnál egy új tervezet – Háborús híreink vasárnap', 'Portfolio', '2024-06-16T14:01:00Z')
('Putyin bedühödött az ukrajnai békecsúcsra', 'Privátbankár.hu', '2024-06-16T07:32:00Z')
('Kiderült: ezért nem kötött békét Ukrajna és Oroszország a háború elején', 'Mandiner', '2024-06-16T02:44:00Z')
('Megkongatta a vészharang

## Fájlkezelés

In [6]:
if os.path.exists("output_google_news.csv"):
    os.remove("output_google_news.csv")

with open("output_google_news.csv", "a", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["title", "source", "published"])
    writer.writerows(content)
    print("Fájl írása kész!")

Fájl írása kész!
