# Ćwiczenie 1 (requests)

**Zadanie:**
- Wykonaj proste zapytanie GET do dowolnej strony (np. `https://api.github.com`) i wyświetl kod statusu (`status_code`).
- Sprawdź, czy zapytanie zakończyło się sukcesem, używając `if response:` lub `response.raise_for_status()`. 


In [None]:
import requests

resp =  requests.get('https://api.github.com')
print('Status code:', resp.status_code)

if resp:
    print('Success')
else:
    print('Something go wrong')



Status code: 200


# Ćwiczenie 2 (requests)

**Zadanie:**
- Wykonaj zapytanie GET z parametrami (query string). 
- Wyświetl adres URL rzeczywiście wysłany przez `requests` (zobacz `response.url`).


In [4]:
resp = requests.get(
    'https://api.github.com/search/repositories',
    params={'q': 'requests+language:python'})

resp.url

'https://api.github.com/search/repositories?q=requests%2Blanguage%3Apython'

# Ćwiczenie 3 (requests)

**Zadanie:**
- Wyślij zapytanie POST do `https://httpbin.org/post`, przekazując dane (`data=`). 
- Odczytaj odpowiedź w formacie JSON i sprawdź, czy dane faktycznie dotarły do serwera.

In [5]:
post_resp = requests.post('https://httpbin.org/post', data={'example':'test123'})
print('Status code:', post_resp.status_code)
print('POST response data:', post_resp.json())

Status code: 200
POST response data: {'args': {}, 'data': '', 'files': {}, 'form': {'example': 'test123'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '15', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.32.3', 'X-Amzn-Trace-Id': 'Root=1-6833802e-7e66aa7d4754b7275c7d99ed'}, 'json': None, 'origin': '46.112.114.45', 'url': 'https://httpbin.org/post'}


# Ćwiczenie 4 (requests)

**Zadanie:**
- Wykonaj zapytanie do publicznego API zwracającego JSON (np. `https://api.coindesk.com/v1/bpi/currentprice.json`).
- Zdekoduj odpowiedź za pomocą `response.json()` i wyświetl kluczowe pola (np. aktualną cenę Bitcoina).

In [8]:
resp_public = requests.get('https://api.github.com')
data = resp_public.json()

print(data['current_user_repositories_url'])



https://api.github.com/user/repos{?type,page,per_page,sort}


# Ćwiczenie 5 (requests)

**Zadanie:**
- Wyślij zapytanie GET z niestandardowymi nagłówkami (np. `User-Agent`) do `https://httpbin.org/headers`.
- Sprawdź w odpowiedzi JSON, czy nagłówek został uwzględniony.

In [9]:
resp = requests.get('https://httpbin.org/headers', headers={'User-Agent':'string'})
resp.json()

{'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Host': 'httpbin.org',
  'User-Agent': 'string',
  'X-Amzn-Trace-Id': 'Root=1-683382c7-1bc8c47433a47bdc4f217733'}}

# Ćwiczenie 6 (webscraping)

**Zadanie:**
- Pobierz stronę HTML (np. `https://dataquestio.github.io/web-scraping-pages/simple.html`).
- Wypisz surową zawartość `response.text`.
- Zapisz do pliku (np. `page.html`).

In [10]:
resp = requests.get('https://dataquestio.github.io/web-scraping-pages/simple.html')
print(resp.text)

with open('page.html','w',encoding='UTF-8') as f:
    f.write(resp.text)

<!DOCTYPE html>
<html>
    <head>
        <title>A simple example page</title>
    </head>
    <body>
        <p>Here is some simple content for this page.</p>
    </body>
</html>


# Ćwiczenie 7 (webscraping)

**Zadanie:**
- Skorzystaj z biblioteki `BeautifulSoup` i wczytaj plik HTML (z poprzedniego zadania).
- Znajdź wszystkie tagi `p` i wyświetl ich tekst.

In [11]:
from bs4 import BeautifulSoup

with open('page.html','r',encoding='UTF-8') as f:
    html = f.read()

soup = BeautifulSoup(html,'html.parser')
p_tags = soup.find_all('p')

for p in p_tags:
   print(p.get_text())

Here is some simple content for this page.


# Ćwiczenie 8 (webscraping)

**Zadanie:**
- Pobierz stronę Wikipedii (np. `https://en.wikipedia.org/wiki/Web_scraping`).
- Zidentyfikuj w kodzie HTML sekcję o klasie `"mw-parser-output"`, która zawiera główną treść artykułu.
- Wypisz tylko tekst znajdujący się w tej sekcji (np. `soup.find(class_='mw-parser-output').get_text()`).


In [16]:
resp = requests.get('https://en.wikipedia.org/wiki/Web_scraping')
soup = BeautifulSoup(resp.text,'html.parser')
main_content = soup.find(class_ = "mw-parser-output")
print(main_content.get_text())

For broader coverage of this topic, see Data scraping.
Data scraping used for extracting data from websites
"Web scraper" redirects here. For websites that scrape content, see Scraper site.
This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: "Web scraping" – news · newspapers · books · scholar · JSTOR (April 2023) (Learn how and when to remove this message)
Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping software may directly access the World Wide Web using the Hypertext Transfer Protocol or a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying in which specific data is gathered and copied from the web, typically into a central local dat

# Ćwiczenie 9 (webscraping)

**Zadanie:**
- Pobierz stronę z tabelą zawierającą dane o krajach i ich PKB (np. `https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)`).
- Znajdź pierwszą tabelę na stronie, która ma klasę `"wikitable"`.
- Wypisz zawartość wszystkich komórek (`td`) i nagłówków (`th`) w pętli, oddzielając wartości znakiem `|`.


In [19]:
resp = requests.get('https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)')
soup = BeautifulSoup(resp.text,'html.parser')
tab = soup.find('table',class_='wikitable')

row = tab.find_all('tr')

for cell in row:
    cells = cell.find_all('td','th')
    values = [cell.get_text(strip='true') for cell in cells]
    print('| '.join (values))























































































































































































































# Ćwiczenie 10 (webscraping)

**Zadanie:**
- Pobierz zawartość innej strony z prognozą pogody lub artykułami i wyciągnij tylko nagłówki (np. elementy `h1`, `h2`).
- Utwórz listę tytułów i wyświetl/ wydrukuj.

In [20]:
page = requests.get("https://forecast.weather.gov/MapClick.php?lat=37.7772&lon=-122.4168")
soup = BeautifulSoup(page.text,'html.parser')

headres = soup.find_all(['h1','h2'])
title = [i.get_text() for i in headres]
print(title)

['Areas of Severe Thunderstorms and Excessive Rainfall through Memorial Day', 'SAN FRANCISCO DOWNTOWN (SFOC1)', '\n                San Francisco CA    ', 'Detailed Forecast', 'Additional Forecasts and Information', 'ABOUT THIS FORECAST', 'Additional Resources']
