# Задача 1: 
> Напишите скрипт, который будет показывать найдена ли указанная в скрипте веб-страница на сервере.

Наверное более правильно для 'BeautifulSoup' использовать промежуточную переменную (например - soup), однако учитывая объемы кода и мизерность задачи - не вижу смысла.

In [5]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

try:
    html = urlopen("https://www.wikipedia.org/")
except HTTPError as e:
    print("HTTP Error")
except URLError as e:
    print("Server not found")
else: 
    print(BeautifulSoup(html, "html.parser").prettify()[:500]) # [:500] - просто ограничил вывод...

<!DOCTYPE html>
<html class="no-js" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Wikipedia
  </title>
  <meta content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation." name="description"/>
  <script>
   document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
  </script>
  <meta content="initial-scale=1,user-scalable=yes" name="viewport"


# Задача 2:
> Проверьте есть ли у сайта SSL сертификат с использованием модуля requests

Из особенностей: в сравнении с 'urllib' в библиотеке 'requests' ошибки стоит доставать примерно так - 'requests.exceptions'

In [6]:
import requests

try:
    response = requests.get("https://expired.badssl.com", verify=True) #https://api.github.com
    print("SSL сертификат действителен.")
    print(f"Статус код: {response.status_code}")
except requests.exceptions.SSLError as e:
    print(f"Ошибка SSL: {e}")
except requests.exceptions.RequestException as e:
    print(f"Ошибка запроса: {e}")

Ошибка SSL: HTTPSConnectionPool(host='expired.badssl.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: certificate has expired (_ssl.c:1002)')))


# Задача 3:
> Выведете при помощи модуля requests блоки 
Status Code, Headers, Url, History, Encoding, Reason, Cookies, Elapsed, Request и Content с сайта https://python.org.

Из интересного: 'requests' сам по себе не вызывает обработку ошибки 'HTTPError' из чего есть необходимость в небольшом ухищрении - 'response.raise_for_status()'.

In [7]:
import requests
from bs4 import BeautifulSoup

try:
    response = requests.get("https://python.org")
    response.raise_for_status()

    print(f"Status Code: {response.status_code}")
    print(f"Headers: {response.headers}")
    print(f"URL: {response.url}")
    print(f"History: {response.history}")
    print(f"Encoding: {response.encoding}")
    print(f"Reason: {response.reason}")
    print(f"Cookies: {response.cookies}")
    print(f"Elapsed: {response.elapsed}")
    print(f"Request: {response.request}")
    print(f"Content: {BeautifulSoup(response.content, 'html.parser').prettify()[:500]}") # [:500] - просто ограничил вывод...
except requests.exceptions.HTTPError as e:
    print("HTTP Error")
except requests.exceptions.RequestException as e:
    print("Server not found")

Status Code: 200
Headers: {'Connection': 'keep-alive', 'Content-Length': '12016', 'content-encoding': 'gzip', 'via': '1.1 varnish, 1.1 varnish, 1.1 varnish', 'x-frame-options': 'SAMEORIGIN', 'content-type': 'text/html; charset=utf-8', 'Accept-Ranges': 'bytes', 'Date': 'Mon, 18 Nov 2024 15:23:59 GMT', 'Age': '3350', 'X-Served-By': 'cache-iad-kiad7000114-IAD, cache-iad-kiad7000114-IAD, cache-fra-etou8220137-FRA', 'X-Cache': 'MISS, MISS, HIT', 'X-Cache-Hits': '0, 0, 9', 'X-Timer': 'S1731943439.227275,VS0,VE0', 'Vary': 'Cookie', 'Strict-Transport-Security': 'max-age=63072000; includeSubDomains; preload'}
URL: https://www.python.org/
History: [<Response [301]>]
Encoding: utf-8
Reason: OK
Cookies: <RequestsCookieJar[]>
Elapsed: 0:00:01.120860
Request: <PreparedRequest [GET]>
Content: <!DOCTYPE html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="

# Задача 4:
> Выгрузите и выведете содержимое файла robots.txt с сайта https://en.wikipedia.org/


In [8]:
import requests

try:
    response = requests.get("https://en.wikipedia.org/robots.txt")
    response.raise_for_status()
    print(response.text[:500])
except requests.exceptions.HTTPError as e:
    print("HTTP Error")
except requests.exceptions.RequestException as e:
    print("Server not found")

    

﻿# robots.txt for http://www.wikipedia.org/ and friends
#
# Please note: There are a lot of pages on this site, and there are
# some misbehaved spiders out there that go _way_ too fast. If you're
# irresponsible, your access to the site may be blocked.
#

# Observed spamming large amounts of https://en.wikipedia.org/?curid=NNNNNN
# and ignoring 429 ratelimit responses, claims to respect robots:
# http://mj12bot.com/
User-agent: MJ12bot
Disallow: /

# advertising-related bots:
User-agent: Mediapa


# Задача 5:
> Извлеките заголовок h1 из сайта http://www.example.com/

Возможно не совсем правильно понял задачу, но в коде мы просто извлекаем с помощью 'find' первый 'h1', который попадется. 

In [7]:
import requests
from bs4 import BeautifulSoup

try:
    response = requests.get("http://www.example.com/")
    response.raise_for_status()
    print(BeautifulSoup(response.text, "html.parser").find("h1").get_text())
except requests.exceptions.HTTPError as e:
    print("HTTP Error")
except requests.exceptions.RequestException as e:
    print("Server not found")



Example Domain


# Задача 6:
> Извлеките и выведете на экран все header теги со страницы https://en.wikipedia.org/wiki/Main_Page с помощью urlopen и BeautifulSoup

Учитывая, что никто не запрещает посмотреть код страницы и увидеть, что там всего два уровня, можно было бы не использовать цикл, но упустим данный момент.

In [4]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

try:
    html = urlopen("https://en.wikipedia.org/wiki/Main_Page")
    
except HTTPError as e:
    print("HTTP Error")
except URLError as e:
    print("Server not found")
else: 
    pars = BeautifulSoup(html, "html.parser")
    for i in range(1,7):
        print(f"\nh{i}:\n")
        headers = pars.find_all(f"h{i}")
        for h1 in headers:
            print(h1.get_text())


h1:

Main Page
Welcome to Wikipedia

h2:

From today's featured article
Did you know ...
In the news
On this day
Today's featured picture
Other areas of Wikipedia
Wikipedia's sister projects
Wikipedia languages

h3:


h4:


h5:


h6:



# Задача 7:
> Выгрузите страницу https://en.wikipedia.org/wiki/Python и сформируйте список ссылок, которые есть на этой странице.

Если в задаче подразумевали абсолютно все ссылки, которые есть на сайте, то можно выгрузить их всех из компонента 'Contents', не трогая все остальные. В моем же понимании надо было выгрузить ссылки, которые были непосредственно в статье (для красоты с заголовками).

In [23]:
import requests
from bs4 import BeautifulSoup

try:
    response = requests.get("https://en.wikipedia.org/wiki/Python")
    response.raise_for_status()
    #headers = soup.find_all("h2")
    divs = BeautifulSoup(response.text, "html.parser").find_all("div", class_="mw-heading mw-heading2")
    for div  in divs:
        header = div.find("h2")
        if "Contents" in header.get_text(strip=True):
            continue
        print(f"\n{header.get_text()}:\n")
        ul = div.find_next_sibling("ul")
        links = ul.find_all("a")
        for link in links:
            href = link.get("href")
            print(f"https://en.wikipedia.org{href}" if href.startswith('/') else href)

except requests.exceptions.HTTPError as e:
    print("HTTP Error")
except requests.exceptions.RequestException as e:
    print("Server not found")


Snakes:

https://en.wikipedia.org/wiki/Pythonidae
https://en.wikipedia.org/wiki/Python_(genus)
https://en.wikipedia.org/wiki/Python_(mythology)

Computing:

https://en.wikipedia.org/wiki/Python_(programming_language)
https://en.wikipedia.org/wiki/CMU_Common_Lisp
https://en.wikipedia.org/wiki/PERQ#PERQ_3

People:

https://en.wikipedia.org/wiki/Python_of_Aenus
https://en.wikipedia.org/wiki/Python_(painter)
https://en.wikipedia.org/wiki/Python_of_Byzantium
https://en.wikipedia.org/wiki/Python_of_Catana
https://en.wikipedia.org/wiki/Python_Anghelo

Roller coasters:

https://en.wikipedia.org/wiki/Python_(Efteling)
https://en.wikipedia.org/wiki/Python_(Busch_Gardens_Tampa_Bay)
https://en.wikipedia.org/wiki/Python_(Coney_Island,_Cincinnati,_Ohio)

Vehicles:

https://en.wikipedia.org/wiki/Python_(automobile_maker)
https://en.wikipedia.org/wiki/Python_(Ford_prototype)

Weaponry:

https://en.wikipedia.org/wiki/Python_(missile)
https://en.wikipedia.org/wiki/Python_(nuclear_primary)
https://en.wi

# Задача 8:
> Выгрузите вот эту CSV: http://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/4.5_month.csv и посчитайте кол-во строк в ней.

Учитывая, что '.csv' по сути тот же '.txt', но с табуляцией, нам достаточно разбить считанный файл на строки и вывести их количество.

In [2]:
import requests
from bs4 import BeautifulSoup

try:
    response = requests.get("http://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/4.5_month.csv")
    response.raise_for_status()
    lines = response.text.splitlines()
    print(len(lines))

except requests.exceptions.HTTPError as e:
    print("HTTP Error")
except requests.exceptions.RequestException as e:
    print("Server not found")

406


# Задача 9:
> Суммируя весь предыдущий опыт напишите программу, которая будет скрейпить данные из imdb. Рекомендуемые библиотеки: BeautifulSoup, requests и random. Программа должна выполнять следующий функционал:
    > - При запуске программа должна подключаться к странице https://www.imdb.com/chart/top;
    > - Собирать список фильмов (и по вашему желанию их описание)
    > - Выводить 10 случайных фильмов

В данном случае считаю оптимально оборачивать что-либо в функции в сравнении с прошлыми случаями. 
Для обхода возможной блокироваки меняем постоянно 'USER_AGENTS'. 

In [28]:
import requests
from bs4 import BeautifulSoup
import random

USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Firefox/90.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Edge/91.0.864.48",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36"
]

def get_random_user_agent():
    return random.choice(USER_AGENTS)
    
def get_html(url):
    headers = {"User-Agent": get_random_user_agent()}
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        return BeautifulSoup(response.text, "html.parser")
    except requests.exceptions.HTTPError as e:
        print(f"HTTP Error while accessing {e}")
    except requests.exceptions.RequestException as e:
        print(f"Server not found: {e}")
    return None

def get_presentation(link):
    
    soup = get_html(link)
        
    if soup:
        presentation = soup.find("span", attrs={"role": "presentation"}, class_="sc-3ac15c8d-0 hRUoSB")
        if presentation:
            print(presentation.text)
        else:
            print("Presentation not found.")
    else:
        print("Failed to get presentation.")

def get_random_10():
    link = "https://www.imdb.com/chart/top"
    soup = get_html(link)
    divs = soup.find_all("div", class_="ipc-title ipc-title--base ipc-title--title ipc-title-link-no-icon ipc-title--on-textPrimary sc-a69a4297-2 bqNXEn cli-title with-margin")
    random_divs = random.sample(divs, min(10, len(divs)))
    for div in random_divs:
        a = div.find_next("a")
        div_date = div.find_next_sibling("div")
        date = div_date.find("span", class_="sc-5bc66c50-6 OOdsw cli-title-metadata-item")
        print("--------------------------------------------")
        print(f"{a.find('h3').get_text()[3:]} ({date.get_text()}):\n")
        href = a.get("href")
        get_presentation(f"https://www.imdb.com{href}")
    print("--------------------------------------------")


if __name__ == "__main__":
    get_random_10()

--------------------------------------------
 Goodfellas (1990):

The story of Henry Hill and his life in the mafia, covering his relationship with his wife Karen and his mob partners Jimmy Conway and Tommy DeVito.
--------------------------------------------
 The Matrix (1999):

When a beautiful stranger leads computer hacker Neo to a forbidding underworld, he discovers the shocking truth--the life he knows is the elaborate deception of an evil cyber-intelligence.
--------------------------------------------
The Shawshank Redemption (1994):

A banker convicted of uxoricide forms a friendship over a quarter century with a hardened convict, while maintaining his innocence and trying to remain hopeful through simple compassion.
--------------------------------------------
 Fight Club (1999):

An insomniac office worker and a devil-may-care soap maker form an underground fight club that evolves into much more.
--------------------------------------------
 Saving Private Ryan (1998):

Foll

# Задача 10:
> Требуется реализовать программу, которая будет получать данные при помощи методов любого SOAP сервиса в данном списке. Обратите внимание, что для каждого сервиса есть несколько POST методов. То есть ваша программа должна полностью утилизировать весь функционал выбранного вами SOAP сервиса. Например, в блоке Continents есть всего один метод - CountryInfoService.wso, но во многих других блоках методов больше.

Можно это все обернуть в функции и сделать, что-то типо user-friendly...
Коротко, можно, конечно, посмотреть все методы с их параметрами и возвращаемыми типами и связать одно с другим, чтобы тем самым использовать все методы. Учитывая, что есть всего 2-3 параметра (а часть методов возвращают значения без параметров) - сложностей не должно быть. Однако в 'www.postman.com' указаны не все методы -> использовал только упомянутые. 

In [29]:
import xmltodict
from zeep import Client
from datetime import datetime
from zeep.helpers import serialize_object
from lxml import etree
from bs4 import BeautifulSoup

wsdl = "http://webservices.oorsprong.org/websamples.countryinfo/CountryInfoService.wso?WSDL"

client = Client(wsdl=wsdl)

print("Методы и их параметры:")
for service in client.wsdl.services.values():
    for port in service.ports.values():
        for operation_name, operation in port.binding._operations.items():
            print(f"Метод: {operation_name}")
            print(f"  Параметры: {operation.input.signature()}")
            print(f"  Возвращаемый тип: {operation.output.signature()}\n")


print("\nРезультаты вызова методов:")
methods = [
    "ListOfContinentsByName",
    "CapitalCity", 
    "CountryCurrency",
    "CountryFlag",
    "CountryIntPhoneCode",
]

for method in methods:
    try:
        if method == "ListOfContinentsByName":
            response = client.service.ListOfContinentsByName()
        elif method == "CapitalCity":
            response = client.service.CapitalCity(sCountryISOCode = "US")
        elif method == "CountryCurrency":
            response = client.service.CountryCurrency(sCountryISOCode = "US")
        elif method == "CountryFlag":
            response = client.service.CountryFlag(sCountryISOCode = "US")
        elif method == "CountryIntPhoneCode":
            response = client.service.CountryIntPhoneCode(sCountryISOCode = "US")

        print(f"\nМетод: {method}")
        print(response)
    except Exception as e:
        print(f"Ошибка при вызове {method}: {e}")


Методы и их параметры:
Метод: ListOfContinentsByName
  Параметры: 
  Возвращаемый тип: ListOfContinentsByNameResult: ns0:ArrayOftContinent

Метод: ListOfContinentsByCode
  Параметры: 
  Возвращаемый тип: ListOfContinentsByCodeResult: ns0:ArrayOftContinent

Метод: ListOfCurrenciesByName
  Параметры: 
  Возвращаемый тип: ListOfCurrenciesByNameResult: ns0:ArrayOftCurrency

Метод: ListOfCurrenciesByCode
  Параметры: 
  Возвращаемый тип: ListOfCurrenciesByCodeResult: ns0:ArrayOftCurrency

Метод: CurrencyName
  Параметры: sCurrencyISOCode: xsd:string
  Возвращаемый тип: CurrencyNameResult: xsd:string

Метод: ListOfCountryNamesByCode
  Параметры: 
  Возвращаемый тип: ListOfCountryNamesByCodeResult: ns0:ArrayOftCountryCodeAndName

Метод: ListOfCountryNamesByName
  Параметры: 
  Возвращаемый тип: ListOfCountryNamesByNameResult: ns0:ArrayOftCountryCodeAndName

Метод: ListOfCountryNamesGroupedByContinent
  Параметры: 
  Возвращаемый тип: ListOfCountryNamesGroupedByContinentResult: ns0:ArrayOftCou