# **Введение**

<h1><center><b>Работа с форматами хранения и передачи данных в Python</b></center>

---
<p><a href="https://ru.wikipedia.org/wiki/Сериализация">Сериализация</a> — это преобразование объекта или дерева объектов в какой-либо формат, чтобы потом эти объекты можно было восстановить. Обратной к операции сериализации является <a href="https://ru.wikipedia.org/wiki/Десериализация">десериализация</a> — восстановление структур и объектов из сериализованной строки или последовательности байтов.</p>
<p>На данный момент одними из основных форматов хранения данных являются <i><a href="https://ru.wikipedia.org/wiki/JSON">JSON</a>, <a href="https://ru.wikipedia.org/wiki/CSV">CSV</a>, <a href="https://ru.wikipedia.org/wiki/XML">XML</a>, <a href="https://ru.wikipedia.org/wiki/YAML">YAML</a></i>.
<p><b>XML</b> (<i>eXtensible Markup Language</i>) - расширяемый язык разметки. Он разрабатывался как язык с простым формальным синтаксисом, удобный для создания и обработки документов программами и одновременно удобный для чтения и создания документов человеком. Этот формат существует уже более 3 десятилетий и является неотъемлемой частью любого веб-приложения.</p>
<p><b>JSON</b> (<i>JavaScript Object Notation</i>) - легковесный формат обмена данными, легко вести в нём записи, поддерживает запись многоуровневых структур. Активное применение формат нашёл в разработке API веб-приложений.
Поскольку пришёл из JavaScript, принёс с собой его ограничения - чтобы сериализовать сложный Python-объект (напимер, собственный класс), нужно будет привести его к примитивным типам(например, к строке), либо писать свой Encoder. Нельзя писать цвета в исходном виде и слишкомм большие числа.</p>
<p><b>YAML</b> (<i>Yet Another Markup Language</i>) - формат, ориентированный на удобство ввода-вывода, это улучшенная версия JSON. Его главная цель - быть понятным. Точно так же поддерживает запись многоуровневых структур. Используется в основном для файлов конфигурации. Данные этого формата легко переносимы между разными языками программирования. Синтаксис YAML минималистичен, особенно по сравнению с XML-синтаксисом.</p>
<p><b>CSV</b> (<i>Comma-Separated Values</i>) - формат широко используется для передачи и хранения статистических и обучающих выборок.</p>
<p><b>Pickle</b> - библиотека, предоставляющая инструментарий для наиболее простой и эффективной сериализации сложных Python-объектов в бинарном виде. В отличие от вышеприведённых форматов, Pickle поддерживается только Python. Это значит, что декодировать этот формат не получится в других языках программирования. Из-за внутреннего устройства этого формата, десериализация непроверенных данных может привести к выполнению произвольного вредоносного кода</p>


# **<center>XML</center>**

---



### **Как это выглядит**
<img src="https://habrastorage.org/webt/r-/y_/tq/r-y_tqlxmqkkq_otfb2-gplu7n8.png">
<img src="https://habrastorage.org/webt/kq/sy/r-/kqsyr-9yqrtadnwqntmf85cbob0.png" align="left">

##**Пример работы**

### **Чтение XML**

In [None]:
from lxml import etree

xml_str = '''<?xml version="1.0"?>
<catalog>
        <book id="bk101">
            <author>Gambardella, Matthew</author>
            <title>XML Developer's Guide</title>
            <genre>Computer</genre>
            <price>44.95</price>
            <publish_date>2000-10-01</publish_date>
            <description>An in-depth look at creating applications
            with XML.</description>
        </book>
        <book id="bk102">
            <author>Ralls, Kim</author>
            <title>Midnight Rain</title>
            <genre>Fantasy</genre>
            <price>5.95</price>
            <publish_date>2000-12-16</publish_date>
            <description>A former architect battles corporate zombies,
            an evil sorceress, and her own childhood to become queen
            of the world.</description>
        </book>
</catalog>'''

root = etree.fromstring(xml_str)
for book in root.getchildren():
  for elem in book.getchildren():
    print(f"{elem.tag} : {elem.text}")


author : Gambardella, Matthew
title : XML Developer's Guide
genre : Computer
price : 44.95
publish_date : 2000-10-01
description : An in-depth look at creating applications
            with XML.
author : Ralls, Kim
title : Midnight Rain
genre : Fantasy
price : 5.95
publish_date : 2000-12-16
description : A former architect battles corporate zombies,
            an evil sorceress, and her own childhood to become queen
            of the world.


### **Редактирование XML**

In [None]:
from lxml import etree
from lxml.etree import Element

xml_str = """
<parent>
        <data name="key_first" xml:space="preserve">
            <value>Text 1</value>
        </data>
        <data name="key_second" xml:space="preserve">
            <value>Text 2</value>
        </data>
        <data name="key_third" xml:space="preserve">
            <value>Text 3</value>
        </data>
</parent>"""

root = etree.fromstring(xml_str)

data_second = root.find(".//data[@name='key_second']") # поиск с помощью XPATH
root.remove(data_second) # удаление найденного элемента

new_data = Element("data") # создание нового тега <data>
new_data.append(Element("value")) # добавляет пустой <value /> тег внутрь <data>
root.append(new_data) # добавляет созданный data последним элементом в <parent>
print(etree.tostring(root))

b'<parent>\n        <data name="key_first" xml:space="preserve">\n            <value>Text 1</value>\n        </data>\n        <data name="key_third" xml:space="preserve">\n            <value>Text 3</value>\n        </data>\n<data><value/></data></parent>'


##**Полезные ссылки**
<a href = "https://habr.com/ru/post/524288/">Что такое XML</a>

<a href="https://python-scripts.com/parsing-lxml">Парсинг XML с ипользованием библиотеки lxml</a>


# **<center>JSON</center>**

---



### **Как это выглядит**

```
 {  
  "students": [
     {
        "id": 1,
        "name": "Tom",
        "lastname": "Price"
     }, 
     {
        "id": 2,
        "name": "Nick",
        "lastname": "Thameson"
     }
  ]
}
```



---




##**Пример работы**

Основные функции, которые понадобятся при работе с JSON:
<li><b>dump(объект, файл, ensure_ascii, *args, **kwargs)</b> - сериализует объект в JSON формат и возвращает его. Для работы с кириллицей используем флаг <i>ensure_ascii=False</i>
<li><b>load(файл, *args, **kwargs)</b> - десериализует JSON-строку в Python объект и вовращает его
<li> Помимо этого есть <b>dumps(объект, *args, **kwargs)</b> и <b>loads(строка, *args, **kwargs)</b>, которые позволяют переводить объект в JSON-строку и обратно, без последующего сохранения в файл

### **Сериализация набора python-объектов в json-строку**

In [None]:
import json

json_data = {
    'students': [
        {
        'id': 1,
        'name': 'Tom',
        'lastname': 'Price'
        },
        {
        'id': 2,
        'name': 'Nick',
        'lastname': 'Thameson'
        }
    ]
}

result = json.dumps(json_data, indent=4) #, indent=4

print('Type of result is', type(result))
print(result)


Type of result is <class 'str'>
{
    "students": [
        {
            "id": 1,
            "name": "Tom",
            "lastname": "Price"
        },
        {
            "id": 2,
            "name": "Nick",
            "lastname": "Thameson"
        }
    ]
}


### ***Десериализация json из строки в набор python-объектов***

In [None]:
import json

json_str = '''
{
  "students": [

     {
        "id": 1,
        "name": "Tom",
        "lastname": "Price"
     },

     {
        "id": 2,
        "name": "Nick",
        "lastname": "Thameson"
     }
  ]
}
'''

result = json.loads(json_str)

print('Type of result is', type(result))
print(result)
result.keys()

Type of result is <class 'dict'>
{'students': [{'id': 1, 'name': 'Tom', 'lastname': 'Price'}, {'id': 2, 'name': 'Nick', 'lastname': 'Thameson'}]}


dict_keys(['students'])

## Запись и чтение json

In [None]:
with open('data.json', 'w') as f:
    json.dump(result, f)

In [None]:
with open('data.json', 'r') as json_file:
    data = json.load(json_file)
    data = json.loads(data)
print(data)

{'students': [{'id': 1, 'name': 'Tom', 'lastname': 'Price'}, {'id': 2, 'name': 'Nick', 'lastname': 'Thameson'}]}


In [None]:
data["students"][0].keys()

dict_keys(['id', 'name', 'lastname'])

##**Примечания**

 Заметим, что соответствие при _сериализации-десериализации_ **не всегда взаимооднозначно**. </br>Это значит что если вы _кодируете_ объект, а затем декодируете его, вы можете не получить тот же объект назад. Это можно представить как своего рода телепортацию: молекулы тела распадаются в точке А и собираются в точке Б. Будет ли это тело прежним?
   </br><p><u>Например</u>, сохраняя tuple в Python мы получаем array в JSON. Однако, переводя JSON array обратно в Python объект, получаем list. Таким образом, tuple Python после _сериализации-десериализации_ превращается в list Python. </p>
   <p>Также следует упомянуть, что **не все** объекты в Python могут быть сериализованы. Примером такого объекта является комплексное число (класс complex)


In [None]:
# Пример: попытка сериализации неподдерживаемого объекта
import json
try:
  s = json.dumps(9 + 5j)
  print(s)
except TypeError as e:
  print(e.args[0]) # вывод сообщения об ошибке

Object of type complex is not JSON serializable



Также **не поддерживается** сериализация пользовательских типов

In [None]:
import json

class Elf:
    def __init__(self, level, hp=100):
        self.level = level
        self.hp = hp

elf = Elf(level=80)
try:
  s = json.dumps(elf)
  print(s)
except TypeError as e:
  print(e.args[0])

Object of type Elf is not JSON serializable


**!!** Посколько сериализации сложных объектов Python не поддерживается по умолчанию, чтобы записать их в JSON, вам необходимо либо превратить его в набор базовых объектов, либо написать свой encoder:


In [None]:
#Пример: Упрощение структур
#Рассмотрим пример сериализации комплексного числа
import json

def encode_complex(z):
    if isinstance(z, complex):
        return (z.real, z.imag)
    else:
        type_name = z.__class__.__name__
        raise TypeError(f"Object of type '{type_name}' is not JSON serializable")

print(json.dumps(9 + 5j, default=encode_complex))

[9.0, 5.0]


In [None]:
#Пример: Написание Encoder
import json

class ComplexEncoder(json.JSONEncoder):
    def default(self, z):
        if isinstance(z, complex):
            return (z.real, z.imag)
        else:
            super().default(self, z)


#Пример 1
print(json.dumps(2 + 5j, cls=ComplexEncoder))

#Пример 2
encoder = ComplexEncoder()
print(encoder.encode(3 + 6j))

[2.0, 5.0]
[3.0, 6.0]


##**Полезные ссылки**
<a href = "https://pythonist-ru.turbopages.org/pythonist.ru/s/format-dannyh-json-v-python/">Краткое руководство по использованию JSON в Python</a>


# **<center>YAML</center>**

---



## **Как это выглядит**

*students.yml*

```
students: 
    - id: 1
      name: "Tom"
      lastname": "Price"
    - id: 2
      name: "Nick"
      lastname: "Thameson"
class: 11
hasTeacher: true
```



---




## **Пример работы**


Основные функции, которые понадобятся при работе с YAML:
<li><b>dump(объект, файл, *args, **kwargs)</b> - сериализует объект в YAML файл.
<li><b>load(файл, *args, **kwargs)</b> - десериализует YAML-файл в Python объект.
<li><b>round_trip_load(файл, *args, **kwargs)</b> - десериализует YAML-файл в Python объект, сохраняя порядок ключей.
<li> Помимо этого есть <b>safe_dump(объект, файл, *args, **kwargs)</b> и <b>safe_load(файл, *args, **kwargs)</b>, которые позволяют переводить объект в JSON-строку и обратно, без последующего сохранения в файл

### **Сериализация набора python-объектов в YAML-файл**

In [None]:
import yaml

data = {
    'a list': [
        1,
        42,
        3.141,
        1337,
        'help',
        '€'
    ],
    'a string': 'nothing',
    'a bool': True,
    'another dict': {
        'foo': 'bar',
        'key': 'value',
        'the answer': 42
    }
}

with open('data.yml', 'w', encoding='utf8') as outfile:
    yaml.dump(data, outfile, allow_unicode=True)

with open('data.yml', 'r', encoding='utf8', newline='\n') as file:
    for line in file:
      print(line)

a bool: true

a list:

- 1

- 42

- 3.141

- 1337

- help

- €

a string: nothing

another dict:

  foo: bar

  key: value

  the answer: 42



Файл <i>data.yml</i>


```
a list:
- 1
- 42
- 3.141
- 1337
- help
- €
a string: nothing
a bool: true
another dict:
  foo: bar
  key: value
  the answer: 42
```



### **Десериализация YAML-файла в python-объект**

In [None]:
import yaml

yaml_text = '''
students: 
    - id: 1
      name: "Tom"
      lastname": "Price"
    - id: 2
      name: "Nick"
      lastname: "Thameson"
class: 11
hasTeacher: true    
'''

try:
    data = yaml.safe_load(yaml_text)
    print(data)
    print(data['hasTeacher'])
    print(data['students'][1]['name'])
except yaml.YAMLError as exc:
    print(exc)

{'students': [{'id': 1, 'name': 'Tom', 'lastname"': 'Price'}, {'id': 2, 'name': 'Nick', 'lastname': 'Thameson'}], 'class': 11, 'hasTeacher': True}
True
Nick


## **Примечания**


<p>Так как YAML — это расширенный JSON, то мы можем писать YAML-файл в JSON-формате, и он будет работать.</p>
<p>Согласно YAML спецификации, порядок ключей в словарях не сохраняется (например, когда используем safe_load). Только метод round_trip_load сохраняет порядок ключей (комментариев и т.д.)</p>
<p>Возможности YAML-а покоряют при его сравнении с JSON. Но если у вас довольно простой конфиг в пару-тройку строк, то нет смысла усложнять и использовать дополнительные возможности YAML, лучше выбрать JSON. А если же у вас довольно большой и витиеватый файл, то тут однозначно стоит рассмотреть YAML. </p>


## **Полезные ссылки**
<a href ="https://coderlessons.com/tutorials/raznoe/vyuchi-yaml/yaml-kratkoe-rukovodstvo">Краткое руководство YAML</a>
<p><a href = "https://way23.ru/примеры-yaml-в-python/">Примеры YAML в Python</a></p>

# **<center>CSV</center>**

---



## **Как это выглядит**

<img src="https://shopexpress.difocus.ru/alboms/3/1709/snimok-ekrana-2013-05-22-v-144727.png" align="right">
<pre>articul;name;price;vendor;country
UX31E;ASUS ZENBOOK;44400;Asus;Китай
MBA-123;13-inch MacBook Air;45000;Apple;Китай
HD-8838;Philips Saeco HD 8838;27462;Philips;Россия
HD-8838;Delonghi ECAM 23.210;27462;Delonghi;Италия</pre>

## **Пример работы**


**Чтение и запись CSV-файлов**

In [None]:
import csv


# Запись объектов Python в файл temp.csv
with open("tmp.csv", "w", encoding="UTF8", newline='\n') as f:
    writer = csv.writer(f)
    writer.writerow(range(10))
    writer.writerow(chr(ord("а") + i) for i in range(10))
    writer.writerow(["漢字", "русский текст"] + [*range(8)])

# Чтение записанных данных из temp.csv
with open("tmp.csv", "r", encoding="UTF8", newline='\n') as f:
    reader = csv.reader(f)
    for r in reader:
        print(r)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
['а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й']
['漢字', 'русский текст', '0', '1', '2', '3', '4', '5', '6', '7']


**Как выглядит таблица в tmp.csv**
<img src="https://i.imgur.com/KvLCCQt.png">


## **Примечания**

Спецификация: 
<li> Каждая строка файла — это одна строка таблицы.
<li> Разделителем (англ. <i>delimiter</i>) значений колонок является символ запятой (,). Однако на практике часто используются другие разделители

<p><b>*</b> В случаях, когда ячейка содержит служебные символы, они экранируются, обеспечивая однозначное представление хранимых данных</p>
 


## **Полезные ссылки**
<p><a href ="https://ru.wikipedia.org/wiki/CSV">Статья в википедии</a>
<p><a href ="https://m.habr.com/ru/company/hflabs/blog/432906/">Редактируем CSV-файлы, чтобы не сломать данные </a></p>


# **<center>Pickles</center>**

---

## **Пример работы**

Основные функции, которые понадобятся при работе с pickle:
<li><b>dump(объект, файл, *args, **kwargs)</b> - сериализует объект в pickle байткод.
<li><b>load(файл, *args, **kwargs)</b> - десериализует pickle-файл в Python объект.
<li> Помимо этого есть <b>dumps(объект, *args, **kwargs)</b> и <b>loads(строка, *args, **kwargs)</b>, которые позволяют переводить объект в pickle байткод и обратно, без последующего сохранения в файл (по аналогии с JSON)

In [None]:
import pickle

original = { 'a': 0, 'b': [1, 2, 3] }

pickled = pickle.dumps(original)
print("Сериализованный объект выглядит так:")
print(pickled)
# преобразовать обратно в идентичный объект
identical = pickle.loads(pickled)
print("Десериализованный Pickle-объект:")
print(identical)
assert original == identical

Сериализованный объект выглядит так:
b'\x80\x03}q\x00(X\x01\x00\x00\x00aq\x01K\x00X\x01\x00\x00\x00bq\x02]q\x03(K\x01K\x02K\x03eu.'
Десериализованный Pickle-объект:
{'a': 0, 'b': [1, 2, 3]}


### **Пример работы с собственными классами**

In [None]:
import pickle

class Elf:
    def __init__(self, level, hp=100):
        self.level = level
        self.hp = hp

elf = Elf(level=80)

# Сериализация объекта класса Elf
pickled_elf = pickle.dumps(elf)
print("Байткод эльфа:")
print(pickled_elf)

# Десериализация эльфа
elf = pickle.loads(pickled_elf)
print("Тип эльфа после десериализвации:")
print(type(elf))

# Класс Elf обязательно должен быть объявлен при десериализации, иначе возникнет исключение
Elf = None
try:
  elf = pickle.loads(pickled_elf)
except Exception as e:
  print("Произошла ошибка:")
  print(e.args[0])


Байткод эльфа:
b'\x80\x03c__main__\nElf\nq\x00)\x81q\x01}q\x02(X\x05\x00\x00\x00levelq\x03KPX\x02\x00\x00\x00hpq\x04Kdub.'
Тип эльфа после десериализвации:
<class '__main__.Elf'>
Произошла ошибка:
NEWOBJ class argument isn't a type object


## **Полезные ссылки**
<p><a href ="https://pythonist-ru.turbopages.org/pythonist.ru/s/pickles-v-python/">Коротко о Pickles</a></p><p><a href ="https://habr.com/ru/company/otus/blog/353480/">Разбор уязвимости формата Pickle</a></p>


# **<center>Requests and BeautifulSoup</center>**
https://requests.readthedocs.io/en/master/user/quickstart/

https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html

In [None]:
import requests
git = requests.get('https://api.github.com/events')

Посмотрим статус ответа

In [None]:
git.status_code

200

In [None]:
git.text

'[{"id":"24896412972","type":"PullRequestReviewEvent","actor":{"id":65143451,"login":"aska-0096","display_login":"aska-0096","gravatar_id":"","url":"https://api.github.com/users/aska-0096","avatar_url":"https://avatars.githubusercontent.com/u/65143451?"},"repo":{"id":390032985,"name":"ROCmSoftwarePlatform/composable_kernel","url":"https://api.github.com/repos/ROCmSoftwarePlatform/composable_kernel"},"payload":{"action":"created","review":{"id":1160315954,"node_id":"PRR_kwDOFz9uWc5FKQQy","user":{"login":"aska-0096","id":65143451,"node_id":"MDQ6VXNlcjY1MTQzNDUx","avatar_url":"https://avatars.githubusercontent.com/u/65143451?v=4","gravatar_id":"","url":"https://api.github.com/users/aska-0096","html_url":"https://github.com/aska-0096","followers_url":"https://api.github.com/users/aska-0096/followers","following_url":"https://api.github.com/users/aska-0096/following{/other_user}","gists_url":"https://api.github.com/users/aska-0096/gists{/gist_id}","starred_url":"https://api.github.com/users

### wiki

In [None]:
url = "https://ru.wikipedia.org/wiki/%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8"
wiki = requests.get(url)

In [None]:
wiki

<Response [200]>

In [None]:
wiki.text

'<!DOCTYPE html>\n<html class="client-nojs" lang="ru" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Субъекты Российской Федерации — Википедия</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","январь","февраль","март","апрель","май","июнь","июль","август","сентябрь","октябрь","ноябрь","декабрь"],"wgRequestId":"a39c587b-0756-4068-8fac-c3dd339922e1","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Субъекты_Российской_Федерации","wgTitle":"Субъекты Российской Федерации","wgCurRevisionId":126310091,"wgRevisionId":126310091,"wgArticleId":1042,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Википедия:Статьи с нерабочими ссылками с июня 2016",\n"Википедия:Cite web (не указан язык)","Спис

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(wiki.text, 'html.parser')

In [None]:
soup.head.link

<link href="/w/load.php?lang=ru&amp;modules=ext.cite.styles%7Cext.flaggedRevs.basic%2Cicons%7Cext.uls.interlanguage%7Cext.visualEditor.desktopArticleTarget.noscript%7Cext.wikimediaBadges%7Cjquery.tablesorter.styles%7Cmediawiki.widgets.styles%7Coojs-ui-core.icons%2Cstyles%7Coojs-ui.styles.indicators%7Cskins.vector.styles.legacy%7Cwikibase.client.init&amp;only=styles&amp;skin=vector" rel="stylesheet"/>

In [None]:
for i, line in enumerate(soup.findAll(text=True)):
  if line != '\n':
    print(line)
  if i > 100:
    break

html
Субъекты Российской Федерации — Википедия
document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","январь","февраль","март","апрель","май","июнь","июль","август","сентябрь","октябрь","ноябрь","декабрь"],"wgRequestId":"a39c587b-0756-4068-8fac-c3dd339922e1","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Субъекты_Российской_Федерации","wgTitle":"Субъекты Российской Федерации","wgCurRevisionId":126310091,"wgRevisionId":126310091,"wgArticleId":1042,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Википедия:Статьи с нерабочими ссылками с июня 2016",
"Википедия:Cite web (не указан язык)","Списки субъектов Российской Федерации","Конституционное право России","Федерализм в России","Типы административно-территориальны

In [None]:
s = soup.find(text="Субъекты Российской Федерации")
s.findParent()

<span class="mw-page-title-main">Субъекты Российской Федерации</span>

In [None]:
# найдите все валидные url, а затем проверьте их на работоспособность.
# верните два списка: валидные рабоиче urlsб и валидные не рабочие url cо статусами ошибок
for link in soup.find_all('a'):
    href = link.get('href', "")
    if href.startswith("https://") or href.startswith("http://"):
        try:
            r = requests.get(href)
        except Exception as e:
            print(href, type(e))
            continue
        if r.status_code != 200:
          print(href, r.status_code)

http://slovari.yandex.ru/~книги/Конституционное%20право%20РФ/Сецессия/ 404
https://gogov.ru/news/890694 502
http://www.gosspravka.ru/91/000000.html 403
http://www.gosspravka.ru/92/000000.html 403
http://www.archive.perm.ru/page.php?id=62 404
http://www.ksrf.ru/ru/Press-srv/Smi/Pages/ViewItem.aspx?ParamId=827 <class 'requests.exceptions.ConnectionError'>
http://asozd2c.duma.gov.ru/addwork/scans.nsf/ID/133D0A06B092690343257C8D0049FE03/$FILE/462741-6.PDF?OpenElement <class 'requests.exceptions.ConnectionError'>
http://constitution.kremlin.ru/#article-65 <class 'requests.exceptions.ReadTimeout'>


In [None]:
import re
for tag in soup.find_all(re.compile("table")):
    print(tag.name)

table
table
table
table
table
table
table
table
table
table
table


In [None]:
def has_href_and_title(tag):
    return tag.has_attr('href') and tag.has_attr('class')
soup.find_all(has_href_and_title)

[<a class="external text" href="https://ru.wikipedia.org/w/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%96%D1%83%D1%80%D0%BD%D0%B0%D0%BB%D1%8B&amp;type=review&amp;page=%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8">отпатрулированная</a>,
 <a class="mw-jump-link" href="#mw-head">Перейти к навигации</a>,
 <a class="mw-jump-link" href="#searchInput">Перейти к поиску</a>,
 <a class="image" href="/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8_2022.png"><img alt="Субъекты Российской Федерации 2022.png" data-file-height="711" data-file-width="1024" decoding="async" height="278" src="//upload.wikimedia.org/wikipedia/commons/thumb/7/73/%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81

In [None]:
def valid_url(href):
    return href and re.compile("http").search(href)
soup.find_all(href=valid_url)

[<link href="https://creativecommons.org/licenses/by-sa/3.0/" rel="license"/>,
 <link href="https://ru.wikipedia.org/wiki/%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8" rel="canonical"/>,
 <a class="external text" href="https://ru.wikipedia.org/w/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%96%D1%83%D1%80%D0%BD%D0%B0%D0%BB%D1%8B&amp;type=review&amp;page=%D0%A1%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8">отпатрулированная</a>,
 <a class="extiw" href="https://ru.wikisource.org/wiki/%D0%9A%D0%BE%D0%BD%D1%81%D1%82%D0%B8%D1%82%D1%83%D1%86%D0%B8%D1%8F_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8#Статья_5" title="s:Конституция Российской Федерации">статьи 5</a>,
 

In [None]:
domains = """biosophro.lu
newsoraclevoyances.com
entre-deux-espaces.fr
mybelletzen.com
riche-ensemble.com
celestemedium.fr
mediumsuisse.ch
sereconnaitre.com
cosmospace-avis.com
stephanieoberson.ch
kinesiologie-lebourgetdulac.fr
forum-astro.com
madameculander.com
thaliajotael.fr
marabout-souarekeba.com
anniebelliot.over-blog.fr
myvoyance.fr
sabinemueller.fr
geoenergetique.fr
latribunedelyon.fr
fitiahvoyance.com
or-en-soi.ch
christ-ailes.fr
meilleur-medium.com
dominique-voyance.fr
vous-allez-etre-heureux.com
france-voyances.fr
voyance-amour-travail.fr"""
domains = domains.split('\n')

In [None]:
for domain in domains:
    status = requests.get("https://" + domain).status_code

ConnectionError: ignored

In [None]:
for domain in domains:
  try:
    status = requests.get("https://" + domain).status_code
    
  except Exception as e:
    print(type(e), domain)
  else:
    if status == 200:
        print('ok', domain)
    else:
        print('error', status, domain)

<class 'requests.exceptions.ConnectionError'> biosophro.lu
<class 'requests.exceptions.ConnectionError'> newsoraclevoyances.com
<class 'requests.exceptions.ConnectionError'> entre-deux-espaces.fr
<class 'requests.exceptions.ConnectionError'> mybelletzen.com
<class 'requests.exceptions.ConnectionError'> riche-ensemble.com
ok celestemedium.fr
ok mediumsuisse.ch
<class 'requests.exceptions.ConnectionError'> sereconnaitre.com
<class 'requests.exceptions.ConnectionError'> cosmospace-avis.com
ok stephanieoberson.ch
<class 'requests.exceptions.ConnectionError'> kinesiologie-lebourgetdulac.fr
ok forum-astro.com
<class 'requests.exceptions.ConnectionError'> madameculander.com
ok thaliajotael.fr
ok marabout-souarekeba.com
ok anniebelliot.over-blog.fr
ok myvoyance.fr
ok sabinemueller.fr
<class 'requests.exceptions.ConnectionError'> geoenergetique.fr
<class 'requests.exceptions.ConnectionError'> latribunedelyon.fr
<class 'requests.exceptions.ConnectionError'> fitiahvoyance.com
<class 'requests.exc

In [None]:
my_list = []
for domain in domains:
    try:
        url = requests.get("https://" + domain)
    except Exception as e:
        print(e)
        my_list.append([domain, type(e)])
    else:
        my_list.append([domain, url.status_code])

HTTPSConnectionPool(host='biosophro.lu', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f4760afe910>: Failed to establish a new connection: [Errno -2] Name or service not known'))
HTTPSConnectionPool(host='newsoraclevoyances.com', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f475f98cf90>: Failed to establish a new connection: [Errno -2] Name or service not known'))
HTTPSConnectionPool(host='entre-deux-espaces.fr', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f4760afe810>: Failed to establish a new connection: [Errno -2] Name or service not known'))
HTTPSConnectionPool(host='mybelletzen.com', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f475f98cf9

## 8. Найти области России

In [None]:
for line in soup.find("table", {'class':re.compile('standard')}).tbody.find_all("tr"):
    print(line.get_text())

№Субъект Российской ФедерацииФлагГербТерри-тория (км²)Население01.01.2021[16]Адм. центр/столицаАдм.-тер. устройство(согласно ОКАТО)Код ОКАТОМуниципальные образованияИстория адм.-тер. деления
1e-06Республики
1Республика Адыгея7792↗496 934Майкоп7 районов и 2 города797 муниципальных районов, 2 городских округаподробнее
2Республика Алтай92903↘210 924Горно-Алтайск10 районов и 1 город8410 муниципальных районов, 1 городской округподробнее
3Республика Башкортостан142947↗4 091 423Уфа54 района и 21 город8054 муниципальных района, 9 городских округовподробнее
4Республика Бурятия351334↘978 588Улан-Удэ21 район и 2 города8121 муниципальный район, 2 городских округаподробнее
5Республика Дагестан50270↗3 182 054Махачкала41 район и 10 городов8242 муниципальных района, 10 городских округовподробнее
6Донецкая Народная РеспубликаДонецк
7Республика Ингушетия3123↗509 541Магас4 района и 4 города264 муниципальных района, 4 городских округаподробнее
8Кабардино-Балкарская Республика12470↗904 200Нальчик10 районов