# Сбор данных с Web-scraping и API для социально-научных исследований
---
## Семинары 9-10. Open Government. Работа с API СОЗД ГД

---
*ФСН, ОП "Политология", 2023-2024 гг.*

Лика Капустина,

lkapustina@hse.ru

**План занятия:**
1. [API СОЗД ГД: как устроено и как получить ключ](#par1)
2. [Отправляем запросы к API СОЗД ГД](#par2)
3. [Функции, docstrings и еще один способ создать сетевые данные](#par3)
4. [Концепция datasheet](#par4)
---

**Основные ссылки:**
- [API СОЗД ГД](http://api.duma.gov.ru);
- [Документация API СОЗД ГД](http://api.duma.gov.ru/pages/dokumentatsiya);
- [Получение ключа для API СОЗД ГД](http://api.duma.gov.ru/key-request);
- [Примеры запросов к API СОЗД ГД](http://api.duma.gov.ru/pages/dokumentatsiya/primeri-zaprosov-k-api-ais-zakonoproekt);
- Про концепцию и основные принципы работы API говорили на [семинаре 8-9](https://www.notion.so/kapustina-courses/Web-scraping-API-2023-2024-991f447bd3e54c1897b2eed9ddc30c32)

## 1. API СОЗД ГД: как устроено и как получить ключ<a name="par1"></a>

[API СОЗД ГД](http://api.duma.gov.ru) позволяет получить информацию о деятельности Государственной Думы в удобном формате (`json`/`xml` и др.) о:

* Списке отраслей законодательства;
* Списке депутатов Государственной Думы и членов Совета Федерации;
* Списке комитетов Государственной Думы;
* Списке региональных органов власти;
* Списке федеральных органов власти;
* Списке стадий рассмотрения;
* Списке инстанций рассмотрения;
* Списке созывов и сессий;
* Поиску по законопроектам;
* Стеннограммам по законопроекту;
* Вопросам заседаний Государственной Думы;
* Стенограмме рассмотрения вопросов;
* Программам законодательной деятельности;
* Результатам законодательной деятельности;
* Стеннограмам выступлений депутата;
* Сведениям о депутате;
* Депутатским запросам;
* Поиску голосований;
* Сведениям о голосованиях;
* Статистике голосований.

**Чтобы вы смогли получать данные через API СОЗД ГД, вам нужно получить токен для отправки запросов.**

<p></p>
<center><b><font size=4>Задача №1</font></b></center>

**Получите ключ для отправки запросов к API СОЗД ГД и протестируйте работу вашего кода**

* Откройте страницу с [получением токена для API](http://api.duma.gov.ru/key-request);
* В разделе `Где будете использовать API` на опцию `Веб-сайт`;
* Введите вашу (*или любую другую*) электронную почту;
* Введите ваше (*или любое другое*) имя;
* Введите ссылку в разделе `URL сайта приложения`. **Сохраните её** куда-то в заметки или в этот ноутбук;
* Примите условия и положения Лицензионного соглашения;
* Нажмите на кнопку `Получить ключ`;
* Сразу после этого вы наткнетесь на ошибку `Ошибка 500. Внутренняя ошибка сервера.`. Вернитесь на предыдущую страницу. Нажмите на `Получить ключ` еще раз. Вы окажетесь на странице с надписью `Регистрация ключа успешно произведена!`.

<font color='darkgreen'>Если все прошло успешно, вы получите следующую строчку</font>:

```Ваш ключ: <ваш ключ>```

**Запустите код ниже и сохраните токен в переменную `token` и ссылку, которую использовали для создания токена, в переменную `url`.**

In [317]:
# запустите этот код
import requests # отправку запросов
import json     # json 

In [None]:
token = input('Введите токен, который сгенерировал для вас сайт: ')
url = input('Введите ссылку, которую вы использовали для создания токена: ')

In [428]:
requst_url = f"http://api.duma.gov.ru/api/{token}/deputies.json?position=Депутат%20ГД" # сгенерировали ссылку
response = requests.get(requst_url, headers={'REFERER':f"{url}"}) # request_url - ссылка для запроса
json.loads(response.content)[0]

{'id': '99113478',
 'name': 'Абакаров Хизри Магомедович',
 'position': 'Депутат ГД',
 'isCurrent': True,
 'factions': [{'id': '72100024',
   'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
   'startDate': '2021-10-12',
   'endDate': '2026-12-20'}]}

**Запустите код ниже. Если все прошло успешно, вы получите следующую запись:**

```{'id': '99113478',
 'name': 'Абакаров Хизри Магомедович',
 'position': 'Депутат ГД',
 'isCurrent': True,
 'factions': [{'id': '72100024',
   'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
   'startDate': '2021-10-12',
   'endDate': '2026-12-20'}]}```

In [325]:
# /deputies - информация по депутатам
# .json?    - указание на формат данных который вы получите
# после ? следуют параметры; в нашем случае position=Депутат%20ГД"
# headers = {REFER: мы должны указать сайт который указывали при регистрации}
requst_url = f"http://api.duma.gov.ru/api/{token}/deputies.json?position=Депутат%20ГД"
response = requests.get(requst_url, headers={'REFERER':f"{url}"})
json.loads(response.content)[0]

{'id': '99113478',
 'name': 'Абакаров Хизри Магомедович',
 'position': 'Депутат ГД',
 'isCurrent': True,
 'factions': [{'id': '72100024',
   'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
   'startDate': '2021-10-12',
   'endDate': '2026-12-20'}]}

In [329]:
df_small = json.loads(response.content) # декодируем наш json-объект

In [331]:
len(df_small) # 2250 объектов в датасете

2250

In [335]:
df_small[-1] # последний депутат

{'id': '99112468',
 'name': 'Яшин Михаил Евгеньевич',
 'position': 'Депутат ГД',
 'isCurrent': False,
 'factions': [{'id': '72100024',
   'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
   'startDate': '2014-10-01',
   'endDate': '2016-10-04'}]}

In [316]:
# другой способ
requst_url = f"http://api.duma.gov.ru/api/{token}/deputies.json?position=Депутат%20ГД"
response = requests.get(requst_url, headers={'REFERER': url})
json.loads(response.content)[0]

{'id': '99113478',
 'name': 'Абакаров Хизри Магомедович',
 'position': 'Депутат ГД',
 'isCurrent': True,
 'factions': [{'id': '72100024',
   'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
   'startDate': '2021-10-12',
   'endDate': '2026-12-20'}]}

Как вы можете увидеть, здесь мы опять используем библиотеку `requests` для отправки запросов, а также используем дополнительный аргумент в функции `requests.get()` - `headers`. Внутри мы прописываем `REFER` чтобы указать, из какого якобы сайта был отправлен этот запрос (а это как раз та ссылка, которую мы указывали при регистрации).

Мы можем вызвать заголовки с помощью записи `response.headers` и увидим с какими заголовками был отправлен наш запрос:
* `'Date'` - дата отправки запроса;
* `Сontent-Type` – тип контента, который мы запрашиваем, и пр.


Подробное описание типов заголовков можно найти [по ссылке](https://developer.mozilla.org/ru/docs/Web/HTTP/Headers).

In [336]:
response.headers # обращаемся к заголовкам

{'Server': 'nginx', 'Date': 'Wed, 14 Feb 2024 13:39:04 GMT', 'Content-Type': 'application/json', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': 'symfony=743in8bm46rgea8g3ioushq4o5; path=/', 'Expires': 'Thu, 19 Nov 1981 08:52:00 GMT', 'Cache-Control': 'no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'Pragma': 'no-cache'}

Хотя концептуально API устроены одинаково и зачастую основаны на одних и тех же принципах (например, принципах REST), взаимодействие с ними часто отличается на всех этапах. Вспомните, какие процедуры вы проходили чтобы получить токен к API ВКонтакте, и как легко получить токен для работы с API СОЗД ГД.

## 2. Отправляем запросы к API СОЗД ГД<a name='par2'></a>

Наша песня хороша, начинай с начала. Потренируемся на отправке запросов с API СОЗД ГД. Как всегда, сперва импортируем необходимые библиотеки.

In [338]:
import requests      # отправка запросов
import json          # работа с json'ами
import pandas as pd  # работа с pandas.DataFrame

### **Получаем данные по всем депутатам Государственной Думы**


Так выглядят наши объекты в `response`. Функция `json.loads()` позволяет [декомпозировать json](https://docs.python.org/3/library/json.html).

In [339]:
requst_url = f"http://api.duma.gov.ru/api/{token}/deputies.json?position=Депутат%20ГД"
response = requests.get(requst_url, headers={'REFERER':f"{url}"})
response = json.loads(response.content)
response[:5] # выведем 5 первых объектов

[{'id': '99113478',
  'name': 'Абакаров Хизри Магомедович',
  'position': 'Депутат ГД',
  'isCurrent': True,
  'factions': [{'id': '72100024',
    'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
    'startDate': '2021-10-12',
    'endDate': '2026-12-20'}]},
 {'id': '99111772',
  'name': 'Абалаков Александр Николаевич',
  'position': 'Депутат ГД',
  'isCurrent': False,
  'factions': [{'id': '72100004',
    'name': 'Фракция Политической партии "КОММУНИСТИЧЕСКАЯ ПАРТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ"',
    'startDate': '2011-12-04',
    'endDate': '2016-10-04'}]},
 {'id': '99112284',
  'name': 'Абасов Мамед Магарамович',
  'position': 'Депутат ГД',
  'isCurrent': False,
  'factions': [{'id': '72100024',
    'name': 'Фракция Всероссийской политической партии "ЕДИНАЯ РОССИЯ"',
    'startDate': '2013-03-06',
    'endDate': '2016-10-04'}]},
 {'id': '99100491',
  'name': 'Абдулатипов Рамазан Гаджимурадович',
  'position': 'Депутат ГД',
  'isCurrent': False,
  'factions': [{'id': '72

In [67]:
print(f'В данных СОЗД ГД содержится информация о {len(response)} депутатах')

В данных СОЗД ГД содержится информация о 2250 депутатах


Как преобразовать полученные нами данные? Наш основной объект, который мы получили по итогам запроса - `response`. Мы можем воспользоваться функцией `pandas.json_normalize()` и превратить `json` объект в `pandas.DataFrame`.

In [341]:
pd.json_normalize(response) # используем функцию

Unnamed: 0,id,name,position,isCurrent,factions
0,99113478,Абакаров Хизри Магомедович,Депутат ГД,True,"[{'id': '72100024', 'name': 'Фракция Всероссий..."
1,99111772,Абалаков Александр Николаевич,Депутат ГД,False,"[{'id': '72100004', 'name': 'Фракция Политичес..."
2,99112284,Абасов Мамед Магарамович,Депутат ГД,False,"[{'id': '72100024', 'name': 'Фракция Всероссий..."
3,99100491,Абдулатипов Рамазан Гаджимурадович,Депутат ГД,False,"[{'id': '72100020', 'name': 'Депутатская групп..."
4,99100001,Абдулбасиров Магомедтагир Меджидович,Депутат ГД,False,"[{'id': '72100001', 'name': 'Фракция Аграрной ..."
...,...,...,...,...,...
2245,99111094,Яхихажиев Саид Кожалович,Депутат ГД,False,"[{'id': '72100011', 'name': 'Депутаты, не вход..."
2246,99113127,Яхнюк Сергей Васильевич,Депутат ГД,True,"[{'id': '72100024', 'name': 'Фракция Всероссий..."
2247,99100900,Яшин Александр Михайлович,Депутат ГД,False,"[{'id': '72100009', 'name': 'Фракция ""Единство..."
2248,99107185,Яшин Виктор Анатольевич,Депутат ГД,False,"[{'id': '72100005', 'name': 'Фракция Политичес..."


Кажется, в `factions` еще есть объекты с информацией. Как их получить? Давайте посмотрим на объект с информацией о депутате:

```{'id': '99100001',
  'name': 'Абдулбасиров Магомедтагир Меджидович',
  'position': 'Депутат ГД',
  'isCurrent': False,
  'factions': [{'id': '72100001',
    'name': 'Фракция Аграрной партии России',
    'startDate': '1994-01-12',
    'endDate': '1994-07-23'}]}]```

Вынем из нашего json в `factions`. Для этого в качестве второго аргумента укажем название нашей колонки (собственно, `['factions']`), а сразу после в списке – названия колонок `['id', 'name', 'position']`). 

Аргумент `record_prefix='_'` отвечает за то, с какого символа будут начинаться переменные из списка на предыдущем месте.

In [343]:
# обрабатываем данные
deputies = pd.json_normalize(response, ['factions'], ['id', 'name', 'position'], record_prefix='_')
deputies

Unnamed: 0,_id,_name,_startDate,_endDate,id,name,position
0,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2021-10-12,2026-12-20,99113478,Абакаров Хизри Магомедович,Депутат ГД
1,72100004,"Фракция Политической партии ""КОММУНИСТИЧЕСКАЯ ...",2011-12-04,2016-10-04,99111772,Абалаков Александр Николаевич,Депутат ГД
2,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2013-03-06,2016-10-04,99112284,Абасов Мамед Магарамович,Депутат ГД
3,72100020,"Депутатская группа ""Российские регионы""",1996-01-16,1997-11-12,99100491,Абдулатипов Рамазан Гаджимурадович,Депутат ГД
4,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2011-12-04,2013-01-27,99100491,Абдулатипов Рамазан Гаджимурадович,Депутат ГД
...,...,...,...,...,...,...,...
5270,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2017-09-10,2021-10-11,99113127,Яхнюк Сергей Васильевич,Депутат ГД
5271,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2021-10-12,2026-12-20,99113127,Яхнюк Сергей Васильевич,Депутат ГД
5272,72100009,"Фракция ""Единство - Единая Россия""",2000-01-18,2003-12-28,99100900,Яшин Александр Михайлович,Депутат ГД
5273,72100005,Фракция Политической партии ЛДПР - Либерально-...,1996-12-05,2000-01-17,99107185,Яшин Виктор Анатольевич,Депутат ГД


А теперь пересоберем порядок этого датасета, чтобы в начале у нас были данные по депутатам.

In [348]:
# и давайте пересоберем этот датасет
deputies = deputies[['name', 'id', '_id', '_name', '_startDate', '_endDate']]
deputies

Unnamed: 0,name,id,_id,_name,_startDate,_endDate
0,Абакаров Хизри Магомедович,99113478,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2021-10-12,2026-12-20
1,Абалаков Александр Николаевич,99111772,72100004,"Фракция Политической партии ""КОММУНИСТИЧЕСКАЯ ...",2011-12-04,2016-10-04
2,Абасов Мамед Магарамович,99112284,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2013-03-06,2016-10-04
3,Абдулатипов Рамазан Гаджимурадович,99100491,72100020,"Депутатская группа ""Российские регионы""",1996-01-16,1997-11-12
4,Абдулатипов Рамазан Гаджимурадович,99100491,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2011-12-04,2013-01-27
...,...,...,...,...,...,...
5270,Яхнюк Сергей Васильевич,99113127,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2017-09-10,2021-10-11
5271,Яхнюк Сергей Васильевич,99113127,72100024,"Фракция Всероссийской политической партии ""ЕДИ...",2021-10-12,2026-12-20
5272,Яшин Александр Михайлович,99100900,72100009,"Фракция ""Единство - Единая Россия""",2000-01-18,2003-12-28
5273,Яшин Виктор Анатольевич,99107185,72100005,Фракция Политической партии ЛДПР - Либерально-...,1996-12-05,2000-01-17


Что мы можем сказать про его структуру? Что под одним `id` скрывается один депутат:

In [349]:
len(deputies['id'].unique()) # всего - 2236 уникальных депутатов.

2236

### **Получение информации о конкретных депутатах**

Чтобы получить данные о конкретном депутате, мы можем узнать его id по табличке выше. Например, с помощью анонимной функции можно отобрать строчки, где записана информация о [Владимире Вольфовиче Жириновском](https://ru.wikipedia.org/wiki/Жириновский,_Владимир_Вольфович).

In [350]:
deputies[deputies['name'].apply(lambda x: 'Жириновский' in x)] # используем анонимную функцию

Unnamed: 0,name,id,_id,_name,_startDate,_endDate
1518,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,1994-01-12,1996-01-15
1519,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,1996-01-16,2000-01-17
1520,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2000-01-18,2000-01-18
1521,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2000-01-19,2003-12-28
1522,Жириновский Владимир Вольфович,99100142,72100011,"Депутаты, не входящие во фракции",2003-12-07,2003-12-28
1523,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2003-12-29,2008-01-07
1524,Жириновский Владимир Вольфович,99100142,72100011,"Депутаты, не входящие во фракции",2007-12-02,2007-12-23
1525,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2007-12-24,2011-12-20
1526,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2011-12-21,2016-10-04
1527,Жириновский Владимир Вольфович,99100142,72100005,Фракция Политической партии ЛДПР - Либерально-...,2016-10-05,2021-10-11


In [351]:
zhirinovskiy_id = deputies[deputies['name'].apply(lambda x: 'Жириновский' in x)]['id'].unique()[0]
print(f'id Жириновского в СОЗД ГД: {zhirinovskiy_id}')

id Жириновского в СОЗД ГД: 99100142


Теперь, когда мы с вами узнали `id` Владимира Вольфовича, обратимся к методу [Сведения по депутатам](http://api.duma.gov.ru/pages/dokumentatsiya/svedeniya-o-deputate). 

**Из его описания:**
**Результат представляет собой объект, отражающий сведения о депутате:**

* `id` - идентификатор депутата
* `family` - фамилия
* `name` - имя
* `patronymic` - отчество
* `birthdate` - дата рождения
* `credentialsStart` - дата начала полономочий в последнем созыве
* `credentialsEnd` - дата окончания полономочий в последнем созыве
* `factionId` - идентификатор фракции
* `factionName` - полное название фракции
* `factionRole` - роль во фракции (цифры в начале задают сортировку роли внутри фракции)
* `partyNameInstr` - название партии в творительном падеже
* `isActual` - полномочия действуют на настоящий момент
* `factionRegion` - связь фракции с регионом
* `lawcount` - число законопроектов, инициатором которых является депутат
* `region` - связь депутата с регионами (массив строк)
* `speachCount` - число выступлений депутата
* `voteLink` - ссылка на голосования депутата
* `transcriptLink` - ссылка на стенограммы депутата
* `educations` - массив объектов вида, отражающих сведения о высшем образовании:
* `institution` - название ВУЗа
* `year` - год окончания
* `degrees` - ученые степени (массив строк)
* `ranks` - ученые звания (массив строк)
* `activity` - массив объектов вида, отражающих сведения о деятельности,
* `name` - название
* `subdivisionId` - идентификатор подразделение
* `subdivisionNameGenitive` - название подразделения в родительном падеже.


Как вы увидеть по структуре ссылки для получения запроса, она выглядит следующим образом:

```f'http://api.duma.gov.ru/api/{token}/deputy.json?id={deputy_id}'```

* `/deputy.` тут отвечает за поиск данных по депутатам;
* `deputy_id` 

In [385]:
# формулируем ссылку, прописываем в запросе id жириновского;
method = 'deputy'
request_url = f'http://api.duma.gov.ru/api/{token}/{method}.json?id={zhirinovskiy_id}' # создаем ссылку
response = requests.get(request_url, headers={'REFERER':f"{my_url}"}) # отправляем запрос
response = json.loads(response.content) # декодируем джсон

In [386]:
response # в результате получаем вот такой вот джсон

{'id': '99100142',
 'family': 'Жириновский',
 'name': 'Владимир',
 'patronymic': 'Вольфович',
 'birthdate': '1946-04-25',
 'credentialsStart': '2016-09-18',
 'credentialsEnd': '2021-09-19',
 'factionId': '72100005',
 'factionName': 'Фракция Политической партии ЛДПР - Либерально-демократической партии России',
 'factionRole': ' 00020 Руководитель фракции',
 'partyNameInstr': 'Политической партией "Либерально - демократическая партия России"',
 'isActual': 'true',
 'homePage': None,
 'factionRegion': '(Общефедеральная часть федерального списка кандидатов).',
 'nameGenitive': 'Жириновского Владимира Вольфовича',
 'lawcount': 277,
 'regions': ['все субъекты Российской Федерации',
  'все субъекты Российской Федерации',
  'все субъекты Российской Федерации',
  'Республика Крым',
  'Город Севастополь'],
 'familyAndInitials': 'Жириновский В.В.',
 'speachCount': 4451,
 'voteLink': 'http://vote.duma.gov.ru/?convocation=AAAAAAA7&deputy=99100142&sort=date_desc',
 'transcriptLink': 'http://www.cir.

<p></p>
<center><b><font size=4>Задача №2</font></b></center>

**Выведите информацию о депутате, избравшемся по избирательном одномандатному округу от вашего родного региона. Если таких депутатов несколько, выведите информацию о том, чья фамилия понравилась вам больше.**

* Чтобы найти *своего* депутата, используйте поиск по [сайту Государственной Думы](http://duma.gov.ru/duma/deputies/8/).
* Чтобы найти `id` *вашего* депутата, используйте метод [Список депутатов ГД и СФ](http://api.duma.gov.ru/pages/dokumentatsiya/spisok-deputatov-gd-i-chlenov-sf) с аргументом `begin` (или обратитесь к датафрейму `deputies`);
* После того как вы нашли `id` вашего депутата, используйте метод [Сведения о депутате ГД](http://api.duma.gov.ru/pages/dokumentatsiya/svedeniya-o-deputate) и запросите данные о *вашем* депутате.

In [None]:
#YOUR CODE HERE

### **Получение информации о законопроектах**

Используем метод [поиска по законопроектам](http://api.duma.gov.ru/pages/dokumentatsiya/poisk-po-zakonoproektam) и **соберем данные по законопроектам Владимира Вольфовича Жириновского:**

**Вопрос к вам: посмотрите на документацию выше и скажите, что тут означает `status=7`?**

In [393]:
# когда перечисляем парметры, используем знак амперсанда &
# first_parameter_name=first_parameter_value&second_parameter_name=second_parameter_value и т.д.
parameters = f'deputy={zhirinovskiy_id}&status=7&sort=date'
requests_url = f'http://api.duma.gov.ru/api/{token}/search.json?{parameters}' # параметры указываются после "?"
response = requests.get(requests_url,  headers={'REFERER':f"{url}"}) # отправляем запрос
response

<Response [200]>

Объекты с законами находятся внутри объекта `['laws']` в нашем датасете.

In [394]:
response = json.loads(response.content)
response

{'count': 34,
 'page': 1,
 'wording': 'Законопроекты, подписанные Президентом РФ, где инициатором является депутат ГД Жириновский Владимир Вольфович (прошлый созыв), отсортированные по дате внесения в ГД (по убыванию)',
 'laws': [{'id': 31553,
   'number': '815115-7',
   'name': 'О виноградарстве и виноделии в Российской Федерации',
   'comments': None,
   'introductionDate': '2019-10-16',
   'url': 'https://sozd.duma.gov.ru/bill/815115-7',
   'transcriptUrl': 'http://api.duma.gov.ru/api/transcript/815115-7',
   'lastEvent': {'stage': {'id': 10, 'name': 'Опубликование закона'},
    'phase': {'id': 36,
     'name': 'Опубликование закона в "Парламентской газете"'},
    'solution': None,
    'date': '2020-01-05',
    'document': None},
   'subject': {'deputies': [{'id': '99100784',
      'name': 'Аксаков Анатолий Геннадьевич',
      'position': 'Депутат ГД',
      'isCurrent': False},
     {'id': '99112120',
      'name': 'Аскендеров Заур Асевович',
      'position': 'Депутат ГД',
      '

In [396]:
response['page'] # страница с законопроектами

1

In [398]:
response['wording'] #запрос, который мы с вами отправили (API СОЗД ГД интерпретирует его самостоятельно)

'Законопроекты, подписанные Президентом РФ, где инициатором является депутат ГД Жириновский Владимир Вольфович (прошлый созыв), отсортированные по дате внесения в ГД (по убыванию)'

In [229]:
response = json.loads(response.content)
response['laws']

[{'id': 31553,
  'number': '815115-7',
  'name': 'О виноградарстве и виноделии в Российской Федерации',
  'comments': None,
  'introductionDate': '2019-10-16',
  'url': 'https://sozd.duma.gov.ru/bill/815115-7',
  'transcriptUrl': 'http://api.duma.gov.ru/api/transcript/815115-7',
  'lastEvent': {'stage': {'id': 10, 'name': 'Опубликование закона'},
   'phase': {'id': 36,
    'name': 'Опубликование закона в "Парламентской газете"'},
   'solution': None,
   'date': '2020-01-05',
   'document': None},
  'subject': {'deputies': [{'id': '99100784',
     'name': 'Аксаков Анатолий Геннадьевич',
     'position': 'Депутат ГД',
     'isCurrent': False},
    {'id': '99112120',
     'name': 'Аскендеров Заур Асевович',
     'position': 'Депутат ГД',
     'isCurrent': False},
    {'id': '99112725',
     'name': 'Бахарев Константин Михайлович',
     'position': 'Депутат ГД',
     'isCurrent': False},
    {'id': '99112728',
     'name': 'Белик Дмитрий Анатольевич',
     'position': 'Депутат ГД',
     'i

In [401]:
num_1 = response['count']
print(f'Владимир Вольфович Жириновский был соавтором {num_1} принятых и подписанных президентом законопроектов.')

Владимир Вольфович Жириновский был соавтором 34 принятых и подписанных президентом законопроектов.


Отправим запрос чтобы посмотреть на отклоненные законопроекты. Для этого, согласно [документации к методу "Поиск по законопроектам"](http://api.duma.gov.ru/pages/dokumentatsiya/poisk-po-zakonoproektam) нам нужно уточнить параметр `status=8` и отправить запрос вновь.

In [402]:
# опять указываем отдельные параметры через амперсанд – "&"
parameters = f'deputy={zhirinovskiy_id}&status=8&sort=date' # теперь status=8
requests_url = f'http://api.duma.gov.ru/api/{token}/search.json?{parameters}' # параметры указываются после ?
response = requests.get(requests_url,  headers={'REFERER':f"{url}"})
response

<Response [200]>

Как посмотреть на все объекты? Это можно сделать с помощью цикла `for`:

In [405]:
for i in json.loads(response.content)['laws']:
    print(i)

{'id': 33901, 'number': '50206-8', 'name': 'О ежегодной предновогодней пенсионной выплате', 'comments': None, 'introductionDate': '2021-12-30', 'url': 'https://sozd.duma.gov.ru/bill/50206-8', 'transcriptUrl': 'http://api.duma.gov.ru/api/transcript/50206-8', 'lastEvent': {'stage': {'id': 3, 'name': 'Рассмотрение законопроекта в первом чтении'}, 'phase': {'id': 8, 'name': 'Рассмотрение законопроекта Государственной Думой'}, 'solution': 'отклонить законопроект', 'date': '2023-10-31', 'document': None}, 'subject': {'deputies': [{'id': '99110040', 'name': 'Афанасьева Елена Владимировна', 'position': 'Член СФ', 'isCurrent': False}, {'id': '99111823', 'name': 'Диденко Алексей Николаевич', 'position': 'Депутат ГД', 'isCurrent': True}, {'id': '99100142', 'name': 'Жириновский Владимир Вольфович', 'position': 'Депутат ГД', 'isCurrent': False}, {'id': '99113441', 'name': 'Кошелев Владимир Алексеевич', 'position': 'Депутат ГД', 'isCurrent': True}, {'id': '99113299', 'name': 'Леонов Сергей Дмитриеви

Как получить сразу все названия законопроектов из объекта? Использовать списковые вложения и в них обратиться к конкретному ключу - в нашем случае - к `['name']`:

In [406]:
[i['name'] for i in json.loads(response.content)['laws']] # получаем все имена

['О ежегодной предновогодней пенсионной выплате',
 'О ежемесячных денежных пособиях лицам, занятым ведением домашнего хозяйства, и о внесении изменений в Федеральный закон "О минимальном размере оплаты труда" и Федеральный закон "О страховых пенсиях"',
 'О внесении изменений в статью 11 Федерального закона "Об общих принципах организации законодательных (представительных) и исполнительных органов государственной власти субъектов Российской Федерации"',
 'О внесении изменений в Федеральный закон "Об образовании в Российской Федерации"',
 'О внесении изменения в статью 15 Федерального закона "О социальной защите инвалидов в Российской Федерации"',
 'О внесении изменения в статью 2 Федерального закона "О потребительской корзине в целом по Российской Федерации"',
 'О внесении изменений в Федеральный закон "О выборах Президента Российской Федерации"',
 'О внесении изменений в статью 12 Федерального закона "О потребительском кредите (займе)" и Федеральный закон "О защите прав и законных инте

Или, например, можно получить все ссылки:

In [408]:
[i['url'] for i in json.loads(response.content)['laws']] #['url'] отвечает за ссылку на каждый законопроект

['https://sozd.duma.gov.ru/bill/50206-8',
 'https://sozd.duma.gov.ru/bill/965268-7',
 'https://sozd.duma.gov.ru/bill/474049-7',
 'https://sozd.duma.gov.ru/bill/416282-7',
 'https://sozd.duma.gov.ru/bill/415418-7',
 'https://sozd.duma.gov.ru/bill/405991-7',
 'https://sozd.duma.gov.ru/bill/404799-7',
 'https://sozd.duma.gov.ru/bill/398922-7',
 'https://sozd.duma.gov.ru/bill/397221-7',
 'https://sozd.duma.gov.ru/bill/394161-7',
 'https://sozd.duma.gov.ru/bill/389853-7',
 'https://sozd.duma.gov.ru/bill/386154-7',
 'https://sozd.duma.gov.ru/bill/383978-7',
 'https://sozd.duma.gov.ru/bill/381903-7',
 'https://sozd.duma.gov.ru/bill/381484-7',
 'https://sozd.duma.gov.ru/bill/372739-7',
 'https://sozd.duma.gov.ru/bill/369027-7',
 'https://sozd.duma.gov.ru/bill/366426-7',
 'https://sozd.duma.gov.ru/bill/362896-7',
 'https://sozd.duma.gov.ru/bill/360083-7']

## Функции, docstrings и еще один способ создать сетевые данные <a name='par3'></a>

Напишем код, который поможет нам собрать данные не обо всех законодательных инициативах – а только о тех, что были отклонены Государственной Думы. Сперва мы отправим несколько запросов, а потом обработаем эти данные чтобы создать из них **adjacency matrix** - [матрицу, которую можно использовать для создания сетевого графа](https://en.wikipedia.org/wiki/Adjacency_matrix) в дальнейшем.

**Матрицу какой структуры мы будем создавать?** 

По строчкам и по столбцам будут указаны депутаты (все возможные депутаты из нашего датасета).

Значение на пересечении `депутат_1` и `депутат_2` означает, сколько совместных законопроектов (отклоненных Государственной Думой, так как так уточнен наш запрос) писали депутаты.

In [432]:
# создаю пример для вас
example = pd.DataFrame(columns=['депутат_1', 'депутат_2', 'депутат_3'], # что будет в колонках
            index=['депутат_1', 'депутат_2', 'депутат_3']) # что будет в строчках (индексе)
example = example.fillna(0) # по умолчанию, в ячейках у нас стоит NA. Меняем их на 0.
example

Unnamed: 0,депутат_1,депутат_2,депутат_3
депутат_1,0,0,0
депутат_2,0,0,0
депутат_3,0,0,0


Отправим запрос к API СОЗД ГД.

In [413]:
parameters = f'status=8' # отклоненные ГД законы
request_url = f'http://api.duma.gov.ru/api/{token}/search.json?{parameters}' # составили строчку
response = requests.get(request_url, headers={'REFERER':f"{my_link}"})
response

<Response [200]>

In [414]:
response = json.loads(response.content)
response

{'count': 11981,
 'page': 1,
 'wording': 'Законопроекты, отклоненные (снятые) ГД, отсортированные по дате последнего события (по убыванию)',
 'laws': [{'id': 25007,
   'number': '7886-3',
   'name': 'О федеральных административных судах в Российской Федерации',
   'comments': None,
   'introductionDate': None,
   'url': 'https://sozd.duma.gov.ru/bill/7886-3',
   'transcriptUrl': 'http://api.duma.gov.ru/api/transcript/7886-3',
   'lastEvent': {'stage': {'id': 4,
     'name': 'Рассмотрение законопроекта во втором чтении'},
    'phase': {'id': 11,
     'name': 'Рассмотрение законопроекта Государственной Думой'},
    'solution': 'отклонить законопроект и снять с дальнейшего рассмотрения',
    'date': '2013-06-11',
    'document': {'name': '2358-6 ГД', 'type': 'Постановление ГД'}},
   'subject': {'deputies': [],
    'departments': [{'id': 6231000,
      'name': 'Верховный Суд РФ',
      'isCurrent': True,
      'startDate': '1994-01-01',
      'endDate': None}],
    'factions': []},
   'com

**Вопрос к вам – почему в переменной с законами – `laws` – у нас всего двадцать законов?**

In [417]:
len(response['laws'])

20

Мы можем получить ответ из справки по методу [Поиск по законопроектам]() : ```limit — количество результатов на странице, допустимые значения: 5, 10, 20 (по умолчанию)```. Значит, мы максимально за один раз можем получить информацию только по 20 законопроектам за 1 запрос (так как обращаемся к конкретной странице).

**Как собрать все данные по законам?** Нужно всего лишь в цикле пройтись по всем страницам:

In [418]:
response['count'] # всего столько законов было отклонено ГД

11981

Как подсчитать, сколько у нас страниц?

In [266]:
response['count'] // 20 # поделить нацело - столько страниц нам нужно

599

In [269]:
response['count'] // 20 + 1 # столько страниц законопроектов у нас есть

600

Запустим цикл.

In [274]:
import tqdm # импортируем tqdm - это модуль, который поможет нам следить за скоростью обработки данных

full_response = [] # создаем датафрейм

for i in tqdm.tqdm(range((response['count'] // 20) + 1)): # идем по числу страниц (см. выше)
    page = i+1 # нумерация страниц начинается с 1, так что добавляем единицу
    parameters = f'status=8&page={page}' # задаем параметры
    request_url = f'http://api.duma.gov.ru/api/{token}/search.json?{parameters}' # составили строчку
    one_response = requests.get(request_url, headers={'REFERER':f"{my_link}"}) # отправляем запрос
    full_response.append(json.loads(one_response.content)) # присоединяем его сюда

100%|█████████████████████████████████████████| 600/600 [05:27<00:00,  1.83it/s]


Соберем из этого объекта данные по депутатам, которые вносили эти инициативы:

In [283]:
all_law_deputies = [] # создаем пустой список

# идем по индексам всех элементов в full_response
for i in range(len(full_response)):
    one_page = full_response[i]['laws'] # одна страница - это 20 законов (обращаемся по индексу к full_response)
    
    # идем по индексам всех элементов на одной странице 
    for j in range(len(one_page)):
        # тут one_page[j] это один закон
        one_law_deputies = one_page[j]['subject']['deputies'] # получаем депутатов-субъектов законодательной инициативы
        # этот объект - это список из словарей 
        
        all_law_deputies.append(one_law_deputies) # добавляем список с депутатами-авторами законопроекта в список

**Посмотрим на то, что получилось:**

```[[],
 [{'id': '99112231',
   'name': 'Богомаз Александр Васильевич',
   'position': 'Депутат ГД',
   'isCurrent': False}],```
   
Что означает `[[],`? Если мы видим просто пустой список, это означает, что среди инициаторов законопроекта не было депутатов.

Если мы видим какую-то информацию, например: ```[{'id': '99112231',
   'name': 'Богомаз Александр Васильевич',
   'position': 'Депутат ГД',
   'isCurrent': False}]``` – это означает, что в словарях записана информация о депутатах ГД-авторах законопроекта (в данном примере автор только один).

In [284]:
all_law_deputies

[[],
 [{'id': '99112231',
   'name': 'Богомаз Александр Васильевич',
   'position': 'Депутат ГД',
   'isCurrent': False}],
 [],
 [],
 [{'id': '99113441',
   'name': 'Кошелев Владимир Алексеевич',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99113299',
   'name': 'Леонов Сергей Дмитриевич',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99113312',
   'name': 'Марков Евгений Владимирович',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99113440',
   'name': 'Наумов Станислав Александрович',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99110213',
   'name': 'Нилов Ярослав Евгеньевич',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99113439',
   'name': 'Панеш Каплан Мугдинович',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99111047',
   'name': 'Свистунов Аркадий Николаевич',
   'position': 'Депутат ГД',
   'isCurrent': True},
  {'id': '99113438',
   'name': 'Сипягин Владимир Владимирович',
   

**Теперь создадим вложеный список `authors`.** Тут будут перечислены
Один из способов собрать записи об авторах выглядит так:

In [291]:
authors = [] # создаем пустой список

# идем по всем элементам в all_law_deputies (один элемент содержит информацию об авторах одного законопроекта)
for one_law in all_law_deputies:
    # если у нас нет авторов-законопроекта которые являются депутатами ГД ИЛИ автор законопроекта 1,
    if one_law == [] or len(one_law) == 1:
        continue # пропускаем это наблюдение
        
    # в обратном случае
    else:
        one_law_author = [] # создаем пустой список
        # на каждой итерации записываем в one_id каждого из авторов законопроекта
        for i in range(len(one_law)):
            one_id = one_law[i]['id'] # берем id каждого соавтора законопроекта
            one_law_author.append(one_id) # добавляем в список
        authors.append(one_law_author) # теперь в список authors мы добавляем список (внутри - id соавторов законопроекта) 

Что находится тут?

```[['99113441',
  '99113299',
  '99113312',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99113438',
  '99100776',
  '99111950',
  '99112564'],
 ['99113441',
  '99113299',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99111049',
  '99113438',
  '99100776',
  '99111950',
  '99112564'],```
  
Означает, что для какого-то законопроекта авторами являются депутаты с **id** ```[['99113441',
  '99113299',
  '99113312',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99113438',
  '99100776',
  '99111950',
  '99112564'],```
  
  
А для другого депутаты ГД с id ```['99113441',
  '99113299',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99111049',
  '99113438',
  '99100776',
  '99111950',
  '99112564'],```.

In [433]:
authors[:2]

[['99113441',
  '99113299',
  '99113312',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99113438',
  '99100776',
  '99111950',
  '99112564'],
 ['99113441',
  '99113299',
  '99113440',
  '99110213',
  '99113439',
  '99111047',
  '99111049',
  '99113438',
  '99100776',
  '99111950',
  '99112564']]

### Приступаем к созданию adjacency matrix

Сейчас я расскажу вам про модуль `itertools`, который будет очень полезен для создания **adjacency matrix**.

Документация itertools [доступна по ссылке](https://docs.python.org/3/library/itertools.html).

In [293]:
import itertools # импортируем модуль

Распакуем все значения в один список с помощью функции `itertools.chain()`, 
* далее превратим этот объект в список с помощью `list()`;
* возьмем только уникальные значения (превратив в множество с помощью `set()`);
* отсортируем значения с помощью `sorted()`.

Что мы получили? В списке `all_deputies_ids` лежат уникальные id всех депутатов из нашего датасета.

In [300]:
all_deputies_ids = sorted(set(list(itertools.chain(*authors))))
all_deputies_ids[:10] # уникальные id всех депутатов-соавторов отклоненных ГД законопроектов

['99100002',
 '99100004',
 '99100006',
 '99100010',
 '99100014',
 '99100015',
 '99100017',
 '99100020',
 '99100021',
 '99100023']

Создаем датафрейм `df`.

Названия колонок и индексов тут - это id депутатов. Матрица имеет размер `n * n`; а в ячейках на пересечениях будет отражаться число совместно написанных **отклоненных законопроектов**. 

По факту, `df` имеет такую же структуру, что и наш пример - `example`. Только вместо имен депутатов (`депутат_1`, `депутат_2`) записаны id депутатов: `99100002`, `991000004` и др.

In [434]:
example # пример

Unnamed: 0,депутат_1,депутат_2,депутат_3
депутат_1,0,0,0
депутат_2,0,0,0
депутат_3,0,0,0


In [302]:
df = pd.DataFrame(columns = all_deputies_ids, # колонки - id депутатов ГД (из СОЗД ГД)
                 index = all_deputies_ids)    # строчки - id депутатов ГД (из СОЗД ГД)
df # создали датафрейм

Unnamed: 0,99100002,99100004,99100006,99100010,99100014,99100015,99100017,99100020,99100021,99100023,...,99113484,99113485,99113486,99113487,99113488,99113489,99113510,99113542,99113544,99113546
99100002,,,,,,,,,,,...,,,,,,,,,,
99100004,,,,,,,,,,,...,,,,,,,,,,
99100006,,,,,,,,,,,...,,,,,,,,,,
99100010,,,,,,,,,,,...,,,,,,,,,,
99100014,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99113489,,,,,,,,,,,...,,,,,,,,,,
99113510,,,,,,,,,,,...,,,,,,,,,,
99113542,,,,,,,,,,,...,,,,,,,,,,
99113544,,,,,,,,,,,...,,,,,,,,,,


Заполняем пропуски нулями.

In [304]:
df = df.fillna(0) # с помощью метода .fillna()
df # смотрим на результат

Unnamed: 0,99100002,99100004,99100006,99100010,99100014,99100015,99100017,99100020,99100021,99100023,...,99113484,99113485,99113486,99113487,99113488,99113489,99113510,99113542,99113544,99113546
99100002,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100004,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100006,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100010,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100014,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99113489,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99113510,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99113542,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99113544,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Идем циклом по авторам и генерируем последовательности с помощью `itertools.combinations()`. Справка по функции [тут](https://docs-python.ru/standart-library/modul-itertools-python/funktsija-combinations-modulja-itertools/).

**Что мы получим?** Мы получим список с кортежами. В одном кортеже указана одна пара соавторов. Так, если депутат с `id = 99113441` был соавтором законопроекта, который писали еще депутаты `99113299`, `99113312`, `99113440`, `99110213`, `99113439`, `99111047`, `99113438`, `99100776`, `99111950`, `99112564`, то мы увидим следующие записи:

```[('99113441', '99113299'),
 ('99113441', '99113312'),
 ('99113441', '99113440'),
 ('99113441', '99110213'),
 ('99113441', '99113439'),
 ('99113441', '99111047'),
 ('99113441', '99113438'),
 ('99113441', '99100776'),
 ('99113441', '99111950'),
 ('99113441', '99112564'),
 
 
А полный список кортежей будет выглядеть так:

[('99113441', '99113299'),
 ('99113441', '99113312'),
 ('99113441', '99113440'),
 ('99113441', '99110213'),
 ('99113441', '99113439'),
 ('99113441', '99111047'),
 ('99113441', '99113438'),
 ('99113441', '99100776'),
 ('99113441', '99111950'),
 ('99113441', '99112564'),
 ('99113299', '99113312'),
 ('99113299', '99113440'),
 ('99113299', '99110213'),
 ('99113299', '99113439'),
 ('99113299', '99111047'),
 ('99113299', '99113438'),
 ('99113299', '99100776'),
 ('99113299', '99111950'),
 ('99113299', '99112564'),
 ('99113312', '99113440'),
 ('99113312', '99110213'),
 ('99113312', '99113439'),
 ('99113312', '99111047'),
 ('99113312', '99113438'),
 ('99113312', '99100776'),
 ('99113312', '99111950'),
 ('99113312', '99112564'),
 ('99113440', '99110213'),
 ('99113440', '99113439'),
 ('99113440', '99111047'),
 ('99113440', '99113438'),
 ('99113440', '99100776'),
 ('99113440', '99111950'),
 ('99113440', '99112564'),
 ('99110213', '99113439'),
 ('99110213', '99111047'),
 ('99110213', '99113438'),
 ('99110213', '99100776'),
 ('99110213', '99111950'),
 ('99110213', '99112564'),
 ('99113439', '99111047'),
 ('99113439', '99113438'),
 ('99113439', '99100776'),
 ('99113439', '99111950'),
 ('99113439', '99112564'),
 ('99111047', '99113438'),
 ('99111047', '99100776'),
 ('99111047', '99111950'),
 ('99111047', '99112564'),
 ('99113438', '99100776'),
 ('99113438', '99111950'),
 ('99113438', '99112564'),
 ('99100776', '99111950'),
 ('99100776', '99112564'),
 ('99111950', '99112564')]
```

In [424]:
list(itertools.combinations(authors[0], r=2)) # r=2 за число объектов которые должны входить в этот кортеж

[('99113441', '99113299'),
 ('99113441', '99113312'),
 ('99113441', '99113440'),
 ('99113441', '99110213'),
 ('99113441', '99113439'),
 ('99113441', '99111047'),
 ('99113441', '99113438'),
 ('99113441', '99100776'),
 ('99113441', '99111950'),
 ('99113441', '99112564'),
 ('99113299', '99113312'),
 ('99113299', '99113440'),
 ('99113299', '99110213'),
 ('99113299', '99113439'),
 ('99113299', '99111047'),
 ('99113299', '99113438'),
 ('99113299', '99100776'),
 ('99113299', '99111950'),
 ('99113299', '99112564'),
 ('99113312', '99113440'),
 ('99113312', '99110213'),
 ('99113312', '99113439'),
 ('99113312', '99111047'),
 ('99113312', '99113438'),
 ('99113312', '99100776'),
 ('99113312', '99111950'),
 ('99113312', '99112564'),
 ('99113440', '99110213'),
 ('99113440', '99113439'),
 ('99113440', '99111047'),
 ('99113440', '99113438'),
 ('99113440', '99100776'),
 ('99113440', '99111950'),
 ('99113440', '99112564'),
 ('99110213', '99113439'),
 ('99110213', '99111047'),
 ('99110213', '99113438'),
 

Наша задача - пройтись по всем этим кортежам и сделать следующее: добавить значение `1` на пересечении id этих депутатов.

In [311]:
# идем по списку с соавторами authors
for one_law in tqdm.tqdm(authors):
    # в one_law лежит список id авторов законопроектов
    one_law_list = list(itertools.combinations(one_law, r=2)) # генерируем список с кортежами (парами) как выше
    
    # идем по каждой паре
    for pair in one_law_list:
        first_deputy = pair[0] # id первого депутата
        second_deputy = pair[1]# id второго депутата
        df.loc[first_deputy, second_deputy] += 1 # на пересечении их id добавляем 1 в датафрейм df
        df.loc[second_deputy, first_deputy] += 1 # на перечечении их id добавляем 1 в датафрейм df

100%|██████████████████████████████████████| 4383/4383 [00:18<00:00, 241.59it/s]


**Как можно интерпретировать получившуюся adjacency matrix?**

* Колонки и строчки - id депутатов Государственной Думы (всех, чьи законопроекты были хотя бы раз отклонены);
* На перечении колонок и строчек находится число отклоненных законопроектов, соавторами которых являлись депутаты. 

Например, на пересечении строчки с id `99113542` и `99113484` мы видим цифру `6`. Это означает, что эти депутаты были авторов 6 законопроектов, которые отклонила Государственная Дума.

In [312]:
df

Unnamed: 0,99100002,99100004,99100006,99100010,99100014,99100015,99100017,99100020,99100021,99100023,...,99113484,99113485,99113486,99113487,99113488,99113489,99113510,99113542,99113544,99113546
99100002,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
99100004,0,0,0,0,0,1,0,0,3,0,...,0,0,0,0,0,0,0,0,0,0
99100006,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100010,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99100014,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99113489,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,3
99113510,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99113542,0,0,0,0,0,0,0,0,0,0,...,6,4,7,1,0,0,0,0,0,0
99113544,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


С помощью метода `.loc[]` можно получить это же значение. Справка по нему доступна [тут](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html).

In [437]:
df.loc['99113542', '99113484'] # эти авторы были соавторами 6 отклоненных законопроектов

6

В дальнейшем вы можете использовать эту матрицу чтобы создать матрицу для дальнейшего построения сети. В Python вы можете сделать это с помощью [networkx](https://networkx.org/documentation/stable/reference/index.html), а визуализировать - с помощью [pyvis](https://pyvis.readthedocs.io/en/latest/documentation.html). При желании, вы также можете использовать эту матрицу для создания сети в Gephi или Gephi Lite.

In [425]:
df.to_excel('declined_laws.xlsx') # можно сохранить этот датасет

<p></p>
<center><b><font size=4>Задача №3</font></b></center>

**1. Возьмите код выше и превратите его в функцию `get_declined_projects()`, которая принимает на вход `token`и `url`, отправляет запрос к API СОЗД ГД (отклоненные законопроекты), обрабатывает полученные данные, и возвращает adjacency matrix размером `n`*`n` депутатов, в которой значения в ячейках – это число написанных совместно проектов, которые были сняты Государственной Думой.**

**2. Создайте docstring для вашей функции**

In [None]:
# your code here

## Концепция datasheet<a name='par4'></a>

В лекционной части занятия мы с вами успели обсудить концепцию **datasheet** – **паспорта датасета**.
<p></p>
<p></p>
<center><b><font size=4>Задача №4</font></b></center>

**Создайте datasheet для собранного вами датасета:**

1. **Источник данных**;
2. **Как данные были собраны:** с API, инструментами web-scraping'а, вручную?;
3. **Что представляют из себя наблюдения?**;
    * Что означают конкретные колонки в вашем датасете?
4. **Данные – сырые или обработанные?** 
    * Если данные были обработаны, то как, с использованием каких пакетов и для каких целей?
5. **Есть ли в ваших данных ошибки и пропуски?**:
    * Если вы сталкивались с ошибками или наблюдате ошибки в собранных вами данных, опишите их;
    * Если какие-то колонки содержат много пропущенных значений, опишите их и (возможные) причины пропусков.
6. **Данные представляют из себя генеральную совокупность или выборку?**
    * Если это выборка, опишите её и по каким принципам были отобраны именно эти наблюдения;
7. **Как и для чего эти данные можно использовать?**;
8. **Считаете ли вы нужным включить этическую заметку в описание датасета?**
9. **Есть ли другая информация, которую вы хотели бы указать?**

**Создайте файл `.txt`, `.docx`, `.pdf` или опишите эту информацию в ячейке Markdown**.