## Получение данных 

Для создания графа персонажей киновселенной Marvel я буду использовать Кинопоиск, а именно подстраницу /cast для каждого фильма, где перечислены все актеры и роли, которые они играли в этом фильме. Меня будут инетресовать только роли. 

Для создания списка фильмов Marvel я использовала [подборку Кинопоиска](https://www.kinopoisk.ru/lists/editorial/marvel_universe/?quick_filters=films&tab=all) и [страницу на Википедии](https://ru.wikipedia.org/wiki/Кинематографическая_вселенная_Marvel). Все фильмы собрала в словарь, где ключи — это названия фильмов, значения — список, состоящий из двух элементов: ссылки на подстраницу /cast и число актеров, задействованных в фильме. Это число нам пригодится при очистке данных. 

In [None]:
# импортируем нужные библиотеки
import requests
from bs4 import BeautifulSoup
import requests
from requests.packages.urllib3.exceptions import InsecureRequestWarning
import random
import json
import re
import networkx as nx
import collections
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
# загружаем словарь фильмов из json
with open('marvel_movie_universe_films.json', 'r', encoding='utf-8') as fh:
    films = json.load(fh)

In [None]:
# проверяем, как выглядит словарь фильмов
films

{'Ant-Man': ['https://www.kinopoisk.ru/film/195496/cast/', 168],
 'Ant-Man and the Wasp': ['https://www.kinopoisk.ru/film/935940/cast/', 173],
 'Avengers: Age of Ultron': ['https://www.kinopoisk.ru/film/679830/cast/',
  141],
 'Avengers: Endgame': ['https://www.kinopoisk.ru/film/843650/cast/', 161],
 'Avengers: Infinity War': ['https://www.kinopoisk.ru/film/843649/cast/', 144],
 'Black Panther': ['https://www.kinopoisk.ru/film/623250/cast/', 142],
 'Captain America: Civil War': ['https://www.kinopoisk.ru/film/822708/cast/',
  192],
 'Captain America: The First Avenger': ['https://www.kinopoisk.ru/film/160946/cast/',
  160],
 'Captain America: The Winter Soldier': ['https://www.kinopoisk.ru/film/676266/cast/',
  241],
 'Captain Marvel': ['https://www.kinopoisk.ru/film/843859/cast/', 77],
 'Doctor Strange': ['https://www.kinopoisk.ru/film/409600/cast/', 77],
 'Guardians of the Galaxy': ['https://www.kinopoisk.ru/film/689066/cast/',
  133],
 'Guardians of the Galaxy Vol. 2': ['https://www

In [None]:
# добавляем proxy, чтобы получить данные с Кинопоиска
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
proxies = [{"http":"http://WmGuMG:fxRTKa@217.29.63.202:61204", "https":"https://WmGuMG:fxRTKa@217.29.63.202:61204"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29507", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29507"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29506", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29506"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29505", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29505"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29504", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29504"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29503", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29503"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29502", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29502"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29501", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29501"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29500", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29500"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29499", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29499"},
           {"http":"http://fPUuY7:p7t5Vt@217.29.63.87:29498", "https":"https://fPUuY7:p7t5Vt@217.29.63.87:29498"}]
url = "https://icanhazip.com"
proxy = random.choice(proxies)
r = requests.get(url, proxies=proxy, verify=False)
print(r.content)

In [None]:
# собираем данные с нужных подстраниц, записываем в словарь
all_actors = {}
for film, cast in films_lost.items():
  actors = []
  proxy = random.choice (proxies)
  html = requests.get(cast[0], proxies=proxy, verify=False)
  soup = BeautifulSoup(html.text)
  roles = soup.find_all('div', {'class':'role'})
  for role in roles[:(cast[1]+1)]:
    actors.append(role.get_text()[4:])
  all_actors[film] = actors

In [None]:
# проверяем, для всех ли фильмов получилось собрать актеров
# эта строка выводит названия фильмов, по которым не получилось собрать героев
# или выводит собщение, что все в порядке
for film, cast in all_actors.items():
  if len(cast) > 0:
    print(film)
  else:
    print(film, ':', 'all characters are into place!')

## Сохранение результатов

Результат работы этой программы — словарь, где в качестве ключей использованы названия фильмов, в качестве значений — список ролей (или персонажей), которые участвовали в этом фильме. Сохраняем словарь в формате json. 

In [None]:
#сохраняем словарь со всеми персонажами в json
with open('marvel_movie_universe_heroes_all.json', 'w', encoding='utf-8') as fh: 
    fh.write(json.dumps(all_actors, ensure_ascii=False))