Исследовательский проект по анализу данных на Python
Часть 2

**Введение:** </br>
У популярной среди современной молодежи игры War Thunder есть своя аналогия Википедии (https://wiki.warthunder.ru/Заглавная_страница) , в которой хранится много информации об игровой технике. Каждая техника относится к одному из существующих "деревьев исследования" какой-либо нации в игре.</br>
**Задача:** </br>
Собрать датасет с информацией о технике, которая находится в игре; полученные данные поместить в файл. </br>
Файл должен содержать 11 колонок, в которых будут храниться:</br>
1. URL - ссылка на статью о технике
2. Tank Name - название техники
3. Nation - нация, к которой относится техника
4. Rank - ранг техники в дереве исследования
5. Battle Ratings - боевые рейтинги в трех основных режимах игры
6. Tank Class - класс техники
7. Research Cost - необходимое кол-во очков исследования для прокачки техники
8. Purchase Cost - необходимое кол-во игровой валюты для покупки техники
9. Dignities - сильные стороны техники/ее достоинства
10. Disadvantages - слабые стороны техники/ее недостатки
11. Description - описательная информация о технике (история создания, стиль игры и другое).

Найдем все ссылки с главной страницы. Проанализировов soup при помощи функции prettify, узнаем, что ссылка, которая нам нужна, хранится в классе *div.mw-head__menu*. Достанем ссылки и заберем ту, в которая содержится информация о наземной технике.

In [22]:
import requests
page = requests.get("https://wiki.warthunder.ru/Заглавная_страница")
from bs4 import BeautifulSoup
if not page.ok:
  print("Error")
else:
  soup = BeautifulSoup(page.text, "html.parser")
# print(soup.prettify())
urls = [f'https://wiki.warthunder.ru' + l['href'] for l in soup.select('div.mw-head__menu a[href]')]
# Проанализировав, понимаем, что информация лежит в ссылке со словами 'Наземная_техника'
for i in urls:
  if i.endswith("Наземная_техника"):
    our_url = i
    print(i)

https://wiki.warthunder.ru/Наземная_техника


Найдем все ссылки, которые ведут на страницы 'деревьев исследования'

In [23]:
page = requests.get(our_url)
soup = BeautifulSoup(page.text, "html.parser")
#print(soup.prettify())
countries = ['США', 'Германии', 'СССР', 'Великобритании', 'Японии', 'Италии', 'Франции', 'Швеции', 'Израиля']

links = []
for country in countries:
    for link in soup.find_all('a', {'title': f'Категория:Наземная техника {country}'}):
        links.append("https://wiki.warthunder.ru" + link['href'])

links_countries = list(set(links))
for i in links_countries:
  print(i)


https://wiki.warthunder.ru/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%9D%D0%B0%D0%B7%D0%B5%D0%BC%D0%BD%D0%B0%D1%8F_%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0_%D0%93%D0%B5%D1%80%D0%BC%D0%B0%D0%BD%D0%B8%D0%B8
https://wiki.warthunder.ru/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%9D%D0%B0%D0%B7%D0%B5%D0%BC%D0%BD%D0%B0%D1%8F_%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0_%D0%92%D0%B5%D0%BB%D0%B8%D0%BA%D0%BE%D0%B1%D1%80%D0%B8%D1%82%D0%B0%D0%BD%D0%B8%D0%B8
https://wiki.warthunder.ru/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%9D%D0%B0%D0%B7%D0%B5%D0%BC%D0%BD%D0%B0%D1%8F_%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0_%D0%A8%D0%B2%D0%B5%D1%86%D0%B8%D0%B8
https://wiki.warthunder.ru/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%9D%D0%B0%D0%B7%D0%B5%D0%BC%D0%BD%D0%B0%D1%8F_%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0_%D0%A1%D0%A8%D0%90
https://wiki.warthunder.ru/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%9D%D0%B0%D0%B7%D0%B5%D0%BC%D

 Сначала сгрузим весь html-код одной страницы и сохраним его в отдельную переменную. Для этого нам понадобится библиотека requests.

In [24]:
import requests
page = requests.get(links_countries[-3]) # Сначала попытаемся считать одну(выбрана немецкая ветка)

Импортируем функцию BeautifulSoup из библиотеки bs4 (от beautifulsoup4) и заберём со страницы page код html в виде текста.

In [25]:
from bs4 import BeautifulSoup
if not page.ok:
  print("Error")
else:
  soup = BeautifulSoup(page.text, "html.parser")

Если выведем soup на экран, мы увидим то же самое, что в режиме разработчика или в режиме просмотра исходного кода (view-source через Ctrl+U в Google Chrome). Чтобы сгрузить все предложения с главной страницы сайта, нужно собрать все ссылки на страницы с этими предложениями. Ссылки в html-файле всегда заключены в тэг и имеют атрибут href. Посмотрим на кусочки кода, соответствующие всем ссылкам на главной странице сайта. Сначала посмотрим, что возвращается по поиску всех ссылок.

In [26]:
print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="ru">
 <head>
  <meta charset="utf-8"/>
  <title>
   Наземная техника Франции — War Thunder Wiki
  </title>
  <script src="/resources/lib/jquery/jquery.js">
  </script>
  <script>
   document.documentElement.className = document.documentElement.className.replace( /(^|\s)client-nojs(\s|$)/, "$1client-js$2" );
  </script>
  <script>
   (window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"Category","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":14,"wgPageName":"Категория:Наземная_техника_Франции","wgTitle":"Наземная техника Франции","wgCurRevisionId":102042,"wgRevisionId":102042,"wgArticleId":936,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Наземная техника по странам"],"wgBreakFrames":false,"wgPageContentLanguage":"ru","wgPageContentModel":"wikitext","wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"

Так как нам нужны ссылки только на технику из дерева исследования, ищем такие теги div, которые имеют class ="tree-item-background"

In [27]:
#[l["href"] for l in soup.find_all("a", href=True)]
urls = ['https://wiki.warthunder.ru' + l['href'] for l in soup.select('div.tree-item-background a[href]')]

Теперь нужно изучить одну из страниц с техникой и научимся забирать из неё необходимую информацию. Потом нужно будет применить весь набор действий к каждой ссылке из full_urls в цикле. Посмотрим на технику с индексом 0.

In [28]:
page_0 = BeautifulSoup(requests.get(urls[0]).text)
page_0

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="ru">
<head>
<meta charset="utf-8"/>
<title>AMC.34 YR — War Thunder Wiki</title>
<script src="/resources/lib/jquery/jquery.js"></script>
<script>document.documentElement.className = document.documentElement.className.replace( /(^|\s)client-nojs(\s|$)/, "$1client-js$2" );</script>
<script>(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"AMC.34_YR","wgTitle":"AMC.34 YR","wgCurRevisionId":99687,"wgRevisionId":99687,"wgArticleId":1940,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Наземная техника","Наземная техника Франции","Первый ранг наземной техники","Лёгкие танки","Наземная техника со стабилизатором орудия"],"wgBreakFrames":false,"wgPageContentLanguage":"ru","wgPageContentModel":"wikitext","wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":

Изучив html файл, понимаем, под какими тегами скрывается необходимая нам информация о технике. Напишем код, который поможет достать необходимую нам информацию из одной веб страницы.  

Сначала определим, какие данные мы хотим найти в вебстраницах:
"URL", "Tank Name", "Nation", "Rank", "Battle Ratings", "Tank Class", "Research Cost", "Purchase Cost", "Dignities", "Disadvantages", "Description".

In [29]:
tank_name = page_0.find('div', class_='general_info_name').text.strip()
nation_element = page_0.find('div', class_='general_info_nation')
nation_text = nation_element.find('a', href=True).find_next('a').text.strip() if nation_element else None
rank = page_0.find('div', class_='general_info_rank').find('a').text.strip()

battle_rating_table = page_0.find('div', class_='general_info_2').find('table')
battle_rating_rows = battle_rating_table.find_all('tr')[1:]
battle_ratings = [td.text.strip() for tr in battle_rating_rows for td in tr.find_all('td')]

tank_class = page_0.find('div', class_='general_info_class').find('div').text.strip()

research_cost = page_0.find('div', class_='general_info_price_research').find('span', class_='value').text.strip()
purchase_cost = page_0.find('div', class_='general_info_price_buy').find('span', class_='value').text.strip()

print("Tank Name:", tank_name)
print("Nation:", nation_text)
print("Rank:", rank)
print("Battle Ratings:", battle_ratings)
print("Tank Class:", tank_class)
print("Research Cost:", research_cost)
print("Purchase Cost:", purchase_cost)


Tank Name: AMC.34 YR
Nation: Франция
Rank: I ранг
Battle Ratings: ['1.0', '1.0', '1.0']
Tank Class: Лёгкий танк
Research Cost: 2 900
Purchase Cost: 700


С описанием техники, а также с недостатками и достоинствами нужно поступить по-другому.

In [30]:
description = ' '.join([p.get_text() for p in page_0.find_all('p') if len(p.get_text().split()) > 5])
print(description)
dignities_tag = page_0.find('b', string="Достоинства:")
print("Достоинства:")
if dignities_tag:
    dignities_list = dignities_tag.find_next('ul').find_all('li') # Извлекаем все элементы <li> после тега <b>Достоинства:</b>
    for li in dignities_list:
        print(li.get_text(strip=True))
print("Недостатки:")
disadvantages_tag = page_0.find('b', string="Недостатки:")
if disadvantages_tag:
    disadvantages_list = disadvantages_tag.find_next('ul').find_all('li') # Извлекаем все элементы <li> после тега <b>Недостатки:</b>
    for li in disadvantages_list:
        print(li.get_text(strip=True))

AMC.34 (Automitrailleuse de Combat Renault modèle 1934) или Renault YR — французский лёгкий танк межвоенного периода, разработанный инженерами фирмами Renault. Основная роль данной боевой машины заключалась в поддержке наступающих кавалерийских подразделений. Создание AMC.34 было вызвано стремлением заменить состоявшие на вооружении AMR.33: важнейшими отличиями новой машины от предшественника стали усиленное бронирование и улучшенное вооружение. После испытаний и некоторых доработок в 1934 году AMC.34 был запущен в серийное производство: всего в 1935–1936 годах было изготовлено 12 экземпляров. AMC.34 применялись армией Франции во Второй Мировой войне, однако судьба танков после 1940 года неизвестна.
 В игре AMC.34 YR появился в обновлении 1.75 «La Résistance». Среди ранней французской бронетехники он выделяется хорошими скоростными качествами, а башня обладает неплохим бронированием, порой способным сдержать огонь даже 20-мм автоматических пушек. Однако корпус может быть пробит огнём к

Так как мы поняли принцип работы с одной веб страницей, можем применить цикл и пробежаться по всем веб страницам единиц техники и сформируем массив tanks с данными. Поместим данные в excel файл "data_tanks.xlsx"

In [31]:
tanks = []
for link in urls:
  print(link) # Для наглядности выведем все ссылки, которые будут обработаны программой
  page_0 = BeautifulSoup(requests.get(link).text)
  tank_name = page_0.find('div', class_='general_info_name').text.strip()
  nation_element = page_0.find('div', class_='general_info_nation')
  nation_text = nation_element.find('a', href=True).find_next('a').text.strip() if nation_element else None
  rank = page_0.find('div', class_='general_info_rank').find('a').text.strip()

  battle_rating_table = page_0.find('div', class_='general_info_2').find('table')
  battle_rating_rows = battle_rating_table.find_all('tr')[1:]
  battle_ratings = [td.text.strip() for tr in battle_rating_rows for td in tr.find_all('td')]

  tank_class = page_0.find('div', class_='general_info_class').find('div').text.strip()

  research_cost = page_0.find('div', class_='general_info_price_research') or page_0.find('div', class_='general_info_price')
  if research_cost:
    research_cost = research_cost.find('span', class_='value').text.strip()
  purchase_cost = page_0.find('div', class_='general_info_price_buy').find('span', class_='value').text.strip()

  description = ' '.join([p.get_text() for p in page_0.find_all('p') if len(p.get_text().split()) > 5])
  dignities_tag = page_0.find('b', string="Достоинства:")
  dignities = []
  if dignities_tag:
      dignities_list = dignities_tag.find_next('ul').find_all('li')
      for li in dignities_list:
          dignities.append(li.get_text(strip=True))
  disadvantages_tag = page_0.find('b', string="Недостатки:")
  disadvantages = []
  if disadvantages_tag:
      disadvantages_list = disadvantages_tag.find_next('ul').find_all('li')
      for li in disadvantages_list:
        disadvantages.append(li.get_text(strip=True))

  tanks.append({
      "URL" : link,
      "Tank Name": tank_name,
      "Nation": nation_text,
      "Rank": rank,
      "Battle Ratings": battle_ratings,
      "Tank Class": tank_class,
      "Research Cost": research_cost,
      "Purchase Cost": purchase_cost,
      "Dignities" : dignities,
      "Disadvantages" : disadvantages,
      "Description" : description,
        })

import pandas as pd
df = pd.DataFrame(tanks)
# df
df.to_excel("data_tanks.xlsx")

https://wiki.warthunder.ru/AMC.34_YR
https://wiki.warthunder.ru/AMD.35
https://wiki.warthunder.ru/AMC.35_(ACG.1)
https://wiki.warthunder.ru/H.35
https://wiki.warthunder.ru/H.39
https://wiki.warthunder.ru/S.35
https://wiki.warthunder.ru/FCM.36
https://wiki.warthunder.ru/R.35_(SA38)
https://wiki.warthunder.ru/D2
https://wiki.warthunder.ru/P.7.T_AA
https://wiki.warthunder.ru/AMR.35_ZT3
https://wiki.warthunder.ru/Lorraine_37L
https://wiki.warthunder.ru/SAu_40
https://wiki.warthunder.ru/H.39_%22Cambronne%22
https://wiki.warthunder.ru/2C_bis
https://wiki.warthunder.ru/AMD.35_(SA35)
https://wiki.warthunder.ru/Crusader_Mk.II_(%D0%A4%D1%80%D0%B0%D0%BD%D1%86%D0%B8%D1%8F)
https://wiki.warthunder.ru/M3A3_Stuart_(%D0%A4%D1%80%D0%B0%D0%BD%D1%86%D0%B8%D1%8F)
https://wiki.warthunder.ru/M4A1_(%D0%A4%D1%80%D0%B0%D0%BD%D1%86%D0%B8%D1%8F)
https://wiki.warthunder.ru/B1_bis
https://wiki.warthunder.ru/2C
https://wiki.warthunder.ru/CCKW_353_AA
https://wiki.warthunder.ru/M4A3_(105)_(%D0%A4%D1%80%D0%B0%D0%BD%D1

Код работает! Мы пробегаемся по каждой технике Германского(или любого другого ) дерева развития и формируем файл! Теперь можем написать функцию, которая пробежит по всем нациям в игре и соберет информацию обо всей наземной технике в игре!

In [None]:
def get_all_urls(link) :
  page = requests.get(link)
  soup = BeautifulSoup(page.text, "html.parser")
  return ['https://wiki.warthunder.ru' + l['href'] for l in soup.select('div.tree-item-background a[href]')]

def get_info_in_link(tanks_link):
  tanks = []
  urls = get_all_urls(tanks_link)
  for link in urls:
    page_0 = BeautifulSoup(requests.get(link).text)
    tank_name = page_0.find('div', class_='general_info_name').text.strip()
    nation_element = page_0.find('div', class_='general_info_nation')
    nation_text = nation_element.find('a', href=True).find_next('a').text.strip() if nation_element else None
    rank = page_0.find('div', class_='general_info_rank').find('a').text.strip()

    battle_rating_table = page_0.find('div', class_='general_info_2').find('table')
    battle_rating_rows = battle_rating_table.find_all('tr')[1:]
    battle_ratings = [td.text.strip() for tr in battle_rating_rows for td in tr.find_all('td')]

    tank_class = page_0.find('div', class_='general_info_class').find('div').text.strip()

    research_cost = page_0.find('div', class_='general_info_price_research') or page_0.find('div', class_='general_info_price')
    if research_cost:
      research_cost = research_cost.find('span', class_='value').text.strip()
    purchase_cost = page_0.find('div', class_='general_info_price_buy').find('span', class_='value').text.strip()

    description = ' '.join([p.get_text() for p in page_0.find_all('p') if len(p.get_text().split()) > 5])
    dignities_tag = page_0.find('b', string="Достоинства:")
    dignities = []
    if dignities_tag:
        dignities_list = dignities_tag.find_next('ul').find_all('li')
        for li in dignities_list:
            dignities.append(li.get_text(strip=True))
    disadvantages_tag = page_0.find('b', string="Недостатки:")
    disadvantages = []
    if disadvantages_tag:
        disadvantages_list = disadvantages_tag.find_next('ul').find_all('li')
        for li in disadvantages_list:
          disadvantages.append(li.get_text(strip=True))

    tanks.append({
        "URL" : link,
        "Tank Name": tank_name,
        "Nation": nation_text,
        "Rank": rank,
        "Battle Ratings": battle_ratings,
        "Tank Class": tank_class,
        "Research Cost": research_cost,
        "Purchase Cost": purchase_cost,
        "Dignities" : dignities,
        "Disadvantages" : disadvantages,
        "Description" : description,
          })
  return tanks

results = []
links = links_countries
for link in links:
  results += get_info_in_link(link)
import pandas as pd
df = pd.DataFrame(results)
# df
df.to_excel("tanks.xlsx")