# Python для анализа данных

Татьяна Рогович, НИУ ВШЭ

## Скрейпинг

На основе статьи [meduim.com](https://medium.com/analytics-vidhya/web-scraping-wiki-tables-using-beautifulsoup-and-python-6b9ea26d8722).

Мы хотим получитб данные из таблицы на [википедии](https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests) об испытаниях ядерных бомб (из таблицы *Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more* в конце страницы)

Сначала мы импортируем библиотеку `requests`. Она позволяет нам просто  и удобно посылать HTTP/1.1 запросы, не утруждаясь ручным трудом.

In [2]:
import requests

Теперь мы должны указать адрес страницы с которой мы будем скрейпить данные и сохраним ее в переменную `website_url`.
`requests.get(url).text` обратиться к сайту и вернет `HTML` код сайта.

In [3]:
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests').text
website_url



Как мы видим, весь код представлен просто блоком текста, который не удобно читать и разбирать. Поэтому мы создадим объект `BeautifulSoup` с помощью функциии `BeautifulSoup function`, предварительно импортировав саму библиотеку. `Beautiful Soup` это библиотека для парсинга `HTML` и `XML` документов. Она создает дерево из `HTML` кода, что очень полезно при скрейпинге. Функция `prettify()` позволяет видеть код в более удобном виде, в том числе с разбивкой по тегам.

In [4]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url,'lxml')

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of nuclear weapons tests - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgMonthNamesShort":["","Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"],"wgRequestId":"Xci4RApAIDEAAD0awiAAAABE","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_nuclear_weapons_tests","wgTitle":"List of nuclear weapons tests","wgCurRevisionId":924680624,"wgRevisionId":924680624,"wgArticleId":2189647,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 errors: missin

Если внимательно изучить код `HTML` искомой таблицы, то можно обнаружить что вся таблица находится в классе `Wikitable Sortable`. (Для включения консоли с кодом на сайте в вашем браузере можно нажать правкой кнопкой мыши на таблицы и выбрать пункт *Исследовать элемент*).

![title](table.png)

Поэтому первой задачей будет найти класс *wikitable sortable* в коде `HTML`. Это можно сделать с помощью функции `find_all`, указав в качестве аргументов, что мы ищем тэг `table` с классом `wikitable sortable`.

In [5]:
My_table = soup.find_all('table',{'class':'wikitable sortable'})
My_table

[<table class="wikitable sortable" style="text-align:center;">
 <caption>Worldwide nuclear testing totals by country
 </caption>
 <tbody><tr>
 <th style="text-align:left;"><a href="/wiki/List_of_states_with_nuclear_weapons" title="List of states with nuclear weapons">Country</a>
 </th>
 <th colspan="2"><a href="/wiki/Nuclear_weapons_testing" title="Nuclear weapons testing">Tests</a> <sup class="reference" id="cite_ref-5"><a href="#cite_note-5">[Notes 1]</a></sup>
 </th>
 <th><a href="/wiki/List_of_nuclear_weapons" title="List of nuclear weapons">Devices</a> fired <sup class="reference" id="cite_ref-6"><a href="#cite_note-6">[Notes 2]</a></sup>
 </th>
 <th><a href="/wiki/List_of_nuclear_weapons" title="List of nuclear weapons">Devices</a> w/ unknown yields <sup class="reference" id="cite_ref-7"><a href="#cite_note-7">[Notes 3]</a></sup>
 </th>
 <th><a class="mw-redirect" href="/wiki/Peaceful_nuclear_explosions" title="Peaceful nuclear explosions">Peaceful use tests</a> <sup class="refer

Но как вы могли заметить, то на страницы есть две таблицы, которые принадлежат этому классу. Функция `find_all` вернем все найденные объекты в виде списка. Поэтому проверим второй найденный элемент.

In [6]:
My_table[1]

<table class="wikitable sortable" style="text-align:center;">
<caption>Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more
</caption>
<tbody><tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>
<tr>
<td>October 30, 1961</td>
<td>50</td>
<td>parachute air drop</td>
<td>Soviet Union</td>
<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
<td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
</td></tr>
<tr>
<td>December 24, 1962</td>
<td>24.2</td>
<td>missile warhead</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
</td></tr>
<tr>
<td>August 5, 1962</td>
<td>21.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #147
</td></tr>
<tr>
<td>September 27, 1962</td>
<td>20.0</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #17

Все верно, это наша искомая таблица. Если дальше изучить содержимое таблицы, то станет понятно что внутри тега `th` находится заголовок таблица, а внутри `td` строки таблицы. А оба этих тега находятся внутри тегов `tr` что является по факту строкой таблицы. Давайте извлечем все строки таблицы также используя функцию `find_all`.

In [7]:
rows = My_table[1].find_all('tr')
rows

[<tr>
 <th>Date (GMT)
 </th>
 <th>Yield (megatons)
 </th>
 <th>Deployment
 </th>
 <th>Country
 </th>
 <th>Test Site
 </th>
 <th>Name or Number
 </th></tr>, <tr>
 <td>October 30, 1961</td>
 <td>50</td>
 <td>parachute air drop</td>
 <td>Soviet Union</td>
 <td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
 <td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
 </td></tr>, <tr>
 <td>December 24, 1962</td>
 <td>24.2</td>
 <td>missile warhead</td>
 <td>Soviet Union</td>
 <td>Novaya Zemlya</td>
 <td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
 </td></tr>, <tr>
 <td>August 5, 1962</td>
 <td>21.1</td>
 <td>air drop</td>
 <td>Soviet Union</td>
 <td>Novaya Zemlya</td>
 <td>Test #147
 </td></tr>, <tr>
 <td>September 27, 1962</td>
 <td>20.0</td>
 <td>air drop</td>
 <td>Soviet Union</td>
 <td>Novaya Zemlya</td>
 <td>Test #174
 </td></tr>, <tr>
 <td>September 25, 1962</td>
 <td>19.1</td>
 <td>air drop</td>
 <td>Soviet Union</td>
 <td>Nova

Давайте внимательно изучим содержимое одной строки, вытащим все `td`. Отобразим вторую строчку:

In [8]:
rows[1].find_all('td')

[<td>October 30, 1961</td>,
 <td>50</td>,
 <td>parachute air drop</td>,
 <td>Soviet Union</td>,
 <td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>,
 <td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
 </td>]

Мы видим просто нужные нам данные между тегов `<td><\td>`, а также ссылки с тегом `<a>` и даже смешанные ячейки с обоими этими вариантами. Давайте сначала извлечем просто данные. Для этого используем функцию `get_text()` - она вернет все что между тегами.

Возьмем, например, дату (она будет первым элементом):

In [9]:
rows[1].find_all('td')[0].get_text()

'October 30, 1961'

Давайте теперь извлечем все даты. Создадим список для их хранения `Dates` и будет итерироваться по всем элементам:

In [10]:
Dates = []
for row in rows:
    r = row.find_all('td')
    if len(r) > 0:
        Dates.append(r[0].get_text())

Dates

['October 30, 1961',
 'December 24, 1962',
 'August 5, 1962',
 'September 27, 1962',
 'September 25, 1962',
 'March 1, 1954',
 'May 5, 1954',
 'October 23, 1961',
 'March 26, 1954',
 'October 31, 1952',
 'August 25, 1962',
 'September 19, 1962',
 'July 11, 1958',
 'June 28, 1958',
 'October 30, 1962',
 'October 22, 1962',
 'June 27, 1962',
 'April 25, 1954',
 'July 20, 1956',
 'October 31, 1961',
 'November 6, 1971',
 'July 10, 1956',
 'August 27, 1962',
 'October 6, 1961',
 'October 27, 1973',
 'November 17, 1976',
 'July 11, 1962',
 'May 20, 1956',
 'August 1, 1958',
 'August 12, 1958',
 'September 12, 1973',
 'May 27, 1956',
 'October 14, 1970',
 'September 16, 1962',
 'June 17, 1967',
 'September 15, 1962',
 'December 25, 1962',
 'April 28, 1958',
 'October 4, 1961',
 'June 10, 1962',
 'December 27, 1968',
 'September 29, 1969',
 'June 27, 1973',
 'October 6, 1957',
 'October 18, 1958',
 'October 22, 1958',
 'August 20, 1962',
 'September 10, 1961',
 'August 24, 1968',
 'September 

Мы сделали проверку на строку, где нет никаких тегов `td`, например самая первая строка, где находися заголовок. Мы ее не учитываем.

Теперь, когда есть колонка с данными мы можем конвертировать ее в `Pandas DataFrame` для более удобной работы. Импортируем библиотеку `pandas` и создадим новый датафрейм с нашей колонкой.

In [11]:
import pandas as pd

df = pd.DataFrame()
df['Date (GMT)'] = Dates
df

Unnamed: 0,Date (GMT)
0,"October 30, 1961"
1,"December 24, 1962"
2,"August 5, 1962"
3,"September 27, 1962"
4,"September 25, 1962"
5,"March 1, 1954"
6,"May 5, 1954"
7,"October 23, 1961"
8,"March 26, 1954"
9,"October 31, 1952"


Давайте теперь разберемся со случаем, когда у нас, возможно, есть ссылка на место тестирования бомбы.

In [12]:
rows[1].find_all('td')[4]

<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>

Внутри есть ссылка и название. Ссылку мы можем получить используя метод `find`

In [13]:
rows[1].find_all('td')[4].find('a')

<a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a>

А отсюда вытащить из `title` название. Для этого используем метод аттбрибут `text`

In [14]:
rows[1].find_all('td')[4].find('a').text

'Novaya Zemlya'

Давайте теперь соберем колонку с местами тестирования. Также не забудем про вариант, когда ссылки нет.

In [15]:
TestSites = []
for row in rows:
    r = row.find_all('td')
    if len(r) > 0:
        a = r[4].find('a')
        TestSites.append(r[4].text)

TestSites

['Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Bikini Atoll',
 'Bikini Atoll',
 'Novaya Zemlya',
 'Bikini Atoll',
 'Enewetak Atoll',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Bikini Atoll',
 'Enewetak Atoll',
 'Johnston Atoll',
 'Novaya Zemlya',
 'Kiritimati',
 'Bikini Atoll',
 'Bikini Atoll',
 'Novaya Zemlya',
 'Amchitka',
 'Bikini Atoll',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Lop Nur',
 'Kiritimati',
 'Bikini Atoll',
 'Johnston Atoll',
 'Johnston Atoll',
 'Novaya Zemlya',
 'Bikini Atoll',
 'Lop Nur',
 'Novaya Zemlya',
 'Lop Nur',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Kiritimati',
 'Novaya Zemlya',
 'Kiritimati',
 'Lop Nur',
 'Lop Nur',
 'Lop Nur',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Fangataufa',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Novaya Zemlya',
 'Enewetak Atoll',
 'Enewetak Atoll',
 'Novaya Zemlya',
 'Nevada',
 'Kiritimati',
 'Enewetak Atoll',
 'Sem

Добавим колонку к нашему датасету:

In [16]:
df['Test Site'] = TestSites
df

Unnamed: 0,Date (GMT),Test Site
0,"October 30, 1961",Novaya Zemlya
1,"December 24, 1962",Novaya Zemlya
2,"August 5, 1962",Novaya Zemlya
3,"September 27, 1962",Novaya Zemlya
4,"September 25, 1962",Novaya Zemlya
5,"March 1, 1954",Bikini Atoll
6,"May 5, 1954",Bikini Atoll
7,"October 23, 1961",Novaya Zemlya
8,"March 26, 1954",Bikini Atoll
9,"October 31, 1952",Enewetak Atoll


Проделаем аналогичное для остальных колонок:

In [17]:
Yields = []
Deployments = []
Countries = []
Numbers = []
for row in rows:
    r = row.find_all('td')
    if len(r) > 0:
        Yields.append(r[1].get_text())
        Deployments.append(r[2].get_text())
        Countries.append(r[3].get_text())
        Numbers.append(r[5].text.strip()) # и удаляем знак перехода на новую строку, так как это последняя колонка и он там есть


И добавим их в датасет.

In [18]:
df['Yield (megatons)'] = Yields
df['Deployment'] = Deployments
df['Country'] = Countries
df['Name or Number'] = Numbers

In [19]:
df

Unnamed: 0,Date (GMT),Test Site,Yield (megatons),Deployment,Country,Name or Number
0,"October 30, 1961",Novaya Zemlya,50,parachute air drop,Soviet Union,"Tsar Bomba, Test #130"
1,"December 24, 1962",Novaya Zemlya,24.2,missile warhead,Soviet Union,Test #219
2,"August 5, 1962",Novaya Zemlya,21.1,air drop,Soviet Union,Test #147
3,"September 27, 1962",Novaya Zemlya,20.0,air drop,Soviet Union,Test #174
4,"September 25, 1962",Novaya Zemlya,19.1,air drop,Soviet Union,Test #173
5,"March 1, 1954",Bikini Atoll,15,ground,USA,Castle Bravo
6,"May 5, 1954",Bikini Atoll,13.5,barge,USA,Castle Yankee
7,"October 23, 1961",Novaya Zemlya,12.5,air drop,Soviet Union,Test #123
8,"March 26, 1954",Bikini Atoll,11.0,barge,USA,Castle Romeo
9,"October 31, 1952",Enewetak Atoll,10.4,ground,USA,Ivy Mike


In [20]:
df.to_csv('biggest_tests.csv')

### Геометки

Из другой таблицы в [википедии](https://en.wikipedia.org/wiki/List_of_nuclear_test_sites), вытащим местоположения проведения испытаний ядерных бомб. Как и в первой задаче, делаем запрос через `requests`.

In [21]:
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_nuclear_test_sites').text
soup = BeautifulSoup(website_url,'lxml')

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of nuclear test sites - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgMonthNamesShort":["","Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"],"wgRequestId":"XcbMiApAICIAAJnRntoAAAAO","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_nuclear_test_sites","wgTitle":"List of nuclear test sites","wgCurRevisionId":920917432,"wgRevisionId":920917432,"wgArticleId":42596090,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 errors: missing period

Тут у нас всего одна таблица, но у нее другой класс `wikitable` и немного другая структура.

In [22]:
My_table = soup.find('table',{'class':'wikitable'})
My_table

<table class="wikitable">
<caption>Nuclear combat, test, launch and PNE sites
</caption>
<tbody><tr>
<th style="background:#efdead;">Testing country
</th>
<th style="background:#efefef;">Site name
</th>
<th style="background:#efdead;">Site Location
</th>
<th style="background:#efefef;">Approx. coordinates
</th>
<th style="background:#efdead;">Notes
</th></tr>
<tr>
<th style="background:#efefff;"><a class="mw-redirect" href="/wiki/Nuclear_weapons_and_the_United_States" title="Nuclear weapons and the United States">United States</a>
</th>
<td style="background:#efefff;">
</td>
<td style="background:#efefff;">
</td>
<td style="background:#efefff;">
</td>
<td style="background:#efefff;">The first nuclear power.
</td></tr>
<tr>
<td>
</td>
<td><a href="/wiki/White_Sands_Missile_Range" title="White Sands Missile Range">White Sands Missile Range, New Mexico</a>
</td>
<td>
</td>
<td><span class="plainlinks nourlexpansion"><a class="external text" href="//tools.wmflabs.org/geohack/geohack.php?pa

Посмотрим на строки таблицы

In [23]:
rows = My_table.find_all('tr')
rows

[<tr>
 <th style="background:#efdead;">Testing country
 </th>
 <th style="background:#efefef;">Site name
 </th>
 <th style="background:#efdead;">Site Location
 </th>
 <th style="background:#efefef;">Approx. coordinates
 </th>
 <th style="background:#efdead;">Notes
 </th></tr>, <tr>
 <th style="background:#efefff;"><a class="mw-redirect" href="/wiki/Nuclear_weapons_and_the_United_States" title="Nuclear weapons and the United States">United States</a>
 </th>
 <td style="background:#efefff;">
 </td>
 <td style="background:#efefff;">
 </td>
 <td style="background:#efefff;">
 </td>
 <td style="background:#efefff;">The first nuclear power.
 </td></tr>, <tr>
 <td>
 </td>
 <td><a href="/wiki/White_Sands_Missile_Range" title="White Sands Missile Range">White Sands Missile Range, New Mexico</a>
 </td>
 <td>
 </td>
 <td><span class="plainlinks nourlexpansion"><a class="external text" href="//tools.wmflabs.org/geohack/geohack.php?pagename=List_of_nuclear_test_sites&amp;params=33.67717_N_106.47569_

Изучим содержимое строки

In [24]:
rows[2].find_all('td')

[<td>
 </td>,
 <td><a href="/wiki/White_Sands_Missile_Range" title="White Sands Missile Range">White Sands Missile Range, New Mexico</a>
 </td>,
 <td>
 </td>,
 <td><span class="plainlinks nourlexpansion"><a class="external text" href="//tools.wmflabs.org/geohack/geohack.php?pagename=List_of_nuclear_test_sites&amp;params=33.67717_N_106.47569_W_&amp;title=White+Sands+Missile+Range%2C+New+Mexico"><span class="geo-nondefault"><span class="geo-dms" title="Maps, aerial photos, and other data for this location"><span class="latitude">33°40′38″N</span> <span class="longitude">106°28′32″W</span></span></span><span class="geo-multi-punct">﻿ / ﻿</span><span class="geo-default"><span class="vcard"><span class="geo-dec" title="Maps, aerial photos, and other data for this location">33.67717°N 106.47569°W</span><span style="display:none">﻿ / <span class="geo">33.67717; -106.47569</span></span><span style="display:none">﻿ (<span class="fn org">White Sands Missile Range, New Mexico</span>)</span></span

Примерные координаты находятся внутри 4-ой колонки.

In [25]:
rows[2].find_all('td')[3]

<td><span class="plainlinks nourlexpansion"><a class="external text" href="//tools.wmflabs.org/geohack/geohack.php?pagename=List_of_nuclear_test_sites&amp;params=33.67717_N_106.47569_W_&amp;title=White+Sands+Missile+Range%2C+New+Mexico"><span class="geo-nondefault"><span class="geo-dms" title="Maps, aerial photos, and other data for this location"><span class="latitude">33°40′38″N</span> <span class="longitude">106°28′32″W</span></span></span><span class="geo-multi-punct">﻿ / ﻿</span><span class="geo-default"><span class="vcard"><span class="geo-dec" title="Maps, aerial photos, and other data for this location">33.67717°N 106.47569°W</span><span style="display:none">﻿ / <span class="geo">33.67717; -106.47569</span></span><span style="display:none">﻿ (<span class="fn org">White Sands Missile Range, New Mexico</span>)</span></span></span></a></span>
</td>

Сами же координаты внутри `<span>` класса `geo'

In [67]:
rows[2].find_all('td')[3].find_all('span',{'class':'geo'})[0].get_text()

'33.67717; -106.47569'

Теперь мы пройдем по всем строкам собирая координаты, но нам нужно взять только те координаты которые не пустые + взять либо `Site location` либо `Site name` (Они взаимозаменяют друг друга). Они идут под номерами 1 и 2 соответственно.

In [27]:
rows[2].find_all('td')[1].get_text()

'White Sands Missile Range, New Mexico\n'

In [28]:
rows[2].find_all('td')[2].get_text()

'\n'

In [29]:
len(rows[2].find_all('td')[2].get_text())

1

Даже пустая строчка на самом деле не пустая, будем смотреть на размер строки и от этого решать пустая ли она для нас или нет.

In [70]:
SitesName = []
Coordinates = []
for row in rows:
    r = row.find_all('td')
    if len(r) > 0:
        if len(r[3].get_text()) > 1 and (len(r[2].get_text()) > 1 or len(r[1].get_text()) > 1):
            if len(r[2].get_text()) > 1:
                site = r[2].get_text()
            else:
                site = r[1].get_text()
            SitesName.append(site.strip()) # срезом убрали знак переноса строки
            Coordinates.append(r[3].find_all('span',{'class':'geo'})[0].get_text())