### Extracting Stock Data Using a Web Scraping (Извлечение данных c помощью веб-очистки)


In [4]:
!pip install pandas
!pip install requests
!pip install bs4
#!pip install plotly



In [5]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

Сначала мы должны использовать библиотеку запросов, чтобы закрыть веб-страницу и извлечь текст. Мы будем извлекать данные о запасах Netflix https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0220EN-SkillsNetwork/labs/project/netflix_data_webpage.html.

In [6]:
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0220EN-SkillsNetwork/labs/project/netflix_data_webpage.html"

data  = requests.get(url).text

Далее мы должны проанализировать текст в html с помощью beautiful_soup

In [7]:
soup = BeautifulSoup(data, 'html5lib')

Теперь мы можем превратить html - таблицу в фрейм данных pandas

In [9]:
netflix_data = pd.DataFrame(columns=["Date", "Open", "High", "Low", "Close", "Volume"])

# First we isolate the body of the table which contains all the information
# Then we loop through each row and find all the column values for each row
for row in soup.find("tbody").find_all('tr'):
    col = row.find_all("td")
    date = col[0].text
    Open = col[1].text
    high = col[2].text
    low = col[3].text
    close = col[4].text
    adj_close = col[5].text
    volume = col[6].text
    
    # Finally we append the data of each row to the table
    netflix_data = netflix_data.append({"Date":date, "Open":Open, "High":high, "Low":low, "Close":close, "Adj Close":adj_close, "Volume":volume}, ignore_index=True)    

Теперь мы можем распечатать фрейм данных

In [10]:
netflix_data.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,"Jun 01, 2021",504.01,536.13,482.14,528.21,78560600,528.21
1,"May 01, 2021",512.65,518.95,478.54,502.81,66927600,502.81
2,"Apr 01, 2021",529.93,563.56,499.0,513.47,111573300,513.47
3,"Mar 01, 2021",545.57,556.99,492.85,521.66,90183900,521.66
4,"Feb 01, 2021",536.79,566.65,518.28,538.85,61902300,538.85


Мы также можем использовать функцию pandas read_html

In [11]:
read_html_pandas_data = pd.read_html(url)

Поскольку на странице есть только одна таблица, мы просто берем первую таблицу в возвращенном списке

In [12]:
netflix_dataframe = read_html_pandas_data[0]

netflix_dataframe.head()

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Jun 01, 2021",504.01,536.13,482.14,528.21,528.21,78560600
1,"May 01, 2021",512.65,518.95,478.54,502.81,502.81,66927600
2,"Apr 01, 2021",529.93,563.56,499.0,513.47,513.47,111573300
3,"Mar 01, 2021",545.57,556.99,492.85,521.66,521.66,90183900
4,"Feb 01, 2021",536.79,566.65,518.28,538.85,538.85,61902300


### Quiz

Используйте библиотеку запросов для загрузки веб-страницы https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0220EN-SkillsNetwork/labs/project/amazon_data_webpage.html. Сохраните текст ответа в виде переменной с именем html_data.

In [17]:
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0220EN-SkillsNetwork/labs/project/amazon_data_webpage.html"

html_data = requests.get(url).text

Проанализируйте данные html с помощью beautiful_soup?

In [18]:
soup = BeautifulSoup(html_data, 'html5lib')

Вопрос 1 Каково содержание атрибута title:?

In [20]:
tag_object=soup.title
print("tag object:",tag_object)

tag object: <title>Amazon.com, Inc. (AMZN) Stock Historical Prices &amp; Data - Yahoo Finance</title>


Используя красивый суп, извлеките таблицу с историческими ценами акций и сохраните ее в фрейме данных с именем amazon_data. В кадре данных должны быть столбцы Дата, Открытие, Максимум, Минимум, Закрытие, Закрытие и Громкость. Заполните каждую переменную правильными данными из списка col

In [22]:
amazon_data = pd.DataFrame(columns=["Date", "Open", "High", "Low", "Close", "Volume"])

# First we isolate the body of the table which contains all the information
# Then we loop through each row and find all the column values for each row
for row in soup.find("tbody").find_all('tr'):
    col = row.find_all("td")
    date = col[0].text
    Open = col[1].text
    high = col[2].text
    low = col[3].text
    close = col[4].text
    adj_close = col[5].text
    volume = col[6].text
    
    # Finally we append the data of each row to the table
    amazon_data = amazon_data.append({"Date":date, "Open":Open, "High":high, "Low":low, "Close":close, "Adj Close":adj_close, "Volume":volume}, ignore_index=True) 

In [24]:
amazon_data.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,"Jan 01, 2021",3270.0,3363.89,3086.0,3206.2,71528900,3206.2
1,"Dec 01, 2020",3188.5,3350.65,3072.82,3256.93,77556200,3256.93
2,"Nov 01, 2020",3061.74,3366.8,2950.12,3168.04,90810500,3168.04
3,"Oct 01, 2020",3208.0,3496.24,3019.0,3036.15,116226100,3036.15
4,"Sep 01, 2020",3489.58,3552.25,2871.0,3148.73,115899300,3148.73


### Подготовка к экзамену
##### Используйте библиотеку запросов для загрузки веб-страницы https://www.macrotrends.net/stocks/charts/TSLA/tesla/revenue. Сохраните текст ответа в виде переменной с именем html_data.

In [25]:
url =  "https://www.macrotrends.net/stocks/charts/TSLA/tesla/revenue"

html_data = requests.get(url).text

Проанализируйте данные html с помощью beautiful_soup?

In [28]:
soup = BeautifulSoup(data,"html5lib")

Используя красивый суп, извлеките таблицу с квартальным доходом Tesla и сохраните ее в фрейме данных с именем tesla_revenue. В кадре данных должны быть столбцы Дата и Доход.

Нажмите здесь, если вам нужна помощь в поиске таблицы

In [42]:
tesla_revenue = soup.find_all('Tesla Quarterly Revenue')

In [43]:
tesla_revenue = read_html_pandas_data[0]

In [44]:
tesla_revenue

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Jun 01, 2021",504.01,536.13,482.14,528.21,528.21,78560600
1,"May 01, 2021",512.65,518.95,478.54,502.81,502.81,66927600
2,"Apr 01, 2021",529.93,563.56,499.00,513.47,513.47,111573300
3,"Mar 01, 2021",545.57,556.99,492.85,521.66,521.66,90183900
4,"Feb 01, 2021",536.79,566.65,518.28,538.85,538.85,61902300
...,...,...,...,...,...,...,...
66,"Dec 01, 2015",124.47,133.27,113.85,114.38,114.38,319939200
67,"Nov 01, 2015",109.20,126.60,101.86,123.33,123.33,320321800
68,"Oct 01, 2015",102.91,115.83,96.26,108.38,108.38,446204400
69,"Sep 01, 2015",109.35,111.24,93.55,103.26,103.26,497401200
