In [21]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

# URLからHTMLを取得
url = "https://www.getsurrey.co.uk/news/surrey-news/cigarette-prices-rise-here-how-12974763"
response = requests.get(url)
html = response.content

# BeautifulSoupを使用してHTMLを解析
soup = BeautifulSoup(html, 'html.parser')

# tbody内のすべての行を抽出
rows = soup.find('tbody').find_all('tr')

# 列のヘッダーを抽出
headers = [header.get_text(strip=True) for header in rows[0].find_all('strong')]

# 行のデータを抽出してDataFrameに追加
data = []
for row in rows[1:]:
    row_data = [cell.get_text(strip=True) for cell in row.find_all('td')]
    if int(row_data[0]) in [1998, 2001, 2003, 2006, 2009, 2012, 2015, 2017]:
        data.append(row_data)

# データをDataFrameに変換
df = pd.DataFrame(data, columns=headers)

# Year列を数値に変換
df['Year'] = df['Year'].astype(int)
# データを表示
print(df)

   Year Tobacco duty in £ on 1,000 cigarettes
0  1998                                 77.09
1  2001                                 92.25
2  2003                                 96.88
3  2006                                105.10
4  2009                                114.31
5  2012                                167.41
6  2015                                189.49
7  2017                                207.99


In [22]:
import matplotlib.pyplot as plt

# DataFrameから表を描画
plt.figure(figsize=(10, 10))
plt.table(cellText=df.values,
          colLabels=df.columns,
          cellLoc = 'center', 
          loc='center')
plt.axis('off')  # 軸を非表示にする

# 表を画像ファイルとして保存
plt.savefig('tobacco_duty_table.png', bbox_inches='tight', pad_inches=0)

# グラフを表示（不要なので非表示にする）
plt.close()