RequestsとBeautifulSoupをインポートする。
次にRequestsを使ってURLにアクセスし、HTMLを取得して解析する。

In [480]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from urllib.parse import urljoin

url = "https://uub.jp/pdr/q/a.html"
response = requests.get(url)    
response

<Response [200]>

取得結果を解析してSoupに格納、表示、HTMLの確認

In [481]:
soup = BeautifulSoup(response.content, "html.parser")
soup

<!DOCTYPE html>

<html lang="ja">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<title>交通事故（都道府県データランキング）</title>
<meta content="交通事故の発生件数、死者数、負傷者数と、人口10万人あたりの発生件数、死者数、負傷者数について、2022年、2017年、および、5年間の増減数を各々ランキングしました。" name="description"/>
<meta content="交通事故件数, 交通事故死者数, 交通事故負傷者数, 都道府県別, 人口10万人あたり" name="keywords"/>
<meta content="1913081265650220" property="fb:app_id"/>
<meta content="交通事故（都道府県データランキング）" property="og:title"/>
<meta content="交通事故の発生件数、死者数、負傷者数と、人口10万人あたりの発生件数、死者数、負傷者数について、2022年、2017年、および、5年間の増減数を各々ランキングしました。" property="og:description"/>
<meta content="https://uub.jp/pdr/q/a.html" property="og:url"/>
<meta content="https://uub.jp/i/ogp_uub.png" property="og:image"/>
<meta content="website" property="og:type"/>
<meta content="交通事故（都道府県データランキング）" property="og:site_name"/>
<link href="https://uub.jp/icn/favicon.ico" rel="icon" type="image/x-icon"/>
<link href="https://

全てのデータから.bw.ar.no, .bw.al.no, .bxb.ar.noの情報を抜き出す

In [482]:
all_date = soup.select(".bw.ar.no, .bw.al.no, .bxb.ar.no")
all_date    

[<td class="bw al no">東京都</td>,
 <td class="bxb ar no"><!--MAPC-->30,170</td>,
 <td class="bw ar no">32,845</td>,
 <td class="bw ar no fr">-2,675</td>,
 <td class="bw ar no">214.9</td>,
 <td class="bw ar no">239.0</td>,
 <td class="bw ar no fr">-24.1</td>,
 <td class="bw al no">大阪府</td>,
 <td class="bxb ar no"><!--MAPC-->25,509</td>,
 <td class="bw ar no">35,928</td>,
 <td class="bw ar no fr">-10,419</td>,
 <td class="bw ar no">290.3</td>,
 <td class="bw ar no">406.8</td>,
 <td class="bw ar no fr">-116.5</td>,
 <td class="bw al no">愛知県</td>,
 <td class="bxb ar no"><!--MAPC-->23,825</td>,
 <td class="bw ar no">39,117</td>,
 <td class="bw ar no fr">-15,292</td>,
 <td class="bw ar no">317.8</td>,
 <td class="bw ar no">519.7</td>,
 <td class="bw ar no fr">-201.9</td>,
 <td class="bw al no">神奈川県</td>,
 <td class="bxb ar no"><!--MAPC-->21,098</td>,
 <td class="bw ar no">28,536</td>,
 <td class="bw ar no fr">-7,438</td>,
 <td class="bw ar no">228.5</td>,
 <td class="bw ar no">311.5</td>,
 <td

抜き出した情報のみにする

In [483]:
for toridasu in all_date:
    print(toridasu.text)

東京都
30,170
32,845
-2,675
214.9
239.0
-24.1
大阪府
25,509
35,928
-10,419
290.3
406.8
-116.5
愛知県
23,825
39,117
-15,292
317.8
519.7
-201.9
神奈川県
21,098
28,536
-7,438
228.5
311.5
-83.0
福岡県
19,868
34,621
-14,753
388.2
677.5
-289.3
静岡県
18,678
30,266
-11,588
521.4
823.9
-302.5
埼玉県
16,576
26,277
-9,701
225.9
359.6
-133.7
兵庫県
16,372
26,928
-10,556
303.0
489.3
-186.4
千葉県
13,223
18,047
-4,824
210.7
288.5
-77.8
群馬県
9,803
12,743
-2,940
512.4
650.7
-138.3
北海道
8,457
10,815
-2,358
164.5
203.3
-38.7
茨城県
6,271
9,681
-3,410
220.7
334.2
-113.5
長野県
4,752
7,952
-3,200
235.2
383.0
-147.9
岡山県
4,348
7,220
-2,872
233.5
378.3
-144.8
広島県
4,315
8,858
-4,543
156.4
313.0
-156.6
宮城県
4,117
7,491
-3,374
180.6
322.6
-142.0
栃木県
3,877
4,866
-989
203.2
248.0
-44.9
京都府
3,810
7,146
-3,336
149.4
274.9
-125.5
宮崎県
3,798
8,316
-4,518
361.1
764.2
-403.1
佐賀県
3,238
6,766
-3,528
404.5
821.5
-417.0
熊本県
3,175
5,786
-2,611
184.8
327.7
-142.9
香川県
3,144
6,126
-2,982
336.7
633.1
-296.4
鹿児島県
3,088
6,567
-3,479
197.7
404.2
-206.5
山形県
2,970
5,81

抜き出した情報を7行ずつに区切る

In [484]:
list_date = []

for t in range(7):
    list_date.append(all_date[t].text)

そのデータの一番上を表示

In [485]:
list_date

['東京都', '30,170', '32,845', '-2,675', '214.9', '239.0', '-24.1']

表のタイトルとその中の文字の確認

In [486]:
import pandas as pd

columns = [
    ('#', ''), 
    ('都道府県', ''), 
    ('交通事故発生件数（件）', '2022年↓'), 
    ('交通事故発生件数（件）', '2017年'), 
    ('交通事故発生件数（件）', '増減数'),
    ('人口10万人あたり（件）', '2022年'),
    ('人口10万人あたり（件）', '2017年'),
    ('人口10万人あたり（件）', '増減数'),
]

multi_cols = pd.MultiIndex.from_tuples(columns)

df = pd.DataFrame(columns=multi_cols)

df

Unnamed: 0_level_0,#,都道府県,交通事故発生件数（件）,交通事故発生件数（件）,交通事故発生件数（件）,人口10万人あたり（件）,人口10万人あたり（件）,人口10万人あたり（件）
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,2022年↓,2017年,増減数,2022年,2017年,増減数


In [487]:
df

Unnamed: 0_level_0,#,都道府県,交通事故発生件数（件）,交通事故発生件数（件）,交通事故発生件数（件）,人口10万人あたり（件）,人口10万人あたり（件）,人口10万人あたり（件）
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,2022年↓,2017年,増減数,2022年,2017年,増減数


一番上の列を試してみる

In [488]:
df.loc[0] = [
    1,                # '#'
    '東京都',          # '都道府県'
    30170,            # '交通事故発生件数（件）' -> '2022年↓'
    32845,            # '交通事故発生件数（件）' -> '2017年'
    -2675,            # '交通事故発生件数（件）' -> '増減数'
    214.9,            # '人口10万人あたり（件）' -> '2022年'
    239.0,            # '人口10万人あたり（件）' -> '2017年'
    -24.1,            # '人口10万人あたり（件）' -> '増減数'
]

In [489]:
df

Unnamed: 0_level_0,#,都道府県,交通事故発生件数（件）,交通事故発生件数（件）,交通事故発生件数（件）,人口10万人あたり（件）,人口10万人あたり（件）,人口10万人あたり（件）
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,2022年↓,2017年,増減数,2022年,2017年,増減数
0,1,東京都,30170,32845,-2675,214.9,239.0,-24.1


forを使って7つの要素を47都道府県分取得

In [None]:
list_date = []
count = 0

for kk in range(47):

    for t in range(7):
        list_date.append(all_date[count].text)
        count += 1
    
    
    df.loc[kk] = [
        kk + 1,               # ('#','')
        list_date[0],         # ('都道府県','')
        list_date[1],         # ('交通事故発生件数（件）','2022年↓')
        list_date[2],         # ('交通事故発生件数（件）','2017年')
        list_date[3],         # ('交通事故発生件数（件）','増減数')
        list_date[4],         # ('人口10万人あたり（件）','2022年')
        list_date[5],         # ('人口10万人あたり（件）','2017年')
        list_date[6],         # ('人口10万人あたり（件）','増減数')
    ]

    list_date = []
    


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '30,170' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '32,845' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '-2,675' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '214.9' has dtype incompatible with float64, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '239.0' has dtype incompatible with float

表示

In [491]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0_level_0,#,都道府県,交通事故発生件数（件）,交通事故発生件数（件）,交通事故発生件数（件）,人口10万人あたり（件）,人口10万人あたり（件）,人口10万人あたり（件）
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,2022年↓,2017年,増減数,2022年,2017年,増減数
0,1,東京都,30170,32845,-2675,214.9,239.0,-24.1
1,2,大阪府,25509,35928,-10419,290.3,406.8,-116.5
2,3,愛知県,23825,39117,-15292,317.8,519.7,-201.9
3,4,神奈川県,21098,28536,-7438,228.5,311.5,-83.0
4,5,福岡県,19868,34621,-14753,388.2,677.5,-289.3
5,6,静岡県,18678,30266,-11588,521.4,823.9,-302.5
6,7,埼玉県,16576,26277,-9701,225.9,359.6,-133.7
7,8,兵庫県,16372,26928,-10556,303.0,489.3,-186.4
8,9,千葉県,13223,18047,-4824,210.7,288.5,-77.8
9,10,群馬県,9803,12743,-2940,512.4,650.7,-138.3


In [492]:
from time import sleep

大きさを確認する

In [493]:
df.shape

(47, 8)

タイトルを表示

In [494]:
print(df.columns)

MultiIndex([(           '#',       ''),
            (        '都道府県',       ''),
            ( '交通事故発生件数（件）', '2022年↓'),
            ( '交通事故発生件数（件）',  '2017年'),
            ( '交通事故発生件数（件）',    '増減数'),
            ('人口10万人あたり（件）',  '2022年'),
            ('人口10万人あたり（件）',  '2017年'),
            ('人口10万人あたり（件）',    '増減数')],
           )


データフレームをCSV出力す

In [495]:
df.to_csv('交通事故死者数.csv', index=None, encoding='utf-8-sig')

CSVファイルを読み込む

In [496]:
import pandas as pd

df = pd.read_csv("/Users/yusaito/交通事故の課題/交通事故死者数.csv")

先頭5行を表示、# 列名、行数、列数の確認

In [497]:
print(df.head())

print(df.columns)
print(df.shape)

     #  都道府県 交通事故発生件数（件） 交通事故発生件数（件）.1 交通事故発生件数（件）.2 人口10万人あたり（件）  \
0  NaN   NaN      2022年↓         2017年           増減数        2022年   
1  1.0   東京都      30,170        32,845        -2,675        214.9   
2  2.0   大阪府      25,509        35,928       -10,419        290.3   
3  3.0   愛知県      23,825        39,117       -15,292        317.8   
4  4.0  神奈川県      21,098        28,536        -7,438        228.5   

  人口10万人あたり（件）.1 人口10万人あたり（件）.2  
0          2017年            増減数  
1          239.0          -24.1  
2          406.8         -116.5  
3          519.7         -201.9  
4          311.5          -83.0  
Index(['#', '都道府県', '交通事故発生件数（件）', '交通事故発生件数（件）.1', '交通事故発生件数（件）.2',
       '人口10万人あたり（件）', '人口10万人あたり（件）.1', '人口10万人あたり（件）.2'],
      dtype='object')
(48, 8)


タイトルの確認

In [498]:
df.columns = [
    "#",
    "都道府県",
    "交通事故2022",
    "交通事故2017",
    "交通事故増減",
    "人口10万人あたり2022",
    "人口10万人あたり2017",
    "人口10万人あたり増減",
]

要約統計量

In [499]:
print(df.describe())

               #
count  47.000000
mean   24.000000
std    13.711309
min     1.000000
25%    12.500000
50%    24.000000
75%    35.500000
max    47.000000


In [502]:
import plotly.express as px

列名をわかりやすくリネームするして、2022年の交通事故発生件数の棒グラフを表示

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv("/Users/yusaito/交通事故の課題/交通事故死者数.csv", skiprows=1)

print(df.columns)

df.columns = [
    '#', 
    '都道府県', 
    '交通事故発生件数_2022',  
    '交通事故発生件数_2017', 
    '交通事故発生件数_増減数', 
    '人口10万人あたり_2022', 
    '人口10万人あたり_2017', 
    '人口10万人あたり_増減数'
]

num_cols = [
    '交通事故発生件数_2022',
    '交通事故発生件数_2017',
    '交通事故発生件数_増減数',
    '人口10万人あたり_2022',
    '人口10万人あたり_2017',
    '人口10万人あたり_増減数'
]

for col in num_cols:
    # カンマを除去してから数値型に変換
    df[col] = df[col].astype(str).str.replace(",", "", regex=True).astype(float)

# px.bar() で都道府県を x、2022年の交通事故件数を y にした棒グラフを描画
fig = px.bar(
    data_frame=df,
    x='都道府県',
    y='交通事故発生件数_2022',
    title="2022年の交通事故発生件数"
)
fig.show()

Index(['Unnamed: 0', 'Unnamed: 1', '2022年↓', '2017年', '増減数', '2022年',
       '2017年.1', '増減数.1'],
      dtype='object')


2017年・2022年 交通事故発生件数比較の棒グラフを表示

In [504]:
import pandas as pd
import plotly.express as px



for col in num_cols:
    df[col] = df[col].astype(str).str.replace(",", "", regex=True).astype(float)

# 2022年と2017年の交通事故発生件数を並べた棒グラフを作成
fig = px.bar(
    data_frame=df,
    x='都道府県',
    y=['交通事故発生件数_2022', '交通事故発生件数_2017'],
    barmode='group',  # グループ表示
    labels={'value': '交通事故発生件数', 'variable': '年度'},
    title='2017年・2022年 交通事故発生件数比較'
)
fig.show()

2017年 と 2022年 交通事故発生件数 散布図　を表示

In [505]:
import pandas as pd
import plotly.express as px



for col in num_cols:
    df[col] = df[col].astype(str).str.replace(",", "", regex=True).astype(float)

# 散布図を作成
fig = px.scatter(
    data_frame=df,
    x='交通事故発生件数_2022',
    y='交通事故発生件数_2017',
    hover_name='都道府県',    # ホバー表示に都道府県を追加すると便利
    labels={'交通事故発生件数_2022': '2022年 交通事故発生件数',
            '交通事故発生件数_2017': '2017年 交通事故発生件数'},
    title='2017年 vs. 2022年 交通事故発生件数 散布図'
)

fig.show()

交通事故発生件数 増減数（2017年→2022年）の棒グラフを表示

In [506]:
import pandas as pd
import plotly.express as px


for col in num_cols:
    df[col] = df[col].astype(str).str.replace(",", "", regex=True).astype(float)

# 交通事故発生件数の増減数を棒グラフで表示
fig = px.bar(
    data_frame=df,
    x='都道府県',
    y='交通事故発生件数_増減数',
    title='交通事故発生件数 増減数（2017年→2022年）',
    labels={'交通事故発生件数_増減数': '増減数（件）'}
)
fig.show()

人口10万人あたり 増減数（2017年→2022年）を表示

In [507]:
import pandas as pd
import plotly.express as px



for col in num_cols:
    # 文字列中のカンマを取り除いた上で float に変換
    df[col] = df[col].astype(str).str.replace(",", "", regex=True).astype(float)

# 人口10万人あたりの増減数を棒グラフで表示
fig = px.bar(
    data_frame=df,
    x='都道府県',
    y='人口10万人あたり_増減数',
    title='人口10万人あたり 増減数（2017年→2022年）',
    labels={'人口10万人あたり_増減数': '人口10万人あたり 増減数'}
)
fig.show()