In [1]:
import requests
from bs4 import BeautifulSoup

```
必要なライブラリの2つをインポートします
```

In [2]:
url = "https://www.bizlearn.jp/"

```
取得するサイトのURLを定義します。
```

In [3]:
res = requests.get(url)

```
requestライブラリのget関数を使い、指定のURLにアクセスを行います
```

In [4]:
res

<Response [200]>

```
アクセスした結果を確認します。
２００番が返ってきたので、取得が成功しました。この200番は、HTTPレスポンスと言われるものです。
200番以外に有名なのは、 404 Not Found ページが見つかりませんでした。などがあります。
```

In [5]:
res.content[:300]

b'\xef\xbb\xbf\r\n<!DOCTYPE html>\r\n<html lang="ja">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <title>BizLearn</title>\r\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\r\n    <meta name="viewport" content="initial-scale=1, maximum-scale=1, user-scalable=no">\r\n    <meta name="smartaddon-verification" conten'

```
レスポンスデータの本文の先頭を出力しています。
```

In [6]:
type(res.content)

bytes

```
b` から始まるので、バイト型で取得できたことがわかりますが、type関数で確認してみます。
```

In [7]:
soup = BeautifulSoup(res.content, 'html.parser')

```
先程のバイト型のデータをそのまま人が読むことは難しいと思います。
BeautifulSoupを使って、HTMLの解析を行います。
```

In [8]:
len(soup.find_all(class_="crsItem"))

50

```
前もって、Webブラウザで、必要な要素を確認していました。
ここでは、 class="crsItem" が繰り返されていることをしっていたので、先程解析したHTMLの中から、指定のクラスを抜き出しています。
find_allメソッドをつかい、クラスを指定して取得しています。
class_ とアンダースコア付きになっていますが、これは、Pythonの予約語である、classとかぶらないように、class_と指定することにBeautifulSoupでは決まっています。

今回は 50件取得できました。
```

In [9]:
course = soup.find_all(class_="crsItem")[0]

```
最初の要素で見ていきましょう。
```

In [10]:
type(course)

bs4.element.Tag

```
この要素は、Tagという型になっています
```

In [11]:
course

<div class="crsItem hl-2" id="business">
<a class="crsInfo" href="javascript:lecture('00026B11');">
<img src="common/images/course/course_card001.png"/>
<span class="crsDetail">
<span class="crsTtl">チームが活性化するコミュニケーション</span>
<span class="crsUni">　</span>
<span class="crsName">標準学習時間：10時間 </span>
<span class="crsDate">チュータ： なし　　<span class="label-status3">開講中</span></span>
<span class="crsOpt">　</span>
</span>
</a>
</div>

```
コースの中身を見てみます。

div要素の１ブロックが取得されています。
このHTML要素の中の必要なものを一つずつ抜き出していきます。
```

In [12]:
course.find(class_='crsTtl')

<span class="crsTtl">チームが活性化するコミュニケーション</span>

```
最初がタイトルに相当する部分です。
findメソッドをつかい、class_キーワード引数にしていのクラス名をいれています。
子要素のtagが取得できました。
```

In [13]:
course.find(class_='crsTtl').get_text()

'チームが活性化するコミュニケーション'

```
今回必要なものは、このタグの中に入っているテキストです。
get_textメソッドを使って取得します。
```

In [14]:
course.find(class_='crsName').get_text()

'標準学習時間：10時間 '

```
同様に、学習に必要な時間がこのクラスに入っていましたので取得します。
```

In [15]:
course.find(class_='crsDate').get_text()

'チュータ： なし\u3000\u3000開講中'

```
開校状態などを示すクラスがあったので、同様に取得します
```

In [16]:
result = []
for elm in soup.find_all(class_="crsItem"):
    title = elm.find(class_="crsTtl")
    hours = elm.find(class_='crsName')
    status = elm.find(class_='crsDate')
    if title is not None and hours is not None and status is not None:
        result.append({'title': title.get_text(), "hours": hours.get_text(), "status": status.get_text()})

```
一つのブロックをステップ・バイ・ステップで取得してきましたが、
ここでは、すべてのコースからそれぞれ、タイトル、必要な時間、状態の３つを取得します。

for文を用いて、順次取得し、最後に取得したオブジェクトがNoneでないことを確認しています。
Noneでないものを、dict型にし、リストにとりまとめています。

これらの動作は、本講座の姉妹コースである、Python入門で解説しています。
```

In [17]:
result

[{'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': 'チームが活性化するコミュニケーション'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '成果を出すタイムマネジメント'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '説得力のあるプレゼンテーション'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '目標を達成させるリーダーシップ'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': 'パフォーマンスを上げるロジカル・シンキング'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '売れる仕組みをつくりだすマーケティング'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '問題解決のためのビジネスアナリシス －BABOK(R)入門－'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '会議の目的とファシリテーション'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '課題設定力と解決実行プロセス'},
 {'hours': '標準学習時間：10時間 ',
  'status': 'チュータ： なし\u3000\u3000開講中',
  'title': '企業会計ベーシック'},
 {'hours':

```
結果を表示しています。
無事に出力できたようです。
```

In [18]:
import pandas as pd

```
スクレイピングで取得したデータをpandasのデータフレームに変換するために、pandasをインポートします
```

In [19]:
df = pd.DataFrame(result)

```
for文で作った、辞書を内包したリストをDataFrameに渡します。
```

In [20]:
df

Unnamed: 0,hours,status,title
0,標準学習時間：10時間,チュータ： なし 開講中,チームが活性化するコミュニケーション
1,標準学習時間：10時間,チュータ： なし 開講中,成果を出すタイムマネジメント
2,標準学習時間：10時間,チュータ： なし 開講中,説得力のあるプレゼンテーション
3,標準学習時間：10時間,チュータ： なし 開講中,目標を達成させるリーダーシップ
4,標準学習時間：10時間,チュータ： なし 開講中,パフォーマンスを上げるロジカル・シンキング
5,標準学習時間：10時間,チュータ： なし 開講中,売れる仕組みをつくりだすマーケティング
6,標準学習時間：10時間,チュータ： なし 開講中,問題解決のためのビジネスアナリシス －BABOK(R)入門－
7,標準学習時間：10時間,チュータ： なし 開講中,会議の目的とファシリテーション
8,標準学習時間：10時間,チュータ： なし 開講中,課題設定力と解決実行プロセス
9,標準学習時間：10時間,チュータ： なし 開講中,企業会計ベーシック


```
データフレームの中を見てみます。
簡単にデータフレームに置き換わりました。
```

# 完成版ソースコード

In [21]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.bizlearn.jp/"
res = requests.get(url)
soup = BeautifulSoup(res.content, 'html.parser')
result = []
for elm in soup.find_all(class_="crsItem"):
    title = elm.find(class_="crsTtl")
    hours = elm.find(class_='crsName')
    status = elm.find(class_='crsDate')
    if title is not None and hours is not None and status is not None:
        result.append({'title': title.get_text(), 
                                   "hours": hours.get_text(), 
                                   "status": status.get_text()})

df = pd.DataFrame(result)     

```
完成版のソースコードです。
```

In [22]:
df

Unnamed: 0,hours,status,title
0,標準学習時間：10時間,チュータ： なし 開講中,チームが活性化するコミュニケーション
1,標準学習時間：10時間,チュータ： なし 開講中,成果を出すタイムマネジメント
2,標準学習時間：10時間,チュータ： なし 開講中,説得力のあるプレゼンテーション
3,標準学習時間：10時間,チュータ： なし 開講中,目標を達成させるリーダーシップ
4,標準学習時間：10時間,チュータ： なし 開講中,パフォーマンスを上げるロジカル・シンキング
5,標準学習時間：10時間,チュータ： なし 開講中,売れる仕組みをつくりだすマーケティング
6,標準学習時間：10時間,チュータ： なし 開講中,問題解決のためのビジネスアナリシス －BABOK(R)入門－
7,標準学習時間：10時間,チュータ： なし 開講中,会議の目的とファシリテーション
8,標準学習時間：10時間,チュータ： なし 開講中,課題設定力と解決実行プロセス
9,標準学習時間：10時間,チュータ： なし 開講中,企業会計ベーシック


```
最後に、完成版ソースコードで出力されたデータフレームを見てみます
```