Pythonには、日付のdate、日付時間のdatetime、時間差のtimedeltaの型がある。

なぜか。日付は（普通の数字とは違うが）順序もあるし、足し算、引き算ができるし、（しかし掛け算の意味はわからない）、（数字と違う）独自の表示方法がある。だから、floatとかintとは違う「数値型」として、準備してある。

In [1]:
from datetime import date
t = date.fromisoformat("2021-04-05")

独自の表示は以下のように確かめられる。

In [2]:
print(t)

2021-04-05


日付時間の場合

In [3]:
from datetime import datetime
d = datetime(2021,3,5,12,5,20)

In [4]:
print(d)

2021-03-05 12:05:20


時間の引き算ができる。結果はtimedelta型になる。

In [5]:
d1 = datetime(2021,1,1,0,0,0)
d2 = datetime(2021,4,5,12,5,20)
delta1 = d2 - d1
print( type(delta1) )
print(delta1)

<class 'datetime.timedelta'>
94 days, 12:05:20


各データ型には様々な属性やメソッドがある。

In [6]:
print( t.year )
print( t.month )
print( t.weekday() ) # 月曜日が0、日曜日が6になる

2021
4
0


#### スクレイピングデータを解釈する例

日付を表す文字列は、'3/15(月) 15:49'という、極めて日本的なフォーマットである。

In [7]:
str_date = '3/15(月) 15:49'

datetime.strptime("2021/" + str_date, "%Y/%m/%d(%a) %H:%M")

ValueError: time data '2021/3/15(月) 15:49' does not match format '%Y/%m/%d(%a) %H:%M'

Pythonの標準的な文字列変換ではエラーになる。(月)が処理できないようだ。

ならば、削除するしかない。

それには、正規表現を使い、(月)を空文字で置換する。

In [8]:
str_date = '3/15(月) 15:49'

import re

re.sub('\([月火水木金土日]\)', "", str_date)

'3/15 15:49'

これで、丸括弧の曜日を削除することができた。これを関数にする。

In [9]:
import re
def dateString2Datetime(_string):
    cleaned_string = re.sub('\([月火水木金土日]\)', "", _string)
    return datetime.strptime("2021/" + cleaned_string, "%Y/%m/%d %H:%M")

# test
dateString2Datetime('3/15(月) 15:49')

datetime.datetime(2021, 3, 15, 15, 49)

In [10]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import csv
import time   # タイマーを使うため

#ヤフー出稿メディア別のページ一覧を読み込み
df = pd.read_csv('yahoo_rss_all_list_2021_04_01.csv')

#保存先ファイルを開き
fout = open("results.csv", mode="a", encoding="utf_8_sig", newline='')
# 列を決め、列名を書き出す
writer = csv.DictWriter(fout, ['Media', 'Title', 'Pubdate', 'Link'])
writer.writeheader()

#スクレイピングの設定
for index, row in df.iterrows():
  url = row['url']
  # エチケットとして3秒待つ
  time.sleep(3)

  html = requests.get( url )
  soup = BeautifulSoup(html.text, 'html.parser' )
  # 取得したデータの中にある、class="newsFeed_item"が設定されている要素を抜き出す
  for news in soup.find_all(class_='newsFeed_item'):
    print(news)
  # 試しに一回だけで終わる
  break


<li class="newsFeed_item newsFeed_item-movie"><a class="newsFeed_item_link" data-ylk="rsec:st_media;slk:article;pos:1" href="https://news.yahoo.co.jp/articles/0dff7866d65be200fd7430c87688ed17b4f41165"><div class="newsFeed_item_thumbnail"><div class="sc-elJkPf gHapva thumbnail thumbnail-middle"><img alt="" class="sc-jtRfpW fqNeGA" loading="lazy" src="https://amd-pctr.c.yimg.jp/r/iwiz-amd/20210404-00010000-redchair-000-2-thumb.jpg?w=200&amp;h=133&amp;q=90&amp;exp=10800&amp;pri=l"/><span class="sc-kTUwUJ iGrant"><svg class="sc-gxMtzJ bKMivF" fill="#fff" height="11" viewbox="0 0 48 48" width="11"><path d="M38.88 25.38c1.494-.76 1.494-2.001 0-2.761L10.715 8.299C9.222 7.54 8 8.277 8 9.935v28.133c0 1.658 1.222 2.393 2.715 1.633L38.88 25.38z" fill-rule="evenodd"></path></svg><span class="sc-dqBHgY lbVPIT">31:57</span></span></div></div><div class="newsFeed_item_text"><div class="newsFeed_item_title">僕、このまま終わるんじゃないですか――はじめしゃちょーの「ガチ相談」、佐藤二朗の回答は</div><div class="newsFeed_item_sub"><div class="new

代表的なclass="newsFeed_item"のタグは以下のような構造になっていることがわかる。

記事のリンクはaタグのhref属性で、data-ylk属性に「pos:1」という興味深いデータがある。

class="newsFeed_item_title"のdivタグの中身はタイトル、class="newsFeed_item_date"のtimeタグの中身が日時のようだ。

In [None]:
<li class="newsFeed_item newsFeed_item-movie">
	<a class="newsFeed_item_link" data-ylk="rsec:st_media;slk:article;pos:1" href="https://news.yahoo.co.jp/articles/0dff7866d65be200fd7430c87688ed17b4f41165">
	
		<div class="newsFeed_item_thumbnail">
			<div class="sc-elJkPf gHapva thumbnail thumbnail-middle">
				<img alt="" class="sc-jtRfpW fqNeGA" loading="lazy" src="https://amd-pctr.c.yimg.jp/r/iwiz-amd/20210404-00010000-redchair-000-2-thumb.jpg?w=200&amp;h=133&amp;q=90&amp;exp=10800&amp;pri=l"/>
				<span class="sc-kTUwUJ iGrant">
					<svg class="sc-gxMtzJ bKMivF" fill="#fff" height="11" viewbox="0 0 48 48" width="11">
						<path d="M38.88 25.38c1.494-.76 1.494-2.001 0-2.761L10.715 8.299C9.222 7.54 8 8.277 8 9.935v28.133c0 1.658 1.222 2.393 2.715 1.633L38.88 25.38z" fill-rule="evenodd"></path>
					</svg>
					<span class="sc-dqBHgY lbVPIT">31:57</span>
				</span>
			</div>
		</div>
		<div class="newsFeed_item_text">
			<div class="newsFeed_item_title">僕、このまま終わるんじゃないですか――はじめしゃちょーの「ガチ相談」、佐藤二朗の回答は</div>
			<div class="newsFeed_item_sub">
				<div class="newsFeed_item_sourceWrap">
					<time class="newsFeed_item_date" datetime="datetime">4/4(日)<!-- --> <!-- -->16:21</time>
				</div>
			</div>
		</div>
	</a>
</li>

清書すると以下のようになる。

（何度もトライ＆エラーした結果）

In [28]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import csv
import time   # タイマーを使うため

# 時間文字列をdatetime型変数に変換する関数
import re
def dateString2Datetime(_string):
  cleaned_string = re.sub('\([月火水木金土日]\)', "", _string)
  # 何度もエラーを起こして分かったことだが、
  # 2020年の日付にはちゃんと2020/12/31と表示され、2021年の場合は年数が省略されるようだ
  if cleaned_string.startswith("20"):
    # 西暦が省略されていない場合、多分20から始まる
    return datetime.strptime(cleaned_string, "%Y/%m/%d %H:%M")
  else:
    # 2021年を冒頭に追加して変換する
    return datetime.strptime("2021/" + cleaned_string, "%Y/%m/%d %H:%M")
# 同様に、data-ylk属性のposの次の数字を取得する関数
def getPosNumber(_string):
  first_cadidate = re.findall(r'pos:\d+', _string)[0]
  return int( first_cadidate.split(":")[1] )  

#ヤフー出稿メディア別のページ一覧を読み込み
df = pd.read_csv('yahoo_rss_all_list_2021_04_01.csv')

#保存先ファイルを開き
fout = open("results.csv", mode="a", encoding="utf_8_sig", newline='')
# 列を決め、列名を書き出す
writer = csv.DictWriter(fout, ['Media', 'Title', 'Pubdate', 'Link', 'Pos'])
writer.writeheader()

#スクレイピングの設定
for index, row in df.iterrows():
  url = row['url']
  # エチケットとして3秒待つ
  time.sleep(3)
  # 進行がわかるように
  print(index)
  html = requests.get( url )
  soup = BeautifulSoup(html.text, 'html.parser' )
  # 取得したデータの中にある、class="newsFeed_item"が設定されている要素を抜き出す
  for news in soup.find_all(class_='newsFeed_item'):
    item = {}
    item["Media"] = row["media_online"]
    item["Title"] = news.select_one('.newsFeed_item_title').text
    item["Pubdate"] = dateString2Datetime( news.select_one('.newsFeed_item_date').text )
    item["Link"] = news.a['href']
    item["Pos"] = getPosNumber( news.a['data-ylk'] )
    writer.writerow(item)

書き出されたファイルは以下のようになり、時間が綺麗に出力されていることがわかる。

Media,Title,Pubdate,Link,Pos

Yahoo!ニュース_オリジナル_RED_Chair,僕、このまま終わるんじゃないですか――はじめしゃちょーの「ガチ相談」、佐藤二朗の回答は,2021-04-04 16:21:00,https://news.yahoo.co.jp/articles/0dff7866d65be200fd7430c87688ed17b4f41165,1

Yahoo!ニュース_オリジナル_RED_Chair,「ロールモデルがいない」三浦瑠麗と蜷川実花、それでも捉われた「昭和の育児」の呪縛,2021-03-15 15:49:00,https://news.yahoo.co.jp/articles/2fb15e5c12df914138044832fa56fb90903b8a89,2

### データの分析

In [30]:
df = pd.read_csv('results.csv')
df

Unnamed: 0,Media,Title,Pubdate,Link,Pos
0,Yahoo!ニュース_オリジナル_RED_Chair,僕、このまま終わるんじゃないですか――はじめしゃちょーの「ガチ相談」、佐藤二朗の回答は,2021-04-04 16:21:00,https://news.yahoo.co.jp/articles/0dff7866d65b...,1
1,Yahoo!ニュース_オリジナル_RED_Chair,「ロールモデルがいない」三浦瑠麗と蜷川実花、それでも捉われた「昭和の育児」の呪縛,2021-03-15 15:49:00,https://news.yahoo.co.jp/articles/2fb15e5c12df...,2
2,Yahoo!ニュース_オリジナル_RED_Chair,寄り添えるか、優しくできるか――綾野剛と常田大希が語るクリエイティブの「原点」,2021-03-12 12:14:00,https://news.yahoo.co.jp/articles/9c84797c7690...,3
3,Yahoo!ニュース_オリジナル_RED_Chair,「日本人じゃない」と突きつけられた過去――水原希子、自分らしさとの葛藤の先に,2021-03-11 12:05:00,https://news.yahoo.co.jp/articles/acce2e42c721...,4
4,Yahoo!ニュース_オリジナル_RED_Chair,「お金は社会に還元して死ぬ」――「暴走族」安藤忠雄79歳、規格外の人生,2021-03-10 12:02:00,https://news.yahoo.co.jp/articles/3bb8436277b3...,5
...,...,...,...,...,...
14740,Yahoo!_JAPAN_リオオリンピック特集,車いすテニス男子複で日本人対決　15日夜～16日朝の注目戦,2016-09-15 14:14:00,https://news.yahoo.co.jp/articles/a3ef8de46eb9...,11
14741,Yahoo!_JAPAN_リオオリンピック特集,「ありがとう」金メダリストが家族や仲間、競技に示した瞬間,2016-09-15 12:21:00,https://news.yahoo.co.jp/articles/c4022917d14e...,12
14742,Yahoo!_JAPAN_リオオリンピック特集,パラならではのオシャレを発見　こだわりのアイマスクや義肢,2016-09-15 11:34:00,https://news.yahoo.co.jp/articles/3e4b476057af...,13
14743,Yahoo!_JAPAN_リオオリンピック特集,リオパラ五輪で見つけた、タトゥーがオシャレな選手たち,2016-09-15 10:45:00,https://news.yahoo.co.jp/articles/3d8f16bdb3d6...,14


In [39]:
df.groupby("Media").agg(['count','mean'])

Unnamed: 0_level_0,Pos,Pos
Unnamed: 0_level_1,count,mean
Media,Unnamed: 1_level_2,Unnamed: 2_level_2
2.5ジゲン！！,19,10.0
25ansウエディング,25,13.0
25ansオンライン,25,13.0
36Kr_Japan,25,13.0
47NEWS,25,13.0
...,...,...
ＮＳＴ新潟総合テレビ,25,13.0
ＯＡＢ大分朝日放送,4,2.5
ＰＨＰファミリー,8,4.5
ＳＢＣ信越放送,25,13.0


In [31]:
import altair as alt
from vega_datasets import data

alt.Chart(df).mark_bar().encode(
    alt.X("IMDB_Rating:Q", bin=True),
    y='count()',
)

'https://vega.github.io/vega-datasets/data/movies.json'

MaxRowsError: The number of rows in your dataset is greater than the maximum allowed (5000). For information on how to plot larger datasets in Altair, see the documentation

alt.Chart(...)