# スクレイピングで使うテキスト処理

スクレイピングで取得したJSONファイルから必要な情報を取得し、CSVファイルにまとめて保存する。

## JSONファイルからテキストを読み込み

In [1]:
import json

username = 'keykun_0501'

# load json file
with open('{}/{}.json'.format(username, username)) as f:
    jsn = json.load(f)

print(jsn)

{'GraphImages': [{'__typename': 'GraphImage', 'comments': {'data': []}, 'comments_disabled': False, 'dimensions': {'height': 1350, 'width': 1080}, 'display_url': 'https://scontent-nrt1-1.cdninstagram.com/v/t51.2885-15/e35/p1080x1080/116583654_788646875305690_4890041376633210709_n.jpg?_nc_ht=scontent-nrt1-1.cdninstagram.com&_nc_cat=110&_nc_ohc=2x8UMH0eu4IAX9J8nmh&oh=152b9f24df0db398c695934226c59741&oe=5F57F6A7&ig_cache_key=MjM2NzQ0ODg4MzQ3ODMzMjI1Nw%3D%3D.2', 'edge_media_preview_like': {'count': 25}, 'edge_media_to_caption': {'edges': [{'node': {'text': '本日のお昼寝\n\n#うちのねこ \n#ねこすきさんと繋がりたい\n#ねことの暮らし \n#ねこすたぐらむ \n#ねこのいる生活 \n#ねこ写真 \n#ねこ\n#ねこ動画'}}]}, 'edge_media_to_comment': {'count': 0}, 'gating_info': None, 'id': '2367448883478332257', 'is_video': False, 'media_preview': 'ACEq6AimM6ryxA+pp7MFBJ6CsOZzO+GbavrjOB270mM1ftEW4IHUs3QZ5NS1mW9oICSxDt2IGCB/Sr4Y55z+OCPzqbgPxRS0UAV78kQkjtg/rXPRXEavibJX0HXPqf8AOB2rqmAYEHkHgj2rnTphE21ziMnIbuR6expsC3bTvIoEfByMs2OVHYKOmenJrVGcc9aq7oYSI02hj1A6j6n9AKtipQxa

## 取得したテキストの確認

In [2]:
# 投稿数
len(jsn['GraphImages'])

16

In [3]:
# 要素名
jsn['GraphImages'][15].keys()

dict_keys(['__typename', 'comments', 'comments_disabled', 'dimensions', 'display_url', 'edge_media_preview_like', 'edge_media_to_caption', 'edge_media_to_comment', 'gating_info', 'id', 'is_video', 'media_preview', 'owner', 'shortcode', 'tags', 'taken_at_timestamp', 'thumbnail_resources', 'thumbnail_src', 'urls', 'username'])

## 投稿日の取得

In [4]:
# 最初の投稿日(UNIX時間)
timestamp = jsn['GraphImages'][15]['taken_at_timestamp']
print(timestamp)

1595378239


In [5]:
# 投稿日(UNIX時間)をdatetimeに変換
from datetime import datetime
date = datetime.fromtimestamp(timestamp)
print(date)

2020-07-22 09:37:19


## 投稿コメントの取得

In [6]:
# 最初の投稿コメント
caption = jsn['GraphImages'][15]['edge_media_to_caption']['edges'][0]['node']['text']
caption

'うちに猫が来た\n初日からこの寝相で真横で寝てくる懐っこい子笑\n\n#うちのねこ \n#ねこすきさんと繋がりたい\n#ねことの暮らし \n#ねこすたぐらむ \n#ねこのいる生活 \n#ねこ写真 \n#ねこ'

In [7]:
# 投稿コメントから改行コード(\n)を削除
caption_modified = caption.replace('\n',' ')
caption_modified

'うちに猫が来た 初日からこの寝相で真横で寝てくる懐っこい子笑  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすたぐらむ  #ねこのいる生活  #ねこ写真  #ねこ'

## すべての投稿日と投稿コメントを取得

In [8]:
all_caption, all_date = [], []
for i in range(len(jsn['GraphImages'])):
    # 投稿日
    timestamp = jsn['GraphImages'][i]['taken_at_timestamp']
    date = datetime.fromtimestamp(timestamp)
    all_date.append(date)
    
    # 投稿コメント
    caption = jsn['GraphImages'][i]['edge_media_to_caption']['edges'][0]['node']['text']
    caption_modified = caption.replace('\n',' ')
    all_caption.append(caption_modified)



In [9]:
# 結果を表にまとめる
import pandas as pd
df = pd.DataFrame({'date':all_date,
                  'caption':all_caption})

# 結果をCSVファイルに保存
df.to_csv('{}/captions.csv'.format(username), index=False)

# 結果の確認
print(df)

                  date                                            caption
0  2020-08-03 17:05:21  本日のお昼寝  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすた...
1  2020-08-01 09:23:14  本日のお昼寝  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすた...
2  2020-07-30 10:09:08  きいくん、早朝に何度か透明の嘔吐をしました。 大丈夫かな、、、😭 経験のある方、教えてくださ...
3  2020-07-28 11:44:30  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすたぐらむ  #ね...
4  2020-07-27 13:26:02  今日のひるね  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすた...
5  2020-07-26 10:23:52  きまってる笑 天気いいな〜🐈  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮ら...
6  2020-07-25 21:18:35  ねてらっしゃいます動画ver  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮ら...
7  2020-07-24 21:17:35  おこられて隠れるきい 頭隠してなんとかかんとか🐈  #うちのねこ  #ねこすきさんと繋がり...
8  2020-07-24 20:31:04  折りたたみ式きいちゃん🐈  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし ...
9  2020-07-24 07:22:23  😋  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮らし  #ねこすたぐらむ ...
10 2020-07-23 15:20:46  ねてらっしゃいますpart3  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮ら...
11 2020-07-22 20:36:16  ねてらっしゃいますpart2  #うちのねこ  #ねこすきさんと繋がりたい #ねことの暮ら...
12 2020-07-22 20:35:03  ねてらっしゃいます  #うち