In [1]:
# pandas機能をインポート
import pandas as pd
# requests機能をインポート
import requests
from bs4 import BeautifulSoup


In [2]:
# 元データの読み込み
input_df = pd.read_csv("LP_URL.csv")

In [3]:
# LPテキストを取得する関数を定義
def fetch_lp_text(request_url):
    res = requests.get(request_url, timeout=10)
    # resの文字データがISO-8859-1のケースがあるので、utf-8に変換して文字化けを防止
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text, "html.parser")

    # 画面非表示の典型タグを削除
    for tag in soup(["script", "style", "noscript", "svg", "meta", "title", "head"]):
        tag.decompose()

    # hidden/aria-hidden/display:none/visibility:hidden を削除
    for el in soup.select("[hidden], [aria-hidden='true'], [style*='display:none'], [style*='visibility:hidden']"):
        el.decompose()

    # 表示テキストのみを取得して整形
    return "".join(s for s in soup.stripped_strings)


In [4]:
# 出力用データフレームを用意しつつスクレイピング
out_df = input_df.copy()
out_df['LP_text'] = ""

for idx, row in out_df.iterrows():
    name = row['Name']
    url = row['URL']
    print(f"{idx + 1}件目: {name} をスクレイピング中...")
    try:
        lp_text = fetch_lp_text(url)
    except Exception as exc:
        print(f"  取得に失敗しました: {exc}")
        lp_text = ""
    out_df.at[idx, 'LP_text'] = lp_text

out_df


1件目: まっちゃん をスクレイピング中...
2件目: よこ をスクレイピング中...
3件目: まっと をスクレイピング中...
4件目: あらぴー をスクレイピング中...
5件目: まる をスクレイピング中...
6件目: せーや をスクレイピング中...
7件目: けーすけ をスクレイピング中...
8件目: りいちろー をスクレイピング中...
9件目: くま をスクレイピング中...
10件目: りょーま をスクレイピング中...
11件目: えーちゃん をスクレイピング中...
12件目: とむ をスクレイピング中...
13件目: なおみん をスクレイピング中...
14件目: とーます をスクレイピング中...
15件目: つげっち をスクレイピング中...
16件目: よしこ をスクレイピング中...
17件目: えみねえ をスクレイピング中...
18件目: まれる をスクレイピング中...
19件目: きみなり をスクレイピング中...
20件目: つね をスクレイピング中...
21件目: やまざき をスクレイピング中...
22件目: マシュー をスクレイピング中...
23件目: まーP をスクレイピング中...
24件目: けんた をスクレイピング中...
25件目: せきしょー をスクレイピング中...
26件目: けんさん をスクレイピング中...
27件目: いっしー をスクレイピング中...
28件目: しんしん をスクレイピング中...


Unnamed: 0,Name,URL,LP_text
0,まっちゃん,https://m-ohtani-lp-new.netlify.app/,自己紹介ページTech0 11期 LP作成プロジェクト趣味実績経歴連絡先大谷 雅人（おおたに...
1,よこ,https://capable-empanada-411af1.netlify.app/,HIROKI YOKOYAMAHOMEPROFILEPRESONARITYCARRERMOT...
2,まっと,https://ornate-pasca-3294f3.netlify.app/,Hiroshi MatsuzakiHomeAboutBeyond workContactテッ...
3,あらぴー,https://elegant-pie-1dd053.netlify.app/,HirotoArakiHomeAbout MeHobbiesContact登録私のあれこれ紹...
4,まる,https://serene-arithmetic-5d0362.netlify.app/,Soichiro Maruyama'sNEWS/PROFILE/CAREER/CONTACT
5,せーや,https://delightful-puppy-cb7eeb.netlify.app/,seyaseiyaTravel PhotographerAbout MeTravelPort...
6,けーすけ,https://fascinating-bavarois-c451cb.netlify.app/,けーすけ自己紹介Profile偏愛マップSearch～偏愛マップ～自己紹介～偏愛マップ～自己...
7,りいちろー,https://riichiro.netlify.app/,👨‍💻 自己紹介ページプロフィールキャリア趣味意気込み河原 理一郎の自己紹介プロフィールTe...
8,くま,https://mellifluous-sunshine-da71e1.netlify.app/,My ProfileAboutWhat I DoHobbyContact他者への想像力Abo...
9,りょーま,https://685a4d44afb3ac5b3d11e968--startling-lo...,About ryomaProfileCareerContactりょーま積み上げた努力は、ある...


In [5]:
# out_dfの内容を確認
out_df.head()


Unnamed: 0,Name,URL,LP_text
0,まっちゃん,https://m-ohtani-lp-new.netlify.app/,自己紹介ページTech0 11期 LP作成プロジェクト趣味実績経歴連絡先大谷 雅人（おおたに...
1,よこ,https://capable-empanada-411af1.netlify.app/,HIROKI YOKOYAMAHOMEPROFILEPRESONARITYCARRERMOT...
2,まっと,https://ornate-pasca-3294f3.netlify.app/,Hiroshi MatsuzakiHomeAboutBeyond workContactテッ...
3,あらぴー,https://elegant-pie-1dd053.netlify.app/,HirotoArakiHomeAbout MeHobbiesContact登録私のあれこれ紹...
4,まる,https://serene-arithmetic-5d0362.netlify.app/,Soichiro Maruyama'sNEWS/PROFILE/CAREER/CONTACT


In [6]:
# CSVファイルに出力
out_df.to_csv("DB_LP.csv", encoding="utf-8-sig", index=False)
print("DB_LP.csv に保存しました。")


DB_LP.csv に保存しました。
