# URLコンテンツの保存

ウェブサイト上の情報をプログラムで自動的に取得、情報を抽出する技術を **スクレイピング** と呼びます。スクレイピングは現代の情報収集の手段として、広く活用されています。ここでは、簡単なスクレイピングとして、Webページのコンテンツを取得し、ファイルに保存するプログラムを作成してみましょう。

`04_function` フォルダの中に `task02.ipynb` というノートブックを作成し、以下の仕様を満たすプログラムを記述してください。

## 仕様

### 関数の仕様

- URLを引数として受け取り、Webページのコンテンツの先頭500文字を日時のファイル名で保存し、ファイル名を戻り値として返す `save_url_content()` 関数を作成してください。
- 指定したURLからデータを取得し、UTF-8形式でデコードしてから先頭500文字を取得します。
- 保存するファイル名は現在の日時（例: `20241030_155221.txt`）とし、`.txt` 拡張子で保存してください。
- データを取得したファイルへ保存するために、Pythonの標準ライブラリ `datetime` モジュールを使って日時をファイル名に含めてください。
- 作成されたファイル名を関数の戻り値として返してください。

### 呼び出し側の仕様

以下のソースコードで関数を呼び出して確認してください。

```python
url = input("URLを入力してください: ")
file_name = save_url_content(url)
print(f"Content saved in: {file_name}")
```

## 解き方のヒント

- 指定したURLのHTMLコンテンツの先頭500文字を取得し、保存するには、`urllib.request.urlopen()` を使うと便利です。データは `.decode("utf-8")` で文字列に変換してから保存しましょう（このレッスンの「標準ライブラリの活用」を参考にしましょう）。  
  - [Python - urllib.request モジュール - urlopen](https://docs.python.org/ja/3/library/urllib.request.html#urllib.request.urlopen)
- ファイルへの保存はレッスン3を参考にしましょう。

## 実行結果の例

**URLを `https://techacademy.jp` と入力した場合**

```
Content saved in: 20241030_155221.txt
```

**保存されたファイルの内容（例）**

```html
<!doctype html>
<html data-n-head-ssr lang="ja" data-n-head="%7B%22lang%22:%7B%22ssr%22:%22ja%22%7D%7D">
  <head>
    <meta data-n-head="ssr" charset="utf-8">
    <meta data-n-head="ssr" name="viewport" content="width=device-width,initial-scale=1">
    <meta data-n-head="ssr" data-hid="keywords" name="keywords" content="プログラミング, ブートキャンプ, エンジニア, ruby on rails, パーソナルメンター">
    <meta data-n-head="ssr" data-hid="description" name="description" content="【テックアカデミー(TechAcademy)】受講者数No.1のオンラインプログラミングスクール。通過率10%を突破した現役...
```

## 回答

In [7]:
from urllib import request
from datetime import datetime

def save_url_content(url: str) -> str:
  """指定したURLからデータを取得し、先頭500文字を日時のファイル名で保存する"""
  resp = request.urlopen(url)
  body = resp.read().decode('utf-8')
  data = body[:500]
  ts = datetime.now().strftime('%Y%m%d_%H%M%S')
  file_name = f"{ts}.txt"
  
  with open(file_name, 'w', encoding='utf-8') as file:
    file.write(data)

  return file_name

In [8]:
url = input("URLを入力してください: ")
file_name = save_url_content(url)
print(f"Content saved in: {file_name}")

Content saved in: 20250820_174255.txt
