generated from kawamataryo/resume-template
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
2 changed files
with
42 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,38 @@ | ||
# フリーランス(2023/04〜)職歴詳細 | ||
|
||
## 商品情報スクレイピング (2023/04-2023/05) | ||
|
||
### 概要 | ||
|
||
- 2 つの商品サイトからそれぞれ 10 万件の商品情報をスクレイピング | ||
- 収集した情報を記載した Excel シートを成果物として納品 | ||
|
||
### 採用技術 | ||
|
||
- Python | ||
- Scrapy | ||
- SQLAlchemy | ||
- alembic | ||
- flake8 | ||
- mypy | ||
- line-bot-sdk | ||
- MySQL | ||
|
||
### 課題 | ||
|
||
- 商品数が多くスクレイピングに時間がかかる | ||
- 負荷をかけないよう設定していたため、1 つの商品サイトにつき 1 日で 1 万件程度のスクレイピングだった | ||
- 2 サイトを並列でスクレイピングすることで、2 週間程度でスクレイピングを完了した | ||
- クライアントへも負荷をかけないよう時間をかけて進めていることを伝え、調整しながら作業を進めた | ||
|
||
### 取り組んだ内容 | ||
|
||
- 要件定義 | ||
- 工数、費用見積もり | ||
- 2 つの商品サイトからそれぞれ 10 万件の商品情報をスクレイピング | ||
- Scrapy を使い、スクレイピングプログラムを実装 | ||
- SQLAlchemy を使い、取得した商品情報を MySQL に永続化 | ||
- line-bot-sdk でスクレイピング状況の通知用 LINE Bot を実装 | ||
- MySQL からデータをダンプし、Excel シートを整形、成果物として納品 | ||
|
||
--- |