Skip to content

This is my capstone project as a student in data analytics specialization at Algoritma Data Science Academy. I scrap one website and collect the data. My code that contain step by step when i scrap the website is in file with name "Notebook Skeleton Guide Capstone Beautiful Soup". File README.md is my guide to build this project

Notifications You must be signed in to change notification settings

sabrinaa311/Capstone-Data-Analytics-Specialization-web-scrapping-

Repository files navigation

Web-Scrapping using Beautifulsoup

Projek ini dikembangkan sebagai salah satu capstone project dari Algoritma Academy Data Analytics Specialization. Deliverables yang diharapkan dari projek ini adalah melakukan simple webscrapping untuk mendapatkan informasi. Untuk step by step guide, Bapak Ibu dipersilahkan untuk membuka git saya Click here. Kita juga akan memanfaatkan flask dashboard sederhana untuk menampilkan hasil scrap dan visualisasi kita.

Dependencies

  • beautifulSoup4
  • pandas
  • flask
  • matplotlib

Atau Bapak Ibu cukup menginstall requirements.txt dengan cara berikut

pip install -r requirements.txt

Rubics

  • Environment preparation (2 points)
  • Finding the right key to scrap the data & Extracting the right information (5 points)
  • Creating data frame & Data wrangling (5 points)
  • Creating a tidy python notebook as a report. (2 points)
  • Implement it on flask dashboard (2 points)

What You Need to Do

  • Silahkan mencoba melakukan scraping soal di bawah menggunakan beautiful soup di notebook Bapak/Ibu terlebih dahulu.
  • Bapak/Ibu dapat men-clone repo ini.
  • Silahkan buka notebook template pada capstone ini dan isi sesuai dengan arahan yang ada. Pastikan Bapak/Ibu memberikan analisa yang dibutuhkan pada notebook tersebut.
  • File di repo ini adalah skeleton yang dapat digunakan untuk membuat flask dashboard sederhana.
  • Silahkan isi di bagian yang masih kosong.
  • Isi fungsi scrap dengan proses scraping yang sudah Bapak/Ibu lakukan di notebook.
table = soup.find(___)
tr = table.find_all(___)
  • Isi bagian ini untuk menyimpan hasil scrap yang Bapak/Ibu buat menjadi sebuah dataframe.
df = pd.DataFrame(name of your tupple, columns = (name of the columns))
  • Terakhir Bapak/Ibu dapat menggunakan fungsi scrap dengan cara mengisi bagian berikut dengan link web yang Bapak/Ibu scrap.
df = scrap(___) #insert url here
  • Bapak/Ibu juga dapat bermain dengan UI nya pada index.html yang dimana Bapak/Ibu dapat mengikuti comment yang ada untuk mengetahui bagian mana yang dapat diubah.

The Final Mission

Pada captsone kali ini, Bapak Ibu bisa memilih salah satu soal ini untuk dikerjakan.

  1. (Easy) Data Volume Penjualan Ethereum dari https://www.coingecko.com/en/coins/ethereum/historical_data/usd?start_date=2020-01-01&end_date=2021-06-30#panel

    • Dari halaman tersebut carilah Date, dan Volume.
    • Buat lah plot pergerakan volume perdagangan dari Ethereum.
  2. (Medium) Data kurs US Dollar ke rupiah dari https://www.exchange-rates.org/history/IDR/USD/T

    • Dari halaman tersebut carilah harga harian, dan tanggal
    • Bualah plot pergerakan kurs USD
  3. (Hard) Data film yang rilis di tahun 2021 dari https://www.imdb.com/search/title/?release_date=2021-01-01,2021-12-31

    • Dari Halaman tersebut carilah judul , imdb rating , metascore, dan votes
    • Buatlah plot dari 7 film paling populer di tahun 2021.

Happy learning!

About

This is my capstone project as a student in data analytics specialization at Algoritma Data Science Academy. I scrap one website and collect the data. My code that contain step by step when i scrap the website is in file with name "Notebook Skeleton Guide Capstone Beautiful Soup". File README.md is my guide to build this project

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published