# Web Scraping IMDB most popular movie

Proyek ini bertujuan untuk mengambil data judul, rating, poster, dan review teratas dari IMDB most popular movie

## Persiapan

### Import Library

In [60]:
from bs4 import BeautifulSoup
import requests
import os

### Spesifikasikan URL tujuan

Proyek ini akan mengambil IMDB most popular movie yang terdapat pada halaman berikut : https://www.imdb.com/chart/moviemeter/

In [3]:
url = "https://www.imdb.com/chart/moviemeter/"

## Scraping

Buat fungsi yang dapat mengakses dan mengembalikan halaman url tujuan serta mencetak kode status dan judul halaman.

In [4]:
def get_the_page(url):
    res = requests.get(url)
    print(res.status_code, end=": ") # status_code berisi kode status halaman yang diakses, jika 200 berarti halaman bisa diakses
    
    # page disini berisi seluruh halaman HTML
    page = BeautifulSoup(res.content, "html.parser")
    print(page.h1.text)
    
    return page

In [5]:
list_movie_page = get_the_page(url)

200: Most Popular Movies


Status kode 200 berarti website bisa diakses dan kita bisa mulai scraping

### Judul

Mulai dengan mengambil judul. Klik kanan pada judul halaman kemudian inspect elemen. 

![](https://dssc-unmul.github.io/assets/img/2022-05-22-14-00-12.png)

Jika diperhatikan judul film berada dalam tag `a` yang berada dalam tag `td`. Tag `td` memiliki atribut `class` yang bernilai `titleColumn`.

Namun jika diperhatikan lebih lanjut lagi tag `td` untuk judul film berada dalam sebuah tag yang sama dengan tag `td` milik poster dan rating, yaitu tag `tr`.

![](https://dssc-unmul.github.io/assets/img/2022-05-22-14-35-10.png)

Sehingga untuk mendapatkan seluruh konten dengan tag `tr` dapat menggunakan method `findAll({tag})`

In [20]:
# simpan dalam variabel
movie = list_movie_page.findAll("tr")

In [14]:
# jumlah container judul
len(movie)

101

Jumlah film harusnya berjumlah 100. Jumlah 101 karena tag `tr` yang bukan film juga ikut dihitung. Jadi kita bisa buang elemen pertamanya

Method `findAll` mengembalikan list. Sehingga cara mengakses elemen list tersebut sama seperti mengakses list python biasa, dengan kurung siku.

In [21]:
print("sebelum")
print(movie[0])

movie = movie[1:]

print("\nsesudah")
print(movie[0])

sebelum
<tr>
<th></th>
<th>Rank &amp; Title</th>
<th>IMDb Rating</th>
<th>Your Rating</th>
<th></th>
</tr>

sesudah
<tr>
<td class="posterColumn">
<span data-value="1" name="rk"></span>
<span data-value="7.4" name="ir"></span>
<span data-value="1.6514496E12" name="us"></span>
<span data-value="162948" name="nv"></span>
<span data-value="-3.5999999999999996" name="ur"></span>
<a href="/title/tt9419884/"> <img alt="Doctor Strange in the Multiverse of Madness" height="67" src="https://m.media-amazon.com/images/M/MV5BNWM0ZGJlMzMtZmYwMi00NzI3LTgzMzMtNjMzNjliNDRmZmFlXkEyXkFqcGdeQXVyMTM1MTE1NDMx._V1_UY67_CR0,0,45,67_AL_.jpg" width="45"/>
</a> </td>
<td class="titleColumn">
<a href="/title/tt9419884/" title="Sam Raimi (dir.), Benedict Cumberbatch, Elizabeth Olsen">Doctor Strange in the Multiverse of Madness</a>
<span class="secondaryInfo">(2022)</span>
<div class="velocity">1
(no change)
</div>
</td>
<td class="ratingColumn imdbRating">
<strong title="7.4 based on 162,948 user ratings">7.4</st

Ingat bahwa judul film berada dalam tag `a` yang berada dalam tag `td`. Tag `td` memiliki atribut `class` yang bernilai `titleColumn`.

Cara mendapat seluruh tag dengan ciri-ciri tersebut adalah dengan method `find` dengan sintaks `{objek_halaman}.find({tag}, {atribut:nilai_atribut})`

In [26]:
movie[0].find("td", {"class":"titleColumn"})

<td class="titleColumn">
<a href="/title/tt9419884/" title="Sam Raimi (dir.), Benedict Cumberbatch, Elizabeth Olsen">Doctor Strange in the Multiverse of Madness</a>
<span class="secondaryInfo">(2022)</span>
<div class="velocity">1
(no change)
</div>
</td>

Cara mengakses tag didalamnya sama dengan mengakses atribut dalam objek python seperti biasa. Untuk mengakses tag `a` bisa dengan `movie[0].find("td", {"class":"titleColumn"}).a`

In [30]:
# mengakses tag
print(movie[0].find("td", {"class":"titleColumn"}).a)

# mengakses isi teks dari sebuah tag
print("\ntambahkan .text")
print(movie[0].find("td", {"class":"titleColumn"}).a.text)

<a href="/title/tt9419884/" title="Sam Raimi (dir.), Benedict Cumberbatch, Elizabeth Olsen">Doctor Strange in the Multiverse of Madness</a>

tambahkan .text
Doctor Strange in the Multiverse of Madness


### Rating

Cara yang sama bisa digunakan untuk mendapatkan rating.

![](https://dssc-unmul.github.io/assets/img/2022-05-22-14-32-06.png)

In [66]:
movie[0].find("td", {"class":"ratingColumn imdbRating"}).strong.text

'7.4'

### Poster

Untuk poster kita harus masuk ke halaman film nya karena resolusi dari poster yang ada dihalaman saat ini kecil.

Link ke halaman film ada pada tag `a` judul dengan atribut `href`. Untuk mengakses atribut tertentu gunakan slicing seperti dalam list. Contoh: `a["href]`

In [32]:
movie[0].find("td", {"class":"titleColumn"}).a["href"]

'/title/tt9419884/'

Link yang keluar hanyalah sebagian dari url lengkapnya. Cukup tambahkan http://imdb.com maka kita dapat url lengkapnya.

Karena kita sudah membuat fungsi untuk mengembalikan halaman html, sekarang cukup kita panggil fungsi tersebut dan masukkan url lengkap diatas

In [33]:
url_film = "https://imdb.com" + movie[0].find("td", {"class":"titleColumn"}).a["href"]

print(url_film)

https://imdb.com/title/tt9419884/


In [34]:
# dapatkan halamannya
strange_page = get_the_page(url_film)

200: Doctor Strange in the Multiverse of Madness


Klik kanan pada poster film, kemudian inspect element.

![](https://dssc-unmul.github.io/assets/img/2022-05-22-15-10-22.png)

Cari tag `div` yang didalamnya terdapat tag `img` yaitu letak gambar dalam struktur html.

![](https://dssc-unmul.github.io/assets/img/2022-05-22-15-13-36.png)

Dalam tag `img` ini terdapat atribut `class` yang bernilai `ipc-image`. Dapatkan nilai atribut `src` untuk link ke gambarnya.

In [38]:
img_tag = strange_page.find("img", {"class":"ipc-image"})

In [39]:
# akses nilai atribut src
img_tag["src"]

'https://m.media-amazon.com/images/M/MV5BZWJjM2FlMzYtNWQ3Ny00MzM0LTgzY2EtNWU3YzExYmZhMWRiXkEyXkFqcGdeQXVyMTQyMTMwOTk0._V1_QL75_UX190_CR0,2,190,281_.jpg'

### Review Teratas

Sama dengan sebelumnya, inspect elemen

![](https://dssc-unmul.github.io/assets/img/2022-05-22-15-21-00.png)

Temukan tag dan atribut yang unik

![](https://dssc-unmul.github.io/assets/img/2022-05-22-15-22-12.png)

In [57]:
strange_page.find("section", {"data-testid":"UserReviews"}).find("div", {"class":"ipc-html-content-inner-div"}).text

'This won\'t be a fan favourite but mixing the marvel cinema experience with a splash of "old school" horror hit the target for me.It\'s weird, but id go as far as saying that a marvel movie was the best horror flick I\'ve seen in over a decade.Dark, creepy and visually epic.The plot was pretty basic, but i had fun watching.I like that they\'re mixing it up.'

## Wrap it all up

Setelah kita mendapatkan data data yang dibutuhkan, selanjutnya kita dapat menjalankan seluruh kode dalam for loop untuk mengakses setiap filmnya.

Namun sebelum itu buat file dulu untuk menyimpan datanya. Disini kita menggunakan .tsv (tab-separated value) yaitu nilai yang dipisahkan tab, bukan koma. Karena dalam review user bisa saja mengandung koma dan merusak struktur kolom jika menggunakan .csv. Kemudian buat juga folder untuk menyimpan poster yang akan didownload

In [78]:
f = open("data_imdb.tsv", "a")
# pemisah menggunakan tab \t
f.write("judul\trating\ttopreview\n") # untuk header atau nama kolom

23

In [61]:
os.mkdir("poster")

cara mendownload gambar

```python
import requests
with open('00000001.jpg','wb') as f:
    f.write(requests.get('http://www.gunnerkrigg.com//comics/00000001.jpg').content)
```

In [79]:
# loop sebanyak jumlah film
for i in range(len(movie)):
    print(i)
    judul = movie[i].find("td", {"class":"titleColumn"}).a.text
    
    # ada film yang belum ada ratingnya
    # berarti tidak ada review juga
    try :
        rating = movie[i].find("td", {"class":"ratingColumn imdbRating"}).strong.text
        review = page_film.find("section", {"data-testid":"UserReviews"}).find("div", {"class":"ipc-html-content-inner-div"}).text
    except: 
        rating = "-"
        review = "-"
        
    url = movie[i].find("td", {"class":"titleColumn"}).a["href"]
    page_film = get_the_page("https://imdb.com" + url)
    
    # # poster
    # url_poster = page_film.find("img", {"class":"ipc-image"})["src"]
    # # beri nama filenya sesuai judul filmnya tanpa spasi
    # with open(f"poster/{judul.replace(' ' , '')}.jpg", "wb") as g:
    #     g.write(requests.get(url_poster).content)
    
    f.write(judul + "\t" + rating + "\t" + review + "\n")

f.close()

0
200: Doctor Strange in the Multiverse of Madness
1
200: Avatar: The Way of Water
2
200: The Northman
3
200: The Batman
4
200: The Lost City
5
200: Everything Everywhere All at Once
6
200: Top Gun: Maverick
7
200: Firestarter
8
200: Senior Year
9
200: Operation Mincemeat
10
200: 365 Days: This Day
11
200: Uncharted
12
200: Doctor Strange
13
200: 365 Days
14
200: Fantastic Beasts: The Secrets of Dumbledore
15
200: X
16
200: The Bad Guys
17
200: Spider-Man: No Way Home
18
200: Avatar
19
200: Death on the Nile
20
200: Thor: Love and Thunder
21
200: Top Gun
22
200: Sonic the Hedgehog 2
23
200: 2000 Mules
24
200: The Godfather
25
200: Along for the Ride
26
200: The Unbearable Weight of Massive Talent
27
200: The Rum Diary
28
200: The Takedown
29
200: Ambulance
30
200: Dune
31
200: Downton Abbey: A New Era
32
200: The Gentlemen
33
200: Jurassic World Dominion
34
200: Thar
35
200: Aquaman
36
200: K.G.F: Chapter 2
37
200: Father of the Bride
38
200: Don't Worry Darling
39
200: Pirates of the 