# IMDB

# Mini Project01 - IMDB web scraping

In [3]:
library(tidyverse)
library(rvest) # scrape data from internet

In [4]:
url <- "https://www.imdb.com/search/title/?groups=top_100&sort=user_rating,desc"

In [5]:
print(url)

[1] "https://www.imdb.com/search/title/?groups=top_100&sort=user_rating,desc"


In [6]:
# read html
imdb <- read_html(url)

In [7]:
imdb

{html_document}
<html xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body id="styleguide-v2" class="fixed">\n            <img height="1" widt ...

In [8]:
# movie title
titles <- imdb %>%
    html_nodes("h3.lister-item-header") %>%
    html_text2()

In [9]:
titles[1:10]

In [13]:
# rating 
ratings <- imdb %>%
    html_nodes("div.ratings-imdb-rating") %>%
    html_text2() %>%
    as.numeric()

In [15]:
ratings[1:10]

In [16]:
# number of votes
num_votes <- imdb %>%
    html_nodes("p.sort-num_votes-visible") %>%
    html_text2()

In [17]:
# build a dataset
df <- data.frame(
    title = titles,
    rating = ratings,
    num_vote = num_votes
)

head(df)

Unnamed: 0_level_0,title,rating,num_vote
Unnamed: 0_level_1,<chr>,<dbl>,<chr>
1,1. The Shawshank Redemption (1994),9.3,"Votes: 2,683,070 | Gross: $28.34M | Top 250: #1"
2,2. The Godfather (1972),9.2,"Votes: 1,860,268 | Gross: $134.97M | Top 250: #2"
3,3. The Dark Knight (2008),9.0,"Votes: 2,656,494 | Gross: $534.86M | Top 250: #3"
4,4. The Lord of the Rings: The Return of the King (2003),9.0,"Votes: 1,848,912 | Gross: $377.85M | Top 250: #7"
5,5. The Godfather Part II (1974),9.0,"Votes: 1,273,224 | Gross: $57.30M | Top 250: #4"
6,6. Schindler's List (1993),9.0,"Votes: 1,357,518 | Gross: $96.90M | Top 250: #6"


# SpecPhone

#  Mini Project 02 - Specphone Phone Database

In [3]:
library(tidyverse)
library(rvest) # scrape data from internet

In [4]:
url <- read_html("https://specphone.com/Samsung-Galaxy-A04.html")

In [5]:
att <- url %>%
    html_nodes("div.topic") %>%
    html_text2()

value <- url %>%
    html_nodes("div.detail") %>%
    html_text2()

In [6]:
data.frame(attribute = att, value = value)

attribute,value
<chr>,<chr>
วันเปิดตัว,ตุลาคม 2565
วันวางจำหน่าย,ยังไม่วางจำหน่าย
ขนาด,164.40 x 76.30 x 9.10 มม.
น้ำหนัก,192 กรัม
วัสดุ,"Glass front, plastic back, plastic frame"
SIM,"รองรับ 2 ซิมการ์ด (nano sim, nano sim)"
Technology,"HSPA 42.2/5.76 Mbps, LTE-A"
2G,850/900/1800/1900
3G,850/900/1900/2100
4G,850/900/1900/2100/2600


In [7]:
# All Samsung Smartphones
samsung_url <- read_html("https://specphone.com/brand/Samsung")

In [8]:
# links to all samsung smartphone
links <- samsung_url %>%
    html_nodes("li.mobile-brand-item a") %>%
    html_attr("href")

In [9]:
full_links <- paste0("https://specphone.com",links)

In [10]:
result <- data.frame()

for (link in full_links[1:10]) {
    ss_topic <- link %>%
        read_html() %>%
        html_nodes("div.topic") %>%
        html_text2()

    ss_detail <- link %>%
        read_html() %>%
        html_nodes("div.detail") %>%
        html_text2()

    tmp <- data.frame(attribute = ss_topic,
                      value = ss_detail)

    result <- bind_rows(result, tmp)
    print("Progress ...")
}

print(result)

[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
[1] "Progress ..."
         attribute
1          วันเปิดตัว
2      วันวางจำหน่าย
3             ขนาด
4            น้ำหนัก
5              วัสดุ
6              SIM
7       Technology
8               2G
9               3G
10              4G
11              5G
12         ความเร็ว
13          ประเภท
14       ขนาดหน้าจอ
15      ความละเอียด
16     ระบบปฏิบัติการ
17      ชิปประมวลผล
18         ชิปกราฟิก
19      หน่วยความจำ
20           ความจุ
21     Memory Card
22         กล้องหลัก
23  ความละเอียดวีดีโอ
24         กล้องหน้า
25       Bluetooth
26           Wi-Fi
27             USB
28             GPS
29             NFC
30           ความจุ
31          ประเภท
32   Fast Charging
33         วันเปิดตัว
34     วันวางจำหน่าย
35            ขนาด
36           น้ำหนัก
37             วัสดุ
38             SIM
39      Technology
40           

In [11]:
print(head(result))

    attribute                                    value
1     วันเปิดตัว                              มิถุนายน 2565
2 วันวางจำหน่าย                            ยังไม่วางจำหน่าย
3        ขนาด                165.40 x 76.90 x 8.40 มม.
4       น้ำหนัก                                  192 กรัม
5         วัสดุ Glass front, plastic back, plastic frame
6         SIM      รองรับ 2 ซิมการ์ด (nano sim, nano sim)


In [64]:
# write csv
write_csv(result, "result_ss_phone.csv")