In [1]:
# %%
import re, json, time
from selenium import webdriver
import os


from parsel import Selector

import pandas as pd
import numpy as np

In [2]:
def scroll_page(url):
    # service = Service(EdgeDriverManager().install())

    # options = webdriver.EdgeOptions()
    # options.add_argument("--headless")
    # options.add_argument("--lang=en")
    # options.add_argument(
    #     "user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Edge/104.0.0.0 Safari/537.36"
    # )

    driver = webdriver.Edge()
    driver.get(url)
    driver.implicitly_wait(10)

    time.sleep(3)
    selector = Selector(driver.page_source)
    driver.quit()

    return selector


def scrape_all_data(selector):
    youtube_video_page = []

    all_script_tags = selector.css("script").getall()

    title = selector.css(".title .ytd-video-primary-info-renderer::text").get()

    # https://regex101.com/r/gHeLwZ/1
    views = int(
        re.search(r"(.*)\s", selector.css(".view-count::text").get())
        .group()
        .replace(",", "")
    )

    # https://regex101.com/r/9OGwJp/1
    likes = int(
        re.search(
            r"(.*)\s",
            selector.css(
                "#top-level-buttons-computed > ytd-toggle-button-renderer:first-child #text::attr(aria-label)"
            ).get(),
        )
        .group()
        .replace(",", "")
    )

    date = selector.css("#info-strings yt-formatted-string::text").get()

    duration = selector.css(".ytp-time-duration::text").get()

    # https://regex101.com/r/0JNma3/1
    keywords = (
        "".join(
            re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
        )
        .replace('"', "")
        .split(",")
    )

    # https://regex101.com/r/9VhH1s/1
    thumbnail = re.findall(
        r'\[{"url":"(\S+)","width":\d*,"height":\d*},', str(all_script_tags)
    )[0].split('",')[0]

    channel = {
        # https://regex101.com/r/xFUzq5/1
        "id": "".join(
            re.findall(r'"channelId":"(.*)","isOwnerViewing"', str(all_script_tags))
        ),
        "name": selector.css("#channel-name a::text").get(),
        "link": f'https://www.youtube.com{selector.css("#channel-name a::attr(href)").get()}',
        "subscribers": selector.css("#owner-sub-count::text").get(),
        "thumbnail": selector.css("#img::attr(src)").get(),
    }

    description = selector.css(
        ".ytd-expandable-video-description-body-renderer span:nth-child(1)::text"
    ).get()

    hash_tags = [
        {
            "name": hash_tag.css("::text").get(),
            "link": f'https://www.youtube.com{hash_tag.css("::attr(href)").get()}',
        }
        for hash_tag in selector.css(
            ".ytd-expandable-video-description-body-renderer a"
        )
    ]

    # https://regex101.com/r/onRk9j/1
    category = "".join(
        re.findall(r'"category":"(.*)","publishDate"', str(all_script_tags))
    )

    comments_amount = int(
        selector.css("#count .count-text span:nth-child(1)::text")
        .get()
        .replace(",", "")
    )

    comments = []

    for comment in selector.css("#contents > ytd-comment-thread-renderer"):
        comments.append(
            {
                "author": comment.css("#author-text span::text").get().strip(),
                "link": f'https://www.youtube.com{comment.css("#author-text::attr(href)").get()}',
                "date": comment.css(".published-time-text a::text").get(),
                "likes": comment.css("#vote-count-middle::text").get().strip(),
                "comment": comment.css("#content-text::text").get(),
                "avatar": comment.css("#author-thumbnail #img::attr(src)").get(),
            }
        )

    suggested_videos = []

    for video in selector.css("ytd-compact-video-renderer"):
        suggested_videos.append(
            {
                "title": video.css("#video-title::text").get().strip(),
                "link": f'https://www.youtube.com{video.css("#thumbnail::attr(href)").get()}',
                "channel_name": video.css("#channel-name #text::text").get(),
                "date": video.css("#metadata-line span:nth-child(2)::text").get(),
                "views": video.css("#metadata-line span:nth-child(1)::text").get(),
                "duration": video.css("#overlays #text::text").get().strip(),
                "thumbnail": video.css("#thumbnail img::attr(src)").get(),
            }
        )

    youtube_video_page.append(
        {
            "title": title,
            "views": views,
            "likes": likes,
            "date": date,
            "duration": duration,
            "channel": channel,
            "keywords": keywords,
            "thumbnail": thumbnail,
            "description": description,
            "hash_tags": hash_tags,
            "category": category,
            "suggested_videos": suggested_videos,
            "comments_amount": comments_amount,
            "comments": comments,
        }
    )

    print(json.dumps(youtube_video_page, indent=2, ensure_ascii=False))


def get_info_from_channel(channel_link: str):
    driver = webdriver.Edge()

    driver.get(channel_link)
    driver.maximize_window()

    time.sleep(5)

    selector = Selector(text=driver.page_source)
    driver.quit()

    # channel title
    channel_title = selector.css("#text-container #text::text").get()

    # date joined //*[@id="right-column"]/yt-formatted-string[2]/span[2]
    date_joined = selector.css(
        "#additional-info-container > table > tbody > tr:nth-child(7) > td:nth-child(2) > yt-attributed-string > span > span::text"
    ).get()

    print(date_joined)

    # total views //*[@id="right-column"]/yt-formatted-string[3]

    total_views = selector.css(
        "#additional-info-container > table > tbody > tr:nth-child(6) > td:nth-child(2)::text"
    ).get()

    # total subs //*[@id="subscriber-count"]

    total_subs = selector.css("#subscriber-count::text").get()

    # total videos //*[@id="videos-count"]/span[1]

    total_videos = selector.css("#videos-count > span:nth-child(1)::text").get()

    channel_info = {
        "channel_title": channel_title,
        "date_joined": date_joined,
        "total_views": total_views,
        "total_subs": total_subs,
        "total_videos": total_videos,
    }

    print(json.dumps(channel_info, indent=2, ensure_ascii=False))

    return pd.DataFrame(channel_info, index=[0])


def get_info_from_video(selector):
    # title
    title = "".join(selector.xpath('//*[@id="title"]/h1//text()').getall()).strip()

    # date
    date = selector.css("#info-strings yt-formatted-string::text").get()

    # views
    views = selector.css("span.bold.style-scope.yt-formatted-string::text").get()

    # likes
    likes = selector.css(
        "#segmented-like-button > ytd-toggle-button-renderer > yt-button-shape > button::attr(aria-label)"
    ).get()

    # comments
    comments = selector.css("yt-formatted-string::text").getall()
    next_item = None
    for i, item in enumerate(comments):
        if item == "Comentários":
            if i < len(comments) - 1:
                next_item = comments[i + 1]
                break

    comments_amount = next_item

    # keywords
    # all_script_tags = selector.css("script").getall()
    # keywords = (
    #     "".join(
    #         re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
    #     )
    #     .replace('"', "")
    #     .split(",")
    # )

    print(title, views, likes, date, comments_amount)

    try:
        likes = re.search(r"(\d+)", likes).group()
    except Exception as e:
        likes = 0
    # views = re.search(r"(\d+)", views).group()

    return pd.DataFrame.from_dict(
        {
            "title": [title],
            "views": [views],
            "likes": [likes],
            "date": [date],
            "comments_amount": [comments_amount],
            # "keywords": [keywords],
        }
    )


def parse_channel(selector) -> pd.DataFrame:
    subscribers = selector.css(
        "#subscriber-count.style-scope.ytd-c4-tabbed-header-renderer::text"
    ).get()

    # subscribers = re.search(r"(\d+)", subscribers).group()

    # get recent 5 videos
    channel_name = selector.css(
        "div#channel-header-container yt-formatted-string#text::text"
    ).get()

    if channel_name is None:
        channel_name = selector.css("div#channel-header-container h1#text::text").get()

    print("Channel name: ", channel_name)

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        info["channel_name"] = channel_name
        info["subscribers"] = subscribers
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df


def parse_top_channel(channel_link: str) -> pd.DataFrame:
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.common.by import By

    driver = webdriver.Edge()
    wait = WebDriverWait(driver, 3)
    driver.implicitly_wait(10)

    driver.get(channel_link)
    driver.maximize_window()

    # //*[@id="chips"]/yt-chip-cloud-chip-renderer[2]
    # wait for page to load

    try:
        wait.until(
            EC.presence_of_element_located(
                (By.XPATH, '//*[@id="chips"]/yt-chip-cloud-chip-renderer[2]')
            )
        ).click()
    except Exception as e:
        print("Nao possui aba de videos em alta")
        # return empty dataframe
        # return pd.DataFrame()

    time.sleep(3)
    selector = Selector(text=driver.page_source)
    driver.quit()

    channel_name = (
        selector.css("div#channel-header-container yt-formatted-string#text::text")
        .get()
        .strip()
    )

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        # print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        print(info)
        info["channel_name"] = channel_name
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df

In [3]:
scroll_page("https://www.youtube.com/watch?v=5qap5aO4i9A")

<Selector query=None data='<html style="font-size: 10px;font-fam...'>

Pegar dados

In [4]:
# %%
with open("canais.txt", "r") as f:
    # read each line as a item in a list and remove the \n
    canais = [line.strip() for line in f.readlines()]

base_path = f"./data/{canais[0].split('@')[-1]}/"

df = pd.DataFrame()
df_top = pd.DataFrame()
df_lifetime = pd.DataFrame()
for ch in canais:
    # recent videos
    result = scroll_page(ch + "/videos")
    df_channel = parse_channel(result)
    df = pd.concat([df, df_channel])

    # # top videos
    df_top_channel = parse_top_channel(ch + "/videos")
    df_top = pd.concat([df_top, df_top_channel])

    # lifetime info
    df_lifetime_channel = get_info_from_channel(ch + "/about")
    df_lifetime = pd.concat([df_lifetime, df_lifetime_channel])


os.makedirs(base_path, exist_ok=True)

df.to_csv(base_path + "videos.csv", index=False)
df_top.to_csv(base_path + "top_videos.csv", index=False)
df_lifetime.to_csv(base_path + "lifetime.csv", index=False)

Channel name:  Espaçolaser
Video:  /watch?v=R0N39dn-FmE


 None None None None
Video:  /watch?v=xYJH-9lKF90


Espaçolaser: Depilação ainda é um pesadelo para você? 1,8 mil visualizações Marque este vídeo como "Gostei" com mais 8 pessoas 23 de out. de 2023 None
Video:  /watch?v=uQX5TrpPTlM


Outubro OFF Espaçolaser 1,1 mil visualizações None 29 de set. de 2023 None
Video:  /watch?v=tsI6uIoeTnM


Minha História de Amor Espaçolaser 362 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 15 de ago. de 2023 2
Video:  /watch?v=48slw7lRYRg


Minha História de Amor Espaçolaser 182 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 15 de ago. de 2023 Transcrição
Videos i got:  5


B-U-G-A-M-O-S e queremos bugar você também! 994 mil visualizações Marque este vídeo como "Gostei" com mais 133 pessoas Estreou em 16 de mai. de 2021 None
                                         title                  views likes  \
0  B-U-G-A-M-O-S e queremos bugar você também!  994 mil visualizações   133   

                            date comments_amount  
0  Estreou em 16 de mai. de 2021            None  


O mundo evoluiu. A depilação também. 250 mil visualizações None 12 de mai. de 2022 10
                                  title                  views  likes  \
0  O mundo evoluiu. A depilação também.  250 mil visualizações      0   

                 date comments_amount  
0  12 de mai. de 2022              10  


Ganhe 3 Sessões de Depilação a Laser 119 mil visualizações None 14 de nov. de 2019 Ganhe 3 Sessões de Depilação a Laser
                                  title                  views  likes  \
0  Ganhe 3 Sessões de Depilação a Laser  119 mil visualizações      0   

                 date                       comments_amount  
0  14 de nov. de 2019  Ganhe 3 Sessões de Depilação a Laser  


Espaçolaser: dói? 98 mil visualizações None 12 de mai. de 2022 18
               title                 views  likes                date  \
0  Espaçolaser: dói?  98 mil visualizações      0  12 de mai. de 2022   

  comments_amount  
0              18  


Como é Feita a Depilação a Laser | Espaçolaser 93 mil visualizações Marque este vídeo como "Gostei" com mais 1.812 pessoas 3 de jun. de 2020 None
                                            title                 views likes  \
0  Como é Feita a Depilação a Laser | Espaçolaser  93 mil visualizações     1   

                date comments_amount  
0  3 de jun. de 2020            None  
Videos i got:  5


Inscreveu-se em 23 de abr. de 2018
{
  "channel_title": "Espaçolaser",
  "date_joined": "Inscreveu-se em 23 de abr. de 2018",
  "total_views": "2.296.857 visualizações",
  "total_subs": "14,3 mil inscritos",
  "total_videos": "109"
}


Channel name:  GiOlaser | Inspirada em você
Video:  /watch?v=5t0WaIbUcl4


Transformando Vidas Rosangela 18 visualizações None 26 de out. de 2023 Transcrição
Video:  /watch?v=r5Fv0De0veY


Polineiry e Alisson Transformando Vidas 49 visualizações None 26 de out. de 2023 Transcrição
Video:  /watch?v=lpk-pfJ0u7Q


Cuidado de pai para filho 122 visualizações Marque este vídeo como "Gostei" com mais 5 pessoas 26 de out. de 2023 Transcrição
Video:  /watch?v=BRz6y1MYwng


Transformando Vidas Faustino e Vanessa 15 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa 26 de out. de 2023 Transcrição
Video:  /watch?v=IUNBReB-J7g


GiOlaser Flagship - Anália Franco | Grande Inauguração 146 visualizações Marque este vídeo como "Gostei" com mais 5 pessoas 25 de ago. de 2023 None
Videos i got:  5


Depilação a laser | GiOlaser 181 mil visualizações None 7 de abr. de 2022 None
                          title                  views  likes  \
0  Depilação a laser | GiOlaser  181 mil visualizações      0   

                date comments_amount  
0  7 de abr. de 2022            None  


GiOlaser | Inspirada em você 152 mil visualizações None 15 de mar. de 2022 None
                          title                  views  likes  \
0  GiOlaser | Inspirada em você  152 mil visualizações      0   

                 date comments_amount  
0  15 de mar. de 2022            None  


Dia das mães | GiOlaser 57 mil visualizações None 27 de abr. de 2022 None
                     title                 views  likes                date  \
0  Dia das mães | GiOlaser  57 mil visualizações      0  27 de abr. de 2022   

  comments_amount  
0            None  


Seja um franqueado GiOlaser! 16 mil visualizações None 21 de nov. de 2022 1
                          title                 views  likes  \
0  Seja um franqueado GiOlaser!  16 mil visualizações      0   

                 date comments_amount  
0  21 de nov. de 2022               1  


Saúde e beleza acessível para todos | GiOlaser 9,4 mil visualizações None 31 de mar. de 2022 None
                                            title                  views  \
0  Saúde e beleza acessível para todos | GiOlaser  9,4 mil visualizações   

   likes                date comments_amount  
0      0  31 de mar. de 2022            None  
Videos i got:  5


Inscreveu-se em 12 de dez. de 2017
{
  "channel_title": "GiOlaser | Inspirada em você",
  "date_joined": "Inscreveu-se em 12 de dez. de 2017",
  "total_views": "484.091 visualizações",
  "total_subs": "732 inscritos",
  "total_videos": "80"
}


Channel name:  Onodera Estética
Video:  /watch?v=KKsr0PiPv_M


NATAL ENTRE AMIGAS - ONODERA 29 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa 1 de dez. de 2023 Transcrição
Video:  /watch?v=jN3x2N64Z0M


TRATAMENTO ONODERA - LASER LAVIEEN 87 visualizações None 1 de ago. de 2023 Transcrição
Video:  /watch?v=_FZ5VbJ_QRc


ONOCAST com Edna Onodera e Dani Magagna. | Fê Palermo 97 visualizações None 18 de jul. de 2023 1
Video:  /watch?v=2K6yaBFel_g


ONOCAST com Edna Onodera e Dani Magagna. | Dani Junco 65 visualizações Marque este vídeo como "Gostei" com mais 3 pessoas Estreou em 30 de jun. de 2023 Transcrição
Video:  /watch?v=gjmEKDcp-Z8


ONOCAST com Edna Onodera e Dani Magagna. | Cacau Aguiar 115 visualizações None Estreou em 17 de mai. de 2023 Transcrição
Videos i got:  5


ONOCAST com Edna Onodera e Dani Magagna. | Cris Duarte 264 visualizações None Estreou em 17 de abr. de 2023 1
                                               title              views  \
0  ONOCAST com Edna Onodera e Dani Magagna. | Cri...  264 visualizações   

   likes                           date comments_amount  
0      0  Estreou em 17 de abr. de 2023               1  


 None None None None
  title views  likes  date comments_amount
0        None      0  None            None


ONOCAST com Edna Onodera e Dani Magagna. | Cacau Aguiar 115 visualizações None Estreou em 17 de mai. de 2023 Transcrição
                                               title              views  \
0  ONOCAST com Edna Onodera e Dani Magagna. | Cac...  115 visualizações   

   likes                           date comments_amount  
0      0  Estreou em 17 de mai. de 2023     Transcrição  


ONODERA 42 ANOS: CONHEÇA A TRAJETÓRIAS DESSAS MULHERES REAIS 102 visualizações Marque este vídeo como "Gostei" com mais 4 pessoas 5 de abr. de 2023 Transcrição
                                               title              views likes  \
0  ONODERA 42 ANOS: CONHEÇA A TRAJETÓRIAS DESSAS ...  102 visualizações     4   

                date comments_amount  
0  5 de abr. de 2023     Transcrição  


ONOCAST com Edna Onodera e Dani Magagna. | Fê Palermo 97 visualizações None 18 de jul. de 2023 1
                                               title             views  likes  \
0  ONOCAST com Edna Onodera e Dani Magagna. | Fê ...  97 visualizações      0   

                 date comments_amount  
0  18 de jul. de 2023               1  
Videos i got:  5


Inscreveu-se em 20 de mar. de 2023
{
  "channel_title": "Onodera Estética",
  "date_joined": "Inscreveu-se em 20 de mar. de 2023",
  "total_views": "1.277 visualizações",
  "total_subs": "45 inscritos",
  "total_videos": "19"
}


last 30 days

In [5]:
# read channel IDs

with open("canais.txt", "r") as f:
    canais = f.readlines()


canais = [c.strip() for c in canais]
# take only the string after the last slash
canais = [c.split("/")[-1] for c in canais]

print(canais)

base_url = "https://socialblade.com/youtube/channel/"

social_blade_data = []
for c in canais:
    response = scroll_page(base_url + c)

    # last 30 days views #socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span
    views = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span::text"
    ).get()
    subs = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(2) > span::text"
    ).get()

    if views is None or subs is None:
        views = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(3) > span::text"
        ).get()
        subs = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(2) > span::text"
        ).get()

    social_blade_data.append({"Channel": c, "views": views, "subs": subs})

last_30days = pd.DataFrame(social_blade_data)
last_30days = last_30days.fillna("0")

last_30days.to_parquet(
    f'data/{canais[0].split("@")[-1]}/last_30_days.parquet', index=False
)

['@EspacolaserNews', '@giolaseroficial', '@Onodera.Estetica']
