In [1]:
# %%
import re, json, time
from selenium import webdriver
import os



from parsel import Selector

import pandas as pd
import numpy as np


In [2]:
def scroll_page(url):
    # service = Service(EdgeDriverManager().install())

    # options = webdriver.EdgeOptions()
    # options.add_argument("--headless")
    # options.add_argument("--lang=en")
    # options.add_argument(
    #     "user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Edge/104.0.0.0 Safari/537.36"
    # )

    driver = webdriver.Edge()
    driver.get(url)
    driver.implicitly_wait(10)

    time.sleep(3)
    selector = Selector(driver.page_source)
    driver.quit()

    return selector


def scrape_all_data(selector):
    youtube_video_page = []

    all_script_tags = selector.css("script").getall()

    title = selector.css(".title .ytd-video-primary-info-renderer::text").get()

    # https://regex101.com/r/gHeLwZ/1
    views = int(
        re.search(r"(.*)\s", selector.css(".view-count::text").get())
        .group()
        .replace(",", "")
    )

    # https://regex101.com/r/9OGwJp/1
    likes = int(
        re.search(
            r"(.*)\s",
            selector.css(
                "#top-level-buttons-computed > ytd-toggle-button-renderer:first-child #text::attr(aria-label)"
            ).get(),
        )
        .group()
        .replace(",", "")
    )

    date = selector.css("#info-strings yt-formatted-string::text").get()

    duration = selector.css(".ytp-time-duration::text").get()

    # https://regex101.com/r/0JNma3/1
    keywords = (
        "".join(
            re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
        )
        .replace('"', "")
        .split(",")
    )

    # https://regex101.com/r/9VhH1s/1
    thumbnail = re.findall(
        r'\[{"url":"(\S+)","width":\d*,"height":\d*},', str(all_script_tags)
    )[0].split('",')[0]

    channel = {
        # https://regex101.com/r/xFUzq5/1
        "id": "".join(
            re.findall(r'"channelId":"(.*)","isOwnerViewing"', str(all_script_tags))
        ),
        "name": selector.css("#channel-name a::text").get(),
        "link": f'https://www.youtube.com{selector.css("#channel-name a::attr(href)").get()}',
        "subscribers": selector.css("#owner-sub-count::text").get(),
        "thumbnail": selector.css("#img::attr(src)").get(),
    }

    description = selector.css(
        ".ytd-expandable-video-description-body-renderer span:nth-child(1)::text"
    ).get()

    hash_tags = [
        {
            "name": hash_tag.css("::text").get(),
            "link": f'https://www.youtube.com{hash_tag.css("::attr(href)").get()}',
        }
        for hash_tag in selector.css(
            ".ytd-expandable-video-description-body-renderer a"
        )
    ]

    # https://regex101.com/r/onRk9j/1
    category = "".join(
        re.findall(r'"category":"(.*)","publishDate"', str(all_script_tags))
    )

    comments_amount = int(
        selector.css("#count .count-text span:nth-child(1)::text")
        .get()
        .replace(",", "")
    )

    comments = []

    for comment in selector.css("#contents > ytd-comment-thread-renderer"):
        comments.append(
            {
                "author": comment.css("#author-text span::text").get().strip(),
                "link": f'https://www.youtube.com{comment.css("#author-text::attr(href)").get()}',
                "date": comment.css(".published-time-text a::text").get(),
                "likes": comment.css("#vote-count-middle::text").get().strip(),
                "comment": comment.css("#content-text::text").get(),
                "avatar": comment.css("#author-thumbnail #img::attr(src)").get(),
            }
        )

    suggested_videos = []

    for video in selector.css("ytd-compact-video-renderer"):
        suggested_videos.append(
            {
                "title": video.css("#video-title::text").get().strip(),
                "link": f'https://www.youtube.com{video.css("#thumbnail::attr(href)").get()}',
                "channel_name": video.css("#channel-name #text::text").get(),
                "date": video.css("#metadata-line span:nth-child(2)::text").get(),
                "views": video.css("#metadata-line span:nth-child(1)::text").get(),
                "duration": video.css("#overlays #text::text").get().strip(),
                "thumbnail": video.css("#thumbnail img::attr(src)").get(),
            }
        )

    youtube_video_page.append(
        {
            "title": title,
            "views": views,
            "likes": likes,
            "date": date,
            "duration": duration,
            "channel": channel,
            "keywords": keywords,
            "thumbnail": thumbnail,
            "description": description,
            "hash_tags": hash_tags,
            "category": category,
            "suggested_videos": suggested_videos,
            "comments_amount": comments_amount,
            "comments": comments,
        }
    )

    print(json.dumps(youtube_video_page, indent=2, ensure_ascii=False))


def get_info_from_channel(channel_link: str):
    driver = webdriver.Edge()

    driver.get(channel_link)
    driver.maximize_window()

    time.sleep(5)

    selector = Selector(text=driver.page_source)
    driver.quit()

    # channel title
    channel_title = selector.css("#text-container #text::text").get()

    # date joined //*[@id="right-column"]/yt-formatted-string[2]/span[2]
    date_joined = selector.css(
        "#right-column > yt-formatted-string:nth-child(2) > span:nth-child(2)::text"
    ).get()

    # total views //*[@id="right-column"]/yt-formatted-string[3]

    total_views = selector.css(
        "#right-column > yt-formatted-string:nth-child(3)::text"
    ).get()

    # total subs //*[@id="subscriber-count"]

    total_subs = selector.css("#subscriber-count::text").get()

    # total videos //*[@id="videos-count"]/span[1]

    total_videos = selector.css("#videos-count > span:nth-child(1)::text").get()

    channel_info = {
        "channel_title": channel_title,
        "date_joined": date_joined,
        "total_views": total_views,
        "total_subs": total_subs,
        "total_videos": total_videos,
    }

    print(json.dumps(channel_info, indent=2, ensure_ascii=False))

    return pd.DataFrame(channel_info, index=[0])


def get_info_from_video(selector) -> dict[str, str | int]:
    # title
    title = selector.css(".title .ytd-video-primary-info-renderer::text").get()

    if title == None:
        title = selector.css(
            "yt-formatted-string.style-scope.ytd-watch-metadata span.style-scope.yt-formatted-string::text"
        ).get()

    print(title)

    # date
    date = selector.css("#info-strings yt-formatted-string::text").get()

    # views
    views = selector.css("span.bold.style-scope.yt-formatted-string::text").get()

    # likes
    likes = selector.css(
        "#segmented-like-button > ytd-toggle-button-renderer > yt-button-shape > button::attr(aria-label)"
    ).get()

    # comments
    try:
        comments_amount = int(
            selector.css("#count .count-text span:nth-child(1)::text")
            .get()
            .replace(",", "")
        )
    except Exception as e:
        comments_amount = 0

    # keywords
    # all_script_tags = selector.css("script").getall()
    # keywords = (
    #     "".join(
    #         re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
    #     )
    #     .replace('"', "")
    #     .split(",")
    # )

    print(title, views, likes, date, comments_amount)

    try:
        likes = re.search(r"(\d+)", likes).group()
    except Exception as e:
        likes = 0
    # views = re.search(r"(\d+)", views).group()

    return pd.DataFrame.from_dict(
        {
            "title": [title],
            "views": [views],
            "likes": [likes],
            "date": [date],
            "comments_amount": [comments_amount],
            # "keywords": [keywords],
        }
    )


def parse_channel(selector) -> pd.DataFrame:
    subscribers = selector.css(
        "#subscriber-count.style-scope.ytd-c4-tabbed-header-renderer::text"
    ).get()

    # subscribers = re.search(r"(\d+)", subscribers).group()

    # get recent 5 videos
    channel_name = (
        selector.css("div#channel-header-container yt-formatted-string#text::text")
        .get()
        .strip()
    )

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        info["channel_name"] = channel_name
        info["subscribers"] = subscribers
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df


def parse_top_channel(channel_link: str) -> pd.DataFrame:
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.common.by import By

    driver = webdriver.Edge()
    wait = WebDriverWait(driver, 3)
    driver.implicitly_wait(10)

    driver.get(channel_link)
    driver.maximize_window()

    # //*[@id="chips"]/yt-chip-cloud-chip-renderer[2]
    # wait for page to load

    try:
        wait.until(
            EC.presence_of_element_located(
                (By.XPATH, '//*[@id="chips"]/yt-chip-cloud-chip-renderer[2]')
            )
        ).click()
    except Exception as e:
        print("Nao possui aba de videos em alta")
        # return empty dataframe
        # return pd.DataFrame()

    time.sleep(3)
    selector = Selector(text=driver.page_source)
    driver.quit()

    channel_name = (
        selector.css("div#channel-header-container yt-formatted-string#text::text")
        .get()
        .strip()
    )

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        # print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        print(info)
        info["channel_name"] = channel_name
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df



Pegar dados

In [3]:

# %%
with open("canais.txt", "r") as f:
    # read each line as a item in a list and remove the \n
    canais = [line.strip() for line in f.readlines()]

base_path = f"./data/{canais[0].split('@')[-1]}/"

df = pd.DataFrame()
df_top = pd.DataFrame()
df_lifetime = pd.DataFrame()
for ch in canais:
    # recent videos
    result = scroll_page(ch + "/videos")
    df_channel = parse_channel(result)
    df = pd.concat([df, df_channel])

    # top videos
    df_top_channel = parse_top_channel(ch + "/videos")
    df_top = pd.concat([df_top, df_top_channel])

    # lifetime info
    df_lifetime_channel = get_info_from_channel(ch + "/about")
    df_lifetime = pd.concat([df_lifetime, df_lifetime_channel])


os.makedirs(base_path, exist_ok=True)

df.to_csv(base_path + "videos.csv", index=False)
df_top.to_csv(base_path + "top_videos.csv", index=False)
df_lifetime.to_csv(base_path + "lifetime.csv", index=False)


Video:  /watch?v=OtciGkheYWw


Bauducco Cozinha | S'mores com Bauducco® Chocobiscuit
Bauducco Cozinha | S'mores com Bauducco® Chocobiscuit 179 visualizações Marque este vídeo como "Gostei" com mais 13 pessoas 7 de ago. de 2023 0
Video:  /watch?v=V2RyAlS-Lh4


 Sanduíche de S'mores com Bauducco® Choco Biscuit
 Sanduíche de S'mores com Bauducco® Choco Biscuit 147 visualizações Marque este vídeo como "Gostei" com mais 12 pessoas 5 de ago. de 2023 0
Video:  /watch?v=NV1VZ79M71M


Bauducco Cozinha | Bauducco® Bolo de Chocolate com Calda de Café Melitta®
Bauducco Cozinha | Bauducco® Bolo de Chocolate com Calda de Café Melitta® 136 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 31 de jul. de 2023 0
Video:  /watch?v=BiTpOgBjskE


Bauducco® Cozinha | Gran Gatêau de Chocobiscuit
Bauducco® Cozinha | Gran Gatêau de Chocobiscuit 102 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 31 de jul. de 2023 0
Video:  /watch?v=jSRgQWgAnio


Bauducco Cozinha | Triângulo de Bauducco® Chocobiscuit com Paçoca
Bauducco Cozinha | Triângulo de Bauducco® Chocobiscuit com Paçoca 117 visualizações Marque este vídeo como "Gostei" com mais 12 pessoas 31 de jul. de 2023 0
Videos i got:  5


Um novo olhar
Um novo olhar 20 mi de visualizações Marque este vídeo como "Gostei" com mais 565 pessoas 6 de jul. de 2018 0
           title                   views likes               date  \
0  Um novo olhar  20 mi de visualizações   565  6 de jul. de 2018   

   comments_amount  
0                0  


Cookies Bauducco Tatuagem
Cookies Bauducco Tatuagem 16 mi de visualizações Marque este vídeo como "Gostei" com mais 375 pessoas 15 de ago. de 2017 0
                       title                   views likes  \
0  Cookies Bauducco Tatuagem  16 mi de visualizações   375   

                 date  comments_amount  
0  15 de ago. de 2017                0  


Chocolomba® Trufa Bauducco
Chocolomba® Trufa Bauducco 11 mi de visualizações Marque este vídeo como "Gostei" com mais 43 pessoas 26 de mar. de 2021 0
                        title                   views likes  \
0  Chocolomba® Trufa Bauducco  11 mi de visualizações    43   

                 date  comments_amount  
0  26 de mar. de 2021                0  


Natal Bauducco - Bebê Chorão
Natal Bauducco - Bebê Chorão 9,2 mi de visualizações Marque este vídeo como "Gostei" com mais 246 pessoas 24 de nov. de 2017 0
                          title                    views likes  \
0  Natal Bauducco - Bebê Chorão  9,2 mi de visualizações   246   

                 date  comments_amount  
0  24 de nov. de 2017                0  


Pedacinhos do Natal – Uma carta | 60"
Pedacinhos do Natal – Uma carta | 60" 7,9 mi de visualizações Marque este vídeo como "Gostei" com mais 54 pessoas 26 de nov. de 2018 0
                                   title                    views likes  \
0  Pedacinhos do Natal – Uma carta | 60"  7,9 mi de visualizações    54   

                 date  comments_amount  
0  26 de nov. de 2018                0  
Videos i got:  5


{
  "channel_title": "Bauducco",
  "date_joined": "22 de ago. de 2012",
  "total_views": "185.231.128 visualizações",
  "total_subs": "35,3 mil inscritos",
  "total_videos": "214"
}


Video:  /watch?v=_xx-tMN1fLs


Podcast "Nossos Compromissos 2030" - Episódio 6
Podcast "Nossos Compromissos 2030" - Episódio 6 124 visualizações Marque este vídeo como "Gostei" com mais 10 pessoas 11 de ago. de 2023 0
Video:  /watch?v=_f9Z752fDs0


Podcast "Nossos Compromissos 2030" - Episódio 5
Podcast "Nossos Compromissos 2030" - Episódio 5 64 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 28 de jul. de 2023 0
Video:  /watch?v=Ko1dTOvh7XQ


Podcast "Nossos Compromissos 2030" - Episódio 4
Podcast "Nossos Compromissos 2030" - Episódio 4 United Nations Marque este vídeo como "Gostei" com mais 9 pessoas 7 de jul. de 2023 0
Video:  /watch?v=cvagNYG_mKE


M. Dias Branco realiza 5ª edição do Tributário Integrado
M. Dias Branco realiza 5ª edição do Tributário Integrado 127 visualizações Marque este vídeo como "Gostei" com mais 19 pessoas 19 de jun. de 2023 0
Video:  /watch?v=yfuB12UgX1g


Podcast "Nossos Compromissos 2030" - Episódio 3
Podcast "Nossos Compromissos 2030" - Episódio 3 87 visualizações Marque este vídeo como "Gostei" com mais 8 pessoas 16 de jun. de 2023 0
Videos i got:  5


Honra ao Legado - Homenagem a Ivens Dias Branco
Honra ao Legado - Homenagem a Ivens Dias Branco 16 mil visualizações Marque este vídeo como "Gostei" com mais 659 pessoas 17 de out. de 2017 0
                                             title                 views  \
0  Honra ao Legado - Homenagem a Ivens Dias Branco  16 mil visualizações   

  likes                date  comments_amount  
0   659  17 de out. de 2017                0  


Mensagem do Presidente da M. Dias Branco sobre o Covid19
Mensagem do Presidente da M. Dias Branco sobre o Covid19 12 mil visualizações Marque este vídeo como "Gostei" com mais 556 pessoas 25 de mar. de 2020 0
                                               title                 views  \
0  Mensagem do Presidente da M. Dias Branco sobre...  12 mil visualizações   

  likes                date  comments_amount  
0   556  25 de mar. de 2020                0  


Mensagem do presidente Ivens Dias Branco Jr - 2016
Mensagem do presidente Ivens Dias Branco Jr - 2016 6 mil visualizações Marque este vídeo como "Gostei" com mais 161 pessoas 27 de dez. de 2016 0
                                               title                views  \
0  Mensagem do presidente Ivens Dias Branco Jr - ...  6 mil visualizações   

  likes                date  comments_amount  
0   161  27 de dez. de 2016                0  


Homenagem ao Sr. Moreira, o colaborador mais antigo da M. Dias Branco
Homenagem ao Sr. Moreira, o colaborador mais antigo da M. Dias Branco 4,8 mil visualizações Marque este vídeo como "Gostei" com mais 413 pessoas 30 de jul. de 2022 0
                                               title                  views  \
0  Homenagem ao Sr. Moreira, o colaborador mais a...  4,8 mil visualizações   

  likes                date  comments_amount  
0   413  30 de jul. de 2022                0  


Sr. Moreira
Sr. Moreira 3,2 mil visualizações Marque este vídeo como "Gostei" com mais 265 pessoas 9 de jun. de 2020 0
         title                  views likes               date  \
0  Sr. Moreira  3,2 mil visualizações   265  9 de jun. de 2020   

   comments_amount  
0                0  
Videos i got:  5


{
  "channel_title": "M. Dias Branco",
  "date_joined": "21 de dez. de 2016",
  "total_views": "99.018 visualizações",
  "total_subs": "4,5 mil inscritos",
  "total_videos": "71"
}


Video:  /watch?v=uODi7sUBjjc


Dia dos Pais Kopenhagen: Para quem inspira os momentos mais marcantes
Dia dos Pais Kopenhagen: Para quem inspira os momentos mais marcantes 303 visualizações Marque este vídeo como "Gostei" com mais 6 pessoas 8 de ago. de 2023 0
Video:  /watch?v=fk_Ryudi78w


Temporada Nhá Benta: única e irresistível | Kopenhagen
Temporada Nhá Benta: única e irresistível | Kopenhagen 449 visualizações Marque este vídeo como "Gostei" com mais 8 pessoas 1 de ago. de 2023 0
Video:  /watch?v=vYNNU1A4P18


Seja um franqueado | Kopenhagen – Depoimentos
Seja um franqueado | Kopenhagen – Depoimentos 895 visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 12 de mai. de 2023 0
Video:  /watch?v=dcGAaEfnS-k


Seja um franqueado | Kopenhagen – CEO Renata Vichi
Seja um franqueado | Kopenhagen – CEO Renata Vichi 1,4 mil visualizações Marque este vídeo como "Gostei" com mais 9 pessoas 12 de mai. de 2023 0
Video:  /watch?v=uQRoGfyHYw0


Pascoa Kopenhagen. Quando tem, marca.
Pascoa Kopenhagen. Quando tem, marca. 925 mil visualizações Marque este vídeo como "Gostei" com mais 23 pessoas 22 de mar. de 2023 0
Videos i got:  5


Panettone Língua de Gato Exagero
Panettone Língua de Gato Exagero 8,7 mi de visualizações Marque este vídeo como "Gostei" com mais 82 pessoas 2 de dez. de 2020 0
                              title                    views likes  \
0  Panettone Língua de Gato Exagero  8,7 mi de visualizações    82   

                date  comments_amount  
0  2 de dez. de 2020                0  


Ovo Repleto Chokonut | Páscoa 2021 Kopenhagen
Ovo Repleto Chokonut | Páscoa 2021 Kopenhagen 7,3 mi de visualizações Marque este vídeo como "Gostei" com mais 58 pessoas 2 de mar. de 2021 0
                                           title                    views  \
0  Ovo Repleto Chokonut | Páscoa 2021 Kopenhagen  7,3 mi de visualizações   

  likes               date  comments_amount  
0    58  2 de mar. de 2021                0  


Kopenhagen | Nhá Benta Avelã e Línguas de Gato recheadas Avelã e Trufada
Kopenhagen | Nhá Benta Avelã e Línguas de Gato recheadas Avelã e Trufada 6,4 mi de visualizações Marque este vídeo como "Gostei" com mais 241 pessoas 13 de ago. de 2018 0
                                               title                    views  \
0  Kopenhagen | Nhá Benta Avelã e Línguas de Gato...  6,4 mi de visualizações   

  likes                date  comments_amount  
0   241  13 de ago. de 2018                0  


Páscoa 90 Anos Kopenhagen
Páscoa 90 Anos Kopenhagen 5,8 mi de visualizações Marque este vídeo como "Gostei" com mais 269 pessoas 13 de mar. de 2018 0
                       title                    views likes  \
0  Páscoa 90 Anos Kopenhagen  5,8 mi de visualizações   269   

                 date  comments_amount  
0  13 de mar. de 2018                0  


Natal 90 Anos Kopenhagen | Panettone Língua de Gato Exagero
Natal 90 Anos Kopenhagen | Panettone Língua de Gato Exagero 4,5 mi de visualizações Marque este vídeo como "Gostei" com mais 126 pessoas 5 de dez. de 2018 0
                                               title                    views  \
0  Natal 90 Anos Kopenhagen | Panettone Língua de...  4,5 mi de visualizações   

  likes               date  comments_amount  
0   126  5 de dez. de 2018                0  
Videos i got:  5


{
  "channel_title": "Kopenhagen",
  "date_joined": "17 de ago. de 2011",
  "total_views": "68.166.708 visualizações",
  "total_subs": "9,18 mil inscritos",
  "total_videos": "69"
}


last 30 days

In [4]:

# read channel IDs

with open("canais.txt", "r") as f:
    canais = f.readlines()


canais = [c.strip() for c in canais]
# take only the string after the last slash
canais = [c.split("/")[-1] for c in canais]

print(canais)

base_url = "https://socialblade.com/youtube/channel/"

social_blade_data = []
for c in canais:
    response = scroll_page(base_url + c)

    # last 30 days views #socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span
    views = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span::text"
    ).get()
    subs = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(2) > span::text"
    ).get()

    if views is None or subs is None:
        views = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(3) > span::text"
        ).get()
        subs = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(2) > span::text"
        ).get()

    social_blade_data.append({"Channel": c, "views": views, "subs": subs})

last_30days = pd.DataFrame(social_blade_data)
last_30days = last_30days.fillna("0")

last_30days.to_parquet(f'data/{canais[0].split("@")[-1]}/last_30_days.parquet', index=False)

['@BauduccoBrasil', '@m.diasbranco4235', '@ChocolatesKopenhagen']
