In [1]:
# %%
import re, json, time
from selenium import webdriver
import os

# import By
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

# from webdriver_manager.chrome import ChromeDriverManager
from parsel import Selector

import pandas as pd
import numpy as np


In [2]:
def scroll_page(url):
    # service = Service(ChromeDriverManager().install())

    # options = webdriver.ChromeOptions()
    # options.add_argument("--headless")
    # options.add_argument("--lang=en")
    # options.add_argument(
    #     "user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
    # )

    driver = webdriver.Chrome()
    driver.get(url)
    driver.implicitly_wait(10)

    time.sleep(3)
    selector = Selector(driver.page_source)
    driver.quit()

    return selector


def scrape_all_data(selector):
    youtube_video_page = []

    all_script_tags = selector.css("script").getall()

    title = selector.css(".title .ytd-video-primary-info-renderer::text").get()

    # https://regex101.com/r/gHeLwZ/1
    views = int(
        re.search(r"(.*)\s", selector.css(".view-count::text").get())
        .group()
        .replace(",", "")
    )

    # https://regex101.com/r/9OGwJp/1
    likes = int(
        re.search(
            r"(.*)\s",
            selector.css(
                "#top-level-buttons-computed > ytd-toggle-button-renderer:first-child #text::attr(aria-label)"
            ).get(),
        )
        .group()
        .replace(",", "")
    )

    date = selector.css("#info-strings yt-formatted-string::text").get()

    duration = selector.css(".ytp-time-duration::text").get()

    # https://regex101.com/r/0JNma3/1
    keywords = (
        "".join(
            re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
        )
        .replace('"', "")
        .split(",")
    )

    # https://regex101.com/r/9VhH1s/1
    thumbnail = re.findall(
        r'\[{"url":"(\S+)","width":\d*,"height":\d*},', str(all_script_tags)
    )[0].split('",')[0]

    channel = {
        # https://regex101.com/r/xFUzq5/1
        "id": "".join(
            re.findall(r'"channelId":"(.*)","isOwnerViewing"', str(all_script_tags))
        ),
        "name": selector.css("#channel-name a::text").get(),
        "link": f'https://www.youtube.com{selector.css("#channel-name a::attr(href)").get()}',
        "subscribers": selector.css("#owner-sub-count::text").get(),
        "thumbnail": selector.css("#img::attr(src)").get(),
    }

    description = selector.css(
        ".ytd-expandable-video-description-body-renderer span:nth-child(1)::text"
    ).get()

    hash_tags = [
        {
            "name": hash_tag.css("::text").get(),
            "link": f'https://www.youtube.com{hash_tag.css("::attr(href)").get()}',
        }
        for hash_tag in selector.css(
            ".ytd-expandable-video-description-body-renderer a"
        )
    ]

    # https://regex101.com/r/onRk9j/1
    category = "".join(
        re.findall(r'"category":"(.*)","publishDate"', str(all_script_tags))
    )

    comments_amount = int(
        selector.css("#count .count-text span:nth-child(1)::text")
        .get()
        .replace(",", "")
    )

    comments = []

    for comment in selector.css("#contents > ytd-comment-thread-renderer"):
        comments.append(
            {
                "author": comment.css("#author-text span::text").get().strip(),
                "link": f'https://www.youtube.com{comment.css("#author-text::attr(href)").get()}',
                "date": comment.css(".published-time-text a::text").get(),
                "likes": comment.css("#vote-count-middle::text").get().strip(),
                "comment": comment.css("#content-text::text").get(),
                "avatar": comment.css("#author-thumbnail #img::attr(src)").get(),
            }
        )

    suggested_videos = []

    for video in selector.css("ytd-compact-video-renderer"):
        suggested_videos.append(
            {
                "title": video.css("#video-title::text").get().strip(),
                "link": f'https://www.youtube.com{video.css("#thumbnail::attr(href)").get()}',
                "channel_name": video.css("#channel-name #text::text").get(),
                "date": video.css("#metadata-line span:nth-child(2)::text").get(),
                "views": video.css("#metadata-line span:nth-child(1)::text").get(),
                "duration": video.css("#overlays #text::text").get().strip(),
                "thumbnail": video.css("#thumbnail img::attr(src)").get(),
            }
        )

    youtube_video_page.append(
        {
            "title": title,
            "views": views,
            "likes": likes,
            "date": date,
            "duration": duration,
            "channel": channel,
            "keywords": keywords,
            "thumbnail": thumbnail,
            "description": description,
            "hash_tags": hash_tags,
            "category": category,
            "suggested_videos": suggested_videos,
            "comments_amount": comments_amount,
            "comments": comments,
        }
    )

    print(json.dumps(youtube_video_page, indent=2, ensure_ascii=False))


def get_info_from_channel(channel_link: str):
    driver = webdriver.Chrome()

    driver.get(channel_link)
    driver.maximize_window()

    time.sleep(5)

    selector = Selector(text=driver.page_source)
    driver.quit()

    # channel title
    channel_title = selector.css("#text-container #text::text").get()

    # date joined //*[@id="right-column"]/yt-formatted-string[2]/span[2]
    date_joined = selector.css(
        "#right-column > yt-formatted-string:nth-child(2) > span:nth-child(2)::text"
    ).get()

    # total views //*[@id="right-column"]/yt-formatted-string[3]

    total_views = selector.css(
        "#right-column > yt-formatted-string:nth-child(3)::text"
    ).get()

    # total subs //*[@id="subscriber-count"]

    total_subs = selector.css("#subscriber-count::text").get()

    # total videos //*[@id="videos-count"]/span[1]

    total_videos = selector.css("#videos-count > span:nth-child(1)::text").get()

    channel_info = {
        "channel_title": channel_title,
        "date_joined": date_joined,
        "total_views": total_views,
        "total_subs": total_subs,
        "total_videos": total_videos,
    }

    print(json.dumps(channel_info, indent=2, ensure_ascii=False))

    return pd.DataFrame(channel_info, index=[0])


def get_info_from_video(selector) -> dict[str, str | int]:
    # title
    title = selector.css(".title .ytd-video-primary-info-renderer::text").get()

    if title == None:
        title = selector.css(
            "yt-formatted-string.style-scope.ytd-watch-metadata span.style-scope.yt-formatted-string::text"
        ).get()

    print(title)

    # date
    date = selector.css("#info-strings yt-formatted-string::text").get()

    # views
    views = selector.css("span.bold.style-scope.yt-formatted-string::text").get()

    # likes
    likes = selector.css(
        "#segmented-like-button > ytd-toggle-button-renderer > yt-button-shape > button::attr(aria-label)"
    ).get()

    # comments
    try:
        comments_amount = int(
            selector.css("#count .count-text span:nth-child(1)::text")
            .get()
            .replace(",", "")
        )
    except Exception as e:
        comments_amount = 0

    # keywords
    # all_script_tags = selector.css("script").getall()
    # keywords = (
    #     "".join(
    #         re.findall(r'"keywords":\[(.*)\],"channelId":".*"', str(all_script_tags))
    #     )
    #     .replace('"', "")
    #     .split(",")
    # )

    print(title, views, likes, date, comments_amount)

    try:
        likes = re.search(r"(\d+)", likes).group()
    except Exception as e:
        likes = 0
    # views = re.search(r"(\d+)", views).group()

    return pd.DataFrame.from_dict(
        {
            "title": [title],
            "views": [views],
            "likes": [likes],
            "date": [date],
            "comments_amount": [comments_amount],
            # "keywords": [keywords],
        }
    )


def parse_channel(selector) -> pd.DataFrame:
    subscribers = selector.css(
        "#subscriber-count.style-scope.ytd-c4-tabbed-header-renderer::text"
    ).get()

    # subscribers = re.search(r"(\d+)", subscribers).group()

    # get recent 5 videos
    channel_name = (
        selector.css("div#channel-header-container yt-formatted-string#text::text")
        .get()
        .strip()
    )

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        info["channel_name"] = channel_name
        info["subscribers"] = subscribers
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df


def parse_top_channel(channel_link: str) -> pd.DataFrame:
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.common.by import By

    driver = webdriver.Chrome()
    wait = WebDriverWait(driver, 3)
    driver.implicitly_wait(10)

    driver.get(channel_link)
    driver.maximize_window()

    # //*[@id="chips"]/yt-chip-cloud-chip-renderer[2]
    # wait for page to load

    try:
        wait.until(
            EC.presence_of_element_located(
                (By.XPATH, '//*[@id="chips"]/yt-chip-cloud-chip-renderer[2]')
            )
        ).click()
    except Exception as e:
        print("Nao possui aba de videos em alta")
        # return empty dataframe
        # return pd.DataFrame()

    time.sleep(3)
    selector = Selector(text=driver.page_source)
    driver.quit()

    channel_name = (
        selector.css("div#channel-header-container yt-formatted-string#text::text")
        .get()
        .strip()
    )

    videos = selector.css(
        "div.style-scope.ytd-rich-item-renderer ytd-rich-grid-media div.style-scope.ytd-rich-grid-media a#thumbnail.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail::attr(href)"
    ).getall()[:5]

    u, ind = np.unique(videos, return_index=True)
    videos = u[np.argsort(ind)]

    df = pd.DataFrame()
    for v in videos:
        # print("Video: ", v)

        result = scroll_page(f"https://www.youtube.com{v}")

        info = get_info_from_video(result)
        print(info)
        info["channel_name"] = channel_name
        # print(info)

        df = pd.concat([df, info])
        # df = df.append(info, ignore_index=True)

    print("Videos i got: ", len(videos))
    return df



Pegar dados

In [3]:

# %%
with open("canais.txt", "r") as f:
    # read each line as a item in a list and remove the \n
    canais = [line.strip() for line in f.readlines()]

base_path = f"./data/{canais[0].split('@')[-1]}/"

df = pd.DataFrame()
df_top = pd.DataFrame()
df_lifetime = pd.DataFrame()
for ch in canais:
    # recent videos
    result = scroll_page(ch + "/videos")
    df_channel = parse_channel(result)
    df = pd.concat([df, df_channel])

    # top videos
    df_top_channel = parse_top_channel(ch + "/videos")
    df_top = pd.concat([df_top, df_top_channel])

    # lifetime info
    df_lifetime_channel = get_info_from_channel(ch + "/about")
    df_lifetime = pd.concat([df_lifetime, df_lifetime_channel])


os.makedirs(base_path, exist_ok=True)

df.to_csv(base_path + "videos.csv", index=False)
df_top.to_csv(base_path + "top_videos.csv", index=False)
df_lifetime.to_csv(base_path + "lifetime.csv", index=False)


Error getting version of chromedriver 115. Retrying with chromedriver 114 (attempt 1/5)


Video:  /watch?v=875mNpeAZlg


ESPECIAL DE MAIO CENER MEGA-02
ESPECIAL DE MAIO CENER MEGA-02 202 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa Estreou em 11 de mai. de 2023 0


Video:  /watch?v=vM0FsI2eYzo


ESPECIAL DE MAIO CENTER MEGA- 01
ESPECIAL DE MAIO CENTER MEGA- 01 176 visualizações Marque este vídeo como "Gostei" com mais 1 pessoa Estreou em 11 de mai. de 2023 0
Video:  /watch?v=8OK-jAkEu2E


Mega Liquida de Abril do Center Mega
Mega Liquida de Abril do Center Mega 274 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa Estreou em 18 de abr. de 2023 0
Video:  /watch?v=GZ4JZeqt2jw


Mega Liquida de Abril do Center Mega
Mega Liquida de Abril do Center Mega 201 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa Estreou em 18 de abr. de 2023 0
Video:  /watch?v=w9Xq1iAP2ug


Mês do Consumidor- Filme 02
Mês do Consumidor- Filme 02 1,2 mil visualizações Marque este vídeo como "Gostei" com mais 3 pessoas Estreou em 10 de mar. de 2023 0
Videos i got:  5


Mês do Condumidor
Mês do Condumidor 7,1 mil visualizações Marque este vídeo como "Gostei" com mais 12 pessoas Estreou em 10 de mar. de 2023 0
               title                  views likes  \
0  Mês do Condumidor  7,1 mil visualizações    12   

                            date  comments_amount  
0  Estreou em 10 de mar. de 2023                0  


Arraiá de ofertas Center Mega
Arraiá de ofertas Center Mega 1,5 mil visualizações Marque este vídeo como "Gostei" com mais 4 pessoas 15 de jun. de 2022 0
                           title                  views likes  \
0  Arraiá de ofertas Center Mega  1,5 mil visualizações     4   

                 date  comments_amount  
0  15 de jun. de 2022                0  


Mês do Consumidor- Filme 02
Mês do Consumidor- Filme 02 1,2 mil visualizações Marque este vídeo como "Gostei" com mais 3 pessoas Estreou em 10 de mar. de 2023 0
                         title                  views likes  \
0  Mês do Consumidor- Filme 02  1,2 mil visualizações     3   

                            date  comments_amount  
0  Estreou em 10 de mar. de 2023                0  


Arraiá de Ofertas Center Mega
Arraiá de Ofertas Center Mega 1,2 mil visualizações Marque este vídeo como "Gostei" com mais 2 pessoas 15 de jun. de 2022 0
                           title                  views likes  \
0  Arraiá de Ofertas Center Mega  1,2 mil visualizações     2   

                 date  comments_amount  
0  15 de jun. de 2022                0  


WhatsApp Video 2023 02 02 at 16 53 43
WhatsApp Video 2023 02 02 at 16 53 43 955 visualizações Marque este vídeo como "Gostei" com mais 0 pessoa Estreou em 3 de fev. de 2023 0
                                   title              views likes  \
0  WhatsApp Video 2023 02 02 at 16 53 43  955 visualizações     0   

                           date  comments_amount  
0  Estreou em 3 de fev. de 2023                0  
Videos i got:  5


{
  "channel_title": "Web CenterMega",
  "date_joined": "15 de jun. de 2022",
  "total_views": "15.900 visualizações",
  "total_subs": "53 inscritos",
  "total_videos": "14"
}


Video:  /watch?v=MlEvao1MBT4


COMO FAZER UMA IMPERMEABILIZAÇÃO PERFEITA! - Telhados, paredes, piscinas e reservatórios
COMO FAZER UMA IMPERMEABILIZAÇÃO PERFEITA! - Telhados, paredes, piscinas e reservatórios 2 visualizações Marque este vídeo como "Gostei" com mais 1 pessoa 26 de jul. de 2023 0
Video:  /watch?v=xsWrDccDUSg


PISO NIVELADO FÁCIL E RÁPIDO!
PISO NIVELADO FÁCIL E RÁPIDO! 61 visualizações Marque este vídeo como "Gostei" com mais 6 pessoas 20 de jul. de 2023 0
Video:  /watch?v=rRrnG9IC7uY


TUDO QUE VOCÊ NÃO SABIA SOBRE FURADEIRAS
TUDO QUE VOCÊ NÃO SABIA SOBRE FURADEIRAS 124 visualizações Marque este vídeo como "Gostei" com mais 13 pessoas 18 de jul. de 2023 0
Video:  /watch?v=GiGdOlVCwUw


COMO APLICAR REJUNTE? PASSO A PASSO FÁCIL E RÁPIDO!
COMO APLICAR REJUNTE? PASSO A PASSO FÁCIL E RÁPIDO! 36 visualizações Marque este vídeo como "Gostei" com mais 3 pessoas 13 de jul. de 2023 0
Video:  /watch?v=fvZQ_XT4CfM


CHURRASCO SEM FAZER FUMAÇA!
CHURRASCO SEM FAZER FUMAÇA! 172 visualizações Marque este vídeo como "Gostei" com mais 13 pessoas 12 de jul. de 2023 6
Videos i got:  5


Ajuda da Copafer: encontre o que procura em apenas 1 clique
Ajuda da Copafer: encontre o que procura em apenas 1 clique 290 mil visualizações Marque este vídeo como "Gostei" com mais 173 pessoas 23 de abr. de 2021 1
                                               title                  views  \
0  Ajuda da Copafer: encontre o que procura em ap...  290 mil visualizações   

  likes                date  comments_amount  
0   173  23 de abr. de 2021                1  


Dia das Mães Copafer
Dia das Mães Copafer 81 mil visualizações Marque este vídeo como "Gostei" com mais 2 pessoas 20 de abr. de 2021 0
                  title                 views likes                date  \
0  Dia das Mães Copafer  81 mil visualizações     2  20 de abr. de 2021   

   comments_amount  
0                0  


Aniversário Copafer - 47 anos de parceria com você!
Aniversário Copafer - 47 anos de parceria com você! 68 mil visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 29 de jun. de 2020 0
                                               title                 views  \
0  Aniversário Copafer - 47 anos de parceria com ...  68 mil visualizações   

  likes                date  comments_amount  
0     7  29 de jun. de 2020                0  


Conheça a Copafer: sua melhor opção para reforma e construção
Conheça a Copafer: sua melhor opção para reforma e construção 54 mil visualizações Marque este vídeo como "Gostei" com mais 14 pessoas 19 de jun. de 2021 3
                                               title                 views  \
0  Conheça a Copafer: sua melhor opção para refor...  54 mil visualizações   

  likes                date  comments_amount  
0    14  19 de jun. de 2021                3  


Copafer 49 anos - A história contada através dos nossos clientes
Copafer 49 anos - A história contada através dos nossos clientes 42 mil visualizações Marque este vídeo como "Gostei" com mais 69 pessoas 20 de jun. de 2022 5
                                               title                 views  \
0  Copafer 49 anos - A história contada através d...  42 mil visualizações   

  likes                date  comments_amount  
0    69  20 de jun. de 2022                5  
Videos i got:  5


{
  "channel_title": "Copafer",
  "date_joined": "16 de abr. de 2018",
  "total_views": "717.703 visualizações",
  "total_subs": "352 inscritos",
  "total_videos": "45"
}


Video:  /watch?v=_DpKz-IhqTE


O que você precisa antes de pintar as paredes
O que você precisa antes de pintar as paredes 64 visualizações Marque este vídeo como "Gostei" com mais 2 pessoas 7 de jul. de 2023 0
Video:  /watch?v=5SnBM29C1DU


4 DICAS PARA ESCOLHER CHUVEIRO
4 DICAS PARA ESCOLHER CHUVEIRO 7,2 mil visualizações Marque este vídeo como "Gostei" com mais 5 pessoas 21 de jun. de 2023 1
Video:  /watch?v=vFg5LrOkLEQ


Como Reformar casa alugada
Como Reformar casa alugada 1,2 mil visualizações Marque este vídeo como "Gostei" com mais 7 pessoas 30 de mai. de 2023 0
Video:  /watch?v=LLXalLgFYMM


Efeito Cimento Queimado Eucatex
Efeito Cimento Queimado Eucatex 3,1 mil visualizações Marque este vídeo como "Gostei" com mais 6 pessoas 22 de mai. de 2023 0
Video:  /watch?v=j1FTLRYxhOY


Dicas para organizar a sua casa
Dicas para organizar a sua casa 5,6 mil visualizações Marque este vídeo como "Gostei" com mais 3 pessoas 17 de mar. de 2023 0
Videos i got:  5


Piso com borda bold e retificada, como escolher?
Piso com borda bold e retificada, como escolher? 1,1 mi de visualizações Marque este vídeo como "Gostei" com mais 6 pessoas 12 de ago. de 2022 1
                                              title                    views  \
0  Piso com borda bold e retificada, como escolher?  1,1 mi de visualizações   

  likes                date  comments_amount  
0     6  12 de ago. de 2022                1  


Como escolher torneiras
Como escolher torneiras 922 mil visualizações Marque este vídeo como "Gostei" com mais 15 pessoas 24 de ago. de 2022 0
                     title                  views likes                date  \
0  Como escolher torneiras  922 mil visualizações    15  24 de ago. de 2022   

   comments_amount  
0                0  


Modelos de piso para área externa
Modelos de piso para área externa 894 mil visualizações Marque este vídeo como "Gostei" com mais 215 pessoas 31 de jan. de 2023 4
                               title                  views likes  \
0  Modelos de piso para área externa  894 mil visualizações   215   

                 date  comments_amount  
0  31 de jan. de 2023                4  


Como escolher gabinetes de banheiro
Como escolher gabinetes de banheiro 555 mil visualizações Marque este vídeo como "Gostei" com mais 74 pessoas 14 de nov. de 2022 6
                                 title                  views likes  \
0  Como escolher gabinetes de banheiro  555 mil visualizações    74   

                 date  comments_amount  
0  14 de nov. de 2022                6  


Programa Cultura Village
Programa Cultura Village 228 mil visualizações Marque este vídeo como "Gostei" com mais 52 pessoas 18 de mai. de 2021 7
                      title                  views likes                date  \
0  Programa Cultura Village  228 mil visualizações    52  18 de mai. de 2021   

   comments_amount  
0                7  
Videos i got:  5


{
  "channel_title": "Village Home Center",
  "date_joined": "20 de mar. de 2018",
  "total_views": "4.232.751 visualizações",
  "total_subs": "406 inscritos",
  "total_videos": "19"
}


Video:  /watch?v=xuP43KC9CnQ


Você vai se APAIXONAR nesses lustres!😍😍
Você vai se APAIXONAR nesses lustres!😍😍 24 visualizações Marque este vídeo como "Gostei" com mais 2 pessoas 20 de jul. de 2023 0
Video:  /watch?v=MRE-nASqx34


TELHAS EM PVC: QUAIS SÃO AS VANTAGENS?
TELHAS EM PVC: QUAIS SÃO AS VANTAGENS? 181 visualizações Marque este vídeo como "Gostei" com mais 10 pessoas 11 de jul. de 2023 4
Video:  /watch?v=3wFTaxF2THY


O KIT TOUCADOR IDEAL PARA O SEU BANHEIRO!
O KIT TOUCADOR IDEAL PARA O SEU BANHEIRO! 193 visualizações Marque este vídeo como "Gostei" com mais 9 pessoas 21 de jun. de 2023 0
Video:  /watch?v=R41q9qpypG8


ESSA É A MANEIRA MAIS FÁCIL DE RENOVAR UM REJUNTE VELHO!
ESSA É A MANEIRA MAIS FÁCIL DE RENOVAR UM REJUNTE VELHO! 122 visualizações Marque este vídeo como "Gostei" com mais 3 pessoas 29 de mai. de 2023 0
Video:  /watch?v=xWUTxL9fkhA


O SEU REVESTIMENTO PODE FICAR ASSIM!!
O SEU REVESTIMENTO PODE FICAR ASSIM!! 365 visualizações Marque este vídeo como "Gostei" com mais 14 pessoas 16 de mai. de 2023 0
Videos i got:  5


PAINEL RIPADO EM PVC: MUITO FÁCIL E BARATO!
PAINEL RIPADO EM PVC: MUITO FÁCIL E BARATO! 216 mil visualizações Marque este vídeo como "Gostei" com mais 3.973 pessoas 24 de jan. de 2023 0
                                         title                  views likes  \
0  PAINEL RIPADO EM PVC: MUITO FÁCIL E BARATO!  216 mil visualizações     3   

                 date  comments_amount  
0  24 de jan. de 2023                0  


Conheça a Casa São Pedro do Ariston!
Conheça a Casa São Pedro do Ariston! 131 mil visualizações Marque este vídeo como "Gostei" com mais 41 pessoas 27 de set. de 2021 3
                                  title                  views likes  \
0  Conheça a Casa São Pedro do Ariston!  131 mil visualizações    41   

                 date  comments_amount  
0  27 de set. de 2021                3  


Casa São Pedro do Centro de Osasco: Mais de 64 anos de tradição!
Casa São Pedro do Centro de Osasco: Mais de 64 anos de tradição! 130 mil visualizações Marque este vídeo como "Gostei" com mais 91 pessoas 6 de out. de 2021 5
                                               title                  views  \
0  Casa São Pedro do Centro de Osasco: Mais de 64...  130 mil visualizações   

  likes               date  comments_amount  
0    91  6 de out. de 2021                5  


A Super Casa São Pedro Cajamar está te esperando!
A Super Casa São Pedro Cajamar está te esperando! 124 mil visualizações Marque este vídeo como "Gostei" com mais 14 pessoas 17 de jan. de 2022 0
                                               title                  views  \
0  A Super Casa São Pedro Cajamar está te esperando!  124 mil visualizações   

  likes                date  comments_amount  
0    14  17 de jan. de 2022                0  


Um passeio pela Casa São Pedro da Inocêncio Seráfico!
Um passeio pela Casa São Pedro da Inocêncio Seráfico! 122 mil visualizações Marque este vídeo como "Gostei" com mais 34 pessoas 17 de jan. de 2022 2
                                               title                  views  \
0  Um passeio pela Casa São Pedro da Inocêncio Se...  122 mil visualizações   

  likes                date  comments_amount  
0    34  17 de jan. de 2022                2  
Videos i got:  5


{
  "channel_title": "Casa São Pedro",
  "date_joined": "22 de ago. de 2019",
  "total_views": "2.032.471 visualizações",
  "total_subs": "8,19 mil inscritos",
  "total_videos": "145"
}


last 30 days

In [None]:

# read channel IDs

with open("canais.txt", "r") as f:
    canais = f.readlines()


canais = [c.strip() for c in canais]
# take only the string after the last slash
canais = [c.split("/")[-1] for c in canais]

print(canais)

base_url = "https://socialblade.com/youtube/channel/"

social_blade_data = []
for c in canais:
    response = scroll_page(base_url + c)

    # last 30 days views #socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span
    views = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(3) > span::text"
    ).get()
    subs = response.css(
        "#socialblade-user-content > div:nth-child(23) > div:nth-child(2) > span::text"
    ).get()

    if views is None or subs is None:
        views = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(3) > span::text"
        ).get()
        subs = response.css(
            "#socialblade-user-content > div:nth-child(16) > div:nth-child(2) > span::text"
        ).get()

    social_blade_data.append({"Channel": c, "views": views, "subs": subs})

last_30days = pd.DataFrame(social_blade_data)
last_30days = last_30days.fillna("0")

last_30days.to_parquet(f'data/{canais[0].split("@")[-1]}/last_30_days.parquet', index=False)