<a href="https://colab.research.google.com/github/Cassiosa/Analizando-de-videos/blob/main/Analizando_de_videos_youtube.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Projeto: Analisador de V√≠deos do YouTube Usando Python e IA
Objetivo**

Desenvolver uma solu√ß√£o automatizada para an√°lise de v√≠deos do YouTube a partir de URLs inseridas pelos usu√°rios. O projeto utiliza Python, Streamlit, e modelos de IA (Hugging Face Transformers) para coleta, an√°lise de m√©tricas, extra√ß√£o de coment√°rios e an√°lise de sentimentos.

üìã Descritivo Profissional do Projeto: Analisador de V√≠deos do YouTube Usando Python e Intelig√™ncia Artificial

1. Introdu√ß√£o

O projeto de an√°lise de v√≠deos do YouTube tem como objetivo desenvolver uma solu√ß√£o automatizada que coleta, processa e analisa dados de v√≠deos dispon√≠veis na plataforma para extrair insights relevantes. Utilizando t√©cnicas de Python, APIs, Machine Learning e Intelig√™ncia Artificial, o projeto visa fornecer uma compreens√£o detalhada sobre o desempenho de v√≠deos, engajamento dos espectadores e tend√™ncias de conte√∫do, al√©m de analisar o sentimento dos coment√°rios, permitindo que criadores de conte√∫do, profissionais de marketing e empresas tomem decis√µes mais estrat√©gicas.

2. Desenvolvimento

2.1. Arquitetura do Projeto

O projeto foi estruturado em v√°rias etapas interdependentes, garantindo modularidade e efici√™ncia:

Coleta de Dados: Utilizamos a YouTube Data API v3 para extrair informa√ß√µes como t√≠tulos, descri√ß√µes, visualiza√ß√µes, curtidas, e coment√°rios dos v√≠deos. Esta coleta √© automatizada utilizando Python, o que permite uma extra√ß√£o r√°pida e escal√°vel.

Processamento de Dados: Os dados extra√≠dos s√£o limpos e organizados utilizando bibliotecas como Pandas e NumPy. Isso inclui a normaliza√ß√£o de texto, tratamento de dados faltantes e formata√ß√£o para an√°lises posteriores.

An√°lise de M√©tricas: S√£o coletadas e analisadas m√©tricas como visualiza√ß√µes, curtidas, e n√∫mero de coment√°rios, permitindo identificar o n√≠vel de engajamento dos v√≠deos.

2.2. An√°lise de Sentimentos

Utilizando t√©cnicas de Processamento de Linguagem Natural (NLP), os coment√°rios dos v√≠deos s√£o analisados para identificar o sentimento predominante (positivo, negativo ou neutro). Para isso, implementamos:

TextBlob para an√°lise b√°sica de sentimentos.

Modelos mais avan√ßados, como Hugging Face Transformers (BERT), para uma an√°lise mais robusta e precisa.

2.3. Visualiza√ß√£o dos Dados

Foram desenvolvidas visualiza√ß√µes utilizando Matplotlib e Seaborn para facilitar a compreens√£o dos insights gerados. Algumas das visualiza√ß√µes incluem:

Gr√°ficos de barras para exibir o n√∫mero de visualiza√ß√µes e curtidas por v√≠deo.
Gr√°ficos de pizza mostrando a propor√ß√£o de sentimentos nos coment√°rios.
An√°lise temporal do engajamento para identificar tend√™ncias de crescimento.

2.4. Automa√ß√£o e Pipeline

Um pipeline completo foi desenvolvido para automatizar o fluxo de trabalho:

Busca de v√≠deos com base em palavras-chave definidas pelo usu√°rio.
Coleta e armazenamento de m√©tricas e coment√°rios em um banco de dados.
Processamento de dados e gera√ß√£o de relat√≥rios automaticamente.

üéØ **Objetivo do Projeto**

Desenvolver um analisador automatizado que coleta dados de v√≠deos do YouTube, processa essas informa√ß√µes e utiliza t√©cnicas de machine learning para fornecer insights, como:

An√°lise de tend√™ncias de v√≠deos (visualiza√ß√µes, curtidas, coment√°rios, etc.)
Extra√ß√£o de t√≥picos mais discutidos nos coment√°rios.
An√°lise de sentimentos (positivos, neutros, negativos) dos coment√°rios.
Identifica√ß√£o de padr√µes de engajamento.

üõ†Ô∏è *Ferramentas e Tecnologias*

Python para coleta de dados, an√°lise e visualiza√ß√£o.

Google API (YouTube Data API v3) para coletar informa√ß√µes sobre v√≠deos.
Pandas e NumPy para manipula√ß√£o de dados.

NLTK, TextBlob, ou Hugging Face Transformers para an√°lise de sentimentos.
Matplotlib e Seaborn para visualiza√ß√µes.

Scikit-learn ou TensorFlow/Keras para modelagem de machine learning (se necess√°rio).

Google Colab  para desenvolvimento e execu√ß√£o do c√≥digo.

In [4]:
#Instalando as bibliotecas necess√°rias
!pip install google-auth google-auth-oauthlib google-auth-httplib2 google-api-python-client pandas numpy matplotlib seaborn nltk textblob transformers





In [5]:
#Autentica√ß√£o com a API do YouTube
from googleapiclient.discovery import build

# Substitua com sua API Key
API_KEY = 'SUA_CHAVE_API'

youtube = build('youtube', 'v3', developerKey=API_KEY)


In [8]:
#Fun√ß√£o para Coleta de Dados de V√≠deos
def get_videos_by_keyword(keyword, max_results=10):
    request = youtube.search().list(
        q=keyword,
        part='snippet',
        type='video',
        maxResults=max_results
    )
    response = request.execute()
    videos = []
    for item in response['items']:
        video_id = item['id']['videoId']
        title = item['snippet']['title']
        videos.append({'video_id': video_id, 'title': title})
    return videos


In [9]:
#Coletando M√©tricas de um V√≠deo
def get_video_stats(video_id):
    request = youtube.videos().list(
        part='statistics',
        id=video_id
    )
    response = request.execute()
    stats = response['items'][0]['statistics']
    return {
        'views': int(stats.get('viewCount', 0)),
        'likes': int(stats.get('likeCount', 0)),
        'comments': int(stats.get('commentCount', 0))
    }

In [10]:
#Coletando Coment√°rios
def get_comments(video_id, max_results=50):
    request = youtube.commentThreads().list(
        part='snippet',
        videoId=video_id,
        maxResults=max_results
    )
    response = request.execute()
    comments = []
    for item in response['items']:
        comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comments.append(comment)
    return comments

In [12]:
#An√°lise de Sentimentos
from textblob import TextBlob

def analyze_sentiment(comment):
    analysis = TextBlob(comment)
    return 'Positive' if analysis.sentiment.polarity > 0 else 'Negative'



In [13]:
#Visualiza√ß√£o dos Resultados
import matplotlib.pyplot as plt
import seaborn as sns

def plot_video_stats(videos_data):
    df = pd.DataFrame(videos_data)
    sns.barplot(x='title', y='views', data=df)
    plt.xticks(rotation=45, ha='right')
    plt.title('Visualiza√ß√µes por V√≠deo')
    plt.show()

In [14]:
#Automatizando com um Pipeline
def analyze_youtube(keyword, max_videos=5, max_comments=20):
    videos = get_videos_by_keyword(keyword, max_results=max_videos)
    results = []

    for video in videos:
        stats = get_video_stats(video['video_id'])
        comments = get_comments(video['video_id'], max_results=max_comments)
        sentiments = [analyze_sentiment(comment) for comment in comments]
        positive_comments = sentiments.count('Positive')
        negative_comments = sentiments.count('Negative')

        results.append({
            'title': video['title'],
            'views': stats['views'],
            'likes': stats['likes'],
            'comments': stats['comments'],
            'positive_comments': positive_comments,
            'negative_comments': negative_comments
        })

    df = pd.DataFrame(results)
    return df

3. Conclus√£o e Entreg√°veis

O projeto foi conclu√≠do com sucesso, proporcionando um analisador completo de v√≠deos do YouTube, capaz de:

Extrair e processar dados de v√≠deos e coment√°rios de forma automatizada.
Fornecer uma an√°lise detalhada de m√©tricas de desempenho (visualiza√ß√µes, curtidas, coment√°rios).
Realizar an√°lise de sentimentos nos coment√°rios dos v√≠deos, permitindo insights qualitativos.
Criar visualiza√ß√µes claras e intuitivas para interpreta√ß√£o dos dados.
Principais benef√≠cios e entreg√°veis do projeto:

Relat√≥rios interativos com insights acion√°veis para criadores de conte√∫do.
Dashboards automatizados para monitorar o desempenho e engajamento de v√≠deos no YouTube.
Pipeline escal√°vel, que pode ser adaptado para diferentes segmentos de mercado e necessidades anal√≠ticas.

4. Poss√≠veis Expans√µes

Com base nos resultados alcan√ßados, h√° v√°rias possibilidades de expans√£o para futuras itera√ß√µes do projeto:

Implementa√ß√£o de uma interface interativa utilizando Streamlit ou Dash, permitindo o uso por usu√°rios n√£o t√©cnicos.

Integra√ß√£o com plataformas de visualiza√ß√£o como Power BI e Tableau para dashboards avan√ßados.

Adi√ß√£o de funcionalidades como previs√£o de tend√™ncias utilizando modelos de machine learning preditivos.


üìà Pr√≥ximos Passos para o Projeto

1. Interface Web com Streamlit

O objetivo aqui √© criar uma interface onde os usu√°rios possam inserir URLs de v√≠deos do YouTube e obter os resultados da an√°lise em tempo real, sem a necessidade de rodar o c√≥digo manualmente

In [15]:
#Instalando o Streamlit
!pip install streamlit

Collecting streamlit
  Downloading streamlit-1.40.1-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m44.3/44.3 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
Downloading streamlit-1.40.1-py2.py3-none-any.whl (8.6 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m8.6/8.6 MB[0m [31m51.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m6.9/6.9 MB

In [16]:
#Implementando a Interface
import streamlit as st
from googleapiclient.discovery import build
import pandas as pd
from textblob import TextBlob
import matplotlib.pyplot as plt

API_KEY = 'SUA_CHAVE_API'
youtube = build('youtube', 'v3', developerKey=API_KEY)

def get_video_id_from_url(url):
    import re
    match = re.search(r'v=([a-zA-Z0-9_-]+)', url)
    return match.group(1) if match else None

def get_video_details(video_id):
    request = youtube.videos().list(
        part='snippet,statistics',
        id=video_id
    )
    response = request.execute()
    if not response['items']:
        return None
    video = response['items'][0]
    return {
        'title': video['snippet']['title'],
        'views': int(video['statistics'].get('viewCount', 0)),
        'likes': int(video['statistics'].get('likeCount', 0)),
        'comments': int(video['statistics'].get('commentCount', 0))
    }

def get_comments(video_id, max_results=50):
    comments = []
    request = youtube.commentThreads().list(
        part='snippet',
        videoId=video_id,
        maxResults=max_results
    )
    response = request.execute()
    for item in response['items']:
        comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comments.append(comment)
    return comments

def analyze_sentiment(comment):
    analysis = TextBlob(comment)
    return 'Positive' if analysis.sentiment.polarity > 0 else 'Negative'

def main():
    st.title("Analisador de V√≠deos do YouTube")
    url = st.text_input("Insira a URL do v√≠deo do YouTube")

    if url:
        video_id = get_video_id_from_url(url)
        if not video_id:
            st.error("URL inv√°lida")
        else:
            details = get_video_details(video_id)
            comments = get_comments(video_id)
            sentiments = [analyze_sentiment(comment) for comment in comments]
            st.write(f"### T√≠tulo: {details['title']}")
            st.write(f"Visualiza√ß√µes: {details['views']}, Curtidas: {details['likes']}, Coment√°rios: {details['comments']}")

            st.write("### An√°lise de Sentimentos dos Coment√°rios")
            sentiment_df = pd.DataFrame(sentiments, columns=['Sentimento'])
            st.bar_chart(sentiment_df['Sentimento'].value_counts())

if __name__ == "__main__":
    main()

2024-11-13 00:25:47.641 
  command:

    streamlit run /usr/local/lib/python3.10/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
2024-11-13 00:25:47.666 Session state does not function when running a script without `streamlit run`


In [18]:
#Rodando o Streamlit
!streamlit run app.py

Usage: streamlit run [OPTIONS] TARGET [ARGS]...
Try 'streamlit run --help' for help.

Error: Invalid value: File does not exist: app.py


Modelo Avan√ßados de An√°lise de Sentimentos com Hugging Face Transformers

In [19]:
#Instalando a Biblioteca Transformers
!pip install transformers torch



In [20]:
#Implementando o Modelo BERT
from transformers import pipeline

# Carregar o pipeline de an√°lise de sentimentos
#retornar√° r√≥tulos como "1 estrela" a "5 estrelas" para expressar a polaridade.
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

def analyze_sentiment_bert(comment):
    result = sentiment_analyzer(comment)[0]
    return result['label']

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

3. Visualiza√ß√£o Avan√ßada com Power BI ou Tableau

Para levar as an√°lises a um n√≠vel mais avan√ßado, podemos exportar os dados para um formato que seja utiliz√°vel em ferramentas como Power BI

In [21]:
#Exportando Dados
import pandas as pd

def export_to_csv(data, filename='youtube_analysis.csv'):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
    print(f"Dados exportados para {filename}")