<a href="https://colab.research.google.com/github/Cassiosa/Analizando-de-videos/blob/main/Analizando_de_videos_youtube.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Projeto: Analisador de Vídeos do YouTube Usando Python e IA
Objetivo**

Desenvolver uma solução automatizada para análise de vídeos do YouTube a partir de URLs inseridas pelos usuários. O projeto utiliza Python, Streamlit, e modelos de IA (Hugging Face Transformers) para coleta, análise de métricas, extração de comentários e análise de sentimentos.

📋 Descritivo Profissional do Projeto: Analisador de Vídeos do YouTube Usando Python e Inteligência Artificial

1. Introdução

O projeto de análise de vídeos do YouTube tem como objetivo desenvolver uma solução automatizada que coleta, processa e analisa dados de vídeos disponíveis na plataforma para extrair insights relevantes. Utilizando técnicas de Python, APIs, Machine Learning e Inteligência Artificial, o projeto visa fornecer uma compreensão detalhada sobre o desempenho de vídeos, engajamento dos espectadores e tendências de conteúdo, além de analisar o sentimento dos comentários, permitindo que criadores de conteúdo, profissionais de marketing e empresas tomem decisões mais estratégicas.

2. Desenvolvimento

2.1. Arquitetura do Projeto

O projeto foi estruturado em várias etapas interdependentes, garantindo modularidade e eficiência:

Coleta de Dados: Utilizamos a YouTube Data API v3 para extrair informações como títulos, descrições, visualizações, curtidas, e comentários dos vídeos. Esta coleta é automatizada utilizando Python, o que permite uma extração rápida e escalável.

Processamento de Dados: Os dados extraídos são limpos e organizados utilizando bibliotecas como Pandas e NumPy. Isso inclui a normalização de texto, tratamento de dados faltantes e formatação para análises posteriores.

Análise de Métricas: São coletadas e analisadas métricas como visualizações, curtidas, e número de comentários, permitindo identificar o nível de engajamento dos vídeos.

2.2. Análise de Sentimentos

Utilizando técnicas de Processamento de Linguagem Natural (NLP), os comentários dos vídeos são analisados para identificar o sentimento predominante (positivo, negativo ou neutro). Para isso, implementamos:

TextBlob para análise básica de sentimentos.

Modelos mais avançados, como Hugging Face Transformers (BERT), para uma análise mais robusta e precisa.

2.3. Visualização dos Dados

Foram desenvolvidas visualizações utilizando Matplotlib e Seaborn para facilitar a compreensão dos insights gerados. Algumas das visualizações incluem:

Gráficos de barras para exibir o número de visualizações e curtidas por vídeo.
Gráficos de pizza mostrando a proporção de sentimentos nos comentários.
Análise temporal do engajamento para identificar tendências de crescimento.

2.4. Automação e Pipeline

Um pipeline completo foi desenvolvido para automatizar o fluxo de trabalho:

Busca de vídeos com base em palavras-chave definidas pelo usuário.
Coleta e armazenamento de métricas e comentários em um banco de dados.
Processamento de dados e geração de relatórios automaticamente.

🎯 **Objetivo do Projeto**

Desenvolver um analisador automatizado que coleta dados de vídeos do YouTube, processa essas informações e utiliza técnicas de machine learning para fornecer insights, como:

Análise de tendências de vídeos (visualizações, curtidas, comentários, etc.)
Extração de tópicos mais discutidos nos comentários.
Análise de sentimentos (positivos, neutros, negativos) dos comentários.
Identificação de padrões de engajamento.

🛠️ *Ferramentas e Tecnologias*

Python para coleta de dados, análise e visualização.

Google API (YouTube Data API v3) para coletar informações sobre vídeos.
Pandas e NumPy para manipulação de dados.

NLTK, TextBlob, ou Hugging Face Transformers para análise de sentimentos.
Matplotlib e Seaborn para visualizações.

Scikit-learn ou TensorFlow/Keras para modelagem de machine learning (se necessário).

Google Colab  para desenvolvimento e execução do código.

In [4]:
#Instalando as bibliotecas necessárias
!pip install google-auth google-auth-oauthlib google-auth-httplib2 google-api-python-client pandas numpy matplotlib seaborn nltk textblob transformers





In [5]:
#Autenticação com a API do YouTube
from googleapiclient.discovery import build

# Substitua com sua API Key
API_KEY = 'SUA_CHAVE_API'

youtube = build('youtube', 'v3', developerKey=API_KEY)


In [8]:
#Função para Coleta de Dados de Vídeos
def get_videos_by_keyword(keyword, max_results=10):
    request = youtube.search().list(
        q=keyword,
        part='snippet',
        type='video',
        maxResults=max_results
    )
    response = request.execute()
    videos = []
    for item in response['items']:
        video_id = item['id']['videoId']
        title = item['snippet']['title']
        videos.append({'video_id': video_id, 'title': title})
    return videos


In [9]:
#Coletando Métricas de um Vídeo
def get_video_stats(video_id):
    request = youtube.videos().list(
        part='statistics',
        id=video_id
    )
    response = request.execute()
    stats = response['items'][0]['statistics']
    return {
        'views': int(stats.get('viewCount', 0)),
        'likes': int(stats.get('likeCount', 0)),
        'comments': int(stats.get('commentCount', 0))
    }

In [10]:
#Coletando Comentários
def get_comments(video_id, max_results=50):
    request = youtube.commentThreads().list(
        part='snippet',
        videoId=video_id,
        maxResults=max_results
    )
    response = request.execute()
    comments = []
    for item in response['items']:
        comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comments.append(comment)
    return comments

In [12]:
#Análise de Sentimentos
from textblob import TextBlob

def analyze_sentiment(comment):
    analysis = TextBlob(comment)
    return 'Positive' if analysis.sentiment.polarity > 0 else 'Negative'



In [13]:
#Visualização dos Resultados
import matplotlib.pyplot as plt
import seaborn as sns

def plot_video_stats(videos_data):
    df = pd.DataFrame(videos_data)
    sns.barplot(x='title', y='views', data=df)
    plt.xticks(rotation=45, ha='right')
    plt.title('Visualizações por Vídeo')
    plt.show()

In [14]:
#Automatizando com um Pipeline
def analyze_youtube(keyword, max_videos=5, max_comments=20):
    videos = get_videos_by_keyword(keyword, max_results=max_videos)
    results = []

    for video in videos:
        stats = get_video_stats(video['video_id'])
        comments = get_comments(video['video_id'], max_results=max_comments)
        sentiments = [analyze_sentiment(comment) for comment in comments]
        positive_comments = sentiments.count('Positive')
        negative_comments = sentiments.count('Negative')

        results.append({
            'title': video['title'],
            'views': stats['views'],
            'likes': stats['likes'],
            'comments': stats['comments'],
            'positive_comments': positive_comments,
            'negative_comments': negative_comments
        })

    df = pd.DataFrame(results)
    return df

3. Conclusão e Entregáveis

O projeto foi concluído com sucesso, proporcionando um analisador completo de vídeos do YouTube, capaz de:

Extrair e processar dados de vídeos e comentários de forma automatizada.
Fornecer uma análise detalhada de métricas de desempenho (visualizações, curtidas, comentários).
Realizar análise de sentimentos nos comentários dos vídeos, permitindo insights qualitativos.
Criar visualizações claras e intuitivas para interpretação dos dados.
Principais benefícios e entregáveis do projeto:

Relatórios interativos com insights acionáveis para criadores de conteúdo.
Dashboards automatizados para monitorar o desempenho e engajamento de vídeos no YouTube.
Pipeline escalável, que pode ser adaptado para diferentes segmentos de mercado e necessidades analíticas.

4. Possíveis Expansões

Com base nos resultados alcançados, há várias possibilidades de expansão para futuras iterações do projeto:

Implementação de uma interface interativa utilizando Streamlit ou Dash, permitindo o uso por usuários não técnicos.

Integração com plataformas de visualização como Power BI e Tableau para dashboards avançados.

Adição de funcionalidades como previsão de tendências utilizando modelos de machine learning preditivos.


📈 Próximos Passos para o Projeto

1. Interface Web com Streamlit

O objetivo aqui é criar uma interface onde os usuários possam inserir URLs de vídeos do YouTube e obter os resultados da análise em tempo real, sem a necessidade de rodar o código manualmente

In [15]:
#Instalando o Streamlit
!pip install streamlit

Collecting streamlit
  Downloading streamlit-1.40.1-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
Downloading streamlit-1.40.1-py2.py3-none-any.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m51.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m72.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl (79 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[

In [16]:
#Implementando a Interface
import streamlit as st
from googleapiclient.discovery import build
import pandas as pd
from textblob import TextBlob
import matplotlib.pyplot as plt

API_KEY = 'SUA_CHAVE_API'
youtube = build('youtube', 'v3', developerKey=API_KEY)

def get_video_id_from_url(url):
    import re
    match = re.search(r'v=([a-zA-Z0-9_-]+)', url)
    return match.group(1) if match else None

def get_video_details(video_id):
    request = youtube.videos().list(
        part='snippet,statistics',
        id=video_id
    )
    response = request.execute()
    if not response['items']:
        return None
    video = response['items'][0]
    return {
        'title': video['snippet']['title'],
        'views': int(video['statistics'].get('viewCount', 0)),
        'likes': int(video['statistics'].get('likeCount', 0)),
        'comments': int(video['statistics'].get('commentCount', 0))
    }

def get_comments(video_id, max_results=50):
    comments = []
    request = youtube.commentThreads().list(
        part='snippet',
        videoId=video_id,
        maxResults=max_results
    )
    response = request.execute()
    for item in response['items']:
        comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
        comments.append(comment)
    return comments

def analyze_sentiment(comment):
    analysis = TextBlob(comment)
    return 'Positive' if analysis.sentiment.polarity > 0 else 'Negative'

def main():
    st.title("Analisador de Vídeos do YouTube")
    url = st.text_input("Insira a URL do vídeo do YouTube")

    if url:
        video_id = get_video_id_from_url(url)
        if not video_id:
            st.error("URL inválida")
        else:
            details = get_video_details(video_id)
            comments = get_comments(video_id)
            sentiments = [analyze_sentiment(comment) for comment in comments]
            st.write(f"### Título: {details['title']}")
            st.write(f"Visualizações: {details['views']}, Curtidas: {details['likes']}, Comentários: {details['comments']}")

            st.write("### Análise de Sentimentos dos Comentários")
            sentiment_df = pd.DataFrame(sentiments, columns=['Sentimento'])
            st.bar_chart(sentiment_df['Sentimento'].value_counts())

if __name__ == "__main__":
    main()

2024-11-13 00:25:47.641 
  command:

    streamlit run /usr/local/lib/python3.10/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
2024-11-13 00:25:47.666 Session state does not function when running a script without `streamlit run`


In [18]:
#Rodando o Streamlit
!streamlit run app.py

Usage: streamlit run [OPTIONS] TARGET [ARGS]...
Try 'streamlit run --help' for help.

Error: Invalid value: File does not exist: app.py


Modelo Avançados de Análise de Sentimentos com Hugging Face Transformers

In [19]:
#Instalando a Biblioteca Transformers
!pip install transformers torch



In [20]:
#Implementando o Modelo BERT
from transformers import pipeline

# Carregar o pipeline de análise de sentimentos
#retornará rótulos como "1 estrela" a "5 estrelas" para expressar a polaridade.
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

def analyze_sentiment_bert(comment):
    result = sentiment_analyzer(comment)[0]
    return result['label']

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

3. Visualização Avançada com Power BI ou Tableau

Para levar as análises a um nível mais avançado, podemos exportar os dados para um formato que seja utilizável em ferramentas como Power BI

In [21]:
#Exportando Dados
import pandas as pd

def export_to_csv(data, filename='youtube_analysis.csv'):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
    print(f"Dados exportados para {filename}")