<a href="https://colab.research.google.com/github/oleoespindola/RedditSent/blob/main/app.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <img src="https://media.giphy.com/media/EfDzi9nKLFPtF0VwTk/giphy.gif?cid=790b7611oh7utjjmlaa2v5p8nz9285pq24nl7jp0kgd6jyis&ep=v1_stickers_search&rid=giphy.gif&ct=s" alt="Giphy: Mascote do Reddit erguendo um corçação"  style="align=center" height="50"/> Redddit Sent

Análise de Sentimentos de Submissões do Reddit

Este script desenvolvido tem como objetivo automatizar a análise de sentimentos em comentários de submissões do Reddit. Ele utiliza a API do Reddit para coletar submissões de diferentes subreddits especificados pelo usuário. Em seguida, solicita a classificação dos comentários em positivos, negativos ou neutros em relação às emoções humanas por meio da integração com o ChatGPT, uma inteligência artificial de linguagem natural.

\
___
\

**Funcionalidades Principais**

1.  **Coleta de Dados do Reddit**: O script permite especificar os subreddits alvo para coletar submissões recentes.

2. **Análise de Sentimentos**: Utilizando a API do ChatGPT, o script classifica os comentários associados às submissões em três categorias: positivos, negativos ou neutros.

3. **Construção de Análise**: Com base nos resultados da classificação de sentimentos, o script gera uma análise detalhada dos dados coletados. Isso pode incluir estatísticas sobre a distribuição de sentimentos, palavras-chave associadas a cada categoria e insights sobre a percepção geral dos usuários em relação aos tópicos discutidos nos subreddits selecionados.

#### Bibliotecas e Importações Gerais

In [264]:
from google.colab import userdata

import pandas as pd

### Reddit

Coleta de dados no Reddit, baseada em um assunto pré-determinado, limitando-se ou não a um subreddit. Além disso, nesta seção o tamanhao da amostra é determinado.

#### Bibliotecas e Importações

In [265]:
!pip install praw



In [266]:
import praw

#### Variáveis do Reddit
- Define o assunto da pesquisa;
- Limita os subreddits;
- limita o tamanho da amostra.

In [283]:
query = 'Ansiedade'
subreddit = 'all'  # Pesquisar em todos os subreddits
limit = 50 # Limita a quantidade de resultados

**Atribuição de Credenciais**

In [268]:
reddit = praw.Reddit(
    client_id = userdata.get('reddit_client_id'),
    client_secret = userdata.get('reddit_client_secret'),
    user_agent = userdata.get('reddit_user_agent')
)

#### Coleta e Tratamento dos daddos

**1. Coleta**

In [284]:
subreddit = reddit.subreddit(subreddit)
submissions  = subreddit.search(query, limit=limit)

**2. Tratamento dos Dados**

In [285]:
data = {
    "title": [],
    "score": [],
    "id": [],
    "url": [],
    "created": [],
    "author": []
}

for submission in submissions:
    data["title"].append(submission.title)
    data["score"].append(submission.score)
    data["id"].append(submission.id)
    data["url"].append(submission.url)
    data["created"].append(submission.created)
    data["author"].append(submission.author)

df = pd.DataFrame(data)

It is strongly recommended to use Async PRAW: https://asyncpraw.readthedocs.io.
See https://praw.readthedocs.io/en/latest/getting_started/multiple_instances.html#discord-bots-and-asynchronous-environments for more info.



**BackUp da Consulta**

In [286]:
df.to_csv('data.csv', index=False)

### OpenAI

Envia os *submissions* (postagens) coletados anteriormente ao chatGPT e pele para classifica-los como positivos, negativosm ou neutros.

#### Bibliotecas e Importações

In [272]:
!pip install openai



In [273]:
from openai import OpenAI

**Atribuição de Credenciais**

In [274]:
client = OpenAI(
    api_key = userdata.get('openai_api_key')
)

#### Envio e Coleta das Informações

**1. Função de Classificação das submissions**

Cria uma função para adicionar as respostas da AI em uma nova coluna do DataFrame

In [275]:
def classify_submission(submission):
  completion = client.chat.completions.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "system", "content": "O chatbot responde com uma das três pavras seguintes: positivo, negativo, neutro. A palavra escolhida serve para adjetivar o sentimento humano expresso na mensagem do usuário. O chatbot nunca deve responder em inglês ou usar variações de letras maiúsculas, minúsculas ou de potuação. Além disso, as respostas serão sempre em português (brasileiro) e apenas uma palavra das três deve ser eescolhida."},
    {"role": "user", "content": f"{submission}"}
  ]
)
  return completion.choices[0].message.content

**2. Aplicação das classificações**

In [287]:
df['submission_rating'] = df['title'].apply(classify_submission)

**BackUp da Consulta**

In [288]:
df.to_csv('data.csv', index=False)

### Data Analysis

#### Bibliotecas e Importações

In [278]:
import plotly.express as px

#### Visão Geral

In [289]:
rating_results = df.groupby('submission_rating').agg(count_rating=('submission_rating', 'count'), score_sum=('score', 'sum')).reset_index()
rating_results = rating_results.sort_values(by='count_rating', ascending=False)

In [290]:
rating_totals_results = rating_results.copy() # Copia a Tabela de Resultados

rating_totals_results.loc['Total'] = rating_totals_results[['count_rating', 'score_sum' ]].sum() # Cria uma linha de totais
rating_totals_results = rating_totals_results.fillna("") # Substitui os valores NaN (que significa que a célula não possui valores), por vazio.

# Formatação da Tabela
#
## Remove as cadas decimais após a vírgula e coloca os cabeçalhos em letra maiúscula.
rating_totals_results = rating_totals_results.style \
  .format(precision=0) \
  .format_index(str.upper, axis=1)

In [295]:
rating_totals_results

Unnamed: 0,SUBMISSION_RATING,COUNT_RATING,SCORE_SUM
0,negativo,36,11486
3,positivo,10,262
2,neutro,2,47
1,negativo,1,1
4,positivo,1,27
Total,,50,11823


#### Quantidade de postagens por Classificação

In [299]:
# Cria um gráfico de pizza com furo (hole) em tons de verde (monocromático)
pie_chart = px.pie(rating_results, values='count_rating', \
                   names='submission_rating',\
                   title='Quantidade de Postagens por Classificação', \
                   hole=.3, \
                   color_discrete_sequence=px.colors.sequential.Greens_r)

pie_chart.update_traces(customdata=rating_results['score_sum'],
    hovertemplate="""<b>%{label}</b><br>Score: %{customdata}""",
    textinfo='label+percent+value',
    textfont_size=14,)

pie_chart.show()

#### Score por Classificação