## Configuração de API

In [1]:
CLIENT_ID = "SEUID"
SECRET_KEY = "SUASENHA"

In [1]:
import requests
import pandas as pd

In [3]:
auth = requests.auth.HTTPBasicAuth(CLIENT_ID, SECRET_KEY)

In [4]:
with open('pw.txt', 'r') as f:
    pw = f.read()

In [5]:
data = {
    'grant_type': 'password',
    'username': 'SEUUSER',
    'password': pw
}

In [6]:
headers = {'User-Agent': 'MyAPI/0.01'}

In [7]:
res = requests.post('https://www.reddit.com/api/v1/access_token', 
                   auth=auth, data=data, headers=headers)

In [8]:
TOKEN = res.json()['access_token']

In [9]:
headers = {**headers, **{'Authorization': f'bearer {TOKEN}'}}

In [10]:
# headers

In [11]:
# requests.get('https://oauth.reddit.com/api/v1/me', headers={'User-Agent': 'MyAPI/0.01'})

In [12]:
# requests.get('https://oauth.reddit.com/api/v1/me', headers=headers).json()

In [13]:
res = requests.get('https://oauth.reddit.com/r/popheads//hot',
                headers=headers, params={'limit': '100'})

In [14]:
all_posts_data = []

for post in res.json()['data']['children']:
    post_data_dict = {
        'id_post': post['data'].get('id'),
        'title': post['data'].get('title'),
        'author': post['data'].get('author'),
        'subreddit': post['data'].get('subreddit'),
        'ups': post['data'].get('ups'),
        'upvote_ratio': post['data'].get('upvote_ratio'),
        'downs': post['data'].get('downs'),
        'score': post['data'].get('score'),
        'num_comments': post['data'].get('num_comments'),
        'is_self': post['data'].get('is_self'), 
        'selftext': post['data'].get('selftext', ''),
        'created_utc': post['data'].get('created_utc')
    }
    all_posts_data.append(post_data_dict)

df = pd.DataFrame(all_posts_data)

## Descrição da Base de Dados e Atributos Coletados

### Atributos Originais

Para esta atividade, foram coletados os dados sobre os posts do subreddit "popheads". A coleta foi feita através da API do Reddit, resultando em um conjunto de 102 postagens. 
Esta base de dados, ainda em seu formato bruto, contém as seguintes informações para cada postagem:
- id_post: ID do post;
- title: Título do post;
- author: Autor do post;
- subreddit: Subreddit referente ao post;
- ups: Número de "upvotes" que o post recebeu;
- upvote_ratio: Proporção de "upvotes" em relação ao total de votos ("upvotes" + "downvotes");
- downs: Número de "downvotes" que o post recebeu;
- score: Pontuação do post calculada como "ups" - "downs";
- num_commets: Número de comentários do post;
- is_self: : Indica se o post é um post de texto (True) ou post de um link externo (False);
- selftext: Contém o corpo do texto do post (caso seja um post de texto);
- created_ufc: Timestamp Unix da criação do post

### Atributos Derivados

Número de caracteres presentes no título da postagem. Essa informação pode ajudar a analisar se a concisão ou a extenão do título influenciam o engajamento ou o tipo de conteúdo.

In [15]:
df['len_title'] = df['title'].str.len()

Representação em formato de data e hora legível do timestamp Unix da criação da postagem. Essa informação é útil pois ajuda a extrair informações temporais mais granulares.

In [16]:
df['datetime'] = pd.to_datetime(df['created_utc'], unit='s', utc=True)

A hora do dia em que a postagem foi criada. Essa informação auxilia a identificar os horários de pico de atividade na comunidade.

In [17]:
df['post_hour'] = df['datetime'].dt.hour

O dia da semana (0 para segunda-feira a 6 para domingo) em que a postagem foi criada. Com essa informação, é possível analisar padrões de postagem e engajamento ao longo da semana.

In [18]:
df['post_day_of_week'] = df['datetime'].dt.dayofweek

Representa engajamento total da postagem, calculada como a soma de votos positivos e número de comentários. Isso oferece uma visão consolidada da popularidade e da capacidade de discussão que a postagem gerou.

In [42]:
df['engagement_score'] = df['ups'] + df['num_comments']

## Dataframe

In [6]:
import pandas as pd

In [7]:
df = pd.read_csv('df.csv')

In [8]:
df.count()

id_post             102
title               102
author              102
subreddit           102
ups                 102
upvote_ratio        102
downs               102
score               102
num_comments        102
is_self             102
selftext             22
created_utc         102
len_title           102
datetime            102
post_hour           102
post_day_of_week    102
dtype: int64

## Pré-processamento

#### Normalização do título e do texto da postagem

In [12]:
!pip install nltk

Defaulting to user installation because normal site-packages is not writeable
Collecting nltk
  Using cached nltk-3.9.1-py3-none-any.whl (1.5 MB)
Collecting regex>=2021.8.3
  Using cached regex-2024.11.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (781 kB)
Installing collected packages: regex, nltk
Successfully installed nltk-3.9.1 regex-2024.11.6


In [13]:
import numpy as np
import nltk

In [14]:
df['selftext'] = df['selftext'].replace('NaN', np.nan)
df['selftext'] = df['selftext'].replace('', np.nan)

df['title'] = df['title'].replace('NaN', np.nan)
df['title'] = df['title'].replace('', np.nan)

df['title'] = df['title'].str.lower()
df['selftext'] = df['selftext'].str.lower()

df_text_processing = df[['id_post', 'title', 'selftext']].copy()

In [15]:
df_text_processing['selftext'] = df_text_processing['selftext'].astype(str).fillna('')
df_text_processing['title'] = df_text_processing['title'].astype(str).fillna('')

#### Conversão de emojis

In [19]:
!pip install emoji

Defaulting to user installation because normal site-packages is not writeable
Collecting emoji
  Using cached emoji-2.14.1-py3-none-any.whl (590 kB)
Installing collected packages: emoji
Successfully installed emoji-2.14.1


In [20]:
import emoji 
import re 

In [21]:
def convert_unicode(text):
    return emoji.demojize(text, language='en', delimiters=(" ", " "))

df_text_processing['title'] = df_text_processing['title'].apply(convert_unicode)
df_text_processing['selftext'] = df_text_processing['selftext'].apply(convert_unicode)

emoticon_mapping = {
    r':\)\s*': ' _happy_face_ ',  # :)
    r':-\)\s*': ' _happy_face_ ', # :-)
    r'\(\s*:\)': ' _happy_face_ ', # (:
    r':D\s*': ' _big_smile_ ',   # :D
    r':\(\s*': ' _sad_face_ ',   # :(
    r':-\(\s*': ' _sad_face_ ',  # :-(
    r';\)\s*': ' _winking_face_ ', # ;)
    r':\/\s*': ' _confused_face_ ', # :/
    r':O\s*': ' _surprise_face_ ', # :O
    r'xD\s*': ' _laughing_face_ ', # xD
}

def convert_emoticons(text):
    for pattern, replacement in emoticon_mapping.items():
        text = re.sub(pattern, replacement, text, flags=re.IGNORECASE)
    return text

df_text_processing['title'] = df_text_processing['title'].apply(convert_emoticons)
df_text_processing['selftext'] = df_text_processing['selftext'].apply(convert_emoticons)

#### Tokenização

In [22]:
from nltk import word_tokenize
from nltk.tokenize import RegexpTokenizer

In [23]:
tokenizer = RegexpTokenizer(r'\w+')

df_text_processing['title_tokens'] = df_text_processing['title'].apply(tokenizer.tokenize)
df_text_processing['selftext_tokens'] = df_text_processing['selftext'].apply(tokenizer.tokenize)

#### Remoção de stop words

In [24]:
from nltk.corpus import stopwords

In [25]:
stop_words = set(stopwords.words('english'))

def remove_stopwords(tokens):
    return [word for word in tokens if word.lower() not in stop_words]

df_text_processing['title_stopwords'] = df_text_processing['title_tokens'].apply(remove_stopwords)
df_text_processing['selftext_stopwords'] = df_text_processing['selftext_tokens'].apply(remove_stopwords)

#### Lematização

In [26]:
from nltk.stem import WordNetLemmatizer

In [27]:
lemmatizer = WordNetLemmatizer()

def lemmatize_tokens_cleaned(tokens):
    return [lemmatizer.lemmatize(word, pos='n') for word in tokens]

df_text_processing['title_lemmas'] = df_text_processing['title_stopwords'].apply(lemmatize_tokens_cleaned)
df_text_processing['selftext_lemmas'] = df_text_processing['selftext_stopwords'].apply(lemmatize_tokens_cleaned)

### TF-IDF

In [29]:
!pip install --upgrade scikit-learn numpy pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Using cached scikit_learn-1.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.9 MB)
Collecting pandas
  Downloading pandas-2.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.3 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.3/12.3 MB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Installing collected packages: scikit-learn, pandas
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.3.0
    Uninstalling scikit-learn-1.3.0:
      Successfully uninstalled scikit-learn-1.3.0
  Attempting uninstall: pandas
    Found existing installation: pandas 2.2.3
    Uninstalling pandas-2.2.3:
      Successfully uninstalled pandas-2.2.3
Successfully installed pandas-2.3.0 scikit-learn-1.7.0


In [30]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [31]:
df_text_processing['combined_lemmas'] = df_text_processing.apply(
    lambda row: row['title_lemmas'] + row['selftext_lemmas'], axis=1
)

df_text_processing['text_for_tfidf'] = df_text_processing['combined_lemmas'].apply(lambda tokens: ' '.join(tokens))

#### Removendo números após a junção dos textos

In [32]:
def remove(text):
    if pd.isna(text):
        return text
    result = re.sub(r'\d+', '', str(text)) 
    return result.strip()

df_text_processing['text_for_tfidf'] = df_text_processing['text_for_tfidf'].apply(remove)

#### Aplicação do algoritmo

In [33]:
vectorizer = TfidfVectorizer()

tfidf_matrix = vectorizer.fit_transform(df_text_processing['text_for_tfidf'])

tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

In [34]:
c = tfidf_df.columns[ (tfidf_df > 0).any() ].tolist()

In [36]:
# c

### Modelagem de tópicos com NMF


In [39]:
pip install scikit-learn numpy scipy pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Using cached scikit_learn-1.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.9 MB)
Collecting scipy
  Downloading scipy-1.15.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (37.7 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m37.7/37.7 MB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
[?25hCollecting pandas
  Using cached pandas-2.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.3 MB)
Collecting numpy
  Using cached numpy-2.2.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.8 MB)
Installing collected packages: numpy, scipy, pandas, scikit-learn
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
pyarrow 15.0.2 requires numpy<2,

In [40]:
from sklearn.decomposition import NMF

ImportError: cannot import name '_raise_for_params' from 'sklearn.utils.metadata_routing' (/home/izzy/.local/lib/python3.10/site-packages/sklearn/utils/metadata_routing.py)

#### Aplicação do algoritmo

In [131]:
model = NMF(n_components=10, random_state=0)
model.fit(tfidf_matrix)

0,1,2
,n_components,10
,init,
,solver,'cd'
,beta_loss,'frobenius'
,tol,0.0001
,max_iter,200
,random_state,0
,alpha_W,0.0
,alpha_H,'same'
,l1_ratio,0.0


#### DataFrame com os tópicos e as palavras associadas

In [132]:
num_palavras = 10

dicionario_topicos = {}

for indice_topico, topico in enumerate(model.components_):
    
    chave_topico = f"Tópico {indice_topico}"
    
    feature_names = vectorizer.get_feature_names_out()
    dicionario_topicos[chave_topico] = [feature_names[i] for i in topico.argsort()[:-num_palavras - 1:-1]]

df_topicos = pd.DataFrame(dicionario_topicos)


In [133]:
df_topicos


Unnamed: 0,Tópico 0,Tópico 1,Tópico 2,Tópico 3,Tópico 4,Tópico 5,Tópico 6,Tópico 7,Tópico 8,Tópico 9
0,_confused_face_,gossip,new,boone,katseye,haim,leg,lorde,beach,warren
1,http,content,album,benson,gabriela,,mccall,hammer,caroline,alex
2,popheads,news,announces,american,,live,wet,,polachek,ordinary
3,com,allowed,night,heart,chaos,lounge,davina,pitchfork,stranding,week
4,www,banned,,review,medley,wrong,video,track,,hot
5,reddit,removed,single,pitchfork,highlight,addison,official,review,death,billboard
6,amp,link,maroon,theneedledrop,choice,rae,,charli,lyric,top
7,rate,post,friday,album,gnarly,rampage,twilight,remix,video,add
8,comment,music,tour,fun,performs,set,zone,xcx,moyka,third
9,th,without,release,half,kid,headphone,audrey,year,deep,chart
