### Preparação do Ambiente

In [1]:
pip install pandas numpy torch torchvision scikit-learn

Note: you may need to restart the kernel to use updated packages.


### Carregar e Explorar os Dados

In [2]:
import pandas as pd

# Carregar o dataset
df = pd.read_csv("C:\\Users\\Matheus\\Documents\\Github Projects\\research_MLs\\projects\\LMs\\dataset\\viral_social_media_trends\\Viral_Social_Media_Trends.csv")

# Exibir as primeiras linhas
print(df.head())

# Verificar informações gerais
print(df.info())


  Post_ID   Platform     Hashtag Content_Type     Region    Views   Likes  \
0  Post_1     TikTok  #Challenge        Video         UK  4163464  339431   
1  Post_2  Instagram  #Education       Shorts      India  4155940  215240   
2  Post_3    Twitter  #Challenge        Video     Brazil  3666211  327143   
3  Post_4    YouTube  #Education       Shorts  Australia   917951  127125   
4  Post_5     TikTok      #Dance         Post     Brazil    64866  171361   

   Shares  Comments Engagement_Level  
0   53135     19346             High  
1   65860     27239           Medium  
2   39423     36223           Medium  
3   11687     36806              Low  
4   69581      6376           Medium  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Post_ID           5000 non-null   object
 1   Platform          5000 non-null   object
 2   Hashtag

### Passo 3: Pré-processamento
Converter variáveis categóricas (ex: Platform, Hashtag, Content_Type, Region) para valores numéricos usando LabelEncoder.

Normalizar os valores numéricos (Views, Likes, Shares, Comments).

Converter Engagement_Level em rótulos numéricos.

In [3]:
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# Codificar variáveis categóricas
label_encoders = {}
categorical_columns = ["Platform", "Hashtag", "Content_Type", "Region"]
for col in categorical_columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le  # Salvar para futuras transformações

# Normalizar colunas numéricas
scaler = MinMaxScaler()
numerical_columns = ["Views", "Likes", "Shares", "Comments"]
df[numerical_columns] = scaler.fit_transform(df[numerical_columns])

# Codificar a variável alvo
engagement_encoder = LabelEncoder()
df["Engagement_Level"] = engagement_encoder.fit_transform(df["Engagement_Level"])

# Exibir o dataframe pré-processado
print(df.head())


  Post_ID  Platform  Hashtag  Content_Type  Region     Views     Likes  \
0  Post_1         1        0             5       6  0.832745  0.678653   
1  Post_2         0        3             3       4  0.831240  0.429988   
2  Post_3         2        0             5       1  0.733258  0.654049   
3  Post_4         3        3             3       0  0.183404  0.253558   
4  Post_5         1        2             1       1  0.012725  0.342131   

     Shares  Comments  Engagement_Level  
0  0.531223  0.386753                 0  
1  0.658567  0.544692                 2  
2  0.394002  0.724462                 2  
3  0.116436  0.736128                 1  
4  0.695805  0.127224                 2  


### Passo 4: Dividir os Dados
Dividimos os dados em treino (80%) e teste (20%).

In [4]:
from sklearn.model_selection import train_test_split
import torch

# Separar features (X) e rótulos (y)
X = df.drop(columns=["Post_ID", "Engagement_Level"]).values
y = df["Engagement_Level"].values

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Converter para tensores do PyTorch
X_train = torch.tensor(X_train, dtype=torch.float32)
X_test = torch.tensor(X_test, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.long)
y_test = torch.tensor(y_test, dtype=torch.long)


### Passo 5: Criar o Modelo
Agora, criamos uma rede neural simples para classificar o nível de engajamento.

In [5]:
import torch.nn as nn
import torch.optim as optim

class EngagementModel(nn.Module):
    def __init__(self):
        super(EngagementModel, self).__init__()
        self.fc1 = nn.Linear(X_train.shape[1], 16)  # Camada oculta com 16 neurônios
        self.fc2 = nn.Linear(16, 8)  # Outra camada oculta
        self.fc3 = nn.Linear(8, 3)   # Camada de saída para 3 classes (Baixo, Médio, Alto)
        self.relu = nn.ReLU()  # Função de ativação
        self.softmax = nn.Softmax(dim=1)  # Ativação na saída

    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.softmax(self.fc3(x))
        return x

# Criar modelo
model = EngagementModel()


### Passo 6: Treinar o Modelo
Definimos a função de perda e o otimizador e treinamos o modelo.

In [6]:
# Definir função de perda e otimizador
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

# Treinamento
epochs = 50
for epoch in range(epochs):
    model.train()
    optimizer.zero_grad()
    outputs = model(X_train)
    loss = criterion(outputs, y_train)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f"Época {epoch+1}/{epochs}, Loss: {loss.item():.4f}")


Época 10/50, Loss: 1.0978
Época 20/50, Loss: 1.0968
Época 30/50, Loss: 1.0957
Época 40/50, Loss: 1.0942
Época 50/50, Loss: 1.0925


### Passo 7: Avaliação do Modelo
Vamos medir acurácia, precisão, recall e F1-score no conjunto de teste.

In [7]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Modo de avaliação
model.eval()
with torch.no_grad():
    predictions = model(X_test).argmax(dim=1)  # Pegamos a classe mais provável

# Converter para numpy
y_test_np = y_test.numpy()
predictions_np = predictions.numpy()

# Calcular métricas
accuracy = accuracy_score(y_test_np, predictions_np)
precision = precision_score(y_test_np, predictions_np, average="weighted")
recall = recall_score(y_test_np, predictions_np, average="weighted")
f1 = f1_score(y_test_np, predictions_np, average="weighted")

# Exibir resultados
print(f"Acurácia: {accuracy:.2f}")
print(f"Precisão: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")


Acurácia: 0.37
Precisão: 0.37
Recall: 0.37
F1-Score: 0.34


### Postagens de Teste
Vamos definir algumas postagens com diferentes características e verificar o que o modelo prevê.

In [9]:
import numpy as np

# Criar exemplos de postagens fictícias
test_posts = [
    ["TikTok", "#Viral", "Reel", "USA", 1000000, 50000, 10000, 8000],  # Esperado: Alto
    ["Twitter", "#Dance", "Tweet", "Brazil", 20000, 500, 100, 50],  # Esperado: Baixo
    ["Instagram", "#Education", "Post", "India", 500000, 20000, 3000, 2500],  # Esperado: Médio
]

# Converter para DataFrame
df_test = pd.DataFrame(test_posts, columns=["Platform", "Hashtag", "Content_Type", "Region", "Views", "Likes", "Shares", "Comments"])

# Aplicar o mesmo processamento do dataset original
for col in categorical_columns:
    df_test[col] = label_encoders[col].transform(df_test[col])

df_test[numerical_columns] = scaler.transform(df_test[numerical_columns])

# Converter para tensor PyTorch
X_manual_test = torch.tensor(df_test.values, dtype=torch.float32)

# Fazer previsões
model.eval()
with torch.no_grad():
    predictions = model(X_manual_test).argmax(dim=1)

# Decodificar rótulos para legibilidade
predicted_labels = engagement_encoder.inverse_transform(predictions.numpy())

# Exibir os resultados
for i, post in enumerate(test_posts):
    print(f"Postagem: {post}")
    print(f"Previsão do Modelo: {predicted_labels[i]}\n")


ValueError: y contains previously unseen labels: '#News'

### Análise de Engajamento

In [None]:
import pandas as pd

# Carregar o CSV
df = pd.read_csv("social_media_data.csv")

# Plataforma com mais engajamento médio
platform_engagement = df.groupby("Platform")[["Views", "Likes", "Shares", "Comments"]].mean()
platform_highest_engagement = platform_engagement.mean(axis=1).idxmax()

# Hashtag mais curtida
top_liked_hashtag = df.groupby("Hashtag")["Likes"].sum().idxmax()

# Hashtag mais visualizada
top_viewed_hashtag = df.groupby("Hashtag")["Views"].sum().idxmax()

# Hashtag mais compartilhada
top_shared_hashtag = df.groupby("Hashtag")["Shares"].sum().idxmax()

# País que mais comenta
top_commenting_country = df.groupby("Region")["Comments"].sum().idxmax()

# Exibir resultados
print(f"📌 Plataforma com maior engajamento médio: {platform_highest_engagement}")
print(f"❤️ Hashtag com mais curtidas: {top_liked_hashtag}")
print(f"👀 Hashtag com mais visualizações: {top_viewed_hashtag}")
print(f"🔄 Hashtag mais compartilhada: {top_shared_hashtag}")
print(f"💬 País que mais comenta: {top_commenting_country}")