# Visualização e Limpeza
Estrutura de Dados

Paulo Ricardo Fernandes Rodrigues 

Baseado em limpeza realizada por André Alves Gadelha

## Visualização do Dataframe

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv("../data/fakeTelegram.BR_2022.csv")
df.head()

Unnamed: 0,date_message,id_member_anonymous,id_group_anonymous,media,media_type,media_url,has_media,has_media_url,trava_zap,text_content_anonymous,dataset_info_id,date_system,score_sentiment,score_misinformation,id_message,message_type,messenger,media_name,media_md5
0,2022-10-05 06:25:04,1078cc958f0febe28f4d03207660715f,12283e08a2eb5789201e105b34489ee7,,,,False,False,False,Então é Fato Renato o áudio que eu ouvi no wha...,5,2022-10-05 06:25:28.863641,0.0,,16385,Texto,telegram,,
1,2022-10-05 06:25:08,,12283e08a2eb5789201e105b34489ee7,,,,False,False,False,"Saiu no YouTube do presidente a 8 horas atrás,...",5,2022-10-05 06:25:28.926311,0.0644,,16386,Texto,telegram,,
2,2022-10-05 06:26:28,92a2d8fd7144074f659d1d29dc3751da,9f2d7394334eb224c061c9740b5748fc,,,,False,False,False,"É isso, nossa parte já foi quase toda feita. N...",5,2022-10-05 06:26:29.361949,-0.3551,0.157242,16366,Texto,telegram,,
3,2022-10-05 06:27:28,d60aa38f62b4977426b70944af4aff72,c8f2de56550ed0bf85249608b7ead93d,94dca4cda503100ebfda7ce2bcc060eb.jpg,image/jpg,,True,False,False,GENTE ACHEI ELES EM UMA SEITA MAÇONÁRICA,5,2022-10-05 06:27:29.935624,0.0,,19281,Imagem,telegram,,94dca4cda503100ebfda7ce2bcc060eb
4,2022-10-05 06:27:44,cd6979b0b5265f08468fa1689b6300ce,e56ec342fc599ebb4ed89655eb6f03aa,5ad5c8bbe9da93a37fecf3e5aa5b0637.jpg,image/jpg,,True,False,False,,5,2022-10-05 06:28:29.316325,,,507185,Imagem,telegram,,5ad5c8bbe9da93a37fecf3e5aa5b0637


In [3]:
df.shape

(557586, 19)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 557586 entries, 0 to 557585
Data columns (total 19 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   date_message            557586 non-null  object 
 1   id_member_anonymous     234245 non-null  object 
 2   id_group_anonymous      557586 non-null  object 
 3   media                   332605 non-null  object 
 4   media_type              332605 non-null  object 
 5   media_url               157445 non-null  object 
 6   has_media               557586 non-null  bool   
 7   has_media_url           557586 non-null  bool   
 8   trava_zap               557586 non-null  bool   
 9   text_content_anonymous  444201 non-null  object 
 10  dataset_info_id         557586 non-null  int64  
 11  date_system             557586 non-null  object 
 12  score_sentiment         444157 non-null  float64
 13  score_misinformation    167238 non-null  float64
 14  id_message          

In [5]:
df.describe()

Unnamed: 0,dataset_info_id,score_sentiment,score_misinformation,id_message
count,557586.0,444157.0,167238.0,557586.0
mean,5.0,0.01733,0.312245,445061.7
std,0.0,0.464165,0.293699,486021.1
min,5.0,-1.0,3e-06,2.0
25%,5.0,-0.1779,0.078454,21275.0
50%,5.0,0.0,0.197577,121093.5
75%,5.0,0.3182,0.490351,972604.5
max,5.0,0.9992,1.0,1516436.0


In [6]:
df.isna().sum()

date_message                   0
id_member_anonymous       323341
id_group_anonymous             0
media                     224981
media_type                224981
media_url                 400141
has_media                      0
has_media_url                  0
trava_zap                      0
text_content_anonymous    113385
dataset_info_id                0
date_system                    0
score_sentiment           113429
score_misinformation      390348
id_message                     0
message_type                   0
messenger                      0
media_name                528599
media_md5                 224981
dtype: int64

Maior parte dos dados faltantes é relacionado a mídia, o que é mais preocupante, entretanto, é a falta do conteúdo de texto da mensagem, o id dos usuários e os scores de sentimento e desinformação. Para uma limpeza inicial, tirar as mensagens sem textos é interessante, pois grande parte da análise focará na análise do texto e, visto que o foco da análise principal está em cima de usuários, vamos remover esses nulos também, o que vai ajudar com processamento custoso, focando apenas nos dados que dizem mais em relação a nossa análise

OBS: Poderia ser interessante transformar os ids nulos em ids como se fossem usuários únicos, mas, como também o dataset é grande e o processamento é custoso, decidi pela remoção

### Métricas específicas

In [7]:
print("Linhas duplicadas:", df.duplicated().sum(axis=0))

df_null = df[df.isnull().any(axis='columns')]
print(f"\nlinhas que contém nulo: {df_null.shape[0]*100/df.shape[0]:.3f}%")

print("\nMensagens com ids duplicados:", df['id_message'].duplicated().sum())

dt = pd.to_datetime(df['date_message'], errors='coerce')
print("\nIntervalo de datas:")
print("Min:", dt.min(), "| Max:", dt.max())

print("\nGrupos e membros únicos:")
print("Grupos:", df['id_group_anonymous'].nunique())
print("Membros:", df['id_member_anonymous'].nunique())

print("\nQuantidade de tipos de mensagem:\n", df['message_type'].value_counts().head())
print("\nQuantidade de tipos de mídia:\n", df['media_type'].value_counts(dropna=False).head())

print("\nUso de memória (MB):", round(df.memory_usage(deep=True).sum()/1_000_000, 2))

Linhas duplicadas: 0

linhas que contém nulo: 99.996%

Mensagens com ids duplicados: 193577

Intervalo de datas:
Min: 2022-09-29 00:00:04 | Max: 2022-11-11 12:09:48

Grupos e membros únicos:
Grupos: 178
Membros: 14809

Quantidade de tipos de mensagem:
 message_type
Texto          224981
Imagem         202762
Url            100856
Video           18631
Application     10168
Name: count, dtype: int64

Quantidade de tipos de mídia:
 media_type
NaN                                        224981
image/jpg                                  200441
url                                        100856
video/mp4                                   18497
application/vnd.android.package-archive      7159
Name: count, dtype: int64

Uso de memória (MB): 636.0


## Limpeza do Dataframe

Ações realizadas:
- Limpeza de trava zaps
- Limpeza de colunas
- Limpeza de textos nulos
- Limpeza do texto (stop words, normalização, etc)

Limpeza dos trava zaps

In [8]:
df = df[~df['trava_zap']]
df.shape

(557570, 19)

Limpeza de colunas desnecessárias

In [9]:
df.drop(columns=['dataset_info_id', 'messenger','trava_zap'], inplace=True)
df.shape

(557570, 16)

In [10]:
df = df.dropna(subset=['text_content_anonymous', 'id_member_anonymous'])
df

Unnamed: 0,date_message,id_member_anonymous,id_group_anonymous,media,media_type,media_url,has_media,has_media_url,text_content_anonymous,date_system,score_sentiment,score_misinformation,id_message,message_type,media_name,media_md5
0,2022-10-05 06:25:04,1078cc958f0febe28f4d03207660715f,12283e08a2eb5789201e105b34489ee7,,,,False,False,Então é Fato Renato o áudio que eu ouvi no wha...,2022-10-05 06:25:28.863641,0.0000,,16385,Texto,,
2,2022-10-05 06:26:28,92a2d8fd7144074f659d1d29dc3751da,9f2d7394334eb224c061c9740b5748fc,,,,False,False,"É isso, nossa parte já foi quase toda feita. N...",2022-10-05 06:26:29.361949,-0.3551,0.157242,16366,Texto,,
3,2022-10-05 06:27:28,d60aa38f62b4977426b70944af4aff72,c8f2de56550ed0bf85249608b7ead93d,94dca4cda503100ebfda7ce2bcc060eb.jpg,image/jpg,,True,False,GENTE ACHEI ELES EM UMA SEITA MAÇONÁRICA,2022-10-05 06:27:29.935624,0.0000,,19281,Imagem,,94dca4cda503100ebfda7ce2bcc060eb
6,2022-10-05 06:29:09,3b685d44ff197b98d7c9e99b8f6b5281,b52442a5fbc459ae590dca0d215e32f9,,,,False,False,*SE ALGUÉM TE PERGUNTAR O QUE FOI QUE BOLSONAR...,2022-10-05 06:29:29.33448,0.9716,0.974258,2736,Texto,,
9,2022-10-05 06:29:48,a7e85072244cae15446c9d517dc01a1a,b8a8737812c7fd7d3e0bdbb65ef6306f,,,www.marketingdigitalparavencer.com.br,False,True,O Deputado Federal pelo NOVO e que foi candida...,2022-10-05 06:29:49.901419,-0.8779,0.035876,7248,Texto,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
557574,2022-11-11 12:05:39,3e49fd40fd973ee1b8f1a6d58feb4a54,4c6519d965020abc048521dfa837b9bb,1e57044095e6cb86bc7373b1a6bdf035.jpg,image/jpg,,True,False,SOMOS TRADERS PROFISSIONAIS COM MAIS DE 20 ANO...,2022-11-11 12:06:03.424558,,,93460,Imagem,,1e57044095e6cb86bc7373b1a6bdf035
557575,2022-11-11 12:05:38,333e9869f23dbd4682d1be382d9c1e59,e56ec342fc599ebb4ed89655eb6f03aa,c59e2cebce8773795fb965bdbcc4d277.jpg,url,https://terrabrasilnoticias.com/2022/11/deputa...,True,True,"Deputado é reeleito nos Estados Unidos, mas mo...",2022-11-11 12:06:03.8165,,,575793,Url,,c59e2cebce8773795fb965bdbcc4d277
557579,2022-11-11 12:05:56,3e49fd40fd973ee1b8f1a6d58feb4a54,4c6519d965020abc048521dfa837b9bb,3811191d6ad4e71cb7e492bf6ef22a8e.jpg,image/jpg,https://t.me/Manager_Marcus_Chat_Up_Now,True,True,ENVIE SEU PEDIDO !!!\n\nOI ?\n\nOLÁ ?\n\nQUÃO?...,2022-11-11 12:06:12.822633,,,93466,Imagem,,3811191d6ad4e71cb7e492bf6ef22a8e
557580,2022-11-11 12:05:41,3e49fd40fd973ee1b8f1a6d58feb4a54,4c6519d965020abc048521dfa837b9bb,9dd3b338a07226a04f97df82fbbcb36b.jpg,image/jpg,https://t.me/Manager_Marcus_Chat_Up_Now,True,True,NOVOS MEMBROS SEMPRE CLICAM NO LINK DO ADMINIS...,2022-11-11 12:06:13.208171,,,93464,Imagem,,9dd3b338a07226a04f97df82fbbcb36b


### Limpeza do texto

In [11]:
import re
import nltk
from nltk.corpus import stopwords
import unicodedata

In [12]:
nltk.download('stopwords')
stop_words = set(stopwords.words('portuguese')) # Define stop words em português

def limpar_texto(texto):
    if pd.isnull(texto):
        return ""
    
    # Transforma em lowercase
    texto = texto.lower()
    
    # Remove \n, \t, \r e múltiplos espaços
    texto = re.sub(r'[\n\r\t]', ' ', texto)
    texto = re.sub(r'\s+', ' ', texto)

    # Remove pontuação
    texto = re.sub(r'[^\w\s]', '', texto)

    # Normaliza risadas tipo kkkkkkkk → kkk
    texto = re.sub(r'k{3,}', 'kkk', texto)

    # Remove stop words
    palavras = texto.split()
    palavras_filtradas = [palavra for palavra in palavras if palavra not in stop_words]

    return ' '.join(palavras_filtradas)

# Aplicação da função de limpeza 
df['texto_limpo'] = df['text_content_anonymous'].apply(limpar_texto) # cria coluna texto_limpo

# Mensagen do sistema
text_to_drop = "this community was blocked in brazil following decision of the superior electoral court tse"
df = df[df['texto_limpo'] != text_to_drop].copy()

# Remove as linhas onde a coluna 'texto_limpo' contém caracteres árabes
# O intervalo \u0600-\u06ff cobre a maioria dos caracteres árabes comuns
arabic_pattern = re.compile(r'[\u0600-\u06ff]')
df = df[~df['texto_limpo'].apply(lambda x: bool(arabic_pattern.search(str(x))))]

# aplicação da normalização unicode
df['texto_limpo'] = df['texto_limpo'].apply(
    lambda x: unicodedata.normalize('NFKC', str(x)).lower() if isinstance(x, str) else x
)

# --- Remoção de mensagens com menos de 5 palavras ---
# Cria a coluna 'words' contando as palavras separadas por espaço
df['words'] = df['texto_limpo'].str.split(r'[ \n\t]+').str.len()

# Remove os registros com menos de cinco palavras
df = df[df['words'] >= 5]

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/paulofr/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Usando TfidfVectorizer para agrupar textos altamente semelhantes, substituindo-os por um centróide

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import DBSCAN
from sklearn.metrics import pairwise_distances

texts = df["texto_limpo"].astype(str).tolist()

vectorizer = TfidfVectorizer(min_df=5, max_features=5000)
X = vectorizer.fit_transform(texts)

dbscan = DBSCAN(eps=0.3, min_samples=2, metric="cosine", n_jobs=-1)
labels = dbscan.fit_predict(X)

representantes = {}
for cluster_id in set(labels):
    if cluster_id == -1: 
        continue
    idxs = np.where(labels == cluster_id)[0]
    cluster_vecs = X[idxs]
    
    # calcula distâncias internas
    dists = pairwise_distances(cluster_vecs, metric="cosine")
    
    # escolhe o texto mais central (menor soma de distâncias)
    central_idx = idxs[dists.sum(axis=1).argmin()]
    representantes[cluster_id] = texts[central_idx]

# 4. Substituir textos pelo representante
novo_texto = []
for i, lbl in enumerate(labels):
    if lbl == -1:
        novo_texto.append(texts[i])  # mantém original
    else:
        novo_texto.append(representantes[lbl])

df["texto_limpo"] = novo_texto

df['texto_limpo'].head(20)

0     então fato renato áudio ouvi whatsapp ocorreu ...
2     parte quase toda feita segundo turno completam...
6     alguém perguntar bolsonaro fez bom brasil most...
9     união bem contra mal vamos pra cima brasil vam...
10    saiam desse grupo amigos bolsonaristas urgente...
13    saiam desse grupo amigos bolsonaristas urgente...
16    olá bem vindoa grupo especulando fatos grupo o...
19    olha fazendo todos grupos direita estratégia p...
39    toda vez alguém tentar ligar presidente maçona...
40    toda vez alguém tentar ligar presidente maçona...
41    toda vez alguém tentar ligar presidente maçona...
43    união bem contra mal vamos pra cima brasil vam...
44    união bem contra mal vamos pra cima brasil vam...
46    ccccccccccccccccccccccchhhhhhhhhhhhhhhhhhhhhoo...
47    resistência elite mecanismo podre manipula tud...
48    cúmplices publicado il popolo dltalia 4 junho ...
53              vcs querem fazer comprovantes voto povo
55    independente políticos trevosos estarem ar

### Definição de mensagens virais

In [14]:
df['msg_count'] = df['texto_limpo'].map(df['texto_limpo'].value_counts())

sigma = df.msg_count.std()
mu =  df.msg_count.mean()
threshold = mu+1.5*sigma

df['viral'] = np.where(df['msg_count'] > threshold, True, False)

df['viral'].value_counts()

viral
0    115782
1     12094
Name: count, dtype: int64

### Salva dataset em csv

In [15]:
# filtra as colunas necessárias
df = df[['date_message', 'id_message', 'id_member_anonymous', 'id_group_anonymous', 'media_type', 'has_media', 
         'score_sentiment', 'score_misinformation', 'message_type', 'texto_limpo', 'msg_count', 'viral']]

In [16]:
df.to_csv('../data/telegram_tratado.csv', index=False)