# CK0223 - Mineração de Dados

## Lista 03 - Análise de Dados

### Dados do discente:
**Nome**: Luiza Esther Martins Pessoa
**Matrícula**: 555516

### Vídeo Youtube:
[Mineração de Dados: Lista 04 - Análise Exploratória de Dados (Explicando o código)]()

### GitHub:
[EstherMart - Análise Exploratória de Dados](https://github.com/EstherMart/Data-Mining/blob/main/)

---

### **(a)** Ler o dataset *fakeTelegram.BR_2022.csv*

Os itens **a** até o **d** já foram realizados anteriormente durante a resolução das últimas listas. Além disso, ler o dataset é o primeiro passo para iniciarmos a extração, manipulação e tratamento dos dados. 

Para fazer isso, começamos importando as bibliotecas necessárias para leitura (`pandas`) e para download local da base de dados (`gdown`). Além disso, vale ressaltar que existem outras formas de realizar o upload para o repositório local, mas decidi seguir a lógica de puxar e realizar o download de base utilizando apenas o link disponibilizado pelo professor.

**Importante**: Trechos de código serão reutilizados, visto que são as mesmas exigências em ambas as listas e tal solicitação já foi realizada nas listas anteriores.

In [1]:
# IMPORTAÇÃO DE BIBLIOTECAS
import gdown
import pandas as pd
import numpy as np
from sqlalchemy import create_engine # Utilizado na parte dos DashBoards

Fazendo o download do dataset para o repositório local

In [3]:
origem_url = 'https://drive.google.com/file/d/1c_hLzk85pYw-huHSnFYZM_gn-dUsYRDm/view'

# O ID do arquivo (necessário para fazer o download direto) está entre os últimos elementos da URL.
# Fazemos um split na URL usando '/' como separador e pegamos o penúltimo elemento da lista.
# Isso funciona porque a estrutura da URL é:
# https://drive.google.com/file/d/ID_DO_ARQUIVO/view
# E ao aplicar url.split('/'), o resultado será:
# ['https:', '', 'drive.google.com', 'file', 'd', 'ID_DO_ARQUIVO', 'view?...']
# Portanto, o ID está na posição -2 (penúltima).

file_id = origem_url.split('/')[-2]

# URL do arquivo no formato aceito pelo gdown
url = f'https://drive.google.com/uc?id={file_id}'

# Nome local do arquivo que será baixado
output = 'fakeTelegram.BR_2022.csv'

# Baixando o arquivo com gdown
gdown.download(url, output, quiet=False)

Downloading...
From (original): https://drive.google.com/uc?id=1c_hLzk85pYw-huHSnFYZM_gn-dUsYRDm
From (redirected): https://drive.google.com/uc?id=1c_hLzk85pYw-huHSnFYZM_gn-dUsYRDm&confirm=t&uuid=a8b1f54b-645f-4edb-9fcf-b6d0d34e5c6d
To: c:\Users\esthe\Downloads\Data-Mining\Lista04_AnaliseExploratoria\fakeTelegram.BR_2022.csv
100%|██████████| 224M/224M [01:04<00:00, 3.49MB/s] 


'fakeTelegram.BR_2022.csv'

Leitura do dataset utilizando o método `.read_csv()`, permitindo carregar dados estruturados a partir de arquivos *CSV* para um DataFrame do pandas, sendo uma estrutura tabular extremamente versátil e visualmente intuitiva.

In [2]:
df_inicial = pd.read_csv("fakeTelegram.BR_2022.csv")

O código abaixo foi implementado apenas para fins de **visualização e verificação inicial dos dados carregados**, com o objetivo de:
- Obter uma compreensão rápida da dimensão do dataset
- Identificar os nomes das colunas disponíveis
- Realizar uma primeira checagem da integridade básica da estrutura de dados

In [3]:
# PARA MELHOR VISUALIZAÇÃO
print("Número de linhas:", df_inicial.shape[0])
print("Número de colunas:", df_inicial.shape[1])
print("\nColunas disponíveis:")
for i, col in enumerate(df_inicial.columns, 1):
    print(f"{i}. {col}")

# VISUALIZANDO AMOSTRAS INICIAIS E FINAIS DO DATASET
display(df_inicial.head().style.set_caption("Primeiros Registros").set_properties(**{
    'background-color': '#f8f9fa',
    'border': '1px solid #dee2e6',
    'color': '#212529',
    'max-width': '300px',
    'overflow': 'hidden',
    'text-overflow': 'ellipsis',
    'white-space': 'nowrap'
}))

display(df_inicial.tail().style.set_caption("Últimos Registros").set_properties(**{
    'background-color': '#f8f9fa',
    'border': '1px solid #dee2e6',
    'color': '#212529',
    'max-width': '300px',
    'overflow': 'hidden',
    'text-overflow': 'ellipsis',
    'white-space': 'nowrap'
}))

Número de linhas: 557586
Número de colunas: 19

Colunas disponíveis:
1. date_message
2. id_member_anonymous
3. id_group_anonymous
4. media
5. media_type
6. media_url
7. has_media
8. has_media_url
9. trava_zap
10. text_content_anonymous
11. dataset_info_id
12. date_system
13. score_sentiment
14. score_misinformation
15. id_message
16. message_type
17. messenger
18. media_name
19. media_md5


Unnamed: 0,date_message,id_member_anonymous,id_group_anonymous,media,media_type,media_url,has_media,has_media_url,trava_zap,text_content_anonymous,dataset_info_id,date_system,score_sentiment,score_misinformation,id_message,message_type,messenger,media_name,media_md5
0,2022-10-05 06:25:04,1078cc958f0febe28f4d03207660715f,12283e08a2eb5789201e105b34489ee7,,,,False,False,False,Então é Fato Renato o áudio que eu ouvi no whatsapp isso ocorreu em Niterói principalmente no bairro Fonseca ?,5,2022-10-05 06:25:28.863641,0.0,,16385,Texto,telegram,,
1,2022-10-05 06:25:08,,12283e08a2eb5789201e105b34489ee7,,,,False,False,False,"Saiu no YouTube do presidente a 8 horas atrás, infelizmente não consigo enviar para cá, mas é facilmente verificável no YouTube do presidente",5,2022-10-05 06:25:28.926311,0.0644,,16386,Texto,telegram,,
2,2022-10-05 06:26:28,92a2d8fd7144074f659d1d29dc3751da,9f2d7394334eb224c061c9740b5748fc,,,,False,False,False,"É isso, nossa parte já foi quase toda feita. No segundo turno completamos nossa parte desse teatro. Essa é uma guerra de 4* geração na dimensão humana e uma guerra espiritual do bem contra o mal na dimensão do Universo. Pensamento positivo é fundamental, pensem sempre em algo bom. Deus continua nos abençoando, nosso livre arbítrio completa o curso.",5,2022-10-05 06:26:29.361949,-0.3551,0.157242,16366,Texto,telegram,,
3,2022-10-05 06:27:28,d60aa38f62b4977426b70944af4aff72,c8f2de56550ed0bf85249608b7ead93d,94dca4cda503100ebfda7ce2bcc060eb.jpg,image/jpg,,True,False,False,GENTE ACHEI ELES EM UMA SEITA MAÇONÁRICA,5,2022-10-05 06:27:29.935624,0.0,,19281,Imagem,telegram,,94dca4cda503100ebfda7ce2bcc060eb
4,2022-10-05 06:27:44,cd6979b0b5265f08468fa1689b6300ce,e56ec342fc599ebb4ed89655eb6f03aa,5ad5c8bbe9da93a37fecf3e5aa5b0637.jpg,image/jpg,,True,False,False,,5,2022-10-05 06:28:29.316325,,,507185,Imagem,telegram,,5ad5c8bbe9da93a37fecf3e5aa5b0637


Unnamed: 0,date_message,id_member_anonymous,id_group_anonymous,media,media_type,media_url,has_media,has_media_url,trava_zap,text_content_anonymous,dataset_info_id,date_system,score_sentiment,score_misinformation,id_message,message_type,messenger,media_name,media_md5
557581,2022-11-11 12:06:15,333e9869f23dbd4682d1be382d9c1e59,e56ec342fc599ebb4ed89655eb6f03aa,25e43b6a58b848c43ad5b5f9e979822a.jpg,url,https://terrabrasilnoticias.com/2022/11/bndes-tem-lucro-de-r-96-bilhoes-no-terceiro-trimestre/,True,True,False,"BNDES tem lucro de R$ 9,6 bilhões no terceiro trimestre ☛ https://terrabrasilnoticias.com/2022/11/bndes-tem-lucro-de-r-96-bilhoes-no-terceiro-trimestre/",5,2022-11-16 14:49:39.146502,0.1027,,575796,Url,telegram,,25e43b6a58b848c43ad5b5f9e979822a
557582,2022-11-11 12:09:08,,5b10d7739171149be6d9961e3350c071,657949d03e4088f6b332e2686ccd3221.jpg,url,https://youtu.be/8g1Vz9_0xVk,True,True,False,https://youtu.be/8g1Vz9_0xVk,5,2022-11-16 14:49:39.847434,0.0,,1286443,Url,telegram,,657949d03e4088f6b332e2686ccd3221
557583,2022-11-11 12:09:47,,1590a03f43b5ba4b6147a1c5e1dd357b,a21848a61045380a6483866daed0ca0e.jpg,image/jpg,https://t.me/vemprasruas,True,True,False,"Empresários, demitam os petistas primeiro. https://t.me/vemprasruas",5,2022-11-16 14:49:39.922279,0.0,,13294,Imagem,telegram,,a21848a61045380a6483866daed0ca0e
557584,2022-11-11 12:09:46,,5b10d7739171149be6d9961e3350c071,a21848a61045380a6483866daed0ca0e.jpg,image/jpg,https://t.me/vemprasruas,True,True,False,"Empresários, demitam os petistas primeiro. https://t.me/vemprasruas",5,2022-11-16 14:49:39.992932,0.0,,1286444,Imagem,telegram,,a21848a61045380a6483866daed0ca0e
557585,2022-11-11 12:09:48,,b11f2df64ac19aad47a50accf32052d6,a21848a61045380a6483866daed0ca0e.jpg,image/jpg,https://t.me/vemprasruas,True,True,False,"Empresários, demitam os petistas primeiro. https://t.me/vemprasruas",5,2022-11-16 14:49:40.064006,0.0,,192127,Imagem,telegram,,a21848a61045380a6483866daed0ca0e


---

### **(b)** Remova os trava-zaps.

Este item será resolvido através da manipulação da coluna `trava_zap`, previamente identificada na análise inicial. A estratégia adotada considera o tamanho do dataset (557.586 registros) e segue um fluxo estruturado:

1. **Análise Preliminar**
    - Verificação do tipo de dado (dtype) e valores únicos na coluna `trava_zap`
    - Confirmação da proporção True/False/NaN (se aplicável)

In [4]:
# ANÁLISE PRELIMINAR
# Verificação do tipo e valores únicos
print(f"Tipo de dado: {df_inicial['trava_zap'].dtype}")
trava_dist = df_inicial['trava_zap'].value_counts(dropna=False)
display(trava_dist.to_frame().style.set_caption("Contagem de valores distintos em trava_zap"))

# Verificação de linhas que devem ser removidas
print(f"Registros com trava_zap que precisam ser removidos: {trava_dist.get(True, 0):,}")

Tipo de dado: bool


Unnamed: 0_level_0,count
trava_zap,Unnamed: 1_level_1
False,557570
True,16


Registros com trava_zap que precisam ser removidos: 16


2. **Processamento por Chunks**
    - Divisão do dataset em blocos de 1.000 linhas para:
        - Otimização de memória
        - Facilidade de debug
        - Monitoramento do progresso

In [5]:
# Parâmetros do chunk -- 1000 linhas 
CHUNK_SIZE = 1000
total_chunks = (len(df_inicial) // CHUNK_SIZE) + 1
df_sem_trava_zap = pd.DataFrame() # Criação de DataFrame Seguro para controle de variáveis.

print(f"\033[1mProcessando {total_chunks} chunks de {CHUNK_SIZE} registros cada:\033[0m")

for i, chunk in enumerate(np.array_split(df_inicial, total_chunks)):
    # Filtro principal -- linhas que possuem trava zap, isto é, trava_zap = True
    chunk_filtrado = chunk[chunk['trava_zap'] != True]
    
    # Concatenção segura -- recebendo apenas os blocos onde trava_zap = False
    df_sem_trava_zap = pd.concat([df_sem_trava_zap, chunk_filtrado], ignore_index=True)
    
    # Log de progresso para controle da análise
    if (i+1) % 10 == 0:
        print(f"Processado chunk {i+1}/{total_chunks} | Registros retidos: {len(df_sem_trava_zap):,}")

# Relatório final
print("\033[1mRelatório de Remoção:\033[0m")
print(f"• Registros originais: {len(df_inicial):,}")
print(f"• Registros removidos: {trava_dist.get(True, 0):,}")
print(f"• Registros restantes: {len(df_sem_trava_zap):,}") 

# Visualização dos dados que foram removidos
if trava_dist.get(True, 0) > 0:
    display(
        df_inicial[df_inicial['trava_zap'] == True].head(16)  
    )

[1mProcessando 558 chunks de 1000 registros cada:[0m


  return bound(*args, **kwds)


Processado chunk 10/558 | Registros retidos: 10,000
Processado chunk 20/558 | Registros retidos: 20,000
Processado chunk 30/558 | Registros retidos: 29,999
Processado chunk 40/558 | Registros retidos: 39,999
Processado chunk 50/558 | Registros retidos: 49,999
Processado chunk 60/558 | Registros retidos: 59,999
Processado chunk 70/558 | Registros retidos: 69,999
Processado chunk 80/558 | Registros retidos: 79,999
Processado chunk 90/558 | Registros retidos: 89,998
Processado chunk 100/558 | Registros retidos: 99,998
Processado chunk 110/558 | Registros retidos: 109,998
Processado chunk 120/558 | Registros retidos: 119,998
Processado chunk 130/558 | Registros retidos: 129,998
Processado chunk 140/558 | Registros retidos: 139,998
Processado chunk 150/558 | Registros retidos: 149,992
Processado chunk 160/558 | Registros retidos: 159,982
Processado chunk 170/558 | Registros retidos: 169,972
Processado chunk 180/558 | Registros retidos: 179,962
Processado chunk 190/558 | Registros retidos: 1

Unnamed: 0,date_message,id_member_anonymous,id_group_anonymous,media,media_type,media_url,has_media,has_media_url,trava_zap,text_content_anonymous,dataset_info_id,date_system,score_sentiment,score_misinformation,id_message,message_type,messenger,media_name,media_md5
21944,2022-10-07 07:46:52,,c712c1b704c22bd0cef50bc06125cdbd,,,,False,False,True,,5,2022-10-07 07:47:00.355052,0.0,0.067344,53260,Texto,telegram,,
89109,2022-10-16 00:45:02,8a30ac374bc4b5930eaf0667a178546a,e56ec342fc599ebb4ed89655eb6f03aa,,,,False,False,True,,5,2022-10-16 00:45:04.064662,0.0,0.056698,521324,Texto,telegram,,
294541,2022-10-04 14:22:47,39ee10516124280a22f1798f2a41f9a7,959f13e0079883060632c74ffc81c547,,,,False,False,True,,5,2022-10-04 14:22:48.808572,0.9734,0.010433,27241,Texto,telegram,,
324567,2022-10-25 14:55:55,e003fbb6ffedb1838e42360d41cab314,5b10d7739171149be6d9961e3350c071,,,,False,False,True,,5,2022-10-25 14:56:11.604972,0.946,0.403945,1182938,Texto,telegram,,
389164,2022-10-30 20:19:52,,c8f2de56550ed0bf85249608b7ead93d,,,,False,False,True,,5,2022-10-30 20:19:54.183578,0.0,,28330,Texto,telegram,,
423083,2022-11-03 00:40:23,,4d3712f5a117e36180d4b4cbd07c540e,,,,False,False,True,,5,2022-11-03 00:40:48.993091,0.0,0.067026,171104,Texto,telegram,,
466735,2022-11-07 20:47:35,4a498818da925377eff2606a260cfa45,f61777908059b318385882ff47b15c33,,,,False,False,True,,5,2022-11-07 20:48:16.653321,0.0,0.036173,88890,Texto,telegram,,
467297,2022-11-08 10:07:14,4a498818da925377eff2606a260cfa45,f61777908059b318385882ff47b15c33,,,,False,False,True,,5,2022-11-08 10:07:25.260375,0.0,0.072637,88977,Texto,telegram,,
471273,2022-11-08 20:37:52,4a498818da925377eff2606a260cfa45,f61777908059b318385882ff47b15c33,,,,False,False,True,,5,2022-11-08 20:38:02.773746,0.0,0.031973,89039,Texto,telegram,,
478270,2022-11-09 19:50:12,4a498818da925377eff2606a260cfa45,f61777908059b318385882ff47b15c33,,,,False,False,True,,5,2022-11-09 19:50:36.039894,0.0,0.029651,89212,Texto,telegram,,


---

### **(c)** Remover as linhas repetidas (duplicadas).

Após realizar a filtragem das mensagens identificadas como "trava-zaps", é necessário garantir que análises estatísticas e inferências posteriores não sejam distorcidas por registros repetidos, que poderiam inflar contagens ou enviesar métricas como proporções, médias e distribuições.

A remoção de linhas repetidas foi realizada utilizando o método `drop_duplicates()`, aplicado diretamente sobre o `df_sem_trava_zap`. Esse método verifica todas as colunas do DataFrame e elimina quaisquer registros que sejam completamente idênticos em todas elas. Abaixo está o código utilizado:

In [6]:
# Identificação das linhas duplicadas
duplicatas = df_sem_trava_zap[df_sem_trava_zap.duplicated(keep=False)]

# Relatório de remoção de duplicatas
print("\033[1mRelatório de Remoção de Duplicatas:\033[0m")
print(f"• Registros antes da remoção: {len(df_sem_trava_zap):,}")
print(f"• Duplicatas encontradas: {len(duplicatas):,}")
print(f"• Registros únicos após remoção: {len(df_sem_trava_zap.drop_duplicates()):,}")

# Visualização das linhas duplicadas que serão removidas
if not duplicatas.empty:
    display(duplicatas.sort_values(by='id_message').head(10))  # Mostra 10 duplicadas ordenadas por id_message

[1mRelatório de Remoção de Duplicatas:[0m
• Registros antes da remoção: 557,570
• Duplicatas encontradas: 0
• Registros únicos após remoção: 557,570


---

### **(d)** Remover textos com menos de 5 palavras. 

Nesta etapa, o objetivo foi eliminar mensagens com pouco conteúdo textual, mais especificamente aquelas com menos de 5 palavras. A baixa relevância semântica de mensagens muito curtas, que tendem a conter ruídos, emojis soltos, confirmações ("sim", "ok", "não") ou abreviações que pouco contribuem para análises mais profundas.

Para isso, foi criada uma nova feature chamada `qtd_palavras`, responsável por contabilizar o número de palavras em cada mensagem da coluna `text_content_anonymous`. Com essa informação, filtramos o DataFrame mantendo apenas registros com 5 ou mais palavras.

O relatório abaixo resume o resultado dessa filtragem.

Além disso, uma amostra das mensagens descartadas foi exibida para inspeção manual e validação da decisão tomada.

In [7]:
# Criação da feature 'qtd_palavras' com a contagem de palavras na mensagem
df_sem_trava_zap['qtd_palavras'] = df_sem_trava_zap['text_content_anonymous'].astype(str).apply(lambda x: len(x.split()))

# Identificação das mensagens com menos de 5 palavras
mensagens_curta = df_sem_trava_zap[df_sem_trava_zap['qtd_palavras'] < 5]

# Filtragem: apenas mensagens com 5 ou mais palavras
df_sem_mensagens_curtas = df_sem_trava_zap[df_sem_trava_zap['qtd_palavras'] >= 5].reset_index(drop=True)

# Relatório de remoção
print("\033[1mRelatório de Remoção de Mensagens Curtas:\033[0m")
print(f"• Registros antes da remoção: {len(df_sem_trava_zap):,}")
print(f"• Mensagens com menos de 5 palavras removidas: {len(mensagens_curta):,}")
print(f"• Registros restantes: {len(df_sem_mensagens_curtas):,}")

# Visualização das mensagens que foram removidas
if not mensagens_curta.empty:
    display(mensagens_curta[['text_content_anonymous', 'qtd_palavras']].sort_values(by='qtd_palavras').head(10)) # Apenas os 10 primeiros casos

[1mRelatório de Remoção de Mensagens Curtas:[0m
• Registros antes da remoção: 557,570
• Mensagens com menos de 5 palavras removidas: 218,284
• Registros restantes: 339,286


Unnamed: 0,text_content_anonymous,qtd_palavras
4,,1
337292,,1
337293,,1
337294,,1
337295,,1
337296,,1
337298,https://youtu.be/sOc-TRTh-7o,1
337299,https://www.youtube.com/watch?v=s4vdVj4VCvk,1
337300,,1
337301,,1


---

## Como acessei o PostgreSQL e o Metabase

#### **Enviando a base de dados para o PostgreSQL**

Depois de tratar os dados no Jupyter Notebook (remoção dos trava-zaps, duplicados e textos curtos),  utilizei Python com as bibliotecas `SQLAlchemy` e `pandas` para enviar o dataset `fakeTelegram.BR_2022.csv` diretamente para o PostgreSQL.

1. Criei uma conexão com o PostgreSQL utilizando SQLAlchemy e psycopg2 como driver
2. Utilizei o método `to_sql()` do pandas para enviar o DataFrame df_tratado diretamente para o banco de dados.
    - O método criou automaticamente a tabela `fake_telegram` com base nas colunas do DataFrame.

In [15]:
engine = create_engine('postgresql+psycopg2://postgres:555516@localhost:5432/fake_telegram')
df_sem_mensagens_curtas.to_sql('fake_telegram_tratado', engine, if_exists='replace', index=False)

286

Confirmando a criação da base de dados:

![dbeaver_01.png](attachment:dbeaver_01.png)

#### **Acesso ao Metabase via Docker**

Iniciei o Metabase localmente usando Docker com o seguinte comando:

```bash
docker run -d -p 3000:3000 --name metabase metabase/metabase
```

Depois disso, acessei o Metabase pelo navegador em http://localhost:3000, fiz a configuração inicial e conectei ao banco PostgreSQL inserindo o host, porta, usuário, senha e nome do banco de dados.

Com a conexão feita, o Metabase reconheceu automaticamente a tabela que enviei pelo Python. A partir disso, criei os dashboards com os gráficos e visualizações necessárias para explorar os dados tratados.

### **(e)** Criação de dashboards para apresentar: 

##### 1. As quantidades de grupos, usuários e mensagens

Depois de estabelecer a conexão, criei um **dashboard** com três cartões, utilizando consultas SQL para apresentar:

1. A quantidade de grupos (`COUNT DISTINCT id_group_anonymous`).
2. A quantidade de usuários (`COUNT DISTINCT id_member_anonymous`).
3. A quantidade de mensagens (`COUNT *`).

Dessa forma, consegui transformar os dados minerados em informações visuais úteis, facilitando a análise e interpretação dos resultados.

In [None]:
-- Quantidade de grupos
SELECT COUNT(DISTINCT id_group_anonymous) AS quantidade_grupos
FROM fake_telegram_tratado;

In [None]:
-- Quantidade de usuários
SELECT COUNT(DISTINCT id_member_anonymous) AS quantidade_usuarios
FROM fake_telegram_tratado;

In [None]:
-- Quantidade de mensagens
SELECT COUNT(*) AS quantidade_mensagens
FROM fake_telegram_tratado;

##### 2. A quantidade de mensagens que possuem apenas texto X mídia; 

Adicionei um filtro de mensagem com ou sem mídia (has_media), para caso o usuário queira analisar mensagens só de texto, só com mídia ou ambas.

In [None]:
SELECT 
    CASE 
        WHEN has_media = true THEN 'Com Mídia'
        ELSE 'Apenas Texto'
    END AS tipo_mensagem,
    COUNT(*) AS qtd_mensagens
FROM fake_telegram_tratado
GROUP BY tipo_mensagem;

##### 3. Quantidade de mensagens por tipo de mídia (jpg, mp4 etc);

Além disso, adicionei um filtro para que o usuário consiga filtrar por tipo de mídia, capturando os valores disponíveis na coluna `media_type`.

In [None]:
SELECT 
    media_type AS tipo_de_midia, 
    COUNT(*) AS qtd_mensagens
FROM fake_telegram_tratado
WHERE has_media = true
GROUP BY media_type
ORDER BY qtd_mensagens DESC;

##### 4. A relação entre a quantidade de mensagens e a quantidade de palavras presente nas mensagens; 

In [None]:
SELECT 
    CASE 
        WHEN qtd_palavras BETWEEN 0 AND 5 THEN '0-5'
        WHEN qtd_palavras BETWEEN 6 AND 10 THEN '6-10'
        WHEN qtd_palavras BETWEEN 11 AND 20 THEN '11-20'
        ELSE '21+'
    END AS faixa_palavras,
    COUNT(*) AS qtd_mensagens
FROM fake_telegram_tratado
GROUP BY faixa_palavras
ORDER BY faixa_palavras;

##### 10. As 30 URLs que mais se repetem (mais compartilhadas); 

In [None]:
SELECT 
    media_url, 
    COUNT(*) AS qtd_compartilhamentos
FROM fake_telegram_tratado
WHERE media_url IS NOT NULL AND media_url != ''
GROUP BY media_url
ORDER BY qtd_compartilhamentos DESC
LIMIT 30;

##### 11. Os 30 domínios que mais se repetem (mais compartilhados);

In [None]:
SELECT
    LOWER(SPLIT_PART(SPLIT_PART(TRIM(media_url), '://', 2), '/', 1)) AS url_domain,
    COUNT(*) AS url_count,
    COUNT(DISTINCT media_url) AS number_of_unique_urls,
    COUNT(DISTINCT id_member_anonymous) AS number_of_users
FROM fake_telegram_tratado
WHERE media_url IS NOT NULL AND TRIM(media_url) != ''
GROUP BY url_domain
ORDER BY url_count DESC
LIMIT 30;

##### 12. Os 30 usuários mais ativos;

In [None]:
SELECT
  id_member_anonymous AS "User ID",
  COUNT(id_message) AS "Number of Messages"
FROM fake_telegram_tratado
WHERE id_member_anonymous IS NOT NULL
  AND id_member_anonymous <> ''
GROUP BY id_member_anonymous
ORDER BY "Number of Messages" DESC
LIMIT 30;

##### 13. Relação entre quantidade de mensagens contendo somente texto e mensagens com tendo mídia dos usuários mais ativos: 

In [None]:
WITH top_30_usuarios AS (
  SELECT
    id_member_anonymous
  FROM fake_telegram_tratado
  WHERE id_member_anonymous IS NOT NULL
    AND id_member_anonymous <> ''
  GROUP BY id_member_anonymous
  ORDER BY COUNT(*) DESC
  LIMIT 30
)
SELECT *
FROM (
  SELECT
    f.id_member_anonymous,
    SUM(CASE WHEN has_media = false THEN 1 ELSE 0 END) AS mensagens_texto,
    SUM(CASE WHEN has_media = true THEN 1 ELSE 0 END) AS mensagens_midia
  FROM fake_telegram_tratado f
  JOIN top_30_usuarios t ON f.id_member_anonymous = t.id_member_anonymous
  WHERE f.id_member_anonymous IS NOT NULL
    AND f.id_member_anonymous <> ''
  GROUP BY f.id_member_anonymous
) sub
ORDER BY (mensagens_texto + mensagens_midia) DESC;

##### 14. Os 30 usuários que mais compartilharam texto;

In [None]:
SELECT
  id_member_anonymous,
  COUNT(*) AS total_texto
FROM fake_telegram_tratado
WHERE has_media = false
  AND id_member_anonymous IS NOT NULL
  AND id_member_anonymous <> ''
GROUP BY id_member_anonymous
ORDER BY total_texto DESC
LIMIT 30;

##### 15. Os 30 usuários que mais compartilharam mídias; 

In [None]:
WITH mensagens_com_midia AS (
  SELECT
    id_member_anonymous,
    media_type
  FROM fake_telegram_tratado
  WHERE has_media = true
    AND id_member_anonymous IS NOT NULL
    AND id_member_anonymous <> ''
),

contagem_por_usuario_tipo AS (
  SELECT
    id_member_anonymous,
    media_type,
    COUNT(*) AS contagem
  FROM mensagens_com_midia
  GROUP BY id_member_anonymous, media_type
),

media_mais_comum AS (
  SELECT DISTINCT ON (id_member_anonymous)
    id_member_anonymous,
    media_type AS tipo_de_midia_mais_enviado
  FROM contagem_por_usuario_tipo
  ORDER BY id_member_anonymous, contagem DESC
),

total_mensagens_por_usuario AS (
  SELECT
    id_member_anonymous,
    COUNT(*) AS mensagens_com_midia
  FROM mensagens_com_midia
  GROUP BY id_member_anonymous
)

SELECT
  t.id_member_anonymous AS "ID_Usuário",
  t.mensagens_com_midia AS "Mensagens com Mídia",
  m.tipo_de_midia_mais_enviado AS "Tipo de Mídia Mais Enviado"
FROM total_mensagens_por_usuario t
LEFT JOIN media_mais_comum m ON t.id_member_anonymous = m.id_member_anonymous
ORDER BY t.mensagens_com_midia DESC
LIMIT 30;

##### 16. As 30 mensagens mais compartilhadas; 

In [None]:
SELECT 
    text_content_anonymous AS mensagem,
    COUNT(*) AS total_de_compartilhamentos
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL AND TRIM(text_content_anonymous) != ''
GROUP BY text_content_anonymous
ORDER BY total_de_compartilhamentos DESC
LIMIT 30;

##### 17. As 30 mensagens mais compartilhadas em grupos diferentes

In [None]:
SELECT 
    text_content_anonymous AS mensagem,
    COUNT(DISTINCT id_group_anonymous) AS total_de_grupos_diferentes,
    COUNT(*) AS total_de_ocorrencias
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL AND TRIM(text_content_anonymous) != ''
GROUP BY text_content_anonymous
ORDER BY total_de_grupos_diferentes DESC
LIMIT 30;

##### 18. Mensagens idênticas compartilhadas pelo mesmo usuário (e suas quantidades); 

In [None]:
SELECT 
    id_member_anonymous AS usuario,
    text_content_anonymous AS mensagem,
    COUNT(*) AS total_de_envios
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL AND TRIM(text_content_anonymous) != ''
GROUP BY id_member_anonymous, text_content_anonymous
ORDER BY total_de_envios DESC
LIMIT 30;

##### 19. Mensagens idênticas compartilhadas pelo mesmo usuário em grupos distintos (e suas quantidades); 

In [None]:
SELECT 
    id_member_anonymous AS usuario,
    text_content_anonymous AS mensagem,
    COUNT(DISTINCT id_group_anonymous) AS total_de_grupos_distintos,
    COUNT(*) AS total_de_envios
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL AND TRIM(text_content_anonymous) != ''
GROUP BY id_member_anonymous, text_content_anonymous
ORDER BY total_de_grupos_distintos DESC
LIMIT 30;

##### 20. Os 30 unigramas, bigramas e trigramas mais compartilhados (após a remoção de stop words); 

Para fazer isso, precisei adicioar duas funções e uma tabela na minha base de dados utilizando o Dbeaver.

Função para tokenizar minhas mensagens:

```sql
CREATE OR REPLACE FUNCTION generate_ngrams(text TEXT, n INT)
RETURNS TEXT[] AS $$
DECLARE
    tokens TEXT[];
    ngrams TEXT[];
    i INT;
BEGIN
    -- Tokeniza: separa por espaço
    tokens := string_to_array(lower(text), ' ');

    -- Inicializa
    ngrams := ARRAY[]::TEXT[];

    -- Gera os n-gramas
    FOR i IN 1 .. array_length(tokens, 1) - n + 1 LOOP
        ngrams := array_append(ngrams, array_to_string(tokens[i:i+n-1], ' '));
    END LOOP;

    RETURN ngrams;
END;
$$ LANGUAGE plpgsql IMMUTABLE;
```

Criando e inserindo dados na tabela `stopwords`:

```sql
CREATE TABLE stopwords (
    palavra TEXT
);

INSERT INTO stopwords (palavra) VALUES
('de'), ('a'), ('o'), ('e'), ('que'), ('do'), ('da'),
('em'), ('um'), ('para'), ('é'), ('com'), ('não'), 
('uma'), ('os'), ('no'), ('se'), ('na'), ('por'),
('mais'), ('as'), ('dos'), ('como'), ('mas'), ('foi');
```

In [None]:
-- Unigramas:
SELECT palavra, COUNT(*) as freq
FROM (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) as palavra
    FROM fake_telegram_tratado,
    LATERAL regexp_split_to_table(text_content_anonymous, '\s+') AS word
) AS palavras
WHERE palavra <> ''
  AND palavra NOT IN (SELECT palavra FROM stopwords)
GROUP BY palavra
ORDER BY freq DESC
LIMIT 30;

-- Bigramas:
SELECT CONCAT(p1.palavra, ' ', p2.palavra) AS bigrama, COUNT(*) AS freq
FROM (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) AS palavra, ord, text_content_anonymous
    FROM fake_telegram_tratado,
         LATERAL regexp_split_to_table(text_content_anonymous, '\s+') WITH ORDINALITY AS t(word, ord)
) AS p1
JOIN (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) AS palavra, ord, text_content_anonymous
    FROM fake_telegram_tratado,
         LATERAL regexp_split_to_table(text_content_anonymous, '\s+') WITH ORDINALITY AS t(word, ord)
) AS p2
  ON p1.text_content_anonymous = p2.text_content_anonymous
 AND p1.ord = p2.ord - 1
WHERE p1.palavra <> ''
  AND p2.palavra <> ''
  AND p1.palavra NOT IN (SELECT palavra FROM stopwords)
  AND p2.palavra NOT IN (SELECT palavra FROM stopwords)
GROUP BY bigrama
ORDER BY freq DESC
LIMIT 30;


-- Trigramas:
SELECT CONCAT(p1.palavra, ' ', p2.palavra, ' ', p3.palavra) AS trigrama, COUNT(*) AS freq
FROM (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) AS palavra, ord, text_content_anonymous
    FROM fake_telegram_tratado,
         LATERAL regexp_split_to_table(text_content_anonymous, '\s+') WITH ORDINALITY AS t(word, ord)
) AS p1
JOIN (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) AS palavra, ord, text_content_anonymous
    FROM fake_telegram_tratado,
         LATERAL regexp_split_to_table(text_content_anonymous, '\s+') WITH ORDINALITY AS t(word, ord)
) AS p2
  ON p1.text_content_anonymous = p2.text_content_anonymous
 AND p1.ord = p2.ord - 1
JOIN (
    SELECT LOWER(REGEXP_REPLACE(word, '[^\w]+', '', 'g')) AS palavra, ord, text_content_anonymous
    FROM fake_telegram_tratado,
         LATERAL regexp_split_to_table(text_content_anonymous, '\s+') WITH ORDINALITY AS t(word, ord)
) AS p3
  ON p1.text_content_anonymous = p3.text_content_anonymous
 AND p1.ord = p3.ord - 2
WHERE p1.palavra <> ''
  AND p2.palavra <> ''
  AND p3.palavra <> ''
  AND p1.palavra NOT IN (SELECT palavra FROM stopwords)
  AND p2.palavra NOT IN (SELECT palavra FROM stopwords)
  AND p3.palavra NOT IN (SELECT palavra FROM stopwords)
GROUP BY trigrama
ORDER BY freq DESC
LIMIT 30;

##### 21. As 30 mensagens mais positivas (distintas);

In [None]:
SELECT DISTINCT ON (text_content_anonymous) 
    text_content_anonymous,
    score_sentiment
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL
  AND text_content_anonymous <> ''
ORDER BY text_content_anonymous, score_sentiment DESC
LIMIT 30;

##### 22. As 30 mensagens mais negativas (distintas); 

In [None]:
SELECT 
  CASE 
    WHEN LENGTH(text_content_anonymous) > 80 THEN SUBSTRING(text_content_anonymous FROM 1 FOR 80) || '...'
    ELSE text_content_anonymous
  END AS mensagem_truncada,
  score_sentiment AS "Score de Sentimento"
FROM (
  SELECT DISTINCT ON (text_content_anonymous)
    text_content_anonymous,
    score_sentiment
  FROM fake_telegram_tratado
  WHERE text_content_anonymous IS NOT NULL
    AND text_content_anonymous <> ''
  ORDER BY text_content_anonymous, score_sentiment ASC
) AS distinct_msgs
ORDER BY score_sentiment ASC
LIMIT 30;

##### 23. O usuário mais otimista;

In [None]:
SELECT 
    id_member_anonymous,
    AVG(score_sentiment) AS media_score_sentiment,
    COUNT(*) AS qtd_mensagens
FROM 
    fake_telegram_tratado
GROUP BY 
    id_member_anonymous
HAVING 
    AVG(score_sentiment) >= 0.7
ORDER BY 
    media_score_sentiment DESC
LIMIT 1;

##### 24. O usuário mais pessimista;

In [None]:
SELECT id_member_anonymous AS "ID Membro Anônimo",
       text_content_anonymous AS "Mensagem",
       score_sentiment AS "Score de Sentimento"
FROM fake_telegram_tratado
WHERE text_content_anonymous IS NOT NULL
  AND text_content_anonymous <> ''
  AND id_member_anonymous IS NOT NULL
  AND id_member_anonymous <> ''
ORDER BY score_sentiment ASC
LIMIT 1;

##### 25. As 30 maiores mensagens;

In [None]:
SELECT 
    id_member_anonymous AS "ID do Usuário",
    qtd_palavras AS "Número de Palavras",
    text_content_anonymous AS "Conteúdo da Mensagem",
    date_message AS "Data",
    score_sentiment AS "Score de Sentimento"
FROM 
    fake_telegram_tratado
WHERE 
    qtd_palavras > 0
ORDER BY 
    qtd_palavras DESC
LIMIT 30

##### 26. As 30 menores mensagens; 

In [None]:
SELECT 
    id_member_anonymous AS "ID do Usuário",
    qtd_palavras AS "Número de Palavras",
    text_content_anonymous AS "Conteúdo da Mensagem",
    date_message AS "Data",
    score_sentiment AS "Score de Sentimento"
FROM 
    fake_telegram_tratado
WHERE 
    qtd_palavras > 0
ORDER BY 
    qtd_palavras ASC
LIMIT 30

##### 27. O dia em que foi publicado a maior quantidade de mensagens;

In [None]:
SELECT 
    DATE(date_message) AS dia,
    COUNT(*) AS total_mensagens
FROM 
    fake_telegram_tratado
GROUP BY 
    DATE(date_message)
ORDER BY 
    total_mensagens DESC
LIMIT 1

##### 28. As mensagens que possuem as palavras “INTERVENÇÃO” e “MILITAR”;

In [None]:
SELECT 
    id_message,
    date_message,
    id_group_anonymous,
    text_content_anonymous,
    score_misinformation,
    score_sentiment,
    has_media,
    has_media_url
FROM 
    fake_telegram_tratado
WHERE 
    text_content_anonymous LIKE '%INTERVENÇÃO%' 
    AND text_content_anonymous LIKE '%MILITAR%'
ORDER BY 
    date_message DESC;

##### 29. Quantidade de mensagens por dia e hora; 

In [None]:
SELECT 
    DATE(date_message::timestamp) AS dia,
    EXTRACT(HOUR FROM date_message::timestamp) AS hora,
    COUNT(*) AS total_mensagens
FROM 
    fake_telegram_tratado
GROUP BY 
    DATE(date_message::timestamp), EXTRACT(HOUR FROM date_message::timestamp)
ORDER BY 
    dia, hora

##### 30. Quantidade de mensagens por hora; 

In [None]:
SELECT 
    EXTRACT(HOUR FROM date_message::timestamp) AS hora,
    COUNT(*) AS qtd_mensagens
FROM 
    fake_telegram_tratado
GROUP BY 
    EXTRACT(HOUR FROM date_message::timestamp)
ORDER BY 
    hora

##### 31. A nuvem de palavras referente às mensagens de texto (após a remoção de stop words);

Observação sobre Visualização: Atualmente, o Metabase não oferece suporte nativo à visualização do tipo Word Cloud (Nuvem de Palavras) em suas opções de gráficos. Para contornar essa limitação, recomenda-se utilizar gráficos de barras horizontais como alternativa prática, onde as palavras são listadas no eixo Y e suas frequências no eixo X, ordenadas de forma decrescente. Essa abordagem mantém a clareza na identificação dos termos mais relevantes. 

In [None]:
WITH 
-- 1. Filtrar mensagens de texto válidas
mensagens_validas AS (
    SELECT 
        text_content_anonymous
    FROM 
        fake_telegram_tratado
    WHERE 
        text_content_anonymous IS NOT NULL 
        AND text_content_anonymous != ''
),

-- 2. Extrair palavras individuais (tokenização)
palavras_extraidas AS (
    SELECT 
        trim(regexp_split_to_table(
            lower(regexp_replace(text_content_anonymous, '[^\w\sáéíóúãõâêîôûàèìòùç]', '', 'g')), 
            '\s+'
        )) AS palavra
    FROM 
        mensagens_validas
),

-- 3. Filtrar stop words usando sua tabela dedicada
palavras_filtradas AS (
    SELECT 
        p.palavra
    FROM 
        palavras_extraidas p
    LEFT JOIN 
        stopwords s ON p.palavra = s.palavra  -- Corrigido para usar 'palavra' em vez de 'palavras'
    WHERE 
        s.palavra IS NULL  -- Mantém apenas palavras que NÃO estão na tabela de stopwords
        AND length(p.palavra) > 2  
),

-- 4. Contar frequência das palavras
contagem_final AS (
    SELECT 
        palavra,
        COUNT(*) AS frequencia
    FROM 
        palavras_filtradas
    GROUP BY 
        palavra
    HAVING 
        COUNT(*) > 3  -- Opcional: filtra palavras muito raras
)

-- Resultado final para a nuvem de palavras
SELECT 
    palavra,
    frequencia
FROM 
    contagem_final
ORDER BY 
    frequencia DESC
LIMIT 100;  -- Limita às 100 palavras mais frequentes

##### 32. A rede interativa das palavras referente às mensagens de texto (após a remoção de stop words);

Metabase também não oferece suporte para gerar uma visualização em grafos.

In [None]:
WITH 
mensagens_validas AS (
    SELECT 
        text_content_anonymous
    FROM 
        fake_telegram_tratado
    WHERE 
        text_content_anonymous IS NOT NULL 
        AND text_content_anonymous != ''
),

palavras_por_mensagem AS (
    SELECT 
        id_message,
        trim(regexp_split_to_table(
            lower(regexp_replace(text_content_anonymous, '[^\w\sáéíóúãõâêîôûàèìòùç]', '', 'g')), 
            '\s+'
        )) AS palavra
    FROM 
        mensagens_validas
    JOIN
        fake_telegram_tratado USING (text_content_anonymous)
),

palavras_filtradas AS (
    SELECT 
        p.id_message,
        p.palavra
    FROM 
        palavras_por_mensagem p
    LEFT JOIN 
        stopwords s ON p.palavra = s.palavra
    WHERE 
        s.palavra IS NULL
        AND length(p.palavra) > 2
),

co_ocorrencias AS (
    SELECT 
        a.palavra AS palavra_origem,
        b.palavra AS palavra_destino,
        COUNT(*) AS peso
    FROM 
        palavras_filtradas a
    JOIN 
        palavras_filtradas b ON a.id_message = b.id_message
    WHERE 
        a.palavra < b.palavra  -- Evita duplicatas
    GROUP BY 
        1, 2
    HAVING 
        COUNT(*) > 2  -- Filtra relações fracas
)

SELECT 
    palavra_origem AS source,
    palavra_destino AS target,
    peso AS value
FROM 
    co_ocorrencias
ORDER BY 
    peso DESC
LIMIT 500;

##### 33. Proporção de mensagens com e sem URL;

In [None]:
SELECT
    CASE 
        WHEN has_media_url = TRUE THEN 'Com URL'
        ELSE 'Sem URL'
    END AS tipo_url,
    COUNT(*) AS quantidade,
    ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER (), 1) AS percentual
FROM
    fake_telegram_tratado
GROUP BY
    has_media_url;

##### 34. Proporção de desinformação;

In [None]:
WITH categorias AS (
    SELECT 
        CASE 
            WHEN score_misinformation <= 0.25 THEN 'Informado (0-0.25)'
            WHEN score_misinformation <= 0.5 THEN 'Pouco Desinformado (0.25-0.5)'
            WHEN score_misinformation <= 0.75 THEN 'Mais ou Menos Desinformado (0.5-0.75)'
            ELSE 'Muito Desinformado (0.75-1)'
        END as categoria
    FROM fake_telegram_tratado
)
SELECT 
    categoria as categoria_desinformacao,
    COUNT(*) as quantidade_mensagens,
    ROUND((COUNT(*) * 100.0 / (SELECT COUNT(*) FROM fake_telegram_tratado)), 2) as porcentagem
FROM 
    categorias
GROUP BY 
    categoria
ORDER BY 
    CASE categoria
        WHEN 'Informado (0-0.25)' THEN 1
        WHEN 'Pouco Desinformado (0.25-0.5)' THEN 2
        WHEN 'Mais ou Menos Desinformado (0.5-0.75)' THEN 3
        ELSE 4
    END;

##### 35. Proporção de mensagens contendo mídia e desinformação;

In [None]:
SELECT 
    has_media as tem_midia,
    COUNT(*) as total_mensagens,
    AVG(score_misinformation) as media_score_desinformacao,
    SUM(CASE WHEN score_misinformation > 0.5 THEN 1 ELSE 0 END) as mensagens_desinformativas,
    ROUND((SUM(CASE WHEN score_misinformation > 0.5 THEN 1 ELSE 0 END) * 100.0 / COUNT(*)), 2) as porcentagem_desinformativas
FROM 
    fake_telegram_tratado
GROUP BY 
    has_media
ORDER BY 
    porcentagem_desinformativas DESC;

##### 36. Distribuição de mensagens por score de desinformação;

In [None]:
SELECT 
    FLOOR(score_misinformation * 10) / 10 as faixa_inicio,
    FLOOR(score_misinformation * 10) / 10 + 0.1 as faixa_fim,
    COUNT(*) as quantidade_mensagens,
    ROUND((COUNT(*) * 100.0 / (SELECT COUNT(*) FROM fake_telegram_tratado)), 2) as porcentagem
FROM 
    fake_telegram_tratado
GROUP BY 
    FLOOR(score_misinformation * 10)
ORDER BY 
    faixa_inicio;

##### 37. Proporção de sentimentos;

In [None]:
SELECT 
    categoria_sentimento,
    total_mensagens,
    porcentagem
FROM (
    SELECT 
        CASE 
            WHEN score_sentiment < -0.33 THEN 'Negativo'
            WHEN score_sentiment <= 0.33 THEN 'Neutro'
            ELSE 'Positivo'
        END as categoria_sentimento,
        COUNT(*) as total_mensagens,
        ROUND((COUNT(*) * 100.0 / (SELECT COUNT(*) FROM fake_telegram_tratado)), 2) as porcentagem
    FROM 
        fake_telegram_tratado
    GROUP BY 
        CASE 
            WHEN score_sentiment < -0.33 THEN 'Negativo'
            WHEN score_sentiment <= 0.33 THEN 'Neutro'
            ELSE 'Positivo'
        END
) resultados
ORDER BY 
    CASE categoria_sentimento
        WHEN 'Negativo' THEN 1
        WHEN 'Neutro' THEN 2
        ELSE 3
    END;

##### 38. Distribuição de mensagens por score de sentimentos;

In [None]:
SELECT 
    faixa_sentimento,
    quantidade_mensagens,
    porcentagem
FROM (
    SELECT 
        CASE 
            WHEN score_sentiment < -0.8 THEN 'Muito Negativo (-1.0 - -0.8)'
            WHEN score_sentiment < -0.6 THEN 'Negativo Forte (-0.8 - -0.6)'
            WHEN score_sentiment < -0.4 THEN 'Negativo (-0.6 - -0.4)'
            WHEN score_sentiment < -0.2 THEN 'Levemente Negativo (-0.4 - -0.2)'
            WHEN score_sentiment <= 0.2 THEN 'Neutro (-0.2 - 0.2)'
            WHEN score_sentiment <= 0.4 THEN 'Levemente Positivo (0.2 - 0.4)'
            WHEN score_sentiment <= 0.6 THEN 'Positivo (0.4 - 0.6)'
            WHEN score_sentiment <= 0.8 THEN 'Positivo Forte (0.6 - 0.8)'
            ELSE 'Muito Positivo (0.8 - 1.0)'
        END as faixa_sentimento,
        COUNT(*) as quantidade_mensagens,
        ROUND((COUNT(*) * 100.0 / (SELECT COUNT(*) FROM fake_telegram_tratado)), 2) as porcentagem
    FROM 
        fake_telegram_tratado
    GROUP BY 
        CASE 
            WHEN score_sentiment < -0.8 THEN 'Muito Negativo (-1.0 - -0.8)'
            WHEN score_sentiment < -0.6 THEN 'Negativo Forte (-0.8 - -0.6)'
            WHEN score_sentiment < -0.4 THEN 'Negativo (-0.6 - -0.4)'
            WHEN score_sentiment < -0.2 THEN 'Levemente Negativo (-0.4 - -0.2)'
            WHEN score_sentiment <= 0.2 THEN 'Neutro (-0.2 - 0.2)'
            WHEN score_sentiment <= 0.4 THEN 'Levemente Positivo (0.2 - 0.4)'
            WHEN score_sentiment <= 0.6 THEN 'Positivo (0.4 - 0.6)'
            WHEN score_sentiment <= 0.8 THEN 'Positivo Forte (0.6 - 0.8)'
            ELSE 'Muito Positivo (0.8 - 1.0)'
        END
) resultados
ORDER BY 
    CASE faixa_sentimento
        WHEN 'Muito Negativo (-1.0 - -0.8)' THEN 1
        WHEN 'Negativo Forte (-0.8 - -0.6)' THEN 2
        WHEN 'Negativo (-0.6 - -0.4)' THEN 3
        WHEN 'Levemente Negativo (-0.4 - -0.2)' THEN 4
        WHEN 'Neutro (-0.2 - 0.2)' THEN 5
        WHEN 'Levemente Positivo (0.2 - 0.4)' THEN 6
        WHEN 'Positivo (0.4 - 0.6)' THEN 7
        WHEN 'Positivo Forte (0.6 - 0.8)' THEN 8
        ELSE 9
    END;

##### 39. Proporção entre mensagens virais e não virais;

In [None]:
WITH dados_viralidade AS (
    SELECT 
        CASE 
            WHEN qtd_palavras > 100 THEN 'Texto Longo (>100 palavras)'
            WHEN has_media_url = TRUE THEN 'Com URL de Mídia'
            WHEN has_media = TRUE THEN 'Com Anexo de Mídia'
            ELSE 'Não Viral'
        END as categoria_viral,
        score_misinformation,
        score_sentiment
    FROM 
        fake_telegram_tratado
),

totais AS (
    SELECT COUNT(*)::float as total_geral FROM fake_telegram_tratado
)

SELECT 
    categoria_viral,
    COUNT(*) as total_mensagens,
    (COUNT(*) * 100.0 / (SELECT total_geral FROM totais))::numeric(10,1) as porcentagem_total,
    AVG(score_misinformation)::numeric(10,3) as media_desinformacao,
    AVG(score_sentiment)::numeric(10,3) as media_sentimento,
    (SUM(CASE WHEN score_misinformation > 0.5 THEN 1 ELSE 0 END) * 100.0 / COUNT(*))::numeric(10,1) as porcentagem_desinformativas
FROM 
    dados_viralidade
GROUP BY 
    categoria_viral
ORDER BY 
    total_mensagens DESC;