# CKP8087 - Estrutura de Dados
<img  src="https://img.shields.io/badge/UFC_CKP8087-VAUX GOMES-000000?style=for-the-badge&logo=" /> <img src="https://img.shields.io/badge/Jupyter-000000?style=for-the-badge&logo=jupyter&logoColor=white" /> <img src="https://img.shields.io/badge/Python-000000?style=for-the-badge&logo=python&logoColor=white" /> <img src="https://img.shields.io/badge/Docker-000000?style=for-the-badge&logo=docker&logoColor=white" /> <img src="https://img.shields.io/badge/PostgreSQL-000000?style=for-the-badge&logo=postgresql&logoColor=white" /> <img src="https://img.shields.io/badge/Neo4J-000000?style=for-the-badge&logo=neo4j&logoColor=white" />

## Parte I - Preparação dos Dockers

#### Pre-requisitos
 - Docker
 - Docker Compose ou Plugin

#### Comandos

```sh
$ cd /path/to/work
$ cat > docker-compose.yml << 'EOF'
service:
  postgres:
    image: postgres
    container_name: postgres
    ports:
      - 5432:5432
    expose:
      - 5432
    networks:
      - local-network
    environment:
      - POSTGRES_USER=root
      - POSTGRES_PASSWORD=root
      - POSTGRES_DB=postgres

  neo4j:
    image: neo4j:latest
    container_name: neo4j
    ports:
      - "7474:7474"   # Neo4j Browser
      - "7687:7687"   # Bolt protocol
    networks:
      - local-network
    environment:
      - NEO4J_AUTH=neo4j/12345678             # Set do username/password
    volumes:
      - ./Neo4j/data:/data                    # Pasta para armazenar os dados
      - ./Neo4j/logs:/logs                    # Pasta para armazenar os logs
      - ./Neo4j/import:/var/lib/neo4j/import  # Pasta para importe de CSV
      - ./Neo4j/plugins:/plugins              # Pasta dos plugins
      - ./Neo4j/dumps:/dumps                  # Pasta para os dumps

networks:
  local-network:
    driver: bridge
EOF
```

<div class="alert alert-block alert-info">
    [OPCIONAL]: Escolha um nome melhor para o banco
</div>

## Parte II - Restauração do Dump

```sh
# Start do container
$ cd /path/to/work
$ docker-compose -up -d postgres

# Restore do dump
$ docker exec -i postgres psql -U root -d postgres < /path/to/backup.dump
```

![](./files/images/dbeaver.png)

## Parte III - Importando e tradandos os dados

In [1]:
# Installs - Necessário porque meu Jupyter está em um Docker
!pip install pandas  
!pip install sqlalchemy
!pip install psycopg2-binary       # Drive do postgress 

# Imports
import numpy as np
import pandas as pd
import psycopg2 as pg



In [2]:
# DB Config
username  = 'root'
password  = 'root'
host      = 'postgres' # NOME DO CONTAINER
port      = '5432'
database  = 'postgres' # NOME DO DATABASE

# Connection
conn = pg.connect(
    user=username,
    password=password,
    host=host,
    port=port,
    dbname=database
)

# Dataframe
query = '''
SELECT 
    id_member_anonymous as member,  
    id_group_anonymous as group,
    text_content_anonymous as text,
    score_sentiment, score_misinformation
FROM tb_whatsapp_messages WHERE trava_zap = false'''
df = pd.read_sql(query, conn)

conn.close()

# Info
rows = df.shape[0]

# Data
print(df.shape)
df.head()

  df = pd.read_sql(query, conn)


(407911, 5)


Unnamed: 0,member,group,text,score_sentiment,score_misinformation
0,eacc81d81047368e08bdcee59a0e69e2,970fc18f0d5608107b7822a2adbac3f8,,,
1,542d038bf37b9f9871d6e8dac6fd4230,589e16e85b442fa82e8e0061fa2731e6,Vou ali,0.0,
2,3a8e41b9e1da548ef0acd0a57b398da4,e110071613239754d38878f7e046e95b,Jovem vai a sessão parlamentar na câmara dos v...,0.6371,0.001867
3,3a8e41b9e1da548ef0acd0a57b398da4,7ee4235534ec624ebd61373b87ad8c20,Jovem vai a sessão parlamentar na câmara dos v...,0.6371,0.001867
4,3a8e41b9e1da548ef0acd0a57b398da4,ee85f63c945ffa50ba8bb57acf2c1bf9,Jovem vai a sessão parlamentar na câmara dos v...,0.6371,0.001867


### Filtros & Flags

In [3]:
# Filtro do número de palavras (5+)
df = df[df.text.str.count('\s').gt(3)] # 4 espaços ou mais
print(f'Reduzido para: {df.shape} ({(df.shape[0]/rows)*100:.2f}% do tamanho original)')

Reduzido para: (186316, 5) (45.68% do tamanho original)


In [4]:
# Flag de viral
counts = df['text'].value_counts()
df['viral'] = df['text'].isin(counts[counts > 1].index)
print(f'Reduzido para: {df[df.viral == True].shape} ({(df[df.viral == True].shape[0]/rows)*100:.2f}% do tamanho)')

Reduzido para: (110091, 6) (26.99% do tamanho)


In [5]:
# Flaf de misinformation
df['misinformation'] = df.score_misinformation >= 0.7
print(f'Reduzido para: {df[df.misinformation == True].shape} ({(df[df.misinformation == True].shape[0]/rows)*100:.2f}% do tamanho)')

Reduzido para: (8749, 7) (2.14% do tamanho)


### Grafos

> _(...) cada nó representa um usuário, existe uma aresta direcionada entre o usuário i e o usuário j se o usuário i enviou uma mensagem para um grupo do qual o usuário j faz parte.
> O peso dessa aresta é a quantidade de mensagens enviadas pelo usuário i para aquele grupo._

In [30]:
def build(df, v=False):
    '''
    Função para mapeamento do dataframe em uma estrutura de contagem de mensagens
    
    graph = {
        'senders': {
            'sender_1': {
                'msgs': {
                    'receiver_1': Integer,
                    'receiver_2': Integer
                },
                stats: {
                    'geral': {
                        'grau_centralidade': Integer,     # Quantidade de ARESTAS (muda de acordo com o conjunto de dados apenas)
                        'forca': Integer                  # Quantidade de MENSAGENS
                    },
                    'viral': {
                        'grau_centralidade': Integer,
                        'forca': Integer
                    },
                    'misinformation': {
                        'grau_centralidade': Integer,
                        'forca': Integer
                    },
                }
            }...
        },
        arestas: Integer
    }
    '''
    
    graph = {
        'senders': {},
        'stats': {
            'arestas': 0,
            'nos': df.member.unique().size,
            'geral': df.shape[0],
            'viral': df[df['viral']].shape[0],
            'misinformation': df[df['misinformation']].shape[0]   
        }
    }

    for g in df.group.unique()[:]:
        dfg = df[df.group == g]                       # Group filter
        members_ = dfg.member.value_counts()          # Group Member Counts
        
        for s, msgs in members_.items():              # s: Sender
            dfgs = dfg[dfg.member == s]               # Sender filter -- (GROUP, SENDER) Messages
            
            # Node
            graph['senders'][s] = graph['senders'].get(s, {
                'msgs': {}, 
                'stats': {
                    'geral': { 'grau_centralidade': 0, 'forca': 0 },
                    'viral': { 'grau_centralidade': 0, 'forca': 0 },
                    'misinformation': { 'grau_centralidade': 0, 'forca': 0 }, 
                }
            })

            # Node statuses: Geral
            graph['senders'][s]['stats']['geral']['grau_centralidade'] += members_.shape[0] - 1
            graph['senders'][s]['stats']['geral']['forca'] += msgs

            # Node statuses: Viral
            graph['senders'][s]['stats']['viral']['grau_centralidade'] += members_.shape[0] - 1
            graph['senders'][s]['stats']['viral']['forca'] += dfgs[dfgs['viral']].shape[0]

            # Node statuses: Misinformation
            graph['senders'][s]['stats']['misinformation']['grau_centralidade'] += members_.shape[0] - 1
            graph['senders'][s]['stats']['misinformation']['forca'] += dfgs[dfgs['misinformation']].shape[0]

            # Listing receivers
            for r in members_.keys():                 # r: Receiver
                if s == r:
                    continue
                    
                graph['senders'][s]['msgs'][r] = graph['senders'][s]['msgs'].get(r, 0) + msgs
                graph['stats']['arestas'] += msgs

    #
    members = df.member.unique()
    groups = df.group.unique()
    
    # Verbose
    if v:
        print('- Total de mensagens:', df.shape[0])
        print('- Número de membros:\n  - Ativos:', len(graph['senders']))
        print('  - Total:', len(members))
        print('- Número de grupos:', len(groups))
        print()
        
        
    return graph, members, groups

#### Grafo Geral

In [31]:
%time geral, g_members, _ = build(df, v=True)

- Total de mensagens: 186316
- Número de membros:
  - Ativos: 6165
  - Total: 6165
- Número de grupos: 237

CPU times: user 8.06 s, sys: 4.66 ms, total: 8.06 s
Wall time: 8.06 s


#### Grafo Viral

> Considerando viral se houver uma mensagem que foi enviada mais de uma vez

In [32]:
%time viral, v_members, _ = build(df[df['viral']], v=True)

- Total de mensagens: 110091
- Número de membros:
  - Ativos: 3487
  - Total: 3487
- Número de grupos: 225

CPU times: user 4.29 s, sys: 4.1 ms, total: 4.3 s
Wall time: 4.29 s


#### Grafo Desinformação

In [33]:
%time misinformation, m_members, _ = build(df[df['misinformation']], v=True)

- Total de mensagens: 8749
- Número de membros:
  - Ativos: 1647
  - Total: 1647
- Número de grupos: 175

CPU times: user 745 ms, sys: 5.94 ms, total: 751 ms
Wall time: 749 ms


## Part IV - Conexão com o Neo4J e Criação dos Grafos

```sh
# Start do container
$ cd /path/to/work
$ docker-compose -up -d neo4j
```

<div class="alert alert-block alert-info">
    A versão community do Neo4J não deixa fácil existirem vários databases, então eu joguei todos os databases em um único grafo com arestas de tipos diferentes.
</div>

In [165]:
# Installs - Necessário porque meu Jupyter está em um Docker
!pip install py2neo

# Imports
from py2neo import Graph



In [166]:
uri = "bolt://neo4j:7687"      # Deve coincidir com os valores informados no docker-compose.yml. Nesse caso o nome do serviço.
username = "neo4j"             # O Neo4j exige esse usuário
password = "12345678"          # O Neo4j exige uma senha de 8 dígitos

#
g = Graph(uri, auth=(username, password))
# session = g.session(database="neo4j") # Caso você tenha a versão paga

#### Nós

In [173]:
def create_nodes(driver, members):
    query = f'''UNWIND [
      {','.join(map(lambda m: f'{{name: "{m}", grau: "{members[m]["stats"]["geral"]["grau_centralidade"]}", forca: "{members[m]["stats"]["geral"]["forca"]}"}}', members))}
    ] AS membro
    
    CREATE (m:Membro {{name: membro.name, grau: membro.grau, forca: membro.forca}})
    '''

    _ = driver.run(query)
    return 

##### Desinformação

In [177]:
# Criando os membros
%time create_nodes(g, misinformation['senders'])

CPU times: user 7.33 ms, sys: 5.08 ms, total: 12.4 ms
Wall time: 830 ms


<div class="alert alert-block alert-info">
    Verificar com <code>MATCH(n) RETURN n LIMIT 50</code>
</div>

![](./files/images/neo4j-1.png)
![](./files/images/neo4j-2.png)

#### Arestas

In [187]:
def create_edges(driver, graph, start=0, v=False):
    count = start
    step = len(graph['senders'])//10
    next = start + 1
    
    for s in graph['senders'].keys():
        msgs = graph['senders'][s]['msgs']

        for r in msgs:
            query = f'''
                MATCH(r:Membro {{name: "{s}"}})
                MATCH(s:Membro {{name: "{r}"}})
                CREATE (r)-[e:MSGs {{total: {msgs[r]}}}]->(s)
            '''

            _ = driver.run(query)

        # Verbose: Para saber se está rodando :-)
        if v:
            count += 1
            if count == next:
                print(f'{count:04d}/{len(graph["senders"])} ~ ({count/len(graph["senders"])*100:.2f})%')
                next += step

##### Desinformação

In [186]:
# Misinformation
%time _ = create_edges(g, misinformation, v=True)

0001/1647 ~ (0.06)%
0165/1647 ~ (10.02)%
0329/1647 ~ (19.98)%
0493/1647 ~ (29.93)%
0657/1647 ~ (39.89)%
0821/1647 ~ (49.85)%
0985/1647 ~ (59.81)%
1149/1647 ~ (69.76)%
1313/1647 ~ (79.72)%
1477/1647 ~ (89.68)%
1641/1647 ~ (99.64)%
CPU times: user 9.96 s, sys: 1.8 s, total: 11.8 s
Wall time: 3min 54s


<div class="alert alert-block alert-info">
    Verificar com <code>MATCH(n) RETURN n LIMIT 300</code><br/>
    Disclaimer: Minha máquina não exibe mais que isso
</div>

![](./files/images/neo4j-3.png)

#### Consulta da Calda Longa

```
MATCH (n)-->()
WITH n, COUNT(*) AS Grau
RETURN 
    CASE 
        WHEN Grau > 10 THEN 'Cabeça'
        ELSE 'Calda'
    END AS Tipo, 
    COUNT(n) AS Contagem
ORDER BY Contagem;
```

|Tipo|Contagem|
|--    |  --|
|Calda | 469|
|Cabeça|1152|

> Esses dados são para o grafo de menságens virais

#### Backup do banco

```sh
#              CONTAINER                         DB
$ docker exec -it neo4j neo4j-admin database dump neo4j --to-path=/dumps/
```

### Parte V - Apresentação dos stats
> Monte uma tabela contendo a quantidade de nós e a quantidade de arestas para cada grafo
(mensagens gerais, mensagens virais e mensagens com desinformação).

In [139]:
geral['stats']['type'] = 'geral'
viral['stats']['type'] = 'viral'
misinformation['stats']['type'] = 'misinformation'

#
pd.DataFrame([geral['stats'], viral['stats'], misinformation['stats']])

Unnamed: 0,arestas,nos,geral,viral,misinformation,type
0,25087510,6165,186316,110091,8749,geral
1,6925768,3487,110091,110091,5181,viral
2,416799,1647,8749,5181,8749,misinformation


In [135]:
a = {'a':1, 'b': {'c':2, 'd':3}}
len(a)

2

#### Status dos usuários

In [136]:
def flatten_stats(senders):
    data = []
    for i in senders:
        stats = senders[i]['stats']
        receivers = len(senders[i]['msgs'])
        
        data.append({
            'member': i, 
            'gcg': stats['geral']['grau_centralidade'],
            'fg': stats['geral']['forca'],
            'gcv': stats['viral']['grau_centralidade'],
            'fv': stats['viral']['forca'],
            'gcm': stats['misinformation']['grau_centralidade'],
            'fm': stats['misinformation']['grau_centralidade'],
            'receivers': receivers
        })

    return data

gstats = pd.DataFrame(flatten_stats(geral['senders']))
vstats = pd.DataFrame(flatten_stats(viral['senders']))
mstats = pd.DataFrame(flatten_stats(misinformation['senders']))

dfstats = pd.merge(pd.merge(gstats, vstats, on='member', how='left', suffixes=('', '_viral')), 
         mstats, on='member', how='left', suffixes=('', '_misinf'))

dfstats.head(5)

Unnamed: 0,member,gcg,fg,gcv,fv,gcm,fm,receivers,gcg_viral,fg_viral,...,gcm_viral,fm_viral,receivers_viral,gcg_misinf,fg_misinf,gcv_misinf,fv_misinf,gcm_misinf,fm_misinf,receivers_misinf
0,3a8e41b9e1da548ef0acd0a57b398da4,12,57,12,57,12,12,3,12.0,57.0,...,12.0,12.0,3.0,,,,,,,
1,df5ce4fa38568a7c3ddb881ec2bcf327,12,43,12,43,12,12,3,12.0,43.0,...,12.0,12.0,3.0,,,,,,,
2,42991ff9fbd534363741ee7531beb189,12,4,12,4,12,12,3,12.0,4.0,...,12.0,12.0,3.0,,,,,,,
3,88cc4f89f35493b30b96a60da7938e1c,12,4,12,4,12,12,3,12.0,4.0,...,12.0,12.0,3.0,,,,,,,
4,ef496106907ece8b169c6219e5470b2c,13,4660,13,4656,13,13,11,10.0,4656.0,...,10.0,10.0,8.0,,,,,,,


##### Identifique os 5 usuários mais ativos.

In [143]:
# Os de maior força geral
dfstats.sort_values(by='fg', ascending=False)[['member', 'fg']].head(5)

# Total de mensagens dos 5 mais ativos (Os que mais mandam mensagens) 
# df.member.value_counts()[:5]

Unnamed: 0,member,fg
4,ef496106907ece8b169c6219e5470b2c,4660
7,4ea1b3ee637da811b7d2d0df32db21f9,4405
27,c5fff63b6151f93e1ce86d12f8acbee1,3259
5050,3545bf472c131392f18ed78a07f7552e,2970
5853,95cbc2a13f1f4996d4510db5aab593b9,2321


##### Identifique os 5 usuários que mais espalham desinformação.

In [144]:
# Total de mensagens com desinformação
print('# Interpretação 1:\n', df[df.misinformation].member.value_counts().head(5))

# Soma das desinformações
print('\n\n# Interpretação 2:\n', df.groupby(['member'])[['score_misinformation']].sum().sort_values(by='score_misinformation', ascending=False).head(5))

# Interpretação 1:
 member
b632aa10c44879310730bbfced256e20    208
c2b374a51f8bc0ff08ba7b1e64b32f88    181
ce32c56a358658441c705bc4d1e1dbf4     78
4b44334cc5e4c42d35213f08916bdcab     73
42ea1937652ca4a8698e2f5c1b985823     71
Name: count, dtype: int64


# Interpretação 2:
                                   score_misinformation
member                                                
c2b374a51f8bc0ff08ba7b1e64b32f88            307.342982
a5595c3d215d032fe4dd43d236553b92            288.975761
b632aa10c44879310730bbfced256e20            261.053636
f0e309ae6ce7e83b9a508b14549d69a3            249.295923
d49cc6c9b024321630d3e6d75ab93705            240.956210


##### Identifique os 5 usuários mais influentes.

In [154]:
# Os usuários que mandam mensagens para o maior número de pessoas
dfstats.sort_values(by='receivers', ascending=False)[['member', 'receivers']].head(5)

Unnamed: 0,member,receivers
47,5edf52cacaced85501ff2c59d316d696,1165
363,3b7dfe232868b409b22d6717df3e3851,1080
502,db163c719d8fe5031fbd48783d6554b1,1028
645,b348ff97155fcbcfd7036153c89ddb68,1006
427,e6022a7e3955297a7a4c3028f0f2a99d,1006


##### Identifique os 5 usuários mais conectados.

In [155]:
# Os de maior grau de centralidade
dfstats.sort_values(by='gcg', ascending=False)[['member', 'gcg']].head(5)

Unnamed: 0,member,gcg
47,5edf52cacaced85501ff2c59d316d696,1192
363,3b7dfe232868b409b22d6717df3e3851,1176
502,db163c719d8fe5031fbd48783d6554b1,1054
645,b348ff97155fcbcfd7036153c89ddb68,1034
427,e6022a7e3955297a7a4c3028f0f2a99d,1026


In [7]:
df.to_csv('../lista-2/files/dados.csv', header=True, index=False)