### Rede de insteresses dos deputados

#### OBJETIVO

---

Entender quem são os atores centrais na Câmara na discussão sobre o *aborto*.

#### METODOLOGIA

---

A rede consiste num multigrafo $G = \{V,E\}$, no qual:

* $V = \{d_{i}\}$, é o conjunto dos deputados $d_{i}$.
* $E = \{\{d_{i}, d_{j}\}\}$, $i \neq j$, é o conjunto das relações entre deputados. 
Cada aresta representa uma proposição em que ambos os deputados atuaram, ou seja, estão presentes no despacho das tramitações dessa proposição.

O caminho entre os nós pode ser entendido como o grau de "proximidade" da discussão na qual dois deputados estão envolvidos, supondo que os deputados atuam em proposições que condizem com seus próprios interesses.

Algumas propriedades da rede são:

* Seja $n$ o total de deputados, $| V | = n$, e $m$ o total de tramitações das proposições. Então, $| E | \leq m^{n}$.

* Seja $\sigma_{jk}$ o menor caminho do nó $d_{j}$ ao $d_{k}$. Então, $\sum_{j\neq k}{\sigma_{d_{j}d_{k}}} = \frac{n(n-1)}{2}$

Calculamos a intermediação (*betweness*) da rede para determinar quem mais influencia nas pautas sobre o tema.

Para cada deputado, sua intermediação consiste na razão do número de menores caminho que passam por ele pelo total, ou seja:

$g(d_{i}) = \sum_{j\neq k\neq i}\frac{\sigma_{d_{j}d_{k}}(d_{i})}{\sigma_{d_{j}d_{k}}} = 
\frac{2 \sum_{j\neq k\neq i}{\sigma_{d_{j}d_{k}(d_{i})}}}{n(n-1)}$

onde $\sigma_{jk}$ é o menor caminho do nó $d_{j}$ ao $d_{k}$.


#### Referências

---
[Intermediação - Wikipédia](https://pt.wikipedia.org/wiki/Intermedia%C3%A7%C3%A3o)

2. Ver se existem grupos específicos que dominam essas pautas (através do coeficiente de agrupamento local).

In [119]:
# SERVER CONNECTION
from sqlalchemy import create_engine
import yaml

server = yaml.load(open('db-links.yaml', 'r'))
con = create_engine(server['postgretic'])

# DATA ANALYSIS & VIZ TOOLS
from copy import deepcopy
import pandas as pd

pd.options.display.max_columns = 999

import plotly
import plotly.graph_objs as go
import plotly.offline as offline

offline.init_notebook_mode(connected=True)

%pylab inline
pylab.rcParams['figure.figsize'] = (12, 12)

# FILES STORAGE
import os
cwd = os.getcwd()

RAW_DATA = cwd+'/raw_data/' # put primary data here
DATA = cwd+'/data/' # put processed data here

# BASIC INFOS
from datetime import datetime as dt
i = round((dt.now().year - 2003)/4+0.5)
period = list(range(0,i))

legislaturas = {}
for x in period:
    
    t = ('{}-01-31'.format(2003+4*x), '{}-02-01'.format(2007+4*x))
    legislaturas[t] = 52+x

Populating the interactive namespace from numpy and matplotlib


### Bases de dados

A base `deputados`contém as informações dos deputados desde a 52ª legislatura.

In [2]:
deputados = pd.read_csv(RAW_DATA+'deputados.csv', index_col=0)
deputados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2481 entries, 0 to 2480
Data columns (total 16 columns):
id                      2481 non-null int64
capnum                  2481 non-null int64
datacaptura             2481 non-null object
idecadastro             2481 non-null int64
numlegislatura          2481 non-null int64
nomeparlamentar         2481 non-null object
sexo                    2481 non-null object
profissao               2131 non-null object
legendapartidoeleito    2481 non-null object
ufeleito                2481 non-null object
condicao                2481 non-null object
situacaomandato         2481 non-null object
matricula               2481 non-null int64
gabinete                2481 non-null int64
anexo                   2481 non-null int64
fone                    513 non-null object
dtypes: int64(7), object(9)
memory usage: 329.5+ KB


In [3]:
deputados.head(3)

Unnamed: 0,id,capnum,datacaptura,idecadastro,numlegislatura,nomeparlamentar,sexo,profissao,legendapartidoeleito,ufeleito,condicao,situacaomandato,matricula,gabinete,anexo,fone
0,2211,2,2015-11-02 13:14:39,141542,55,SÉRGIO MORAES,M,COMERCIANTE,PTB,RS,Titular,Em Exercício,512,258,4,3215-5258
1,2215,2,2015-11-02 13:14:39,178874,55,SERGIO VIDIGAL,M,,PDT,ES,Titular,Em Exercício,283,812,4,3215-5812
2,324,2,2015-11-02 13:14:39,160538,54,BOHN GASS,M,"Agricultor Familiar, Professor de História",PT,RS,Titular,Em Exercício,499,0,0,


In [4]:
deputados[deputados['situacaomandato'] == 'Em Exercício']['numlegislatura'].value_counts()

53    513
55    512
54    512
52    510
Name: numlegislatura, dtype: int64

A base `props_aborto`contém a descrição das proposições sobre aborto já apresentadas na Câmara.

In [5]:
props_aborto = pd.read_csv(RAW_DATA+'props_aborto_teor.csv')
props_aborto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68 entries, 0 to 67
Data columns (total 15 columns):
Proposições             68 non-null object
Classe                  68 non-null object
Apreciação              68 non-null object
Regime de Tramitação    68 non-null object
Natureza                68 non-null object
Ementa                  68 non-null object
Explicação              38 non-null object
Autor                   68 non-null object
UF                      68 non-null object
Partido                 68 non-null object
Apresentação            68 non-null object
Ano                     68 non-null int64
Unnamed: 12             55 non-null object
Situação                68 non-null object
Link                    68 non-null object
dtypes: int64(1), object(14)
memory usage: 8.0+ KB


In [6]:
props_aborto.head(3)

Unnamed: 0,Proposições,Classe,Apreciação,Regime de Tramitação,Natureza,Ementa,Explicação,Autor,UF,Partido,Apresentação,Ano,Unnamed: 12,Situação,Link
0,PL 7122/2017,Aborto,Plenário,"Prioridade (151, II, RICD)",A favor,Dispõe sobre a concessão de licença e de salár...,"Altera o Decreto-Lei nº 5.452, de 1943 e a Lei...",Luciano Ducci,PR,PSB,3/15/2017,2017,Apensada,Aguardando Criação de Comissão Temporária pela...,http://www2.camara.gov.br/proposicoesWeb/ficha...
1,PDC 1487/2014,Aborto,Plenário,"Ordinária (151, III, RICD)",Contra,"Susta a eficácia da Portaria nº 415, de 21 de ...",,Eduardo Cunha,RJ,PMDB,5/27/2014,2014,Raiz,Pronta para Pauta,http://www2.camara.gov.br/proposicoesWeb/ficha...
2,PDC 1490/2014,Aborto,Plenário,"Ordinária (151, III, RICD)",Contra,"Susta a Portaria 415, de 21 de maio de 2014, ""...",,Andre Moura,SE,PSC,5/28/2014,2014,Raiz,Tramitando em Conjunto,http://www2.camara.gov.br/proposicoesWeb/ficha...


In [7]:
props_aborto['Apresentação'] = pd.to_datetime(props_aborto['Apresentação'])

In [8]:
print(props_aborto['Apresentação'].min())
print(props_aborto['Apresentação'].max())

1977-11-10 00:00:00
2017-03-15 00:00:00


In [9]:
props_aborto['Proposições'].values

array(['PL 7122/2017', 'PDC 1487/2014', 'PDC 1490/2014', 'PDC 1757/2005',
       'PDC 1832/2005', 'PDC 2840/2010', 'PDC 42/2007', 'PDC 467/2000',
       'PDC 565/2012', 'PDC 566/2012', 'PDC 737/1998', 'PEC 164/2012',
       'PEC 25/1995', 'PEC 303/2008', 'PEC 408/2005', 'PEC 553/2002',
       'PEC 571/2002', 'PEC 62/2003', 'PL 1008/1988', 'PL 1035/1991',
       'PL 1085/2011', 'PL 1091/2003', 'PL 1097/1991', 'PL 1104/1991',
       'PL 1107/1991', 'PL 1135/1991', 'PL 1190/2011', 'PL 1459/2003',
       'PL 1522/2015', 'PL 1545/2011', 'PL 176/1995', 'PL 1763/2007',
       'PL 20/1991', 'PL 2059/2003', 'PL 2155/2007', 'PL 2423/1989',
       'PL 2433/2007', 'PL 2438/1989', 'PL 244/1983', 'PL 2690/2007',
       'PL 2852/2000', 'PL 3039/2015', 'PL 3166/1992', 'PL 3207/2008',
       'PL 3348/2000', 'PL 3609/1993', 'PL 3673/2008', 'PL 3748/2008',
       'PL 3783/2008', 'PL 3872/1989', 'PL 3983/2015', 'PL 4396/2016',
       'PL 4403/2004', 'PL 4474/1977', 'PL 4641/2016', 'PL 4642/2016',
       '

A base `tramitacoes_aborto` contém as tramitações referentes às proposições acima. 

In [10]:
tramitacoes_aborto = pd.read_csv(RAW_DATA+'tramitacoes_aborto.csv', index_col=0)
tramitacoes_aborto.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1254 entries, 0 to 1253
Data columns (total 25 columns):
level_0                                    1254 non-null int64
index                                      1254 non-null int64
idProposicao                               1254 non-null int64
ementa                                     1254 non-null object
situacao                                   1254 non-null object
numero                                     1254 non-null int64
ano                                        1254 non-null int64
tipo                                       1254 non-null object
ultimaAcao_tramitacao_codOrgao             1254 non-null int64
ultimaAcao_tramitacao_orgao                1254 non-null object
ultimaAcao_tramitacao_descricao            1254 non-null object
ultimaAcao_tramitacao_data                 1254 non-null object
ultimaAcao_tramitacao_ordemDeTramitacao    1254 non-null int64
andamento_tramitacao_codOrgao              1254 non-null int64
andam

In [11]:
tramitacoes_aborto['nomeProposicao'] = tramitacoes_aborto['tipo'].map(str) + ' ' + tramitacoes_aborto['numero'].map(str) + '/' + tramitacoes_aborto['ano'].map(str)

In [12]:
tramitacoes_aborto = tramitacoes_aborto[['idProposicao', 'nomeProposicao', 'andamento_tramitacao_descricao', 'andamento_tramitacao_data', 'unique_id']]
tramitacoes_aborto.head()

Unnamed: 0,idProposicao,nomeProposicao,andamento_tramitacao_descricao,andamento_tramitacao_data,unique_id
0,484558,PDC 2840/2010,Encerramento automático do Prazo de Recurso. N...,2010-11-03 00:00:00,-3406100917335070313
1,484558,PDC 2840/2010,"Devolvido ao Autor, nos termos do § 1º do arti...",2010-11-04 00:00:00,2575394321104112753
2,484558,PDC 2840/2010,Apresentação do Projeto de Decreto Legislativo...,2010-08-04 00:00:00,7706943970270103526
3,484558,PDC 2840/2010,"Devolva-se a proposição, por contrariar o disp...",2010-08-17 00:00:00,8182031166867923856
4,484558,PDC 2840/2010,Prazo de Recurso (5 sessões ordinárias a parti...,2010-08-17 00:00:00,5976673334173288414


In [13]:
tramitacoes_aborto['numlegislatura'] = np.nan

for idx, row in tramitacoes_aborto.iterrows():
    
    for periodo in legislaturas.keys():
        
        inicio = periodo[0]
        fim = periodo[1]
        
        if (row['andamento_tramitacao_data'] >= inicio) and (row['andamento_tramitacao_data'] <= fim):

            tramitacoes_aborto['numlegislatura'][idx] = legislaturas[periodo]
            pass



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy



In [14]:
tramitacoes_aborto.head()

Unnamed: 0,idProposicao,nomeProposicao,andamento_tramitacao_descricao,andamento_tramitacao_data,unique_id,numlegislatura
0,484558,PDC 2840/2010,Encerramento automático do Prazo de Recurso. N...,2010-11-03 00:00:00,-3406100917335070313,53.0
1,484558,PDC 2840/2010,"Devolvido ao Autor, nos termos do § 1º do arti...",2010-11-04 00:00:00,2575394321104112753,53.0
2,484558,PDC 2840/2010,Apresentação do Projeto de Decreto Legislativo...,2010-08-04 00:00:00,7706943970270103526,53.0
3,484558,PDC 2840/2010,"Devolva-se a proposição, por contrariar o disp...",2010-08-17 00:00:00,8182031166867923856,53.0
4,484558,PDC 2840/2010,Prazo de Recurso (5 sessões ordinárias a parti...,2010-08-17 00:00:00,5976673334173288414,53.0


### Rede

#### Conjunto de nós

In [15]:
deps_atual = deputados[deputados['condicao'] == 'Titular'][['numlegislatura', 'nomeparlamentar']].drop_duplicates()
deps_atual.head()

Unnamed: 0,numlegislatura,nomeparlamentar
0,55,SÉRGIO MORAES
1,55,SERGIO VIDIGAL
2,54,BOHN GASS
5,55,DANILO CABRAL
6,52,IRINY LOPES


In [16]:
deps_legs = deps_atual.groupby('numlegislatura')['nomeparlamentar'].apply(lambda x: x.tolist()).to_dict()
deps_legs

{52: ['IRINY LOPES',
  'MARIA LUCIA',
  'BONIFÁCIO DE ANDRADA',
  'LUIZ ALBERTO',
  'AGNELO QUEIROZ',
  'REMI TRINTA',
  'JOSÉ BORBA',
  'EDNA MACEDO',
  'ANSELMO',
  'SANDRO MABEL',
  'SANDRO MATOS',
  'DRA. CLAIR',
  'RAUL JUNGMANN',
  'HOMERO BARRETO',
  'ANTONIO JOAQUIM',
  'JOSÉ DIRCEU',
  'PAULO MAGALHÃES',
  'MARCELINO FRAGA',
  'LUIZ BASSUMA',
  'JOÃO CAMPOS',
  'PAUDERNEY AVELINO',
  'ARMANDO MONTEIRO',
  'BENJAMIN MARANHÃO',
  'ZONTA',
  'CLÓVIS FECURY',
  'JULIO LOPES',
  'ANTONIO CAMBRAIA',
  'OLAVO CALHEIROS',
  'AROLDE DE OLIVEIRA',
  'RODRIGO MAIA',
  'CELSO RUSSOMANNO',
  'BENEDITO DE LIRA',
  'LUIZ CARREIRA',
  'CARLOS DUNGA',
  'JOÃO MATOS',
  'CARLITO MERSS',
  'VICENTE CASCIONE',
  'GILBERTO KASSAB',
  'ONYX LORENZONI',
  'DR. HELENO',
  'JOÃO LYRA',
  'LEODEGAR TISCOSKI',
  'EDSON EZEQUIEL',
  'MANINHA',
  'DELFIM NETTO',
  'NELSON MARQUEZELLI',
  'DEVANIR RIBEIRO',
  'NELSON PELLEGRINO',
  'ÁTILA LINS',
  'JOSÉ SANTANA DE VASCONCELLOS',
  'JOÃO MENDES DE JESUS',
 

#### Conjunto de arestas

In [94]:
tramitacoes_deps = pd.DataFrame(columns=['deputado', 'idProposicao', 'numlegislatura'])

for leg in legislaturas.values():
    
    for dep in deps_legs[leg]:
        
        tram_dep = deepcopy(tramitacoes_aborto[tramitacoes_aborto['andamento_tramitacao_descricao'].str.upper().str.contains(dep.upper())])
        
        tram_dep['deputado'] = dep
        
        tramitacoes_deps = tramitacoes_deps.append(tram_dep[['deputado', 'idProposicao', 'numlegislatura']])

In [242]:
tramitacoes_deps = tramitacoes_deps.drop_duplicates().reset_index(drop=True) # Desconsiderando relação de um deputado com ele mesmo
tramitacoes_deps.head()

Unnamed: 0,deputado,idProposicao,numlegislatura
0,IRINY LOPES,281681,52.0
1,EDNA MACEDO,18716,52.0
2,DRA. CLAIR,18716,52.0
3,LUIZ BASSUMA,16299,53.0
4,LUIZ BASSUMA,345103,53.0


In [236]:
relacoes = pd.merge(tramitacoes_deps, tramitacoes_deps, on=['numlegislatura', 'idProposicao'])
relacoes.head()

Unnamed: 0,deputado_x,idProposicao,numlegislatura,deputado_y
0,IRINY LOPES,281681,52.0,IRINY LOPES
1,IRINY LOPES,281681,52.0,OSMÂNIO PEREIRA
2,IRINY LOPES,281681,52.0,NILTON BAIANO
3,OSMÂNIO PEREIRA,281681,52.0,IRINY LOPES
4,OSMÂNIO PEREIRA,281681,52.0,OSMÂNIO PEREIRA


In [246]:
print('Número de arestas na rede: ', len(relacoes))

Número de arestas na rede:  5848


### Representação Gráfica

In [434]:
ranking = {}

In [447]:
# Escolher a legislatura
leg = 55

In [448]:
import networkx as nx

G = nx.from_pandas_edgelist(relacoes[relacoes['numlegislatura'] == leg], 'deputado_x', 'deputado_y')

print('\nLegislatura   : ', leg, 
      '\nNº de nós     : ', len(G.nodes), 
      '\nNº de arestas : ', len(G.edges))


Legislatura   :  55 
Nº de nós     :  47 
Nº de arestas :  652


In [449]:
def create_viz_network(G):

    # create node trace:
    node_trace = go.Scatter(x = [], y = [], 
                            text = [], mode = 'markers',
                            hoverinfo='text',
                            marker = dict(
                                showscale = True,
                                colorscale = 'YIGnBu',
                                reversescale = True,
                                color = [],
                                size = 10,
                                colorbar = dict(
                                    thickness = 15,
                                    title = 'Número de conexões',
                                    xanchor = 'left',
                                    titleside = 'right'),
                                line = dict(width = 1)))

    # set node positions
    pos = nx.spring_layout(G)
    for node in G.nodes():
        G.node[node]['pos']= pos[node]

    for node in G.nodes():
        x, y = G.node[node]['pos']
        node_trace['x'].append(x)
        node_trace['y'].append(y)

    # create edge trace:
    edge_trace = go.Scatter(x = [], y = [], text = [],
                         line = dict(width = 1, color = '#888'),
                         mode = 'lines')

    for edge in G.edges():
        x0, y0 = G.node[edge[0]]['pos']
        x1, y1 = G.node[edge[1]]['pos']
        edge_trace['x'] += [x0, x1, None]
        edge_trace['y'] += [y0, y1, None]
        #edge_trace['text'] += str(matrix.loc[edge[0], edge[1]])[:5]

    for node, adjacencies in list(G.adjacency()):
        node_trace['marker']['color'].append(len(adjacencies))
        node_info = '# de conexões: '+str(len(adjacencies))
        node_trace['text'].append(node + '<br>' + node_info)

    layout = go.Layout(
                titlefont=dict(size=16),
                showlegend=False,
                hovermode='closest',
                xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                yaxis=dict(showgrid=False, zeroline=False, showticklabels=False))
    
    fig = go.Figure(data=[edge_trace, node_trace], layout=layout)
    offline.iplot(fig, filename='networkx')
    
    graus = [(node, len(adjacencies)) for node, adjacencies in list(G.adjacency())]
    graus.sort(key=lambda x: x[1], reverse=True)
    
    return pd.DataFrame(graus, columns=['Deputado(a)', 'Grau']).set_index('Deputado(a)')

In [450]:
ranking[leg] = create_viz_network(G)
ranking[leg].head(10)

Unnamed: 0_level_0,Grau
Deputado(a),Unnamed: 1_level_1
FLAVINHO,38
MARCOS ROGÉRIO,37
JOÃO CAMPOS,37
GIVALDO CARIMBÃO,36
TADEU ALENCAR,35
IVAN VALENTE,35
REGINALDO LOPES,35
ESPERIDIÃO AMIN,35
EVANDRO GUSSI,35
CAPITÃO AUGUSTO,35


In [451]:
test = deepcopy(ranking)

In [454]:
ranking = deepcopy(test)

while leg > 52:
    ranking[leg-1] = pd.concat([ranking[leg], ranking[leg-1]], axis=1)
    leg -= 1

In [458]:
ranking[52].columns = [52, 53, 54, 55]

ranking[52].fillna(0)

Unnamed: 0,52,53,54,55
AFONSO FLORENCE,0.0,12.0,0.0,0.0
ALBERTO FILHO,0.0,2.0,0.0,0.0
ALCENI GUERRA,0.0,0.0,5.0,0.0
ALCEU MOREIRA,35.0,0.0,0.0,0.0
ALINE CORRÊA,0.0,0.0,55.0,0.0
ALMERINDA DE CARVALHO,0.0,0.0,0.0,6.0
ANDERSON FERREIRA,1.0,0.0,0.0,0.0
ANDRE MOURA,0.0,1.0,0.0,0.0
ANDRÉ ZACHAROW,0.0,0.0,0.0,9.0
ANGELA GUADAGNIN,0.0,0.0,0.0,16.0


In [478]:
a = False
b = pd.DataFrame([1, 2, 3])
a=b

In [481]:
c=[a, b]
list(filter(lambda x : type(x) == pd.core.frame.DataFrame, c))[0]

Unnamed: 0,0
0,1
1,2
2,3


In [476]:
type(b) == pd.core.frame.DataFrame

True