In [1]:
# -*- coding: utf-8
# VOLT DATA LAB (https://www.voltdata.info/)
# Reinaldo Chaves (@paidatocandeira)
# Detalhamento dos projetos de lei tramitados pelos deputados estaduais - quantidades e assuntos
#

In [1]:
import json
import xmltodict
import pandas as pd
import numpy as np
from datetime import date

# Autores

Fonte
 https://www.al.sp.gov.br/dados-abertos/recurso/81

In [2]:
with open("dados/processo_legislativo/documento_autor_set_2018.xml", 'r') as f:
    xmlString = f.read()

In [3]:
jsonString = json.dumps(xmltodict.parse(xmlString), indent=4)

In [4]:
with open("output.json", 'w') as f:
    f.write(jsonString)

In [5]:
arquivo_json = open('output.json', 'r')
dados_json = json.load(arquivo_json)

In [6]:
#dados_json['documentos_autores']['DocumentoAutor']

In [7]:
lista = dados_json['documentos_autores']['DocumentoAutor']

In [8]:
df_autores = pd.DataFrame(lista, columns = ['IdAutor', 'IdDocumento', 'NomeAutor'])

In [9]:
df_autores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 702502 entries, 0 to 702501
Data columns (total 3 columns):
IdAutor        702502 non-null object
IdDocumento    702502 non-null object
NomeAutor      702502 non-null object
dtypes: object(3)
memory usage: 16.1+ MB


In [13]:
df_autores.to_csv('resultados/todos_autores_projetos.csv', index=False) 

Exemplo de busca de um autor

In [11]:
nome = df_autores [(df_autores ['IdAutor'] == '1000000242')]
nome

Unnamed: 0,IdAutor,IdDocumento,NomeAutor
560494,1000000242,1000229169,Gustavo Petta
560673,1000000242,1000226780,Gustavo Petta
636337,1000000242,1000214907,Gustavo Petta
637500,1000000242,1000225263,Gustavo Petta
639173,1000000242,1000221120,Gustavo Petta
643408,1000000242,1000224520,Gustavo Petta
643471,1000000242,1000225080,Gustavo Petta
645100,1000000242,1000215996,Gustavo Petta
647893,1000000242,1000213599,Gustavo Petta
673995,1000000242,1000225235,Gustavo Petta


In [10]:
#df_autores.reset_index()

Carrega nomes de deputados da atual legislatura

In [10]:
nomes_deputados_atual_legislatura = pd.read_csv('resultados/deputados_selecionados_final.csv', converters={'sequencial': lambda x: str(x), 'cpf': lambda x: str(x), 'codigo_unico': lambda x: str(x) })
nomes_deputados_atual_legislatura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 9 columns):
codigo_unico       120 non-null object
nome_deputado      120 non-null object
uf                 120 non-null object
nome_completo      120 non-null object
sequencial         120 non-null object
cpf                120 non-null object
nome_urna          120 non-null object
partido_eleicao    120 non-null object
situacao           120 non-null object
dtypes: object(9)
memory usage: 8.5+ KB


Filtra por esses nomes, com o código

In [11]:
df_autores_atuais = pd.merge(df_autores, nomes_deputados_atual_legislatura, left_on='IdAutor', right_on='codigo_unico')

In [12]:
df_autores_atuais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 349959 entries, 0 to 349958
Data columns (total 12 columns):
IdAutor            349959 non-null object
IdDocumento        349959 non-null object
NomeAutor          349959 non-null object
codigo_unico       349959 non-null object
nome_deputado      349959 non-null object
uf                 349959 non-null object
nome_completo      349959 non-null object
sequencial         349959 non-null object
cpf                349959 non-null object
nome_urna          349959 non-null object
partido_eleicao    349959 non-null object
situacao           349959 non-null object
dtypes: object(12)
memory usage: 34.7+ MB


Todos os 120 deputados têm pelo menos um projeto na história

In [13]:
conta = len(df_autores_atuais['IdAutor'].value_counts())
conta

120

# Proposituras

https://www.al.sp.gov.br/dados-abertos/recurso/56

In [14]:
with open("dados/processo_legislativo/proposituras_set_2018.xml", 'r') as f:
    xmlString = f.read()

In [15]:
jsonString = json.dumps(xmltodict.parse(xmlString), indent=4)

In [16]:
with open("output.json", 'w') as f:
    f.write(jsonString)

In [17]:
arquivo_json = open('output.json', 'r')
dados_json = json.load(arquivo_json)

In [18]:
#dados_json['proposituras']['propositura']

In [19]:
lista = dados_json['proposituras']['propositura']

In [20]:
df_proposituras = pd.DataFrame(lista, columns = ['AnoLegislativo', 'CodOriginalidade', 'DtEntradaSistema', 'DtPublicacao', 'Ementa', 'IdDocumento', 'IdNatureza', 'NroLegislativo'])

In [21]:
df_proposituras['DtEntradaSistema'] = pd.to_datetime(df_proposituras['DtEntradaSistema'])
df_proposituras['DtPublicacao'] = pd.to_datetime(df_proposituras['DtPublicacao'])

In [22]:
df_proposituras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 192781 entries, 0 to 192780
Data columns (total 8 columns):
AnoLegislativo      192781 non-null object
CodOriginalidade    140539 non-null object
DtEntradaSistema    192753 non-null datetime64[ns]
DtPublicacao        192781 non-null datetime64[ns]
Ementa              192781 non-null object
IdDocumento         192781 non-null object
IdNatureza          192781 non-null object
NroLegislativo      192781 non-null object
dtypes: datetime64[ns](2), object(6)
memory usage: 11.8+ MB


Seleciona apenas as da atual legislatura

In [23]:
df_proposituras = df_proposituras[(df_proposituras['AnoLegislativo'] == '2015') | 
                                  (df_proposituras['AnoLegislativo'] == '2016') | 
                                  (df_proposituras['AnoLegislativo'] == '2017') | 
                                  (df_proposituras['AnoLegislativo'] == '2018')]

In [24]:
df_proposituras.reset_index().head()

Unnamed: 0,index,AnoLegislativo,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdDocumento,IdNatureza,NroLegislativo
0,160212,2015,1201264 120215 1518,2014-04-09 03:00:00,2015-03-24 03:00:00,Indica ao Sr.Governador a elaboração de estudo...,1201264,9,335
1,161496,2015,1244722 270115 1357,2015-01-27 02:00:00,2015-02-06 02:00:00,Propõe voto de congratulações pelo aniversário...,1244722,7,37
2,161600,2015,1244830 020215 1323,2015-02-02 02:00:00,2015-02-03 02:00:00,Requer ao Sr.Secretário de Estado de Desenvolv...,1244830,8,4
3,162018,2015,1244889 020215 1836,2015-02-02 02:00:00,2015-02-07 02:00:00,Indica ao Sr.Governador a liberação de recurso...,1244889,9,31
4,162019,2015,1244890 020215 1839,2015-02-02 02:00:00,2015-02-07 02:00:00,Indica ao Sr.Governador a liberação de recurso...,1244890,9,30


In [28]:
#df_proposituras.IdDocumento.count()
a = len(df_proposituras['IdDocumento'].value_counts())
a

26739

In [29]:
df_proposituras['IdDocumento'].nunique()

26739

In [30]:
#df_proposituras['IdDocumento'].value_counts()

# Natureza

https://www.al.sp.gov.br/dados-abertos/recurso/44

In [31]:
with open("dados/processo_legislativo/naturezasSpl.xml", 'r') as f:
    xmlString = f.read()
jsonString = json.dumps(xmltodict.parse(xmlString), indent=4)
with open("output.json", 'w') as f:
    f.write(jsonString)

In [32]:
arquivo_json = open('output.json', 'r')
dados_json = json.load(arquivo_json)

In [33]:
#dados_json

In [34]:
lista = dados_json['natureza']['natureza']
df_natureza = pd.DataFrame(lista, columns = ['idNatureza', 'nmNatureza', 'sgNatureza', 'tpNatureza'])

In [97]:
df_natureza.to_csv('resultados/natureza_projetos_alesp.csv', index=False)

# Temas escolhidos

141	Projeto de lei de PPA <br>
142	Projeto de lei do Orçamento <br>
147	Req. de Comissão Parlamentar Especial <br>
1	Projeto de lei <br>
2	Projeto de lei Complementar <br>
3	Projeto de resolução <br>
4	Projeto de decreto legislativo <br>
5	Proposta de emenda à Constituição <br>
10	Projeto de Constituição <br>
24	Lei <br>
33	Lei Complementar <br>
35	Lei (§ 7ª - artigo 28) <br>
40	Decreto Legislativo

In [35]:
projetos_acao_parlamentar = df_proposituras[(df_proposituras['IdNatureza'] == '141') | 
                                            (df_proposituras['IdNatureza'] == '142') | 
                                            (df_proposituras['IdNatureza'] == '147') | 
                                            (df_proposituras['IdNatureza'] == '1') | 
                                            (df_proposituras['IdNatureza'] == '2') | 
                                            (df_proposituras['IdNatureza'] == '3') | 
                                            (df_proposituras['IdNatureza'] == '4') | 
                                            (df_proposituras['IdNatureza'] == '5') | 
                                            (df_proposituras['IdNatureza'] == '10') | 
                                            (df_proposituras['IdNatureza'] == '24') | 
                                            (df_proposituras['IdNatureza'] == '33') | 
                                            (df_proposituras['IdNatureza'] == '35') | 
                                            (df_proposituras['IdNatureza'] == '40')]

In [36]:
autores_projetos = pd.merge(df_autores_atuais, projetos_acao_parlamentar, left_on='IdDocumento', right_on='IdDocumento')

In [37]:
autores_projetos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6897 entries, 0 to 6896
Data columns (total 19 columns):
IdAutor             6897 non-null object
IdDocumento         6897 non-null object
NomeAutor           6897 non-null object
codigo_unico        6897 non-null object
nome_deputado       6897 non-null object
uf                  6897 non-null object
nome_completo       6897 non-null object
sequencial          6897 non-null object
cpf                 6897 non-null object
nome_urna           6897 non-null object
partido_eleicao     6897 non-null object
situacao            6897 non-null object
AnoLegislativo      6897 non-null object
CodOriginalidade    5786 non-null object
DtEntradaSistema    6897 non-null datetime64[ns]
DtPublicacao        6897 non-null datetime64[ns]
Ementa              6897 non-null object
IdNatureza          6897 non-null object
NroLegislativo      6897 non-null object
dtypes: datetime64[ns](2), object(17)
memory usage: 1.1+ MB


In [38]:
autores_projetos.reset_index().head()

Unnamed: 0,index,IdAutor,IdDocumento,NomeAutor,codigo_unico,nome_deputado,uf,nome_completo,sequencial,cpf,nome_urna,partido_eleicao,situacao,AnoLegislativo,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdNatureza,NroLegislativo
0,0,4926,1249726,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1249726 110315 1748,2015-03-11 03:00:00,2015-03-21 03:00:00,Classifica Castilho como Município de Interess...,1,217
1,1,4926,1249746,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1249746 110315 1753,2015-03-11 03:00:00,2015-03-21 03:00:00,Classifica Lucélia como Município de Interesse...,1,218
2,2,4926,1249757,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1249757 110315 1804,2015-03-11 03:00:00,2015-03-21 03:00:00,Classifica Martinópolis como Município de Inte...,1,219
3,3,4926,1249762,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1249762 110315 1809,2015-03-11 03:00:00,2015-03-21 03:00:00,Classifica Panorama como Município de Interess...,1,220
4,4,4926,1249778,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1249778 110315 1839,2015-03-11 03:00:00,2015-03-21 03:00:00,"Declara de utilidade pública a ""Associação de ...",1,223


Número de projetos

In [39]:
autores_projetos['IdDocumento'].nunique()

4534

In [43]:
autores_projetos.to_csv('resultados/autores_projetos.csv', index=False)
autores_projetos.to_excel('resultados/autores_projetos_atual_legislatura.xlsx',sheet_name='Sheet1')

In [40]:
#autores_projetos['IdDocumento'].value_counts()

In [41]:
seleciona = autores_projetos[(autores_projetos['IdDocumento'] == '1000038268')]

In [42]:
seleciona['IdDocumento'].value_counts()

1000038268    93
Name: IdDocumento, dtype: int64

In [43]:
autores_projetos[['NomeAutor', 'NroLegislativo', 'CodOriginalidade', 'IdNatureza', 'AnoLegislativo']].head(5).to_dict()

{'NomeAutor': {0: 'Vaz de Lima',
  1: 'Vaz de Lima',
  2: 'Mauro Bragato',
  3: 'Mauro Bragato',
  4: 'Campos Machado'},
 'NroLegislativo': {0: '3', 1: '3', 2: '3', 3: '3', 4: '3'},
 'CodOriginalidade': {0: '1259512 200515 1258',
  1: '1259512 200515 1258',
  2: '1259512 200515 1258',
  3: '1259512 200515 1258',
  4: '1259512 200515 1258'},
 'IdNatureza': {0: '5', 1: '5', 2: '5', 3: '5', 4: '5'},
 'AnoLegislativo': {0: '2015', 1: '2015', 2: '2015', 3: '2015', 4: '2015'}}

# Análises 

Cria uma chave única para as contas

In [34]:
def limpeza1(linha):
    IdDocumento = str(linha["IdDocumento"])
    NroLegislativo = str(linha["NroLegislativo"])
    CodOriginalidade = str(linha["CodOriginalidade"])
    IdNatureza = str(linha["IdNatureza"])
    AnoLegislativo = str(linha["AnoLegislativo"])
    documento = IdDocumento+NroLegislativo+CodOriginalidade+IdNatureza+AnoLegislativo
    return str(documento)

In [35]:
autores_projetos["chave_unica"] = autores_projetos.apply(limpeza1, axis=1)

In [36]:
autores_projetos.head()

Unnamed: 0,IdAutor,IdDocumento,NomeAutor,codigo_unico,nome_deputado,uf,nome_completo,sequencial,cpf,nome_urna,partido_eleicao,situacao,AnoLegislativo,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdNatureza,NroLegislativo,chave_unica
0,31,1259512,Vaz de Lima,31,VAZ DE LIMA,SP,JOSE CARLOS VAZ DE LIMA,250000001566,57339333800,VAZ DE LIMA,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
1,31,1259512,Vaz de Lima,31,VAZ DE LIMA,SP,JOSE CARLOS VAZ DE LIMA,250000001566,57339333800,VAZ DE LIMA,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
2,4926,1259512,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
3,4926,1259512,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,MAURO BRAGATO,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
4,94,1259512,Campos Machado,94,CAMPOS MACHADO,SP,ANTONIO CARLOS DE CAMPOS MACHADO,250000002439,3546748891,CAMPOS MACHADO,PTB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015


Deputados com mais autoria de projetos

In [40]:
#autores_projetos.groupby("NomeAutor").chave_unica.count().sort_values(ascending=False)
autores_projetos.groupby('NomeAutor')['IdDocumento'].nunique().sort_values(ascending=False)

NomeAutor
Gil Lancaster            392
Itamar Borges            203
Campos Machado           200
Carlos Giannazi          195
Cezinha de Madureira     168
Afonso Lobato            155
Mauro Bragato            149
André do Prado           145
Sebastião Santos         132
Chico Sardelli           126
Célia Leão               125
Marco Vinholi            122
Edmir Chedid             121
Carlão Pignatari         105
Coronel Telhada           97
Leci Brandão              97
Luiz Carlos Gondim        97
Welson Gasparini          95
Clélia Gomes              94
Paulo Correa Jr           90
Beth Sahão                86
Edson Giriboni            85
Roque Barbiere            85
Márcio Camargo            83
Caio França               82
Enio Tatto                80
Hélio Nishimoto           79
Léo Oliveira              77
Rafael Silva              77
Rita Passos               73
                        ... 
Feliciano Filho           32
José Zico Prado           32
Reinaldo Alguz            31
Cels

In [41]:
total = autores_projetos.groupby('NomeAutor')['IdDocumento'].nunique().sort_values(ascending=False)
total.to_excel('resultados/total_autores_projetos.xlsx',sheet_name='Sheet1')

Número de autores em geral

In [43]:
#conta = len(autores_projetos['NomeAutor'].value_counts())
#conta
autores_projetos['NomeAutor'].nunique()

109

Número de projetos

In [44]:
#conta = len(autores_projetos['IdDocumento'].value_counts())
#conta
autores_projetos['IdDocumento'].nunique()

4534

Verifica se há autores não deputados 

In [45]:
autores_naodeputados = autores_projetos[(autores_projetos['NomeAutor'] == 'Comissão de Ciência, Tecnologia, Inovação e Informação') |
                                   (autores_projetos['NomeAutor'] ==  'Comissão de Constituição, Justiça e Redação') | 
                                   (autores_projetos['NomeAutor'] ==  'Comissão de Defesa dos Direitos da Pessoa Humana, da Cidadania, da Participação e das Questões Sociais') | 
                                   (autores_projetos['NomeAutor'] ==  'Comissão de Finanças, Orçamento e Planejamento') | 
                                   (autores_projetos['NomeAutor'] ==  'Comissão de Segurança Pública e Assuntos Penitenciários') | 
                                   (autores_projetos['NomeAutor'] ==  'Comissão de Transportes e Comunicações') | 
                                   (autores_projetos['NomeAutor'] ==  'CPI Acidentes no Transporte Ferroviário de Carga') | 
                                   (autores_projetos['NomeAutor'] ==  'CPI Obesidade Infantil') | 
                                   (autores_projetos['NomeAutor'] ==  'CPI Violações dos Direitos Humanos nas Faculdades Paulistas') | 
                                   (autores_projetos['NomeAutor'] ==  'Defensoria Pública do Estado') | 
                                   (autores_projetos['NomeAutor'] ==  'Governador') | 
                                   (autores_projetos['NomeAutor'] ==  'Mesa') | 
                                   (autores_projetos['NomeAutor'] ==  'Procurador-Geral de Justiça') | 
                                   (autores_projetos['NomeAutor'] ==  'Tribunal de Contas') | 
                                   (autores_projetos['NomeAutor'] ==  'Tribunal de Justiça') 
                                  ]

In [46]:
autores_naodeputados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 19 columns):
IdAutor             0 non-null object
IdDocumento         0 non-null object
NomeAutor           0 non-null object
codigo_unico        0 non-null object
nome_deputado       0 non-null object
uf                  0 non-null object
nome_completo       0 non-null object
sequencial          0 non-null object
cpf                 0 non-null object
nome_urna           0 non-null object
partido_eleicao     0 non-null object
situacao            0 non-null object
AnoLegislativo      0 non-null object
CodOriginalidade    0 non-null object
DtEntradaSistema    0 non-null datetime64[ns]
DtPublicacao        0 non-null datetime64[ns]
Ementa              0 non-null object
IdNatureza          0 non-null object
NroLegislativo      0 non-null object
dtypes: datetime64[ns](2), object(17)
memory usage: 0.0+ bytes


In [171]:
autores_projetos.to_csv('resultados/deputados_autores_projetos.csv', index=False)

Total de autores

In [57]:
len(autores_projetos['NomeAutor'].value_counts())

109

Autores com mais projetos

In [47]:
#autores_deputados.groupby("NomeAutor").NroLegislativo.count().sort_values(ascending=False)
#autores_projetos.groupby("NomeAutor").IdDocumento.count().sort_values(ascending=False)
autores_projetos.groupby('NomeAutor')['IdDocumento'].nunique().sort_values(ascending=False)

NomeAutor
Gil Lancaster            392
Itamar Borges            203
Campos Machado           200
Carlos Giannazi          195
Cezinha de Madureira     168
Afonso Lobato            155
Mauro Bragato            149
André do Prado           145
Sebastião Santos         132
Chico Sardelli           126
Célia Leão               125
Marco Vinholi            122
Edmir Chedid             121
Carlão Pignatari         105
Coronel Telhada           97
Leci Brandão              97
Luiz Carlos Gondim        97
Welson Gasparini          95
Clélia Gomes              94
Paulo Correa Jr           90
Beth Sahão                86
Edson Giriboni            85
Roque Barbiere            85
Márcio Camargo            83
Caio França               82
Enio Tatto                80
Hélio Nishimoto           79
Léo Oliveira              77
Rafael Silva              77
Rita Passos               73
                        ... 
Feliciano Filho           32
José Zico Prado           32
Reinaldo Alguz            31
Cels

In [48]:
autores_projetos.to_excel('resultados/deputados_autores_projetos.xlsx',sheet_name='Sheet1', index=False)

In [61]:
a = len(autores_projetos['IdDocumento'].value_counts())
a

4534

In [59]:
autores_projetos.reset_index().head()

Unnamed: 0,index,IdAutor,IdDocumento,NomeAutor,codigo_unico,nome_deputado,uf,nome_completo,sequencial,cpf,...,partido_eleicao,situacao,AnoLegislativo,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdNatureza,NroLegislativo,chave_unica
0,0,31,1259512,Vaz de Lima,31,VAZ DE LIMA,SP,JOSE CARLOS VAZ DE LIMA,250000001566,57339333800,...,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
1,1,31,1259512,Vaz de Lima,31,VAZ DE LIMA,SP,JOSE CARLOS VAZ DE LIMA,250000001566,57339333800,...,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
2,2,4926,1259512,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
3,3,4926,1259512,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,PSDB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015
4,4,94,1259512,Campos Machado,94,CAMPOS MACHADO,SP,ANTONIO CARLOS DE CAMPOS MACHADO,250000002439,3546748891,...,PTB,ELEITO POR QP,2015,1259512 200515 1258,2015-05-20 03:00:00,2015-05-21 03:00:00,Dá nova redação ao item 2 do § 1º do artigo 12...,5,3,125951231259512 200515 125852015


In [48]:
seleciona_deputado = autores_projetos[(autores_projetos['cpf'] == '06837351877')]

In [49]:
seleciona_deputado.to_excel('resultados/exemplo_deputados_autores_projetos.xlsx',sheet_name='Sheet1', index=False)

# Códigos das palavras-chave

https://www.al.sp.gov.br/dados-abertos/recurso/42 <br>
https://www.al.sp.gov.br/dados-abertos/recurso/41

In [48]:
with open("dados/processo_legislativo/documento_palavras_set_2018.xml", 'r') as f:
    xmlString = f.read()
jsonString = json.dumps(xmltodict.parse(xmlString), indent=4)
with open("output.json", 'w') as f:
    f.write(jsonString)

In [49]:
arquivo_json = open('output.json', 'r')
dados_json = json.load(arquivo_json)

In [50]:
#dados_json

In [51]:
lista = dados_json['documentos_palavras']['DocumentoPalavra']
df_codpalavras = pd.DataFrame(lista, columns = ['IdDocumento', 'IdPalavra'])

# Palavras-chave

In [52]:
with open("dados/processo_legislativo/palavras_chave_set_2018.xml", 'r') as f:
    xmlString = f.read()
jsonString = json.dumps(xmltodict.parse(xmlString), indent=4)
with open("output.json", 'w') as f:
    f.write(jsonString)

In [53]:
arquivo_json = open('output.json', 'r')
dados_json = json.load(arquivo_json)

In [54]:
#dados_json

In [55]:
lista = dados_json['palavras_chave']['PalavraChave']
df_palavras = pd.DataFrame(lista, columns = ['IdPalavra', 'Palavra', 'PalavraSemAcento'])

Une as palavras-chave com os códigos

In [56]:
palavras_chave = pd.merge(df_codpalavras, df_palavras, left_on='IdPalavra', right_on='IdPalavra')

In [57]:
palavras_chave.reset_index().head()

Unnamed: 0,index,IdDocumento,IdPalavra,Palavra,PalavraSemAcento
0,0,166,3128,UTILIDADE PÚBLICA,UTILIDADE PUBLICA
1,1,167,3128,UTILIDADE PÚBLICA,UTILIDADE PUBLICA
2,2,195,3128,UTILIDADE PÚBLICA,UTILIDADE PUBLICA
3,3,200,3128,UTILIDADE PÚBLICA,UTILIDADE PUBLICA
4,4,212,3128,UTILIDADE PÚBLICA,UTILIDADE PUBLICA


In [59]:
palavras_chave.to_csv('resultados/palavras_chave_projetos.csv', index=False)

In [78]:
palavras_chave.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1424960 entries, 0 to 1424959
Data columns (total 4 columns):
IdDocumento         1424960 non-null object
IdPalavra           1424960 non-null object
Palavra             1424960 non-null object
PalavraSemAcento    1424960 non-null object
dtypes: object(4)
memory usage: 54.4+ MB


Exemplo de palavras em um projeto

In [79]:
seleciona = palavras_chave[(palavras_chave['IdDocumento'] == '330')]

In [80]:
seleciona

Unnamed: 0,IdDocumento,IdPalavra,Palavra,PalavraSemAcento
80505,330,847,HOSPITAL,HOSPITAL
82939,330,1654,SÃO PAULO (MUNICÍPIO),SAO PAULO (MUNICIPIO)
152840,330,371,MEDICAMENTO,MEDICAMENTO
221092,330,919,OBRA,OBRA
247506,330,845,RESERVA DE CONTINGÊNCIA,RESERVA DE CONTINGENCIA
261754,330,681,ASSISTÊNCIA MÉDICA,ASSISTENCIA MEDICA
290495,330,3575,ASSISTÊNCIA,ASSISTENCIA
294754,330,3401,PLANO,PLANO
343956,330,892,COMPLEXO HOSPITALAR,COMPLEXO HOSPITALAR
359743,330,160,USP - UNIVERSIDADE DE SÃO PAULO,USP - UNIVERSIDADE DE SAO PAULO


# Une os autores de projetos e palavras-chave

In [2]:
palavras_chave = pd.read_csv("resultados/palavras_chave_projetos.csv", sep=',',encoding = 'utf-8', converters={'IdDocumento': lambda x: str(x), 
                                                                                                                         'IdPalavra': lambda x: str(x)
                                                                                                                         })

In [11]:
autores_projetos = pd.read_csv("resultados/deputados_autores_projetos.csv", sep=',',encoding = 'utf-8', converters={'IdAutor': lambda x: str(x), 
                                                                                                                         'IdDocumento': lambda x: str(x), 
                                                                                                                         'CodOriginalidade': lambda x: str(x), 
                                                                                                                         'IdNatureza': lambda x: str(x), 
                                                                                                                         'NroLegislativo': lambda x: str(x),
                                                                                                                         'codigo_unico': lambda x: str(x),
                                                                                                                         'sequencial': lambda x: str(x),
                                                                                                                         'cpf': lambda x: str(x)
                                                                                                                         })

In [12]:
autores_projetos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6630 entries, 0 to 6629
Data columns (total 19 columns):
IdAutor             6630 non-null object
IdDocumento         6630 non-null object
NomeAutor           6630 non-null object
codigo_unico        6630 non-null object
nome_deputado       6630 non-null object
uf                  6630 non-null object
nome_completo       6630 non-null object
sequencial          6630 non-null object
cpf                 6630 non-null object
nome_urna           6630 non-null object
partido_eleicao     6630 non-null object
situacao            6630 non-null object
AnoLegislativo      6630 non-null int64
CodOriginalidade    6630 non-null object
DtEntradaSistema    6630 non-null object
DtPublicacao        6630 non-null object
Ementa              6630 non-null object
IdNatureza          6630 non-null object
NroLegislativo      6630 non-null object
dtypes: int64(1), object(18)
memory usage: 984.2+ KB


In [5]:
palavras_chave.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1417539 entries, 0 to 1417538
Data columns (total 4 columns):
IdDocumento         1417539 non-null object
IdPalavra           1417539 non-null object
Palavra             1417539 non-null object
PalavraSemAcento    1417539 non-null object
dtypes: object(4)
memory usage: 43.3+ MB


In [58]:
palavras_chave_dep = pd.merge(autores_projetos, palavras_chave, left_on='IdDocumento', right_on='IdDocumento')

In [86]:
palavras_chave_dep.to_excel('resultados/palavras_chave_projetos_deputados.xlsx',sheet_name='Sheet1')

# Análises - quantidade e assuntos de projetos

Quantidade de autores

In [59]:
len(palavras_chave_dep['NomeAutor'].value_counts())

109

In [60]:
palavras_chave_dep.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31869 entries, 0 to 31868
Data columns (total 22 columns):
IdAutor             31869 non-null object
IdDocumento         31869 non-null object
NomeAutor           31869 non-null object
codigo_unico        31869 non-null object
nome_deputado       31869 non-null object
uf                  31869 non-null object
nome_completo       31869 non-null object
sequencial          31869 non-null object
cpf                 31869 non-null object
nome_urna           31869 non-null object
partido_eleicao     31869 non-null object
situacao            31869 non-null object
AnoLegislativo      31869 non-null object
CodOriginalidade    24430 non-null object
DtEntradaSistema    31869 non-null datetime64[ns]
DtPublicacao        31869 non-null datetime64[ns]
Ementa              31869 non-null object
IdNatureza          31869 non-null object
NroLegislativo      31869 non-null object
IdPalavra           31869 non-null object
Palavra             31869 non-null 

In [61]:
#palavras_chave_dep.groupby("NomeAutor").CodOriginalidade.count().sort_values(ascending=False)
palavras_chave_dep.groupby('NomeAutor')['IdDocumento'].nunique().sort_values(ascending=False)

NomeAutor
Gil Lancaster            392
Itamar Borges            203
Campos Machado           200
Carlos Giannazi          195
Cezinha de Madureira     168
Afonso Lobato            155
Mauro Bragato            149
André do Prado           145
Sebastião Santos         132
Chico Sardelli           126
Célia Leão               125
Marco Vinholi            122
Edmir Chedid             121
Carlão Pignatari         105
Coronel Telhada           97
Leci Brandão              97
Luiz Carlos Gondim        97
Welson Gasparini          95
Clélia Gomes              94
Paulo Correa Jr           90
Beth Sahão                86
Edson Giriboni            85
Roque Barbiere            85
Márcio Camargo            83
Caio França               82
Enio Tatto                80
Hélio Nishimoto           79
Léo Oliveira              77
Rafael Silva              77
Rita Passos               73
                        ... 
Feliciano Filho           32
José Zico Prado           32
Reinaldo Alguz            31
Cels

Palavras-chave que mais apareceram

In [62]:
#palavras_chave_dep.groupby("Palavra").IdDocumento.count().sort_values(ascending=False)
palavras_chave_dep.groupby('Palavra')['IdDocumento'].nunique().sort_values(ascending=False)

Palavra
DENOMINAÇÃO                                             665
UTILIDADE PÚBLICA                                       547
ESTÂNCIA TURÍSTICA                                      387
INTERESSE TURÍSTICO                                     370
TURISMO                                                 357
LAZER                                                   348
DESENVOLVIMENTO TURÍSTICO                               343
DESENVOLVIMENTO ECONÔMICO E SOCIAL                      343
MUNICÍPIO DE INTERESSE TURÍSTICO                        228
ASSOCIAÇÃO                                              207
CALENDÁRIO OFICIAL                                      205
DATA COMEMORATIVA                                       161
ESCOLA                                                  124
VIADUTO                                                 114
DIA DE                                                  112
RODOVIA                                                 110
ESTADO DE SÃO PAULO             

In [91]:
a = len(palavras_chave_dep['IdDocumento'].value_counts())
a

4533

In [49]:
palavras_chave_dep.to_excel('resultados/projetos_deputados_palavraschave.xlsx',sheet_name='Sheet1', index=False)

In [92]:
seleciona = palavras_chave_dep[(palavras_chave_dep['Palavra'] == 'DENOMINAÇÃO')]

In [93]:
seleciona.reset_index().head(5)

Unnamed: 0,index,IdAutor,IdDocumento,NomeAutor,codigo_unico,nome_deputado,uf,nome_completo,sequencial,cpf,...,AnoLegislativo,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdNatureza,NroLegislativo,IdPalavra,Palavra,PalavraSemAcento
0,31,4926,1249779,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,2015,1249779 110315 1842,2015-03-11 03:00:00,2015-03-21 03:00:00,"Dá a denominação de ""Vereador Adilson Ramon Mo...",1,224,3127,DENOMINAÇÃO,DENOMINACAO
1,44,4926,1249916,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,2015,1249916 120315 1119,2015-03-12 03:00:00,2015-03-24 03:00:00,"Dá a denominação de ""Josué Borges de Andrade"" ...",1,228,3127,DENOMINAÇÃO,DENOMINACAO
2,47,4926,1249920,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,2015,1249920 120315 1136,2015-03-12 03:00:00,2015-03-24 03:00:00,"Dá a denominação de ""Prof. Dr. José Luiz Guima...",1,229,3127,DENOMINAÇÃO,DENOMINACAO
3,50,4926,1249921,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,2015,1249921 120315 1142,2015-03-12 03:00:00,2015-03-24 03:00:00,"Dá a denominação de ""Prof. Carlos Umberto Carr...",1,230,3127,DENOMINAÇÃO,DENOMINACAO
4,53,4926,1249922,Mauro Bragato,4926,MAURO BRAGATO,SP,MAURO BRAGATO,250000001571,493946810,...,2015,1249922 120315 1201,2015-03-12 03:00:00,2015-03-24 03:00:00,"Dá a denominação de ""Antonio Carvalho Moreno"" ...",1,231,3127,DENOMINAÇÃO,DENOMINACAO


In [59]:
seleciona.to_excel('resultados/projetos_denominacao.xlsx',sheet_name='Sheet1')

In [84]:
seleciona = palavras_chave_dep[(palavras_chave_dep['Palavra'] == 'INTERESSE TURÍSTICO')]
seleciona.head(5)

Unnamed: 0,IdAutor,IdDocumento,NomeAutor,codigo_unico,nome_deputado,uf,nome_completo,sequencial,cpf,nome_urna,...,CodOriginalidade,DtEntradaSistema,DtPublicacao,Ementa,IdNatureza,NroLegislativo,chave_unica,IdPalavra,Palavra,PalavraSemAcento
1897,31,1000038268,Vaz de Lima,31,VAZ DE LIMA,SP,JOSE CARLOS VAZ DE LIMA,250000001566,57339333800,VAZ DE LIMA,...,,2017-05-04 03:00:00,2017-05-04 03:00:00,Classifica como de Interesse Turístico os Muni...,1,258,1000038268258nan12017,32424,INTERESSE TURÍSTICO,INTERESSE TURISTICO
1912,68,1000038268,Edmir Chedid,68,EDMIR CHEDID,SP,EDMIR JOSÉ ABI CHEDID,250000001645,6837351877,EDMIR CHEDID,...,,2017-05-04 03:00:00,2017-05-04 03:00:00,Classifica como de Interesse Turístico os Muni...,1,258,1000038268258nan12017,32424,INTERESSE TURÍSTICO,INTERESSE TURISTICO
1927,39,1000038268,Aldo Demarchi,39,ALDO DEMARCHI,SP,JOSÉ ALDO DEMARCHI,250000001654,2755653868,ALDO DEMARCHI,...,,2017-05-04 03:00:00,2017-05-04 03:00:00,Classifica como de Interesse Turístico os Muni...,1,258,1000038268258nan12017,32424,INTERESSE TURÍSTICO,INTERESSE TURISTICO
1942,64,1000038268,Roberto Engler,64,ROBERTO ENGLER,SP,ROBERTO CARVALHO ENGLER PINTO,250000001532,1561715891,ROBERTO ENGLER,...,,2017-05-04 03:00:00,2017-05-04 03:00:00,Classifica como de Interesse Turístico os Muni...,1,258,1000038268258nan12017,32424,INTERESSE TURÍSTICO,INTERESSE TURISTICO
1957,40,1000038268,Léo Oliveira,40,LEO OLIVEIRA,SP,OCIMAR DONIZETI LÉO OLIVEIRA,250000002709,7318813897,LEO OLIVEIRA,...,,2017-05-04 03:00:00,2017-05-04 03:00:00,Classifica como de Interesse Turístico os Muni...,1,258,1000038268258nan12017,32424,INTERESSE TURÍSTICO,INTERESSE TURISTICO


## Contagem de deputados específicos

In [63]:
nome = palavras_chave_dep[(palavras_chave_dep['NomeAutor'] == 'Gil Lancaster')]

In [64]:
len(nome['NomeAutor'].value_counts())

1

In [65]:
nome.groupby("Palavra").IdDocumento.count().sort_values(ascending=False)

Palavra
CALENDÁRIO OFICIAL                                               68
DATA COMEMORATIVA                                                64
SEMANA DE                                                        47
DIA DE                                                           28
CONSCIENTIZAÇÃO                                                  25
UTILIDADE PÚBLICA                                                25
TURISMO                                                          20
DESENVOLVIMENTO ECONÔMICO E SOCIAL                               19
LAZER                                                            19
ESTÂNCIA TURÍSTICA                                               19
DESENVOLVIMENTO TURÍSTICO                                        19
COMBATE                                                          15
PREVENÇÃO                                                        14
PROGRAMA DE PREVENÇÃO (CRIAÇÃO)                                  13
BOM PRATO                               

In [88]:
nome = palavras_chave_dep[(palavras_chave_dep['NomeAutor'] == 'Itamar Borges')]
nome.groupby("Palavra").IdDocumento.count().sort_values(ascending=False)

Palavra
TURISMO                                89
DESENVOLVIMENTO ECONÔMICO E SOCIAL     87
DESENVOLVIMENTO TURÍSTICO              87
LAZER                                  87
ESTÂNCIA TURÍSTICA                     87
MUNICÍPIO DE INTERESSE TURÍSTICO       84
DENOMINAÇÃO                            41
INTERESSE TURÍSTICO                    23
UTILIDADE PÚBLICA                      12
RODOVIA                                11
DISPOSITIVO DE ACESSO                  11
VIADUTO                                11
JALES (MUNICÍPIO)                       8
SÃO JOSÉ DO RIO PRETO (MUNICÍPIO)       7
ASSOCIAÇÃO                              7
ARAÇATUBA (MUNICÍPIO)                   7
OLÍMPIA (MUNICÍPIO)                     5
RUBINÉIA (MUNICÍPIO)                    4
BARRETOS (MUNICÍPIO)                    4
PENÁPOLIS (MUNICÍPIO)                   4
CALENDÁRIO OFICIAL                      4
GUAPIAÇU (MUNICÍPIO)                    4
ALTERAÇÃO                               4
ALTO ALEGRE (MUNICÍPIO)   

In [89]:
nome = palavras_chave_dep[(palavras_chave_dep['NomeAutor'] == 'Campos Machado')]
nome.groupby("Palavra").IdDocumento.count().sort_values(ascending=False)

Palavra
UTILIDADE PÚBLICA                                                               35
INTERESSE TURÍSTICO                                                             28
ESTÂNCIA TURÍSTICA                                                              24
DESENVOLVIMENTO ECONÔMICO E SOCIAL                                              23
DESENVOLVIMENTO TURÍSTICO                                                       23
TURISMO                                                                         23
LAZER                                                                           23
DENOMINAÇÃO                                                                     20
ASSOCIAÇÃO                                                                      17
SÃO PAULO (CAPITAL)                                                              8
ALTERAÇÃO                                                                        6
PIRASSUNUNGA (MUNICÍPIO)                                                       

In [90]:
nome = palavras_chave_dep[(palavras_chave_dep['NomeAutor'] == 'Carlos Giannazi')]
len(nome['NomeAutor'].value_counts())

1

In [91]:
nome.groupby("Palavra").IdDocumento.count().sort_values(ascending=False)

Palavra
DENOMINAÇÃO                                                                                                                                        13
ESCOLA                                                                                                                                             11
DESAPROPRIAÇÃO                                                                                                                                     11
SUSTAÇÃO                                                                                                                                           10
SERVIDOR                                                                                                                                            9
SERVIDOR PÚBLICO                                                                                                                                    9
EDUCAÇÃO                                                                                    

In [72]:
nome.to_excel('resultados/projetos_giannazi.xlsx',sheet_name='Sheet1')