# Proposta
    Tomar dados do site da câmara dos deputados e verificar qual o índice de convergência de votos entre os membros de partidos distintos que formaram coalisões

### Inicialização do DataFrame

In [1]:
import pandas as pd

df = pd.read_csv('votacoesVotos-2021.csv', sep=";", engine="python")

### Código para verificar as informações do DataFrame

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 321494 entries, 0 to 321493
Data columns (total 12 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   idVotacao               321494 non-null  object
 1   uriVotacao              321494 non-null  object
 2   dataHoraVoto            321494 non-null  object
 3   voto                    321146 non-null  object
 4   deputado_id             321494 non-null  int64 
 5   deputado_uri            321494 non-null  object
 6   deputado_nome           321494 non-null  object
 7   deputado_siglaPartido   321494 non-null  object
 8   deputado_uriPartido     321494 non-null  object
 9   deputado_siglaUf        321494 non-null  object
 10  deputado_idLegislatura  321494 non-null  int64 
 11  deputado_urlFoto        321494 non-null  object
dtypes: int64(2), object(10)
memory usage: 29.4+ MB


### Código para retirar colunas que não importam nesse caso

In [3]:
df = df.drop(columns=["uriVotacao", "dataHoraVoto", "deputado_id", "deputado_uri", "deputado_nome",
             "deputado_uriPartido", "deputado_siglaUf", "deputado_idLegislatura", "deputado_urlFoto"])

df.head()

Unnamed: 0,idVotacao,voto,deputado_siglaPartido
0,105464-262,Não,PSL
1,105464-262,Não,REPUBLICANOS
2,105464-262,Não,PSL
3,105464-262,Não,PSL
4,105464-262,Não,PSL


### Conversão de SIM para 1 e NÃO para 0

In [4]:
df.voto = df.voto.eq('Sim').mul(1)
df.head()

Unnamed: 0,idVotacao,voto,deputado_siglaPartido
0,105464-262,0,PSL
1,105464-262,0,REPUBLICANOS
2,105464-262,0,PSL
3,105464-262,0,PSL
4,105464-262,0,PSL


### Conversão de partidos para números (dados categórigos)

In [5]:
codes, uniques = pd.factorize(df.deputado_siglaPartido)

df.deputado_siglaPartido = codes
df.head()

Unnamed: 0,idVotacao,voto,deputado_siglaPartido
0,105464-262,0,0
1,105464-262,0,1
2,105464-262,0,0
3,105464-262,0,0
4,105464-262,0,0


### Conversão de id de votação para números (dados categóricos) 

In [6]:
codes, uniques = pd.factorize(df.idVotacao)
df.idVotacao = codes

df.head()

Unnamed: 0,idVotacao,voto,deputado_siglaPartido
0,0,0,0
1,0,0,1
2,0,0,0
3,0,0,0
4,0,0,0


### Organização da tabela segundo o o id da votação, a sigla do partido

In [7]:
df = df.sort_values(by=["idVotacao", "deputado_siglaPartido"])

sp = df.pop('deputado_siglaPartido')
df.insert(1, 'deputado_siglaPartido', sp)

df.head()

Unnamed: 0,idVotacao,deputado_siglaPartido,voto
0,0,0,0
2,0,0,0
3,0,0,0
4,0,0,0
23,0,0,0


### Criação de grupos por idVotacao e novo DataFrame com números de votos por partido por votação

In [95]:
import numpy as np

groups = df.groupby('idVotacao')

newmatriz = []

for group in range(956):
    a = groups.get_group(group)
    for partido in range(26):
        idvotacao = a["idVotacao"].iloc[0]
        countnao =  a[(a["deputado_siglaPartido"] == partido) & (a["voto"] == 0)].count()[0]
        countsim = a[(a["deputado_siglaPartido"] == partido) & (a["voto"] == 1)].count()[0]
        linha = [idvotacao, partido, countsim, countnao]
        newmatriz.append(linha)

array = np.array(newmatriz)

newData = pd.DataFrame(array, columns=["idVotacao", "idPartido", "sim", "nao"])

### Verificação de novo DataFrame criado

In [98]:
newData.describe()

Unnamed: 0,idVotacao,idPartido,sim,nao
count,24856.0,24856.0,24856.0,24856.0
mean,477.5,12.5,6.988011,5.94625
std,275.978829,7.500151,11.156332,10.324765
min,0.0,0.0,0.0,0.0
25%,238.75,6.0,0.0,0.0
50%,477.5,12.5,1.0,1.0
75%,716.25,19.0,8.0,7.0
max,955.0,25.0,53.0,53.0
