# <span style="color:blue">Programação Python para Ciência de Dados</span>

## <span style="color:blue">Prática Módulo 1: Python I</span>

Nesses exercícios estaremos lidando com dados reais de gastos de deputados. Temos informações referentes a diversos pedidos de reembolso, tendo o nome do deputado, seu estado, seu partido e o valor do reembolso solicitado.


Estaremos usando uma versão tratada da seguinte base de dados:

https://www.kaggle.com/epattaro/brazils-house-of-deputies-reimbursements

Ignore o código a seguir por enquanto, estamos somente carregando os dados. Logo veremos tudo que é necessário para entender como ele funciona.

In [2]:
def carregar_dados():
    """
    Função que carrega a base de dados como uma lista de tuplas
    """
    with open('gastos_deputados.csv', 'r', encoding = 'utf-8') as f:
        content = f.readlines()
    content = [x.strip() for x in content]
    data = [line.split(',') for line in content]
    for line in data:
        line[-1] = float(line[-1])
    data = [tuple(line) for line in data]

    return data

O código abaixo carrega os dados que iremos trabalhar. Eles estão organizados em uma lista de tuplas, onde cada tupla contém as informações de um reembolso. Como a seguir:

```python
dados = [(NOME, ESTADO, PARTIDO, VALOR),
         (NOME, ESTADO, PARTIDO, VALOR),
         ...
         (NOME, ESTADO, PARTIDO, VALOR)]
```

In [3]:
dados = carregar_dados()

### Perguntas
#### 1- Qual é o valor total solicitado em reembolsos?
#### 2- Qual é o valor médio solicitado em reembolsos?
#### 3- Qual estado possui um valor total maior em reembolsos, GO ou MT?
#### 4- Qual região possui um valor médio menor em reembolsos, sul ou sudeste?
#### 6- Qual o total de pedidos realizados por deputados do DEM-RJ?
#### 7- Crie uma lista apenas com os pedidos maiores que 500 reais
#### 8- Qual é o número de pedidos realizados por cada partido?
#### 9- Liste todos os partidos presentes na base (dica: pesquise pelo tipo de dados *set*)
#### 10 **- Liste os deputados que possuem solicitações de reembolso maiores que 10 mil reais  

** faça upload de um notebook com a solução da questão 10 no google drive no diretório: <br><br>
[http://tiny.cc/dsvycz](http://tiny.cc/dsvycz)

O nome do notebook deve ser: <br><br>
_seuprimeironome-seuultimonome-modulo1.ipynb_

Por exemplo: _gustavo-nonato-modulo1.ipynb_


In [96]:
# 1- Qual é o valor total solicitado em reembolsos?
valores = [linha[3] for linha in dados]
total = sum(valores)
print('Valor total: R$ %.2f' %total)

Valor total: R$ 2041293.08


In [97]:
# 2- Qual é o valor médio solicitado em reembolsos?
from statistics import mean
print('Valor médio: R$ %.2f' %mean(valores))

Valor médio: R$ 603.58


In [98]:
# 3- Qual estado possui um valor total maior em reembolsos, GO ou MT?
lista_GO = [linha[3] for linha in dados if 'GO' in linha]
lista_MT = [linha[3] for linha in dados if 'MT' in linha] # -> lista de dados do MT

if sum(lista_GO) > sum(lista_MT):
    print('GO possui maior valor em reembolsos.')
elif sum(lista_GO) < sum(lista_MT):
    print('MT possui maior valor em reembolsos.')
else:
    print('Os valores são iguais.')

GO possui maior valor em reembolsos.


In [None]:
# 4- Qual região possui um valor médio menor em reembolsos, sul ou sudeste?
estados_sudeste = ['ES','MG','RJ','SP']
estados_sul = ['PR','RS','SC']

media_sul = mean([linha[3] for linha in dados if linha[1] in estados_sul])
media_sudeste = mean([linha[3] for linha in dados if linha[1] in estados_sudeste])

dic_medias = dict(zip(['sul','sudeste'],[media_sul, media_sudeste]))
for k,v in dic_medias.items():
    if v == max(dic_medias.values()):
        print('Região {}.'.format(k))

In [99]:
# 6- Qual o total de pedidos realizados por deputados do DEM-RJ
total_DEM_RJ = sum([linha[3] for linha in dados if {'DEM', 'RJ'}.issubset(linha)])
print('Total DEM-RJ: R$ %.2f'%total_DEM_RJ)

Total DEM-RJ: R$ 26682.97


In [100]:
# 7- Crie uma lista apenas com os pedidos maiores que 500 reais
maior_500 = [linha[3] for linha in dados if linha[3] > 500]
# print(maior_500)

In [101]:
# 8- Qual é o número de pedidos realizados por cada partido?
from collections import Counter
Counter([linha[2] for linha in dados])
  

Counter({'PSB': 207,
         'PTB': 114,
         'PMDB': 429,
         'PSOL': 36,
         'SD': 83,
         'PSDB': 349,
         'PTN': 90,
         'PT': 485,
         'PDT': 116,
         'PPS': 61,
         'PP': 320,
         'PR': 283,
         'PSD': 173,
         'PROS': 33,
         'PRB': 129,
         'PHS': 50,
         'DEM': 160,
         'REDE': 26,
         'PV': 54,
         'PCdoB': 96,
         'PMB': 6,
         'PSC': 29,
         'PTdoB': 19,
         'PEN': 10,
         'PRP': 3,
         'PSL': 18,
         'PRTB': 3})

In [102]:
# 9- Liste todos os partidos presentes na base (dica: pesquise pelo tipo de dados *set*)
set([linha[2] for linha in dados])

{'DEM',
 'PCdoB',
 'PDT',
 'PEN',
 'PHS',
 'PMB',
 'PMDB',
 'PP',
 'PPS',
 'PR',
 'PRB',
 'PROS',
 'PRP',
 'PRTB',
 'PSB',
 'PSC',
 'PSD',
 'PSDB',
 'PSL',
 'PSOL',
 'PT',
 'PTB',
 'PTN',
 'PTdoB',
 'PV',
 'REDE',
 'SD'}

In [4]:
# 10 **- Liste os deputados que possuem solicitações de reembolso maiores que 10 mil reais

###     SOLUÇÃO 1     ###

dic = {}

for deputado, _, _, valor in dados:
    
    if deputado not in dic:
        dic[deputado] = valor
        
    else:
        dic[deputado] += valor
        
lista_10_mil = []

for deputado, valor in dic.items():
    
    if valor >= 10000:
        lista_10_mil += [deputado]
        
print( lista_10_mil)



['BENITO GAMA', 'MAJOR OLIMPIO', 'BETINHO GOMES', 'PAULO ABI-ACKEL', 'ADELMO CARNEIRO LEÃO', 'JOZI ARAÚJO', 'ELIZIANE GAMA', 'ZECA DIRCEU', 'CRISTIANE BRASIL', 'WALDENOR PEREIRA', 'RODRIGO MAIA', 'MARCO MAIA', 'MÁRIO HERINGER', 'LEÔNIDAS CRISTINO', 'MISAEL VARELLA', 'SANDRO ALEX', 'MÁRIO NEGROMONTE JR.', 'ELIZEU DIONIZIO', 'OTAVIO LEITE', 'DR. JORGE SILVA', 'LUIS CARLOS HEINZE', 'ADALBERTO CAVALCANTI', 'JÉSSICA SALES', 'JUSCELINO FILHO', 'MARCELO SQUASSONI', 'GORETE PEREIRA', 'EFRAIM FILHO', 'AFONSO FLORENCE', 'JÚLIA MARINHO', 'DANIEL ALMEIDA', 'MOISÉS DINIZ', 'OSMAR SERRAGLIO', 'JOÃO RODRIGUES', 'ORLANDO SILVA', 'NELSON MARCHEZAN JUNIOR', 'JONY MARCOS', 'JOSÉ CARLOS ALELUIA', 'JEAN WYLLYS', 'ALEXANDRE BALDY', 'ROBERTO ALVES', 'HIRAN GONÇALVES', 'MILTON MONTI', 'TAKAYAMA', 'FÁBIO MITIDIERI', 'JOÃO CASTELO', 'JHONATAN DE JESUS']


In [105]:
###     SOLUÇÃO 2     ###

lista_deputados = list(set(linha[0] for linha in dados))
lista_total = []
for deputado in lista_deputados:
    gastos = [linha[3] for linha in dados if deputado in linha]
    lista_total += [sum(gastos)]

dic_gastos = dict(zip(lista_deputados,lista_total))

lista_maior_10_mil = []
for deputado, gasto in dic_gastos.items():
    if gasto >= 10000:
        lista_maior_10_mil += [deputado]
        
print(lista_maior_10_mil)

['JOÃO CASTELO', 'BENITO GAMA', 'GORETE PEREIRA', 'ORLANDO SILVA', 'MÁRIO NEGROMONTE JR.', 'WALDENOR PEREIRA', 'OSMAR SERRAGLIO', 'MILTON MONTI', 'JOSÉ CARLOS ALELUIA', 'AFONSO FLORENCE', 'SANDRO ALEX', 'ELIZIANE GAMA', 'TAKAYAMA', 'MAJOR OLIMPIO', 'ROBERTO ALVES', 'LEÔNIDAS CRISTINO', 'ADELMO CARNEIRO LEÃO', 'ELIZEU DIONIZIO', 'FÁBIO MITIDIERI', 'MARCELO SQUASSONI', 'JÉSSICA SALES', 'BETINHO GOMES', 'OTAVIO LEITE', 'NELSON MARCHEZAN JUNIOR', 'ZECA DIRCEU', 'JOÃO RODRIGUES', 'JONY MARCOS', 'MOISÉS DINIZ', 'EFRAIM FILHO', 'JOZI ARAÚJO', 'JUSCELINO FILHO', 'JEAN WYLLYS', 'ADALBERTO CAVALCANTI', 'DR. JORGE SILVA', 'ALEXANDRE BALDY', 'MARCO MAIA', 'MÁRIO HERINGER', 'HIRAN GONÇALVES', 'JHONATAN DE JESUS', 'RODRIGO MAIA', 'CRISTIANE BRASIL', 'DANIEL ALMEIDA', 'JÚLIA MARINHO', 'PAULO ABI-ACKEL', 'LUIS CARLOS HEINZE', 'MISAEL VARELLA']


In [23]:
def maior_10000(num):
    return num>10000

list(filter(maior_10000,list(dic.values())))

[11210.45,
 11767.42,
 12893.34,
 13236.17,
 15120.839999999998,
 10227.01,
 11412.19,
 12504.970000000001,
 15798.320000000002,
 17859.039999999997,
 20917.33,
 11695.41,
 10607.789999999999,
 10248.16,
 12735.74,
 28843.02,
 10992.800000000001,
 11140.7,
 10240.99,
 10763.53,
 10546.39,
 13495.65,
 17821.26,
 21076.31,
 11624.19,
 12950.39,
 12161.07,
 32023.54,
 55772.42,
 13496.93,
 24500.0,
 17687.0,
 11263.57,
 16957.16,
 17300.190000000002,
 11247.65,
 10148.65,
 10080.0,
 21739.37,
 11602.89,
 12061.34,
 11120.529999999999,
 17657.540000000005,
 11940.119999999999,
 20670.34,
 10500.0]