![logo_usjt.png](https://www.usjt.br/app/themes/mobister/dist/images/sao-judas-universidade.png)

# Datawarehousing & Data Mining
- **Professor**: Sergio Bonato <antonio.bonato@saojudas.br>

# Atividade04 - Pandas para Análise e Tratamento de Dados

**Conteúdo**
- Leitura de dados
- Filtros
- Agregações
- Agrupamentos
- Pivot Tables
- Estatísticas
- Séries Temporais

In [1]:
import pandas as pd
# definicao dos dados em listas
referencias = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set']
cdi = [0.54, 0.49, 0.47, 0.52, 0.54, 0.47, 0.57, 0.50, 0.46]
ipca = [0.32, 0.43, 0.75, 0.57, 0.13, 0.01, 0.19, 0.11, -0.04]
igpm = [0.01, 0.88, 1.26, 0.92, 0.45, 0.80, 0.40, -0.67, -0.01]

In [2]:
# criação do dataframe e definição do índice
indicadores = pd.DataFrame(data={'IPCA': ipca, 'CDI': cdi, 'IGPM': igpm}, index=referencias)
indicadores

Unnamed: 0,IPCA,CDI,IGPM
jan,0.32,0.54,0.01
fev,0.43,0.49,0.88
mar,0.75,0.47,1.26
abr,0.57,0.52,0.92
mai,0.13,0.54,0.45
jun,0.01,0.47,0.8
jul,0.19,0.57,0.4
ago,0.11,0.5,-0.67
set,-0.04,0.46,-0.01


**1** Selecionar o CDI de todos os meses jan, mar, abr, jun, set

In [3]:
# Solução
indicadores.loc[['jan','mar','abr','jun','set'], ['CDI']]

Unnamed: 0,CDI
jan,0.54
mar,0.47
abr,0.52
jun,0.47
set,0.46


**2** Filtrar todos os registros nos quais o IGP-M é maior que o IPCA

In [4]:
# Solução
indicadores[indicadores['IGPM'] > indicadores['IPCA']]

Unnamed: 0,IPCA,CDI,IGPM
fev,0.43,0.49,0.88
mar,0.75,0.47,1.26
abr,0.57,0.52,0.92
mai,0.13,0.54,0.45
jun,0.01,0.47,0.8
jul,0.19,0.57,0.4
set,-0.04,0.46,-0.01


**3** Apresentar todas os registros nos quais o IGPM é maior que o IPCA e o CDI

In [5]:
# Solução
indicadores[(indicadores['IGPM'] > indicadores['IPCA']) & (indicadores['IGPM'] > indicadores['CDI'])]

Unnamed: 0,IPCA,CDI,IGPM
fev,0.43,0.49,0.88
mar,0.75,0.47,1.26
abr,0.57,0.52,0.92
jun,0.01,0.47,0.8


**4** Apresentar o IPCA nos meses nos quais o IGPM foi negativo

In [6]:
# Solução
indicadores[indicadores['IGPM'] < 0]['IPCA']

ago    0.11
set   -0.04
Name: IPCA, dtype: float64

#### Carregando os dados da aba 2 do arquivo *bec_exel_abas.xlsx*


In [None]:
bec_abas = pd.read_excel('dataset/02-DS_BEC_abas.xlsx',
                         sheet_name=1)
bec_abas.head(5)

**5** Listar os 5 maiores valores negociados em uma licitação a partir do arquivo carregado *bec_excel_abas.xlsx*

In [None]:
# Solução
bec_abas.nlargest(5, 'Valor Total Negociado em R$')['Valor Total Negociado em R$']

In [None]:
# dados públicos da BEC para análise 
df_bec = pd.read_excel('dataset/03-DS_BEC.xlsx', error_bad_lines=False)
df_bec = df_bec[['Cód Desc Órgão', 'Mês Ano Encerramento', 'Cod Desc Fornecedor', 'Descrição Procedimento Compra', 'Cod Desc Item', 'Quantidade de Item','Valor Unitário Negociado', 'Valor Total Negociado em R$']]
# criando uma nova coluna
df_bec['Valor Negociado Mi'] = df_bec['Valor Total Negociado em R$'] / 1000000
df_bec.head(4)

**6** Contar quantos orgãos distintos que efetuaram licitações pela BEC

In [None]:
# Solução
len(df_bec['Cód Desc Órgão'].unique())

**7** Calcular o total valor total negociado em licitações pelo órgão '20000 - SECRETARIA DA FAZENDA E PLANEJAMENTO'

In [None]:
# Solução
df_bec[df_bec['Cód Desc Órgão'] == '20000 - SECRETARIA DA FAZENDA E PLANEJAMENTO']['Valor Negociado Mi'].sum()

**8** Calcular a quantidade de fornecedores de cada órgão distribuídos nos tipos distintos de procedimentos de compra. Listar apenas 6 registros

In [None]:
# Solução
df_bec.groupby('Descrição Procedimento Compra')[['Cod Desc Fornecedor']].nunique()

**9** Calcular o valor mínimo, máximo, média e desvio padrão dos valores unitarios agrupados por fornecedor e código de descrição do item.

In [None]:
# Solução
df_bec.groupby(['Cod Desc Fornecedor', 'Cod Desc Item'])['Valor Unitário Negociado'].agg(['min', 'max', 'mean', 'std'])

**10** Calcular o valor total negociado em cada encerramento de mês. O encerramento do mês deve ser apresentado como coluna. Utilizar o total negociado em milhões (Valor Negociado Mi).



In [None]:
# Solução
df_bec.groupby('Mês Ano Encerramento')['Valor Negociado Mi'].sum()

**11** Calcular o valor total negociado e quantidade de itens adquiridas em cada encerramento de mês

In [None]:
# Solução
df_bec.groupby('Mês Ano Encerramento')['Valor Total Negociado em R$','Quantidade de Item'].sum()

In [None]:
# recuperação da cotação da VALE3
from pandas_datareader import data
df_vale3 = data.DataReader('VALE3.SA', start='2010', end='2020', data_source='yahoo')
df_vale3.tail()

**12** Criar uma coluna com o valor da média móvel de 10 períodos da VALE3 baseado no valor de fechamento.

In [None]:
# Solução
media_movel = df_vale3['Close'].rolling(10).mean()
media_movel.tail(20)

**13** Criar uma coluna com o valor do retorno diário da VALE3 baseado no valor de fechamento (Close) 

*Retorno diário(t) = Close(t) - Close(t-1)*






In [None]:
# Solução
def calc_valor_diario(x):
  list = []

  for i in range(1, len(x) - 1):
    list.append(x[i] - x[i - 1])

  return list

valor_diario = calc_valor_diario(df_vale3['Close'])
valor_diario[0:20]