<a href="https://colab.research.google.com/github/rhutao/USJT-ProgMulti_Python/blob/master/Aula06_USJT_2020_GERDADOS_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo_usjt.png](https://www.usjt.br/app/themes/mobister/dist/images/sao-judas-universidade.png)

# Gerenciamento de Dados e Informação
- **Professores**: 
- Anderson Sanches <anderson.sanches@saojudas.br>
- Sergio Bonato <antonio.bonato@saojudas.br>

# Aula06 - Pandas para Análise e Tratamento de Dados

**Conteúdo**
- Leitura de dados
- Filtros
- Agregações
- Agrupamentos
- Pivot Tables
- Estatísticas
- Séries Temporais

In [0]:
#configuração do notebook para acesso aos datasets
from google.colab import drive
drive.mount('/content/drive')
path = '/content/drive/My Drive/aula_pandas/datasets'

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


### PANDAS - Python Data Analysis Library


*Wes McKinney* começou a criar o Pandas em 2008 quando trabalhava em uma empresa de gestão de investimentos. Em sua obra *Python para Análise de Dados* o nome da biblioteca deriva do termo de econometria **Panel Data** (Dados em Painel, em portugês),  referente a conjuntos de dados multidimensionais estruturados.

### O que é pandas?

Trata-se de uma biblioteca **Python** para **tratamento** e **análise de dados**. O Pandas possui dois objetos básicos: **Series** e **Dataframes**.

In [0]:
import pandas as pd
pd.set_option('precision', 2)

### Objetos


#### Series
Series são *arrays* unidimensionais contendo dados associados a um índice.

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Series.jpg)



**Exemplo 01:** Representação do IPCA

\

INDICADOR | JAN/2019 | FEV/2019 | MAR/2019 | ABR/2019 | MAI/2019 | JUN/2019 | JUL/2019 | AGO/2019 | SET/2019 | OUT/2019
---|---|---|---|---|---|---|---|---|---|---|
IPCA | 0,32% | 0,43% | 0,75% | 0,57% | 0,13% | 0,01% | 0,19% | 0,11% | -0,04% | 0,06%


\

In [0]:
# serie IPCA sem definição do índice
ipca = pd.Series([0.32, 0.43, 0.75, 0.57, 0.13, 0.01, 0.19, 0.11, -0.04])
ipca

In [0]:
# serie IPCA com definição do índice
ipca = pd.Series([0.32, 0.43, 0.75, 0.57, 0.13, 0.01, 0.19, 0.11, -0.04], 
                 index=['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set'])
ipca

#### Dataframes
Dataframe é uma **estrutura tabular** contendo uma coleção ordenada de colunas. Cada coluna pode um tipo distinto de dado. Os Dataframes possuem índices tanto para colunas quanto para linhas e as operações são tratadas de forma simétrica nessas duas dimensões.

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Dataframe.jpg)

\

**Exemplo 02:** Representação de Indicadores Econômicos

\

INDICADOR | JAN/2019 | FEV/2019 | MAR/2019 | ABR/2019 | MAI/2019 | JUN/2019 | JUL/2019 | AGO/2019 | SET/2019 | OUT/2019
---|---|---|---|---|---|---|---|---|---|---|
IPCA | 0,32% | 0,43% | 0,75% | 0,57% | 0,13% | 0,01% | 0,19% | 0,11% | -0,04% | 0,06%
IGPM | 0,01% | 0,88% | 1,26% | 0,92% | 0,45% | 0,80% | 0,40% | -0,67% | -0,01% | 0,65%
CDI | 0,54% | 0,49% | 0,47% | 0,52% | 0,54% | 0,47% | 0,57% | 0,50% | 0,47% | 0,25%
IBOV | 10,82% | -1,86% | -0,18% | 0,98% | 0,70% | 4,06% | 0,84% | -0,67% | 3,57% | 0,65%

\

In [0]:
# definicao dos dados em listas
referencias = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set']
cdi = [0.54, 0.49, 0.47, 0.52, 0.54, 0.47, 0.57, 0.50, 0.46]
ipca = [0.32, 0.43, 0.75, 0.57, 0.13, 0.01, 0.19, 0.11, -0.04]
igpm = [0.01, 0.88, 1.26, 0.92, 0.45, 0.80, 0.40, -0.67, -0.01]

In [0]:
# criação do dataframe e definição do índice
indicadores = pd.DataFrame(data={'IPCA': ipca, 'CDI': cdi, 'IGPM': igpm}, index=referencias)
indicadores

### Exercicio 01

Criar um dataframe contendo todos os dados da tabela e definir como indice a referência mensal do indicador

\

INDICADOR | JAN/2019 | FEV/2019 | MAR/2019 | ABR/2019 | MAI/2019 | JUN/2019 | JUL/2019 | AGO/2019 | SET/2019 | OUT/2019
---|---|---|---|---|---|---|---|---|---|---|
IPCA | 0,32% | 0,43% | 0,75% | 0,57% | 0,13% | 0,01% | 0,19% | 0,11% | -0,04% | 0,06%
IGPM | 0,01% | 0,88% | 1,26% | 0,92% | 0,45% | 0,80% | 0,40% | -0,67% | -0,01% | 0,65%
CDI | 0,54% | 0,49% | 0,47% | 0,52% | 0,54% | 0,47% | 0,57% | 0,50% | 0,47% | 0,25%
IBOV | 10,82% | -1,86% | -0,18% | 0,98% | 0,70% | 4,06% | 0,84% | -0,67% | 3,57% | 0,65%

\

In [0]:
# Implementacao Ex01
referencias = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set']
cdi = [0.54, 0.49, 0.47, 0.52, 0.54, 0.47, 0.57, 0.50, 0.46]
ipca = [0.32, 0.43, 0.75, 0.57, 0.13, 0.01, 0.19, 0.11, -0.04]
igpm = [0.01, 0.88, 1.26, 0.92, 0.45, 0.80, 0.40, -0.67, -0.01]

indica = pd.DataFrame(data=dict(zip(referencias,(zip(cdi, ipca, igpm)))), index=['CDI','IPCA','IGPM'])
indica

### Indexação

Uma vez carregado o objeto Pandas, Serie ou Dataframe, podemos observar **subconjuntos** dos dados com linhas ou colunas específicas.  

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Selection.jpg)

#### Índice Explicito

Recuperação de dados utilizando o índice explícito do Dataframe ou Serie

> *.loc[<seleção de linhas>, <seleção de colunas>]*

In [0]:
indicadores

In [0]:
# seleção de dados com índice "set"
indicadores.loc[['set']]

In [0]:
# seleção de dados com índice "mai" na linha e "IPCA" na coluna
indicadores.loc[['mai'], ['IPCA']]

In [0]:
# seleção de dados com índices de "mai" até "set" na linha "IPCA" na coluna
indicadores.loc['mai':'set', ['IPCA']]

In [0]:
# seleção de dados com índices de "fev" até o final na linha e colunas "IPCA" e "CDI" 
indicadores.loc['fev':, ['IPCA', 'CDI']]

#### Índice Implícito

Recuperação de dados utilizando o índice implícito do Dataframe ou Serie

> *.iloc[<seleção de linhas>, <seleção de colunas>]*

In [0]:
# seleção dos dados na posição 0 do dataframe
indicadores.iloc[[0]]

In [0]:
# seleção dos dados no intervalo de linhas de 1 até 3 e colunas nas poisções 0 e 2
indicadores.iloc[1:4, [0,2]]

#### Apenas seleção de colunas

In [0]:
# seleção de colunas simplificada sem utilizar .loc ou .iloc
indicadores[['IPCA', 'CDI']]

#### Exercicio 02.1

Selecionar o IGP-M dos meses de fevereiro, junho e setembro

In [0]:
# Implementacao Ex02.1
indicadores.loc[['fev','jun','set'],['IGPM']]

#### Exercicio 02.2

Selecionar o IPCA e o CDI dos meses de abril até agosto

In [0]:
# Implementação Ex02.2
indicadores.loc['abr':'ago',['IPCA','CDI']]

#### Exercicio 02.3
Selecionar o valor de todos indicadores da linha 3

In [0]:
# Implementação Ex02.3
indicadores.iloc[3]

### Filtros

A utilização de filtros permite a recuperação de dados que satisfazem uma **condição específica**

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Filter.jpg)

Pandas suporta os seguintes operadores básicos para filtro de dados

> **Matemáticos: >, <, >=, <=, ==, !=**

> **Lógicos: & (and), | (or), ~ (not)**

> **Conjuntos: isin(valores)**

\
*O resultado direto da aplicação do filtro é apresentado em um objeto Serie indicando quais índices satisfazem a operação**








In [0]:
# relação do índice que satisfaz o critério de filtro
indicadores['IPCA'] < 0

In [0]:
# aplicação do filtro na recuperação dos dados
indicadores[indicadores['IPCA'] < 0]

In [0]:
# aplicação do filtro na recuperação dos dados
indicadores[indicadores['IPCA'] >= 0.5]

In [0]:
# combinação de filtros, importante usar ()
indicadores[(indicadores['IPCA'] > 0.3) & (indicadores['CDI'] < 0.7)]

In [0]:
# combinacao de filtros e seleção de colunas
indicadores.loc[(indicadores['IPCA'] > 0.3) & (indicadores['CDI'] < 0.7), ['IPCA', 'CDI']]

In [0]:
# listagem de linhas que estejam no conjunto [0.01, 0.43, -0.04]
isin_filter = indicadores['IPCA'].isin([0.01, 0.43, -0.04])
isin_filter

In [0]:
# listagem dos dados que satisfazem o filtro
indicadores[isin_filter]

#### Exercicio 03.1

Apresentar todas as linhas nas quais um dos indicadores for menor que zero

In [0]:
# Implementação Ex03.1
indicadores[(indicadores['IPCA'] < 0) | (indicadores['IGPM'] < 0)]

#### Exercicio 03.2

Filtrar todos os registros nos quais o IGP-M é maior que o IPCA

In [0]:
# Implementação Ex03.2


#### Exercício 03.3

Apresentar todas os registros nos quais o IGPM é maior que o IPCA e o CDI

In [0]:
# Implementação Ex03.3



### Carga de Dados
\

Pandas é capaz de carregar arquivos nos formatos **.csv, .json, .xslx (excel)** ou conectar-se diretamente a base de dados.



> *pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, decimal=None, dtype=None, parse_dates=,...)*


> *pandas.read_excel(filepath_or_buffer, sheet_name=0, ...)*

> *pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, columns=None)*

\

In [0]:
# recuperacao de dados do banco central com arquivo em formato .csv
url_or_filepath = 'http://api.bcb.gov.br/dados/serie/bcdata.sgs.4447/dados/ultimos/60?formato=csv'
df_ipca = pd.read_csv(url_or_filepath)
df_ipca.head(5)

#### Primeiras opções para **explorar** os dados

\
Listar os tipos dos dados do dataset

> dtypes

Selecionar os primeiros *n* registros

> *head(n)*

Selecionar os últimos *n* registros

> *tail(n)*

Selecionar os *n* maiores registros de uma coluna

> *nlargest(n, column)*

Selecionar os *n* menores registros de uma coluna

> nsmallest(n, column)

Selecionar uma amostra dos dados

> *sample(n=number_of_itens, frac=fraction)*

\

In [0]:
# Listagem dos tipos de dados inferidos na leitura do dataset
df_ipca.dtypes

In [0]:
# Leitura do dataset com especificação do separador de colunas e o separador decimal
df_ipca = pd.read_csv(url_or_filepath, sep=';', decimal=',', parse_dates=['data'])
df_ipca.head(5)

In [0]:
# Lisgatem dos tipos de dados inferidos após o ajuste na leitura do arquivo
df_ipca.dtypes

In [0]:
# Listagem dos 5 menores valores do dataset
df_ipca.nsmallest(5, 'valor')

#### Exercício 04.1

Carregar corretamente os dados do arquivo *bolsa_vale.csv*

In [0]:
# Implementação Ex03.1
bolsa_vale = pd.read_csv(path+'/01-DS_VALE3_Cotacao.csv',  
                         sep=';', decimal=',', parse_dates=['Date'])
bolsa_vale.head(5)

In [0]:
bolsa_vale.dtypes

#### Exercício 04.2

Gerar uma amostra aleatória com 10 registros do arquivo *bolsa_vale.csv*


In [0]:
# Implementação Ex03.2
bolsa_vale.sample(10)

#### Exercício 04.3

Carregar corretamente os dados da aba 2 do arquivo *bec_exel_abas.xlsx*


In [0]:
# Implementação Ex03.3
bec_abas = pd.read_excel(path+'/02-DS_BEC_abas.xlsx',
                         sheet_name=1)
bec_abas.head(5)

### Agregação/Sumarização

Uma parte essencial na análise de dados é a capacidade de sumarização de dados

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Aggregation.jpg)

Pandas suporta nativamente os seguintes operadores de agregação:

| Agregação         | Descrição                            |
|-------------------|--------------------------------------|
| count()           | Número total de itens                |
| first(), last()   | Primeiro e último ite, and last item |
| mean(),  median() | Média e Mediana                      |
| std(), var()	    | Desvio Padrão e Variância            |
| prod()	          | Produto de todos os itens            |
| sum()	            | Soma de todos os itens               |

\


In [0]:
indicadores

In [0]:
# IPCA Acumulado (soma)
indicadores['IPCA'].sum()

In [0]:
# Média de todos os indicadores
indicadores.mean()

In [0]:
# Valor máximo de cada indicador
indicadores.max()

In [0]:
# Valor máximo dos indicadores no primeiro semestre
indicadores.loc['jan':'jul'].min()

In [0]:
# descrição geral dos dados
indicadores.describe()

\
#### Agregações complementares para análise de dados

> *.nunique()*: Quantifica elementos distintos de uma determinada dimensão

> *.value_counts()* : Quantifica e lista os elementos de uma determinada dimensão

\


Dataset BEC: https://www.ibec.fazenda.sp.gov.br/analytics/saw.dll?Portal

In [0]:
# dados públicos da BEC para análise 
df_bec = pd.read_excel(path+'/03-DS_BEC.xlsx', error_bad_lines=False)
df_bec = df_bec[['Cód Desc Órgão', 'Mês Ano Encerramento', 'Cod Desc Fornecedor', 'Descrição Procedimento Compra', 'Cod Desc Item', 'Quantidade de Item','Valor Unitário Negociado', 'Valor Total Negociado em R$']]
# criando uma nova coluna
df_bec['Valor Negociado Mi'] = df_bec['Valor Total Negociado em R$'] / 1000000
df_bec.head(4)

In [0]:
# contagem da quantidade de registros que cada órgão da administração é apresentado
df_bec['Cód Desc Órgão'].value_counts().iloc[0:5]

In [0]:
# contagem de fornecedores únicos que participaram de licitações
df_bec['Cod Desc Fornecedor'].nunique()

#### Exercício 05.1

Encontrar o valor médio unitário de aquisição do Item '4428692 - ACUCAR REFINADO'

In [0]:
# Implementação Ex05.1 - Dica: Filtrar os registros com o item desejado

df_bec.loc[df_bec['Cod Desc Item'] == '4428692 - ACUCAR REFINADO',['Valor Unitário Negociado']].mean()

#### Exercício 05.2

Encontrar o valor unitário máximo de aquisição do item '4428692 - ACUCAR REFINADO'

In [0]:
# Implementação Ex05.2 - Dica: Filtrar os registros com o item desejado

df_bec.loc[df_bec['Cod Desc Item'] == '4428692 - ACUCAR REFINADO',['Valor Unitário Negociado']].max()

#### Exercício 05.3

Contar quantos orgãos distintos que efetuaram licitações pela BEC

In [0]:
# Implementação Ex05.3


### Agrupamento


Todas as funções de agregação/sumarização podem ser aplicadas para grupos de dados. No Pandas, o agrupamento é realizado pela função:

> *.groupby(by=None, axis=0, ...)*


![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Group.jpg)



In [0]:
df_bec.head(5)

In [0]:
# cálculo do total negociado agrupado por órgão (listagem dos 5 primeiros itens) #.style.format({'Valor Total Negociado em R$': "{:+.2f}"})
df_bec.groupby('Cód Desc Órgão')[['Valor Negociado Mi']].sum().iloc[0:5]  

Pandas também permite a ordenação do dataframe a partir de um conjunto de colunas de interesse

> *.sort_values(by=[colunas], ascending=True)*

In [0]:
# listagem dos órgãoes e a soma do total negociado por licitação em ordem decrescente
df_gastos_sec = df_bec.groupby('Cód Desc Órgão')[['Valor Negociado Mi']].sum().sort_values(by='Valor Negociado Mi', ascending=False)
df_gastos_sec.iloc[0:6] #listagem de apenas 6 órgãos

In [0]:
# cálculo da quantidade total de itens negociada e o valor total negociado agrupada por órgão e procedimento de licitação
df_gastos = df_bec.groupby(['Cód Desc Órgão', 'Descrição Procedimento Compra'])['Quantidade de Item','Valor Negociado Mi'].sum()
df_gastos.sort_values(['Cód Desc Órgão','Descrição Procedimento Compra','Quantidade de Item'], ascending=False).iloc[0:6]

Definição de múltiplas funções de agragação
> *agg(self, func, axis=0, *args, **kwargs*)

In [0]:
# sumarização do total negociado e a quantidade de itens distintos

df_bec.groupby(['Cód Desc Órgão', 'Descrição Procedimento Compra']).agg(Itens_Unicos=('Cod Desc Item', 'nunique'), Valor_Total_Negociado=('Valor Negociado Mi', 'sum')).iloc[0:6]

In [0]:
# multiplas agregacoes para uma mesma coluna
df_bec.groupby('Cod Desc Item')['Valor Unitário Negociado'].agg(['min', 'max', 'count','mean', 'std']).head(5)

In [0]:
df_bec.head(1)

#### Exercício 06.1

Calcular o valor total negociado por fornecedor listando apenas os 5 maiores valores

In [0]:
# Implementação Ex06.1
df_gastos_forn = df_bec.groupby('Cod Desc Fornecedor')[['Valor Negociado Mi']].sum().sort_values(by='Valor Negociado Mi', ascending=False)
df_gastos_forn.iloc[0:5] #listagem de apenas 5 maiores

#### Exercício 06.2

Calcular a quantidade de fornecedores de cada órgão distribuídos nos tipos distintos de procedimentos de compra. Listar apenas 6 registros

In [0]:
# Implementação Exercício 05.2


### Pivot Table

Equivalente à função *pivot table* do excel. A função permite a sumarização de dados de colunas e linhas simultaneamente.


![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Pivot.jpg)

Pandas permite o redimensionamento dos dados através da função

> *pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)*

In [0]:
# determinação do valor total negociado por tipo de procedimento de compra
df_bec.pivot_table(values=['Valor Negociado Mi'], columns='Descrição Procedimento Compra', aggfunc='sum')

In [0]:
# pivot com definição de mais de um valor de interesse
df_bec.pivot_table(values=['Valor Negociado Mi', 'Quantidade de Item'], columns='Descrição Procedimento Compra', aggfunc='sum')

In [0]:
#pivot table com multiplas funções de agragação
df_bec.pivot_table(values=['Valor Negociado Mi', 'Quantidade de Item'], columns='Descrição Procedimento Compra', 
                   aggfunc={'Valor Negociado Mi': ['sum', 'max']})

In [0]:
df_bec.head(2)

#### Exercício 07.1

Calcular o valor total negociado em cada encerramento de mês. O encerramento do mês deve ser apresentado como coluna. Utilizar o total negociado em milhões (Valor Negociado Mi).



In [0]:
# Implementação Ex07.1
#
#

## Series Temporais

Pandas foi desenvolvido em um contexto de análise financeira e possui uma lista extensiva de ferramentas para simplificar a manipulação de séries temporais.

![alt text](https://raw.githubusercontent.com/asbonato/pandas/master/images/pd_Timeseries.jpg)



### Intervalos de Dados

Geração de intervalos de dados

> *pd.date_range(start, end, periods, freq)*

| Frequencia         | Descrição                            |
|-------------------|--------------------------------------|
| D           | Dias                |
| M   | Mês |
| Y | Ano                      |
| W	    | Semanas            |
| MS	            | Primeiro dia do mês              |



In [0]:
# geração de intevalo de datas com 10 dias
pd.date_range('2019-01-01', freq='D', periods=10)

In [0]:
# geração de intervalo de dadas com 9 anos
pd.date_range('2010-01-01', freq='Y', periods=9)

### Indexação pela dimensão temporal

In [0]:
# recuperação da cotação da VALE3
from pandas_datareader import data
df_vale3 = data.DataReader('VALE3.SA', start='2010', end='2020', data_source='yahoo')
df_vale3.tail()

In [0]:
# visualizacao simples da serie em 2019
df_vale3.loc['2019', ['Close']].plot()

In [0]:
# cotação da VALE3 em 01/08/2019
df_vale3.loc['2019-08-01']

In [0]:
# cotação da VALE3 em agosto
df_vale3.loc['2019-08'].tail(5)

### Resample

Método para conversão de frequência temporal nas séries

.*resample(rule)*

In [0]:
# mudança da frequencia temporal de dias para anos utilizando a média dos valores
df_vale3.resample('Y').mean().tail(5)

In [0]:
# mudança da frequencia temporal para anos utilizando o último valor de cada período
df_vale3.resample('Y').last().tail(5)

### Shift

Deslocamento da série em uma quantidade de períodos determinada

> *.shift(periods=,fill_value=None)*


In [0]:
# listagem dos valores de fechamento para comparação
df_vale3['Close'].head(5)

In [0]:
# deslocamento do valor de fechamento em um período
s_close = df_vale3['Close'].shift(1, fill_value=0)
s_close.head(5)

### Window


In [0]:
# cálculo da média móvel dos valor de fechamento 
media_movel = df_vale3['Close'].rolling(7).mean()
media_movel.tail(5)

In [0]:
# armazenamento da média móvel no dataframe
df_vale3['MA'] = media_movel
df_vale3.tail(10)

#### Exercício 08.1

Criar uma coluna com o valor da média móvel de 10 períodos da VALE3 baseado no valor de fechamento.

In [0]:
# Implementação
#
#