# Análise de dados das viagens realizadas a serviço
Com base nos dados disponibilizados no Portal da Transparencia, vamos analisar os dados das viagens realizadas à serviço, pelos funcionários públicos federais, no ano de 2018.

Os dados podem ser baixados nesse site: http://www.transparencia.gov.br/download-de-dados/viagens

Dicionário de Dados: 
http://www.transparencia.gov.br/pagina-interna/603364-dicionário-de-dados-viagens-a-Serviço-Pagamentos

O Arquivo que será utilizado nesta análise exploratória está no formato CSV e será o **2018_Pagamento.csv**

Material disponível em: https://github.com/othoncampos/MiniCurso_Introducao_Mineracao_Dados

# Configução do ambiente

In [None]:
# Importando o módulo pandas
import pandas as pd

In [None]:
# Para mostrar os dados em gráfico, precisamos informar que queremos visualizar o gráfico dentro do notebook.
# Utilizaremos o framewrk matplot 
# Os dados serão visualizados em um gráfico de barras
%matplotlib inline 

# podemos configurar o IPython Notebook para produzir gráficos em SVG (formato vetorial), que não perde a definição.
%config InlineBackend.figure_format='svg'

# Leitura de arquivo csv

**Atenção:** Neste trabalho será utilizado o arquivo CSV **2018_Pagamento.csv**

In [None]:
# Carregando o arquivo csv
df = pd.read_csv('2018_Pagamento.csv')

# UnicodeDecodeError: 'utf-8' codec can't decode : 
#    O problema ocorrido é devido à codificacao Unicode do arquivo

In [None]:
# Importando o arquivo passando o encoding
# O código cp1252 é o padrão de arquicos csv gerados pelo excel. No geral descobrimos os encoding pesquisando no google
df = pd.read_csv('2018_Pagamento.csv', encoding='cp1252' )

# ParserError: Error tokenizing data. 
#    O problema ocorrido é devido ao separador de campos utilizado no arquivo.

In [None]:
# O arquivo é separado por ';' e o encoding é cp1252
df = pd.read_csv('2018_Pagamento.csv', sep=';', encoding='cp1252' )

É possivel importar apenas algumas colunas de um arquivo CSV<br>
Exemplo:
- Nome do órgão superior : 2
- Nome do órgao pagador  : 4
- Nome da unidade gestora pagadora : 6
- Tipo de pagamento : 7

Código:<br>
df = pd.read_csv('2018_Pagamento.csv', sep=';', encoding='cp1252', usecols=[2, 4, 6, 7, 8] )

Também é possivel trocar os nomes das colunas<br>
Código<br>
df.columns = ['Superior', 'Pagador', 'Unidade', 'Tipo', 'Valor_STR']



# Comando para visualizar pequenas amostras dos dados

In [None]:
# Exibe os primeiros cindo registros lidos
df.head()

In [None]:
# Exibe os primeiros n registros do dataframe
df.head( 20 )

In [None]:
# Exibe os ultimos n registros do dataframe
df.tail( 10)

In [None]:
# Exibe linhas aleatórias, é obrigatório passar o número da amostra
df.sample( 10 )

In [None]:
# comando para verificar o tamnho do dataframe.
# Formato(linhas, colunas)
df.shape

In [None]:
# Verificar os tipos de dados das colunas 
df.dtypes

In [None]:
# Função que conta o número de ocorrencias das colunas
df.count()

In [None]:
# Analise matemática dos dados
df.describe()

In [None]:
# DEscrever os dados
df.info()

# Comandos para manipulação dos dados

## Ajustando a coluna Valor para o tipo númerico Float

In [None]:
# O Comando replace substitui a ',' por ponto antes de fazer a conversão de tipos (Type Cast, ou simplesmente Cast). 
# Apos a conversão de tipos, os valores convertidos são atribuidos a mesma coluna 
df['Valor'] = pd.to_numeric( df['Valor'].str.replace( ',', '.') )

In [None]:
df.info()

## unique() : Método que lista os valores únicos numa coluna 

In [None]:
df['Nome do órgão superior'].unique()

## value_counts() : Método para retonar a quantidade de ocorrências unicas de cada valor para uma coluna

In [None]:
#Quantidade de registros por coluna. Neste caso estamos vendo a quantidade de pagamentos por órgão superior
df['Nome do órgão superior'].value_counts()

In [None]:
# Os valores contados também podem ser normalizados para expressar porcentagens
df['Nome do órgão superior'].value_counts(normalize=True)

In [None]:
# Mudando a ordem de exibição da lista
df['Nome do órgão superior'].value_counts(ascending=False)

## groupby() : Método usado para agrupar registros de um DataFrame em grupos

Funções de agregação: <br>
- sum() : Soma
- mean() : Média
- count() : conta todos os valores 
- size() : Conta valores não nulos 
- max() : Valor máximo
- min()	: Valor Mínimo 
- std() : Desvio padrão 
- median() : Mediana

In [None]:
# Comando para formar o valor Float
pd.options.display.float_format = '{:.2f}'.format

In [None]:
# Agrupando por valor e mostrando a quantidade de viagens 
df.groupby(['Nome do órgão superior'])['Valor'].count().sort_values(ascending=False)

In [None]:
# Total de valor gasto
df['Valor'].sum()

In [None]:
# Agrupando por Tipo de Pagamento e o somatório dos seus valores
df.groupby(['Tipo de pagamento'])['Valor'].sum().sort_values(ascending=False)

In [None]:
# Agrupando por Orgao Superior e somatório de valores
df.groupby(['Nome do órgão superior'])['Valor'].sum().sort_values(ascending=False)

# Visualização dos dados

Métodos uteis: <br>
- sort_values() : Ordenar os valores. O parametro opcional ascending (valores possiveis False | True) modifica a ordenacao 
- nlargest() : Exibe n maiores elementos
- nlowest() : Exibe n menores elementos

## Grafico em Barras

In [None]:
# Grafico que exibe a quantidade de viagens por orgão
df['Nome do órgão superior'].value_counts().plot.bar()

In [None]:
# Grafico em barras que exibe os valores por orgão
df.groupby(['Nome do órgão superior'])['Valor'].sum().sort_values(ascending=False).plot.bar()

In [None]:
# Grafico em barras, na horizontal, que exibe os valores por orgão
df.groupby(['Nome do órgão superior'])['Valor'].sum().sort_values(ascending=False).plot.barh(title="Despesas de Viagens dos Órgãos")

## Gráfico Pizza

In [None]:
df.groupby(['Tipo de pagamento'])['Valor'].sum().plot.pie(title='Valores por tipo', legend=True, figsize=(7, 7))

***

# Separando um subconjunto de dados

## Dados dos Institutos Federais 

In [None]:
# Filtranto os dados apenas por institutos federais 
df_if = df[ (df['Nome do órgão superior'] == 'Ministério da Educação') & (df['Nome do órgao pagador'].str.contains( 'Instituto Federal' )) ]

In [None]:
# Lista de Institutos e quantidade de pagamentos 
df_if['Nome do órgao pagador'].value_counts()

In [None]:
# Lista de Institutos e valores pagos 
df_if.groupby(['Nome do órgao pagador'])['Valor'].sum()

In [None]:
# Exibe um grafico em barras com os 10 Institutos com maior valor de gasto em viagens 
df_if.groupby(['Nome do órgao pagador'])['Valor'].sum().nlargest(20).plot.bar(title="Despesas de Viagens dos Órgãos")

In [None]:
# Exibe um grafico em barras com os 10 Institutos Federais com menor valor de gasto em viagens
df_if.groupby(['Nome do órgao pagador'])['Valor'].sum().nsmallest(10).sort_values(ascending=False).plot.barh(title="Despesas de Viagens dos Órgãos")

## Dados do Instituto Federal da Bahia 

Observação: faremos os agrupamentos pelo campo: Nome da unidade gestora pagadora

In [None]:
# Filtrando Dados
# Filtranto os dados apenas por institutos federais 
df_ifba = df[ (df['Nome do órgão superior'] == 'Ministério da Educação') & (df['Nome do órgao pagador'].str.contains( 'Instituto Federal da Bahia' )) ].copy()

In [None]:
# Listar todas as unidades gestoras 
df_ifba['Nome da unidade gestora pagadora'].unique()

In [None]:
# Lista de quantidade de pagamentos das unidades gestoras do IFBA
df_ifba['Nome da unidade gestora pagadora'].value_counts()

In [None]:
# Agrupamento das unidades gestoras com o somatórios dos gastos com viagens
df_ifba.groupby(['Nome da unidade gestora pagadora'])['Valor'].sum().sort_values(ascending=False)

In [None]:
# Listagem dos 10 maiores pagamentos feitos pelo IFBA
df_ifba.nlargest(10, 'Valor')

In [None]:
# Listagem dos 10 menores pagamentos feitos pelo IFBA
df_ifba.nsmallest(10, 'Valor')

***

## Obrigado - Othon Campos - <a href="https://www.portal.ifba.edu.br/paulo-afonso"> IFBA - Paulo Afonso</a>