# Pandas - DataFrame

### DataFrame

É um objeto que representa uma matriz de 2 dimensões, onde todas as colunas são alinhadas pelo mesmo índice. Um dataframe pode ter séries (colunas) com tipos diferentes.

Pode ser comparado a uma planilha excel ou a uma tabela de banco de dados.


![DataFrame](imagens/excel_dataframe.png)

In [1]:
import warnings
warnings.filterwarnings('ignore')

# por convenção utiliza-se o alias np ao importar a biblioteca
import numpy as np

# por convenção utiliza-se o alias pd ao importar a biblioteca
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

# outros imports que serão úteis
import os
import re
from collections import OrderedDict

# forçar a renderização do dataframe sem notação científica
pd.set_option('display.float_format', lambda x: '{:.2f}'.format(x))

In [2]:
s5 = pd.Series([27, 28.3, 29.1], name='Temperatura Sensor A', index=['2018-02-01', '2018-02-02', '2018-02-03'])
s6 = pd.Series([28.6, 32.1, 26], name='Temperatura Sensor B', index=['2018-02-02', '2018-02-03', '2018-02-04'])
s7 = (s5 + s6) / 2
s7.rename('Temperatura Média', inplace=True)

# Criação de um DataFrame à partir de um dicionário de séries
d = OrderedDict({
    'Sensor A': s5,
    'Sensor B': s6,
    'Médias': s7,
})
df1 = pd.DataFrame(d)
df1

Unnamed: 0,Sensor A,Sensor B,Médias
2018-02-01,27.0,,
2018-02-02,28.3,28.6,28.45
2018-02-03,29.1,32.1,30.6
2018-02-04,,26.0,


In [3]:
# se passarmos uma lista com os índices, todos os dados que não estiverem
# de acordo com os índices informados serão descartados
df2 = pd.DataFrame(d, index=['2018-02-02', '2018-02-03'])
df2

Unnamed: 0,Sensor A,Sensor B,Médias
2018-02-02,28.3,28.6,28.45
2018-02-03,29.1,32.1,30.6


In [4]:
# Criação de um DataFrame à partir de um dicionário de listas

d = dict({
    'Produto': ['Maçã', 'Leite', 'Canela'],
    'Unidade de Medida': ['kg', 'L', 'g'],
    'Valor Unitário': [4.99, 6.7, 1.6],
})
df3 = pd.DataFrame(d)
df3

Unnamed: 0,Produto,Unidade de Medida,Valor Unitário
0,Maçã,kg,4.99
1,Leite,L,6.7
2,Canela,g,1.6


In [5]:
# Se nenhum índice é informado, o DataFrame terá um RangeIndex iniciando em 0.
print(df3.index)

RangeIndex(start=0, stop=3, step=1)


In [6]:
# Criação de um DataFrame à partir de um dicionário de listas

d = dict({
    'Produto': ['Maçã', 'Leite', 'Canela'],
    'Unidade de Medida': ['kg', 'L', 'g'],
    'Valor Unitário': [4.99, 6.7, 1.6],
})
df3 = pd.DataFrame(d)
df3

Unnamed: 0,Produto,Unidade de Medida,Valor Unitário
0,Maçã,kg,4.99
1,Leite,L,6.7
2,Canela,g,1.6


In [7]:
# Uma série pode ser transformada em um DataFrame de uma coluna utilizando o método 'to_frame'
df4 = s7.to_frame()
df4

Unnamed: 0,Temperatura Média
2018-02-01,
2018-02-02,28.45
2018-02-03,30.6
2018-02-04,


* Características e atributos importantes do dataframes


In [8]:
print('Valores:', df1.values, '\nTipo:', type(df1.values))
print('\nÍndices:', df1.index, '\nTipo:', type(df1.index))
print('\nNome:', df1.columns, '\nTipo:', type(df1.columns))
print('\nShape:', df1.shape, '\nTipo:', type(df1.shape))

Valores: [[27.     nan   nan]
 [28.3  28.6  28.45]
 [29.1  32.1  30.6 ]
 [  nan 26.     nan]] 
Tipo: <class 'numpy.ndarray'>

Índices: Index(['2018-02-01', '2018-02-02', '2018-02-03', '2018-02-04'], dtype='object') 
Tipo: <class 'pandas.core.indexes.base.Index'>

Nome: Index(['Sensor A', 'Sensor B', 'Médias'], dtype='object') 
Tipo: <class 'pandas.core.indexes.base.Index'>

Shape: (4, 3) 
Tipo: <class 'tuple'>


O dataframe possui o método info() que descreve algumas características básicas como, tipo de dado, quantidade de registros, intervalo do índice, registros não nulos por coluna e tamanho em memória.

In [9]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 2018-02-01 to 2018-02-04
Data columns (total 3 columns):
Sensor A    3 non-null float64
Sensor B    3 non-null float64
Médias      2 non-null float64
dtypes: float64(3)
memory usage: 128.0+ bytes


A operação padrão de indexação/fatiamento do DataFrame é um pouco diferente da da Série. Enquanto a série representa apenas uma coluna, o dataframe pode conter várias colunas.

Dessa forma, os slices no dataframe podem abranger linhas e/ou colunas. Abaixo veremos uma série de exemplos simples de slices em DataFrames. Seleções mais complexas e completas serão abordadas em uma seção específica no próximo capítulo.

In [10]:
# seleção de uma coluna no dataframe retorna uma série
df1['Sensor A']

2018-02-01   27.00
2018-02-02   28.30
2018-02-03   29.10
2018-02-04     nan
Name: Sensor A, dtype: float64

In [11]:
# seleção de mais de uma coluna no dataframe retorna um novo dataframe com a seleção
df1[['Sensor A', 'Sensor B']]

Unnamed: 0,Sensor A,Sensor B
2018-02-01,27.0,
2018-02-02,28.3,28.6
2018-02-03,29.1,32.1
2018-02-04,,26.0


In [12]:
# se for especificada uma ordem diferente um novo dataframe sera 
#criado com as colunas na ordem informada
df1[['Sensor B', 'Sensor A']]

Unnamed: 0,Sensor B,Sensor A
2018-02-01,,27.0
2018-02-02,28.6,28.3
2018-02-03,32.1,29.1
2018-02-04,26.0,


In [13]:
# um dataframe pode ser criado à partir de outro de forma fácil
df5 = df1.copy()

#ou

df5 = pd.DataFrame(df1)

df5

Unnamed: 0,Sensor A,Sensor B,Médias
2018-02-01,27.0,,
2018-02-02,28.3,28.6,28.45
2018-02-03,29.1,32.1,30.6
2018-02-04,,26.0,


In [14]:
#novas colunas podem ser criadas no dataframe à partir de um valor escalar
df5['Sensor C'] = 30
 
df5

Unnamed: 0,Sensor A,Sensor B,Médias,Sensor C
2018-02-01,27.0,,,30
2018-02-02,28.3,28.6,28.45,30
2018-02-03,29.1,32.1,30.6,30
2018-02-04,,26.0,,30


In [15]:
# novas colunas podem ser criadas no dataframe à partir de listas,
# desde que o número de linhas seja igual ao do dataframe
df5['Sensor C'] = [1,2,3,4]
df5

Unnamed: 0,Sensor A,Sensor B,Médias,Sensor C
2018-02-01,27.0,,,1
2018-02-02,28.3,28.6,28.45,2
2018-02-03,29.1,32.1,30.6,3
2018-02-04,,26.0,,4


In [16]:
# colunas podem ser removidas com o comando del (veja na mais sobre o del na documentação do python)
del(df5['Sensor C'])
del(df5['Médias'])
df5

Unnamed: 0,Sensor A,Sensor B
2018-02-01,27.0,
2018-02-02,28.3,28.6
2018-02-03,29.1,32.1
2018-02-04,,26.0


In [17]:
# os índices podem ter nomes atribuídos
df5.columns.name = 'Sensores'
df5.index.name = 'Data'

df5

Sensores,Sensor A,Sensor B
Data,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-02-01,27.0,
2018-02-02,28.3,28.6
2018-02-03,29.1,32.1
2018-02-04,,26.0


A maioria dos métodos vistos para Series funcionam para DataFrames também, mas podem ter variações ou limitações dependendo do tipo de dado de cada série.

In [18]:
print('min:\n', df1.min())

# maior valor
print('\nmax:\n', df1.max())

# média
print('\nmean:\n', df1.mean())

# mediana
print('\nmedian:\n', df1.median())

min:
 Sensores
Sensor A   27.00
Sensor B   26.00
dtype: float64

max:
 Sensores
Sensor A   29.10
Sensor B   32.10
dtype: float64

mean:
 Sensores
Sensor A   28.13
Sensor B   28.90
dtype: float64

median:
 Sensores
Sensor A   28.30
Sensor B   28.60
dtype: float64


Documentação do Pandas para a classe DataFrame:
https://pandas.pydata.org/pandas-docs/stable/api.html#series

Outras formas de criar DataFrames podem ser consultadas aqui: http://pandas.pydata.org/pandas-docs/stable/dsintro.html#alternate-constructors

## Seleções e subconjuntos de dados

Esta seção pretende abordar as  mais variadas formas de seleções de dados utilizando DataFrames, Séries e Índices.

### Expressões

Expressões são operações que podem ser feitas com DataFrames, Séries e Índices utilizando operadores lógicos e de comparação, com o objetivo de criar filtros para gerar subconjuntos de dados.

In [19]:
def to_float(valor):
    if valor == 'ni':
        return np.nan
    return float(valor.replace('.','').replace(',','.').replace(' ',''))
    
df = pd.read_csv(
    'dados/arq_municipios_fronteiricos.tsv', 
    sep='\t',
    decimal='.', 
    thousands=',', 
    converters={
        'Área territorial': to_float,
        'População (IBGE/2007)': to_float,
        'Densidade demográfica (hab/km2)': to_float,
        'PIB (IBGE/2005)': to_float,
        'PIB per capita (R$)': to_float,
        'IDH/2000': to_float,
    }, 
    na_values=['ni'],
)

df['Município'] = df['Município'].str.replace(r'([\d]* [-] )(.*)', r'\2')

print(df.shape)
df.head()

(122, 8)


Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005),PIB per capita (R$),IDH/2000
0,Aceguá,Rio Grande do Sul,1550.0,4138.0,2.66,71638000.0,17266.0,
1,Acrelândia,Acre,1575.0,11520.0,7.31,114350000.0,9986.0,0.68
2,Alecrim,Rio Grande do Sul,315.0,7357.0,23.35,44373000.0,5944.0,0.74
3,Almeirim,Pará,72960.0,30903.0,0.42,462258000.0,13485.0,0.74
4,Alta Floresta d'Oeste,Rondônia,7067.0,23857.0,3.37,186812000.0,6525.0,0.71


Vejamos um exemplo de expressão:

In [20]:
# utilizando um operador de comparação associado a uma 
# estrutura de dados do pandas temos uma expressão
expressao = df['IDH/2000'] >= 0.741

print(type(expressao))

expressao.head()

<class 'pandas.core.series.Series'>


0    False
1    False
2     True
3     True
4    False
Name: IDH/2000, dtype: bool

In [21]:
expressao.describe()

count       122
unique        2
top       False
freq         70
Name: IDH/2000, dtype: object

As expressões são séries ou dataframes com o mesmo tamanho dos originais, porém seus valores são preenchidos com True ou False de acordo com a avaliação da expressão para cada item. Essas séries ou dataframes de booleanos podem ser passados para os operadores de indexação __[ ]__ e __loc__.

In [22]:
print(df[expressao].shape)

df[expressao].head()

# ou 

df.loc[expressao].head()

(52, 8)


Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005),PIB per capita (R$),IDH/2000
2,Alecrim,Rio Grande do Sul,315.0,7357.0,23.35,44373000.0,5944.0,0.74
3,Almeirim,Pará,72960.0,30903.0,0.42,462258000.0,13485.0,0.74
12,Bagé,Rio Grande do Sul,4096.0,112550.0,27.47,906488000.0,7473.0,0.8
13,Bandeirante,Santa Catarina,146.0,3028.0,20.73,21423000.0,7546.0,0.77
15,Barra do Quaraí,Rio Grande do Sul,1056.0,3776.0,3.57,61540000.0,14429.0,0.78


Podemos utilizar operadores lógicos para avaliar mais de uma expressão caso sejam necessárias condicionais mais complexas para os filtros.

In [23]:
expressao = (df['IDH/2000'] >= .741) & (df['Estado'] == 'Rio Grande do Sul')
print(df[expressao].shape)
df.loc[expressao].head()

(23, 8)


Unnamed: 0,Município,Estado,Área territorial,População (IBGE/2007),Densidade demográfica (hab/km2),PIB (IBGE/2005),PIB per capita (R$),IDH/2000
2,Alecrim,Rio Grande do Sul,315.0,7357.0,23.35,44373000.0,5944.0,0.74
12,Bagé,Rio Grande do Sul,4096.0,112550.0,27.47,906488000.0,7473.0,0.8
15,Barra do Quaraí,Rio Grande do Sul,1056.0,3776.0,3.57,61540000.0,14429.0,0.78
30,Chuí,Rio Grande do Sul,203.0,5278.0,26.0,67525000.0,10574.0,0.81
35,Crissiumal,Rio Grande do Sul,362.0,14726.0,40.67,114089000.0,8376.0,0.79


Os comparadores lógicos são:
* __<__  : menor que ...
* __>__  : maior que ...
* __==__  : igual a  ...
* __<=__  : menor ou igual a  ...
* __>=__  : maior ou igual a  ...
* __!=__  : diferente de ...
* __isnull()__  : se o valor é nulo ou inválido (NaN) ...
* __notnull()__  : se o valor não é nulo e nem inválido (NaN) ...
* __isin()__  : se o valor está contido em um dos dados informados em uma lista ...

Os operadores lógicos são:
* __&__: operador E (and)
* __|__: operador OU (or)
* __~__: operador NAO (not)
* __^__: operador OU EXCLUSIVO (xor)
* __any()__: se algum elemento da lista for True retornará True
* __all()__: se todos os elementos da lista forem True retornará True

### Opções de indexação

__df[val]__
* seleciona uma ou uma sequência de colunas em um DataFrame
* seleciona linhas com expressões
* seleciona linhas por posição
* seleciona linhas por índice (label), cuidado, resultado pode ser ambíguo (utilize loc neste caso)
* caso esteja sendo feito algum filtro de linhas, não permite seleção de colunas ao mesmo tempo. Retornará todas
 
__df.loc[val]__
* seleciona uma ou mais linhas pelo índice

__df.loc[:, val]__
* seleciona uma ou mais colunas pelo nome das colunas

__df.loc[val1, val2]__
* seleciona linhas e colunas

__df.iloc[onde]__
* seleciona uma ou mais linhas pela posição. 'onde' pode ser uma posição, slice ou uma lista de posições

__df.iloc[:, onde]__
* seleciona uma ou mais colunas pela posição. 'onde' pode ser uma posição, slice ou uma lista de posições

__df.iloc[onde_i, onde_j]__
* seleciona uma ou mais linhas e colunas pela posição. 'onde_?' pode ser uma posição, slice ou uma lista de posições

# Exercício

Para todos os items abaixo, considere o dataframe contido na variável "df".

1. Utilize os métodos head, tail e sample para visualizar os dados do DataFrame.
2. Imprima o número de linhas e o número de colunas deste DataFrame.
3. Imprima o valor do maior PIB
4. Imprima a linha do município que contém o maior PIB
5. Ordene o dataframe pelo PIB em ordem decrescente
6. Faça uma seleção com as colunas Município, Estado e IDH, atribua à variável df_idh e imprima as primeiras 3 linhas
7. Faça uma seleção com as colunas Município, Estado e Densidade demográfica (hab/km2), e com as linhas de índices 1, 2 e 3. Utilize o método loc.
8. Filtre apenas os municípios do Pará
9. Filtre apenas os municípios do Acre com IDH menor que 0.6
10. Encontre os municípios entre os 25% com maior PIB (IBGE/2005) e faça a contagem desses municípios por estado (Dicas: quantile e value_counts).

# Agregações

In [24]:
df = pd.read_parquet('dados/bi_ativ_urb_cid.parquet')
for c in ['Espécie', 'Capitulo da CID', 'Sexo', 'Clientela', 'Grupo/Principais Espécies']:
    df[c] = df[c].astype('category')
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 547711 entries, 0 to 547710
Data columns (total 9 columns):
Ano                             547711 non-null float64
Espécie                         547711 non-null category
Capitulo da CID                 547711 non-null category
Sexo                            547711 non-null category
Clientela                       547711 non-null category
Quantidade Benefícios Ativos    547711 non-null float64
Valor Benefícios Ativos (R$)    547711 non-null float64
Grupo/Principais Espécies       547711 non-null category
Valor (R$ mil)                  547711 non-null float64
dtypes: category(5), float64(4)
memory usage: 23.5 MB
None


Unnamed: 0,Ano,Espécie,Capitulo da CID,Sexo,Clientela,Quantidade Benefícios Ativos,Valor Benefícios Ativos (R$),Grupo/Principais Espécies,Valor (R$ mil)
0,2004.0,Ap Invalidez Det Ignorado,Cid 9 - I - Doenças Infecciosas e Parasitária,Masculino,Urbana,18646.0,5795330.45,Ap Invalidez,5795.33
1,2004.0,Ap Invalidez Det Ignorado,Cid 9 - I - Doenças Infecciosas e Parasitária,Feminino,Urbana,9765.0,2343602.54,Ap Invalidez,2343.6
2,2004.0,Ap Invalidez Det Ignorado,Cid 9 - I - Doenças Infecciosas e Parasitária,Ignorado,Urbana,5.0,1093.15,Ap Invalidez,1.09
3,2004.0,Ap Invalidez Det Ignorado,Cid 9 - Ii - Neoplasmas,Masculino,Urbana,8741.0,3935448.3,Ap Invalidez,3935.45
4,2004.0,Ap Invalidez Det Ignorado,Cid 9 - Ii - Neoplasmas,Feminino,Urbana,12185.0,3661307.37,Ap Invalidez,3661.31


In [25]:
# Agregação simples com uso de somatório

df_ano_sexo = df[['Ano', 'Sexo', 'Quantidade Benefícios Ativos']].groupby(['Ano', 'Sexo'], as_index=False).sum()
df_ano_sexo.head(6)

Unnamed: 0,Ano,Sexo,Quantidade Benefícios Ativos
0,2004.0,Feminino,1396298.0
1,2004.0,Ignorado,29175.0
2,2004.0,Masculino,1959787.0
3,2005.0,Feminino,1460602.0
4,2005.0,Ignorado,25510.0
5,2005.0,Masculino,2041717.0


In [26]:
# Agrupamento por mais de uma coluna e uso de agregações específicas para cada coluna
agregacoes = {
    'Quantidade Benefícios Ativos':{
        'Média/CID': 'mean',
        'Total': 'sum',
    },
    'Valor Benefícios Ativos (R$)':{
        'Média/CID': 'mean',
        'Total': 'sum',
    }
}

df_ano_sexo = df[['Ano', 'Sexo', 'Quantidade Benefícios Ativos', 'Valor Benefícios Ativos (R$)']].groupby(['Ano', 'Sexo'], as_index=False).aggregate(agregacoes)
df_ano_sexo.head(6)

Unnamed: 0_level_0,Ano,Sexo,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$)
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Média/CID,Total,Média/CID,Total
0,2004.0,Feminino,8726.86,1396298.0,3443513.27,550962123.88
1,2004.0,Ignorado,182.34,29175.0,48180.35,7708856.49
2,2004.0,Masculino,12248.67,1959787.0,7074641.34,1131942614.36
3,2005.0,Feminino,9128.76,1460602.0,3937167.26,629946761.14
4,2005.0,Ignorado,212.58,25510.0,59876.16,7185139.31
5,2005.0,Masculino,12760.73,2041717.0,8124307.75,1299889240.05


# Concat

Utilizado para incluir as linhas ou colunas de um dataframe em outro.

In [27]:
df1 = pd.DataFrame({
    'A': list(np.random.randint(1, high=100, size=3)),
    'B': list(np.random.randint(1, high=100, size=3)),
})

df2 = pd.DataFrame({
    'A': list(np.random.randint(1, high=100, size=4)),
    'B': list(np.random.randint(1, high=100, size=4)),
})

In [28]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B
0,35,19
1,12,63
2,55,61
3,75,2
4,53,93
5,43,81
6,83,16


In [29]:
pd.concat([df1, df2], ignore_index=False, axis=1)

Unnamed: 0,A,B,A.1,B.1
0,35.0,19.0,75,2
1,12.0,63.0,53,93
2,55.0,61.0,43,81
3,,,83,16


# Merge

In [30]:
df_pericias = pd.read_csv('dados/PMD04.csv', sep=',', encoding='latin1')
df_pericias_credenciadas = df_pericias[df_pericias['Especialidade'].str.contains('Perí')]
df_pericias_credenciadas.head()

Unnamed: 0,Ano,Especialidade,Qtde Exames Complementares,Vlr Exames Complementares (R$)
404,2011,Perícias Médicas (Credenciadas),162481,313261200
439,2012,Perícias Médicas (Credenciadas),0,0
440,2013,Perícias Médicas (Credenciadas),28097,96004100
458,2014,Perícias Médicas (Credenciadas),49171,172097700
476,2015,Perícias Médicas (Credenciadas),43425,151987500


In [31]:
df_ano = df[['Ano', 'Quantidade Benefícios Ativos']].groupby(['Ano'], as_index=False).sum()
df_ano.head()

Unnamed: 0,Ano,Quantidade Benefícios Ativos
0,2004.0,3385260.0
1,2005.0,3527829.0
2,2006.0,3694521.0
3,2007.0,3573442.0
4,2008.0,3624670.0


In [32]:
df_merge = pd.merge(df_ano, df_pericias_credenciadas, how='inner', left_on='Ano', right_on='Ano')
df_merge.head()

Unnamed: 0,Ano,Quantidade Benefícios Ativos,Especialidade,Qtde Exames Complementares,Vlr Exames Complementares (R$)
0,2011.0,4538149.0,Perícias Médicas (Credenciadas),162481,313261200
1,2012.0,4635979.0,Perícias Médicas (Credenciadas),0,0
2,2013.0,4828086.0,Perícias Médicas (Credenciadas),28097,96004100
3,2014.0,4975810.0,Perícias Médicas (Credenciadas),49171,172097700
4,2015.0,4966702.0,Perícias Médicas (Credenciadas),43425,151987500


In [33]:
df_merge = pd.merge(df_ano, df_pericias_credenciadas, how='left', left_on='Ano', right_on='Ano', indicator=True)
df_merge.head(10)

Unnamed: 0,Ano,Quantidade Benefícios Ativos,Especialidade,Qtde Exames Complementares,Vlr Exames Complementares (R$),_merge
0,2004.0,3385260.0,,,,left_only
1,2005.0,3527829.0,,,,left_only
2,2006.0,3694521.0,,,,left_only
3,2007.0,3573442.0,,,,left_only
4,2008.0,3624670.0,,,,left_only
5,2009.0,3576679.0,,,,left_only
6,2010.0,4442648.0,,,,left_only
7,2011.0,4538149.0,Perícias Médicas (Credenciadas),162481.0,313261200.0,both
8,2012.0,4635979.0,Perícias Médicas (Credenciadas),0.0,0.0,both
9,2013.0,4828086.0,Perícias Médicas (Credenciadas),28097.0,96004100.0,both


# Pivot Table

In [34]:
df_ano_sexo.head()

Unnamed: 0_level_0,Ano,Sexo,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$)
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Média/CID,Total,Média/CID,Total
0,2004.0,Feminino,8726.86,1396298.0,3443513.27,550962123.88
1,2004.0,Ignorado,182.34,29175.0,48180.35,7708856.49
2,2004.0,Masculino,12248.67,1959787.0,7074641.34,1131942614.36
3,2005.0,Feminino,9128.76,1460602.0,3937167.26,629946761.14
4,2005.0,Ignorado,212.58,25510.0,59876.16,7185139.31


In [35]:
pd.pivot_table(df_ano_sexo, index='Ano', columns='Sexo')

Unnamed: 0_level_0,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Quantidade Benefícios Ativos,Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$),Valor Benefícios Ativos (R$)
Unnamed: 0_level_1,Média/CID,Média/CID,Média/CID,Total,Total,Total,Média/CID,Média/CID,Média/CID,Total,Total,Total
Sexo,Feminino,Ignorado,Masculino,Feminino,Ignorado,Masculino,Feminino,Ignorado,Masculino,Feminino,Ignorado,Masculino
Ano,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
2004.0,8726.86,182.34,12248.67,1396298.0,29175.0,1959787.0,3443513.27,48180.35,7074641.34,550962123.88,7708856.49,1131942614.36
2005.0,9128.76,212.58,12760.73,1460602.0,25510.0,2041717.0,3937167.26,59876.16,8124307.75,629946761.14,7185139.31,1299889240.05
2006.0,162.97,163.43,185.99,1528213.0,22553.0,2143755.0,75864.13,48308.95,127508.52,711377942.46,6666634.55,1469663190.91
2007.0,64.46,122.1,71.25,1461801.0,19903.0,2091738.0,31182.93,37458.39,50891.53,707197617.02,6105717.53,1494073565.1
2008.0,66.97,8.82,74.53,1494278.0,3536.0,2126856.0,34554.57,2903.68,56696.3,770981564.48,1164373.89,1617828911.91
2009.0,67.7,7.78,74.82,1480592.0,3012.0,2093075.0,37165.55,2750.05,60920.5,812773501.74,1064269.42,1704311972.81
2010.0,80.62,7.81,82.28,1805323.0,16456.0,2620869.0,54165.76,4056.34,72610.78,1212933871.9,8542652.36,2312943671.6
2011.0,83.49,6.98,85.17,1857564.0,13062.0,2667523.0,59983.3,3879.3,80679.28,1334508538.88,7258177.08,2526794264.81
2012.0,86.9,6.54,88.45,1909594.0,11407.0,2714978.0,68917.41,4146.0,91120.93,1514460105.55,7226469.99,2796865926.42
2013.0,92.77,6.12,93.49,2008280.0,9846.0,2809960.0,79945.01,4223.12,104722.94,1730649505.71,6795006.38,3147447999.11


# Melt

In [36]:
calendario = {'Dia da Semana': ["Segunda", "Terça", "Quarta", "Quinta", "Sexta", "Sábado", "Domingo"],
        'Operador 1': [14, 6, 8, 4, 13, 6, 4],
        'Operador 2': [12, 4, 17, 8, 9, 12, 5],
        'Operador 3': [4, 2, 7, 6, 7, 9, 13]}
df_calendario = pd.DataFrame(calendario)
df_calendario.head()

Unnamed: 0,Dia da Semana,Operador 1,Operador 2,Operador 3
0,Segunda,14,12,4
1,Terça,6,4,2
2,Quarta,8,17,7
3,Quinta,4,8,6
4,Sexta,13,9,7


In [37]:
df_melt = pd.melt(df_calendario, id_vars=["Dia da Semana"], var_name="Operador", value_name="Atendimentos")
df_melt.head()

Unnamed: 0,Dia da Semana,Operador,Atendimentos
0,Segunda,Operador 1,14
1,Terça,Operador 1,6
2,Quarta,Operador 1,8
3,Quinta,Operador 1,4
4,Sexta,Operador 1,13


# Preenchimento de Valores Faltantes

In [38]:
"""
O que o pandas considera como valores faltantes?
"""

# padrão do pandas é False
pd.options.mode.use_inf_as_na = False 
a = pd.Series([np.NaN,1,2,3,-5, None])
b = pd.Series([3,2,1,0,0, 1])
c = a / b
c

0    nan
1   0.50
2   2.00
3    inf
4   -inf
5    nan
dtype: float64

In [39]:
c.isnull()

0     True
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [40]:
pd.options.mode.use_inf_as_na = True
c.isnull()

0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [41]:
lista = [1,np.nan,np.nan,np.nan,5,np.nan,7,np.nan,9,np.nan,11]

pd.DataFrame({
    'Original': pd.Series(lista),
    'fillna': pd.Series(lista).fillna(0),
    'ffill': pd.Series(lista).ffill(limit=1),
    'bfill': pd.Series(lista).bfill(limit=1),    
    'interpolate': pd.Series(lista).interpolate(),
})   
    
    

Unnamed: 0,Original,fillna,ffill,bfill,interpolate
0,1.0,1.0,1.0,1.0,1.0
1,,0.0,1.0,,2.0
2,,0.0,,,3.0
3,,0.0,,5.0,4.0
4,5.0,5.0,5.0,5.0,5.0
5,,0.0,5.0,7.0,6.0
6,7.0,7.0,7.0,7.0,7.0
7,,0.0,7.0,9.0,8.0
8,9.0,9.0,9.0,9.0,9.0
9,,0.0,9.0,11.0,10.0


In [42]:
lista = [10,np.nan,np.nan,np.nan,5,np.nan,7,np.nan,3,np.nan,11]

df = pd.DataFrame({
    'Original': pd.Series(lista),
    'fillna': pd.Series(lista).fillna(0),
    'ffill': pd.Series(lista).ffill(limit=1),
    'bfill': pd.Series(lista).bfill(limit=1),    
    'interpolate': pd.Series(lista).interpolate(),
})  

## Importação de Dados com o Pandas

O pandas possui diversas funcionalidades auxiliares para importar dados de diversas fontes de maneira simples. Essas funcionalidades podem ser combinadas com outras bibliotecas e funções do python para acessarmos praticamente qualquer fonte de dados.

Vamos ver alguns casos bastante comuns sem a pretensão de esgotar o assunto.

### Arquivos delimitados

Arquivos delimitados podem ser lidos e transforados em DataFrames utilizando a função __pd.read_csv()__. Entretanto, estes aqrquivo possuem algumas características próprias. Geralmente temos um caracter separador de colunas e cada linha representa um registro. Ainda assim, há casos em que o separador de linhas não é uma quebra de linha. Há também casos em que números e datas não estão no formato correto para que o pandas faça o conversão para o tipo de dados correto.

Assim, descrevemos parâmetros desta função que ajudam a resolver os principais problemas. 

* __encoding__: cada arquivo texto possui um encoding. O encoding define o formato utilizado para representar os caracteres de um arquivo texto. O encoding padrão do python é 'utf8'. Entretanto, é comum ver arquivos em encodings diferentes para representar caracteres da língua portuguesa. Os mais comuns são: 'iso-8859-1', 'latin1' e 'cp1252'. O principal problema de encoding errado é percebido na forma como os caracteres acentuadas são exibidos. Mais detalhes em: https://docs.python.org/3.6/library/codecs.html#standard-encodings

* __thousands__ e __decimal__: são utilizados para informar em qual formato os dados numéricos estão representados no arquivo. Utiliza-se __thousands__ para informar o separador de milhar e __decimal__ para informar o separador de milhares

* __parse_dates__ e __dayfirst__: utilizados para informar se datas devem ser convertidas para o formato de datas do python.

* __iterator__ e __chunksize__: utilizados para definiar um carregamento em blocos para casos onde os dados são muito maiores do que a memória.

In [43]:
# exemplo completo
arquivo = 'dados/exemplo_delimitado.zip'
df_exemplo_delimitado = pd.read_csv(
    arquivo, 
    sep=';', 
    thousands='.', 
    decimal=',', 
    parse_dates=True, 
    dayfirst=True, 
    index_col='Data',
    )
df_exemplo_delimitado.head()

Unnamed: 0_level_0,Valor
Data,Unnamed: 1_level_1
2019-02-13,80299.81
2019-08-30,30787.57
2019-05-26,82908.59
2018-07-02,75336.25
2019-06-21,16934.76


In [44]:
# consulta fatiando pelo índice
df_exemplo_delimitado.loc['2018-06':'2018-07'].head()

Unnamed: 0_level_0,Valor
Data,Unnamed: 1_level_1
2018-07-02,75336.25
2018-06-03,10524.73
2018-07-26,51842.44
2018-06-25,7190.29
2018-07-20,17242.6


In [45]:
# detalhes sobre os tipos convertidos
df_exemplo_delimitado.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 100000 entries, 2019-02-13 to 2018-11-01
Data columns (total 1 columns):
Valor    100000 non-null float64
dtypes: float64(1)
memory usage: 4.0 MB


In [46]:
# reorganização dos dados por mês, com a soma mensal
df_exemplo_delimitado.resample('1M').sum().sort_index().head()

Unnamed: 0_level_0,Valor
Data,Unnamed: 1_level_1
2018-05-31,303285672.99
2018-06-30,305561462.09
2018-07-31,310799198.36
2018-08-31,307770016.93
2018-09-30,292280527.94


In [47]:
# Exemplo de leitura de um arquivo de 100K registros 
# em blocos de 10K.
reader = pd.read_csv(
    arquivo, 
    sep=';', 
    thousands='.', 
    decimal=',', 
    parse_dates=True, 
    dayfirst=True, 
    index_col='Data',
    chunksize=10000,
    iterator=True,
    )

somas = 0
for idx, df_parcial in enumerate(reader):
    somas += df_parcial['Valor'].sum()
    print("Bloco {}, Soma parcial: {:0.2f}".format(idx+1, somas))

Bloco 1, Soma parcial: 502357350.05
Bloco 2, Soma parcial: 1005129782.91
Bloco 3, Soma parcial: 1508380506.49
Bloco 4, Soma parcial: 2009881810.00
Bloco 5, Soma parcial: 2514613689.05
Bloco 6, Soma parcial: 3015215014.32
Bloco 7, Soma parcial: 3515577625.84
Bloco 8, Soma parcial: 4015867740.46
Bloco 9, Soma parcial: 4519566546.25
Bloco 10, Soma parcial: 5017208156.37


### Arquivos Excel

O pandas também possui uma função espcífica para importar dados de arquivos excel.

In [48]:
# leitura de um arquivo excel
df_exemplo_excel = pd.read_excel('dados/exemplo_delimitado.xlsx')
df_exemplo_excel.head()

Unnamed: 0,Data,Valor,Descrição
0,2019-02-13,80299.81,Uma descrição qualquer
1,2019-08-30,30787.57,Uma descrição qualquer
2,2019-05-26,82908.59,Uma descrição qualquer
3,2018-07-02,75336.25,Uma descrição qualquer
4,2019-06-21,16934.76,Uma descrição qualquer


In [49]:
df_exemplo_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 3 columns):
Data         99 non-null datetime64[ns]
Valor        99 non-null float64
Descrição    99 non-null object
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 2.4+ KB


### Bancos de Dados

Existem várias formas de conectar em Sistemas de Bancos de Dados utilizando python e então converter os resultados em DataFrames. Abordaremos aqui umas das formas mais simples.

Utilizaremos uma biblioteca chamada sqlalchemy.


Exemplos de conexões com sqlalchemy para os principais bancos de dados podem ser encontrados aqui: http://docs.sqlalchemy.org/en/latest/core/engines.html.

Além do sqlalchemy é necessário ter a biblioteca (também chamada de conector ou driver) do banco de dados que será utilizado.

In [50]:
from sqlalchemy import create_engine
arquivo = os.path.join('arquivos','exemplo_sqlite.db')

engine = create_engine('sqlite:///dados/exemplo_sqlite.db')

query = "select * from tb_exemplo_sqlite"
df_sqlite = pd.read_sql(sql=query, con=engine)
df_sqlite.head()

Unnamed: 0,Data,Valor,Descrição
0,07/11/2018,1728.49,Decrição produto 4157
1,12/06/2018,9607.77,Decrição produto 5831
2,03/10/2018,1197.53,Decrição produto 6348
3,12/06/2018,9172.97,Decrição produto 6600
4,19/08/2019,1845.59,Decrição produto 6570


O exemplo acima funcionaria para um banco SQLServer, por exemplo, fazendo os seguites passos:

1. Instalar o sqlalchemy e o pyodbc
```bash
pip install sqlalchemy pyodbc
```

2. Criar uma conexão odbc com o banco de dados na máquina onde o jupyter está rodando e dar um nome para ela. Ex: DSN_TESTE

3. Fazer uma conexão utlizando o sqlalchemy.
```python
engine = create_engine('mssql+pyodbc://<usuario>:<senha>@DSN_TESTE')
df_mssql = pd.read_sql(sql=query, con=engine)
df_mssql.head()
```



#### #python 
* para mais detalhes sobre o sqlalchemy veja http://docs.sqlalchemy.org/en/latest/index.html

### Parquet

Formato de armazenamento baseado em colunas que armazena os dados de forma compactada além de preservar os metadas dos tipos de cada coluna. Bastante utilizado no ecosistema hadoop.

In [51]:
!pip install pyarrow



In [52]:
%%time
df_parquet = pd.read_parquet('dados/arq_municipios_fronteiricos.parquet')
df_parquet.head()

Wall time: 8.98 ms


In [53]:
%%javascript

(function() {var css = [
    ".container {width: 100%;}",
    ".text_cell_render table {font-size: 24;}",
    ".rendered_html code {background-color: #fafafa;}",
    ".rendered_html :not(pre) > code {padding: 1px 1px;}",
    ".rendered_html pre code {background-color: #fafafa;}",
    ".rendered_html pre {border: 1px;background-color: #fafafa;padding: .5ex .5em;}"
].join("\n");
if (typeof GM_addStyle != "undefined") {
    GM_addStyle(css);
} else if (typeof PRO_addStyle != "undefined") {
    PRO_addStyle(css);
} else if (typeof addStyle != "undefined") {
    addStyle(css);
} else {
    var node = document.createElement("style");
    node.type = "text/css";
    node.appendChild(document.createTextNode(css));
    var heads = document.getElementsByTagName("head");
    if (heads.length > 0) {
        heads[0].appendChild(node);
    } else {
        document.documentElement.appendChild(node);
    }
}
})();

<IPython.core.display.Javascript object>

___
__Material produzido para o curso__:
* Introdução à Análise de Dados com Python

__Autor__:
* Fernando Sola Pereira

__Revisão__:
* 1.1