# Capítulo 10 - Manipulação de dados com Pandas

## 1. Python

In [10]:
import pandas as pd

### Manipulando dados em dataframes do Pandas

In [11]:
# Cria um dicionário

dados = {'Estado': ['Santa Catarina','Rio de Janeiro','Tocantins','Bahia','Minas Gerais'],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [12]:
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 'Ano': [2004, 2005, 2006, 2007, 2008], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [13]:
# Importar função DataFrame do pandas
from pandas import DataFrame

In [14]:
# Converter o dicionário em dataframe

df = DataFrame(dados)

In [15]:
# Exibir primeiras 5 linhas do dataframe
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [16]:
type(df)

pandas.core.frame.DataFrame

In [17]:
# Reorganizando as colunas
DataFrame(dados, columns = ['Estado','Taxa Desemprego','Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [19]:
# Criar outro dataframe, com os mesmos dados anteriores, mas adicionando uma coluna e mudando o index
# Note que a coluna criada ficou com valores NaN (valor ausente), pois não há dados na fonte

df2 = DataFrame(dados,columns = ['Estado','Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['estado1','estado2','estado3','estado4','estado5'])

ATENÇÃO: valor ausente é ausência de informação, não diferença de dado.

O valor ausente pode ser um NaN (ausência de dado), ou uma "?". Nesse caso, temos o dado (?), mas ela não é uma informação sobre uma taxa de crescimento.

In [20]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [22]:
# Retornar valores do data frame

df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [25]:
# Retornar tipos de dados do dataframe
# Note que o tipo de `Taxa Crescimento` não foi detectado pelo Pandas, 
# então ele colocou como object (string)


df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [27]:
# Listar colunas do conjunto de dados
# "dtype: object" se refere ao fato de que o retorno do método é uma string (object)

df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [28]:
# É possível usar o nome de coluna para fatiar o data frame
# Por exemplo, retornar os dados de apenas uma coluna:

df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [29]:
# Note que a linguagem Python é case sensitive:

df2['estado']

KeyError: 'estado'

In [30]:
# Para filtrar por duas colunas do dataframe, é preciso usar dois abre e fecha colchetes
# Isso porque passamos uma lista como parâmetro (um par de colchetes para introduzir a o parâmetro
# e outro porque ele será passado como lista)

df2[['Taxa Desemprego','Ano']]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [31]:
# Exibir índices do df 

df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [38]:
# Filtrar df pelo índice
# axis = 0 indica que vc vai pegar a linha

df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006


### Usando NumPy e Pandas para manipulação de dados

In [39]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [40]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [41]:
# Resumo estatístico do Dataframe
# Note que o Python só inclui as colunas que estão com valor numérico

df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [43]:
# Verificar se tem valor na (not available) no dataframe

df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [44]:
import numpy as np

In [45]:
# Preencher a coluna Taxa Crescimento com o NumPy

df2['Taxa Crescimento'] = np.arange(5.)

In [46]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [47]:
# Quando preenchemos a coluna, o Pandas mudou o tipo de dado

df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [49]:
# Confirmar que não tem mais valor na
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,False,False
estado2,False,False,False,False
estado3,False,False,False,False
estado4,False,False,False,False
estado5,False,False,False,False


In [50]:
# Novo resumo estatístico
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0
