# Data Science Academy

## Capítulo 10 - Manipulação de Dados com Pandas

### Usando NumPy e Pandas Para Manipulação de Dados

In [20]:
import pandas as pd
import numpy as np

In [10]:
dados = {"Estado": ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
         "Taxa Desemprego": [1.5, 1.7, 1.6, 2.4, 2.7],
         "Ano": [2004, 2005, 2006, 2007, 2008]}

In [11]:
from pandas import DataFrame

In [12]:
df = DataFrame(dados)
df.head()

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [13]:
df2 = DataFrame(dados, 
                columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [14]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [16]:
# Resumo estatístico do DataFrame 
# (count-contagem de linhas, mean-média, std-desvio padrão, 
# min-valor mínimo, 25%-1º quartil, 50%-2º quartil ou mediana, 75%-3º quartil, max-valor máximo)
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [18]:
#Verificando se há valor ausente pelo isna()
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [19]:
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [21]:
# Usando o Numpy para alimentar uma das colunas do df
df2['Taxa Crescimento'] = np.arange(5.)

In [22]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [23]:
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [28]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento    float64
Ano                   int64
dtype: object

In [29]:
# Verificando novamente o resumo estatístico do df
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


### Slicing de DataFrames do Pandas

In [30]:
df2['estado2': 'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007


`Observação:` No NumPy o último índice é exclusivo, porém no Pandas o último índice não é, ou seja, inclui no resultado.

In [32]:
# Filtrar o df2 onde a Taxa Desemprego é menor que 2.
df2[df2['Taxa Desemprego'] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006


In [35]:
# Uma coluna? 1 abre e fecha colchetes
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [34]:
# Duas colunas? 2 abre e fecha colchetes
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,Tocantins,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


In [36]:
df2[['Estado', 'Taxa Crescimento', 'Ano']]

Unnamed: 0,Estado,Taxa Crescimento,Ano
estado1,Santa Catarina,0.0,2004
estado2,Rio de Janeiro,1.0,2005
estado3,Tocantins,2.0,2006
estado4,Bahia,3.0,2007
estado5,Minas Gerais,4.0,2008
