# Estudo sobre Pandas

Seguindo o capítulo 5 do livro Python para Análise de Dados

In [2]:
import pandas as pd
from pandas import Series, DataFrame

## Series

Objetos do tipo array 1D contendo uma sequência de valores e um rótulo associado a cada valor. 

In [3]:
# Sem label explicitado, o Series associa cada item da coleção com um índice numérico
pd.Series(['John', 'George', 'Paul', 'Ringo'])

0      John
1    George
2      Paul
3     Ringo
dtype: object

In [4]:
beatles = pd.Series(['John', 'George', 'Paul', 'Ringo'], index=['Guitar', 'Guitar', 'Bass', 'Drums'])

In [5]:
beatles

Guitar      John
Guitar    George
Bass        Paul
Drums      Ringo
dtype: object

In [6]:
# Obter valor pelo índice
beatles['Bass']

'Paul'

In [7]:
# Verificar existência de elemento
'Elvis' in beatles

False

In [8]:
# Adicionar novo elemento associado a um índice
beatles['Producer'] = 'George Martin'
beatles

Guitar               John
Guitar             George
Bass                 Paul
Drums               Ringo
Producer    George Martin
dtype: object

In [9]:
sdata = {
    'Ohio': 35000,
    'Texas': 71000,
    'Oregon': 16000,
    'Utah': 5000
}

In [10]:
# Criar series a partir de dicionário
obj = pd.Series(sdata)
obj

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [11]:
# Sobrescrever índices
states = ['Ohio', 'São Paulo', 'Oregon', 'Utah']
obj2 = pd.Series(sdata, index=states)
obj2

Ohio         35000.0
São Paulo        NaN
Oregon       16000.0
Utah          5000.0
dtype: float64

In [12]:
# Verificar se elemento é nulo ou não
pd.isnull(obj2)

Ohio         False
São Paulo     True
Oregon       False
Utah         False
dtype: bool

In [13]:
# ou
obj2.isnull()

Ohio         False
São Paulo     True
Oregon       False
Utah         False
dtype: bool

In [14]:
pd.notnull(obj2)

Ohio          True
São Paulo    False
Oregon        True
Utah          True
dtype: bool

In [15]:
#ou 
obj2.notnull()

Ohio          True
São Paulo    False
Oregon        True
Utah          True
dtype: bool

In [16]:
# alinhamento de dados
obj + obj2

Ohio         70000.0
Oregon       32000.0
São Paulo        NaN
Texas            NaN
Utah         10000.0
dtype: float64

In [17]:
# nomear um Series
obj2.name = 'população'
obj2

Ohio         35000.0
São Paulo        NaN
Oregon       16000.0
Utah          5000.0
Name: população, dtype: float64

## DataFrame

Pode ser imaginado como um dicionário de Series. Reúne diversas coleções de valores, cada uma associada a uma coluna.

In [18]:
# construção por dicionário
data = {
    'state': ['Bahia', 'Bahia', 'Bahia', 'Maranhão', 'Maranhão', 'Maranhão'],
    'year': [2000, 2001, 2002, 2001, 2002, 2003],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

In [19]:
frame = pd.DataFrame(data)

In [20]:
# head lista as cinco primeiras linhas
frame.head()

Unnamed: 0,state,year,pop
0,Bahia,2000,1.5
1,Bahia,2001,1.7
2,Bahia,2002,3.6
3,Maranhão,2001,2.4
4,Maranhão,2002,2.9


In [21]:
# Alterar ordem das colunas
columns = ['year', 'state', 'pop']
pd.DataFrame(data, columns=columns)

Unnamed: 0,year,state,pop
0,2000,Bahia,1.5
1,2001,Bahia,1.7
2,2002,Bahia,3.6
3,2001,Maranhão,2.4
4,2002,Maranhão,2.9
5,2003,Maranhão,3.2


In [22]:
# obter coluna especifica
states = frame.state
states
# retorna um Series

0       Bahia
1       Bahia
2       Bahia
3    Maranhão
4    Maranhão
5    Maranhão
Name: state, dtype: object

In [23]:
# obter linha específica
frame.loc[3]

state    Maranhão
year         2001
pop           2.4
Name: 3, dtype: object

In [24]:
# acrescentar nova coluna (somente com sintaxe de hash) por atribuição
frame['idh'] = [0.71, 0.71, 0.71, 0.65, 0.65, 0.65]
frame

Unnamed: 0,state,year,pop,idh
0,Bahia,2000,1.5,0.71
1,Bahia,2001,1.7,0.71
2,Bahia,2002,3.6,0.71
3,Maranhão,2001,2.4,0.65
4,Maranhão,2002,2.9,0.65
5,Maranhão,2003,3.2,0.65


In [35]:
# Obter linha pelo label
frame.index = ['one', 'two', 'three', 'four', 'five', 'six']
frame
frame.loc['two']

state    Bahia
year      2001
pop        1.7
idh       0.71
Name: two, dtype: object

In [38]:
frame2 = pd.DataFrame(data, columns = ['state', 'year', 'pop', 'idh', 'country'], index=['one', 'two', 'three', 'four', 'five', 'six'])

In [39]:
frame2

Unnamed: 0,state,year,pop,idh,country
one,Bahia,2000,1.5,,
two,Bahia,2001,1.7,,
three,Bahia,2002,3.6,,
four,Maranhão,2001,2.4,,
five,Maranhão,2002,2.9,,
six,Maranhão,2003,3.2,,


In [40]:
# modificar coluna por atribuição
frame2['country'] = 'Brasil'
frame2.head()

Unnamed: 0,state,year,pop,idh,country
one,Bahia,2000,1.5,,Brasil
two,Bahia,2001,1.7,,Brasil
three,Bahia,2002,3.6,,Brasil
four,Maranhão,2001,2.4,,Brasil
five,Maranhão,2002,2.9,,Brasil


In [41]:
# apagar uma coluna
del frame2['idh']