# Pandas Overview

In [1]:
import pandas as pd

In [2]:
pd?

## Estrutura de dados do Pandas

### Series

- Estrutura composta por um array unidimensional de valores e outro, de mesmo tamanho, de índices.

In [5]:
nomes = pd.Series(['Tiago', 'Quik', 'Fernando', 'Macau', 'Wisky', 'Barba Ruiva'])
nomes

0          Tiago
1           Quik
2       Fernando
3          Macau
4          Wisky
5    Barba Ruiva
dtype: object

In [6]:
nomes.values # Volta um ndarray do numpy <3

array(['Tiago', 'Quik', 'Fernando', 'Macau', 'Wisky', 'Barba Ruiva'],
      dtype=object)

In [7]:
type(nomes.values)

numpy.ndarray

In [8]:
nomes.index

RangeIndex(start=0, stop=6, step=1)

In [10]:
for i in nomes.index:
    print (i)

0
1
2
3
4
5


#### É possível estipular os valores dos índices:

In [11]:
nomes = pd.Series(['Tiago', 'Quik', 'Fernando', 'Macau', 'Wisky', 'Barba Ruiva'],
                 index=['a', 'b', 'c', 'd', 'e', 'f'])

nomes

a          Tiago
b           Quik
c       Fernando
d          Macau
e          Wisky
f    Barba Ruiva
dtype: object

In [12]:
for i in nomes.index:
    print (i)

a
b
c
d
e
f


#### Por utilizar o ndarray, podemos executar as operações do numpy ao utilizar o pandas

In [14]:
vendas_por_mes = pd.Series([100, 500, 300, 250, 325, 600], index = 
                           ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho'])

vendas_por_mes

Janeiro      100
Fevereiro    500
Março        300
Abril        250
Maio         325
Junho        600
dtype: int64

In [16]:
vendas_por_mes[vendas_por_mes > 250]

Fevereiro    500
Março        300
Maio         325
Junho        600
dtype: int64

In [17]:
vendas_por_mes[vendas_por_mes < 250]

Janeiro    100
dtype: int64

In [20]:
vendas_por_mes * 2

Janeiro       200
Fevereiro    1000
Março         600
Abril         500
Maio          650
Junho        1200
dtype: int64

#### Pertinência por índice

In [21]:
'Fevereiro' in vendas_por_mes

True

In [22]:
'Dezembro' in vendas_por_mes

False

#### Inicializando a partir de um dicionário

In [23]:
dict_data = {'São Paulo' : 45, 'Rio de Janeiro' : 5, 'Minas Gerais' : 30, 'Espírito Santo': 20}
s = pd.Series(dict_data)
s

São Paulo         45
Rio de Janeiro     5
Minas Gerais      30
Espírito Santo    20
dtype: int64

- É possível alterar os índices ao criar um Serie a partir de um dictionary.
- Ao inserir um índice novo, seu valor erá NaN.

In [25]:
s = pd.Series(dict_data, index = ['Minas Gerais', 'Rio de Janeiro', 'São Paulo', 'Espírito Santo', 'Paraná'])
s

Minas Gerais      30.0
Rio de Janeiro     5.0
São Paulo         45.0
Espírito Santo    20.0
Paraná             NaN
dtype: float64

#### Null ou Não Null

In [26]:
pd.isnull(s)

Minas Gerais      False
Rio de Janeiro    False
São Paulo         False
Espírito Santo    False
Paraná             True
dtype: bool

In [27]:
pd.notnull(s)

Minas Gerais       True
Rio de Janeiro     True
São Paulo          True
Espírito Santo     True
Paraná            False
dtype: bool

#### Alinhamento de índices

- As estruturas do Pandas conseguem perceber (e alinhar) índices iguais em objetos diferentes:

In [39]:
vendas_janeiro = pd.Series([20, 30, 40], index = ['Aline', 'Paula', 'Amanda'])
vendas_fevereiro = pd.Series([5, 15, 8], index = ['Amanda', 'Paula', 'Aline'])

vendas_primeiro_bi = vendas_janeiro + vendas_fevereiro
vendas_primeiro_bi

Aline     28
Amanda    45
Paula     45
dtype: int64

#### Atribuição de nomes

- Para facilitar a leitura, é possível adicionar nomes para o objeto e para os índices:

In [44]:
vendas_primeiro_bi.name = 'Vendas do primeiro bimestre de 2021'
vendas_primeiro_bi.index.name = 'Vendedor'
vendas_primeiro_bi

Vendedor
Aline     28
Amanda    45
Paula     45
Name: Vendas do primeiro bimestre de 2021, dtype: int64

#### Alteração de índices

In [45]:
vendas_primeiro_bi.index = ['Mayara', 'Priscila', 'Daniele']
vendas_primeiro_bi

Mayara      28
Priscila    45
Daniele     45
Name: Vendas do primeiro bimestre de 2021, dtype: int64

#### Reindexing

In [77]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [78]:
obj = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

### DataFrame

- Estrutura multidimensional

In [47]:
populacao = {'estado': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'ano': [2000, 2001, 2002, 2001, 2002, 2003],
        'população': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame_pop = pd.DataFrame(populacao)
frame_pop

Unnamed: 0,estado,ano,população
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [52]:
frame_pop.head(2) # Para volumes muito grandes de dados, é interessante fazer um head para uma primeira análise.

Unnamed: 0,estado,ano,população
0,Ohio,2000,1.5
1,Ohio,2001,1.7


#### Especificando a ordem das colunas

In [53]:
pd.DataFrame(populacao, columns = ['população', 'ano', 'estado'])

Unnamed: 0,população,ano,estado
0,1.5,2000,Ohio
1,1.7,2001,Ohio
2,3.6,2002,Ohio
3,2.4,2001,Nevada
4,2.9,2002,Nevada
5,3.2,2003,Nevada


In [54]:
frame_pop = pd.DataFrame(populacao, columns=['ano', 'estado', 'população', 'sigla'],
                      index=['um', 'dois', 'três', 'quatro',
                             'cinco', 'seis'])

frame_pop

Unnamed: 0,ano,estado,população,sigla
um,2000,Ohio,1.5,
dois,2001,Ohio,1.7,
três,2002,Ohio,3.6,
quatro,2001,Nevada,2.4,
cinco,2002,Nevada,2.9,
seis,2003,Nevada,3.2,


In [55]:
frame_pop.columns

Index(['ano', 'estado', 'população', 'sigla'], dtype='object')

#### Acessando colunas

In [56]:
frame_pop['ano']

um        2000
dois      2001
três      2002
quatro    2001
cinco     2002
seis      2003
Name: ano, dtype: int64

In [57]:
frame_pop.ano

um        2000
dois      2001
três      2002
quatro    2001
cinco     2002
seis      2003
Name: ano, dtype: int64

#### Acessando linhas

In [58]:
frame_pop.loc['um']

ano          2000
estado       Ohio
população     1.5
sigla         NaN
Name: um, dtype: object

#### Alterando valores

- Similar ao NumPy

In [61]:
import numpy as np

frame_pop.sigla = np.arange(6)

In [62]:
frame_pop

Unnamed: 0,ano,estado,população,sigla
um,2000,Ohio,1.5,0
dois,2001,Ohio,1.7,1
três,2002,Ohio,3.6,2
quatro,2001,Nevada,2.4,3
cinco,2002,Nevada,2.9,4
seis,2003,Nevada,3.2,5


In [65]:
frame_pop.sigla = np.array(['OH', 'OH', 'OH', 'NV', 'NV', 'NV'])

In [66]:
frame_pop

Unnamed: 0,ano,estado,população,sigla
um,2000,Ohio,1.5,OH
dois,2001,Ohio,1.7,OH
três,2002,Ohio,3.6,OH
quatro,2001,Nevada,2.4,NV
cinco,2002,Nevada,2.9,NV
seis,2003,Nevada,3.2,NV


In [68]:
frame_pop.sigla = None

In [69]:
frame_pop

Unnamed: 0,ano,estado,população,sigla
um,2000,Ohio,1.5,
dois,2001,Ohio,1.7,
três,2002,Ohio,3.6,
quatro,2001,Nevada,2.4,
cinco,2002,Nevada,2.9,
seis,2003,Nevada,3.2,


In [70]:
siglas = pd.Series(['OH', 'OH', 'OH', 'NV', 'NV', 'NV'], index = ['um', 'dois', 'três', 'quatro', 'cinco', 'seis'])

In [71]:
frame_pop.sigla = siglas

In [72]:
frame_pop

Unnamed: 0,ano,estado,população,sigla
um,2000,Ohio,1.5,OH
dois,2001,Ohio,1.7,OH
três,2002,Ohio,3.6,OH
quatro,2001,Nevada,2.4,NV
cinco,2002,Nevada,2.9,NV
seis,2003,Nevada,3.2,NV


#### Nomeando dados

In [74]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame = pd.DataFrame(pop)

frame

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [76]:
frame.index.name = 'year'; 
frame.columns.name = 'state'

frame

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


#### Reindexing

In [79]:
values = np.arange(9)
values

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [81]:
values = values.reshape((3, 3))
values

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [92]:
frame = pd.DataFrame(values, 
                     index = ['a', 'c', 'd'],
                     columns = ['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [94]:
frame = frame.reindex(['a', 'b', 'c', 'd'])
frame

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


#### Apagando entradas

In [95]:
frame.drop('b', inplace=True)
frame

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
c,3.0,4.0,5.0
d,6.0,7.0,8.0


## Indexação, Seleção e Filtros

### Indexação

- Similar ao NumPy

#### Exemplos com Series

In [97]:
obj = pd.Series(np.arange(4), index=['a','b','c','d'])

obj['b']

1

In [98]:
obj[1]

1

In [99]:
obj[2:4]

c    2
d    3
dtype: int64

In [100]:
obj[['b', 'a', 'd']]

b    1
a    0
d    3
dtype: int64

In [101]:
obj[[1, 3]]

b    1
d    3
dtype: int64

In [102]:
obj[obj < 2]

a    0
b    1
dtype: int64

#### Exemplos com DataFrame

In [103]:
pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [125]:
candidatos = ['Bolsonaro', 'Lula', 'Doria', 'Ciro', 'Outros']
primeira_pesquisa = [30, 31, 10, 9, 20]
segunda_pesquisa = [25, 33, 11, 11, 20]
terceira_pesquisa = [20, 35, 12, 15, 18]

pesquisas = np.array([primeira_pesquisa, segunda_pesquisa, terceira_pesquisa])
pesquisas

array([[30, 31, 10,  9, 20],
       [25, 33, 11, 11, 20],
       [20, 35, 12, 15, 18]])

In [126]:
frame = pd.DataFrame(pesquisas, 
             index = ['Primeira', 'Segunda', 'Terceira'], 
             columns = candidatos)

frame

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20
Terceira,20,35,12,15,18


In [118]:
frame < 15

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,False,False,True,True,False
Segunda,False,False,True,True,False
Terceira,False,False,True,False,False


In [131]:
frame[frame > 30] = 0 # Modifica o ndarray (pesquisas) por referência

In [132]:
frame

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,0,10,9,20
Segunda,25,0,11,11,20
Terceira,20,0,12,15,18


In [133]:
pesquisas

array([[30,  0, 10,  9, 20],
       [25,  0, 11, 11, 20],
       [20,  0, 12, 15, 18]])

### Loc e Iloc

In [137]:
candidatos = ['Bolsonaro', 'Lula', 'Doria', 'Ciro', 'Outros']
primeira_pesquisa = [30, 31, 10, 9, 20]
segunda_pesquisa = [25, 33, 11, 11, 20]
terceira_pesquisa = [20, 35, 12, 15, 18]

pesquisas = np.array([primeira_pesquisa, segunda_pesquisa, terceira_pesquisa])
frame = pd.DataFrame(pesquisas, 
             index = ['Primeira', 'Segunda', 'Terceira'], 
             columns = candidatos)

frame

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20
Terceira,20,35,12,15,18


In [138]:
frame.iloc[2]

Bolsonaro    20
Lula         35
Doria        12
Ciro         15
Outros       18
Name: Terceira, dtype: int64

In [140]:
frame.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,Ciro,Bolsonaro,Lula
Segunda,11,25,33
Terceira,15,20,35


In [141]:
frame.iloc[2, [3, 0, 1]]

Ciro         15
Bolsonaro    20
Lula         35
Name: Terceira, dtype: int64

In [142]:
frame.iloc[[2], [3, 0, 1]]

Unnamed: 0,Ciro,Bolsonaro,Lula
Terceira,15,20,35


In [143]:
frame.loc['Primeira']

Bolsonaro    30
Lula         31
Doria        10
Ciro          9
Outros       20
Name: Primeira, dtype: int64

In [144]:
frame.loc[:'Primeira']

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20


In [145]:
frame.loc[:'Segunda']

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20


In [146]:
frame.loc[::2]

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Terceira,20,35,12,15,18


In [147]:
frame.loc['Segunda':'Teceira']

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Segunda,25,33,11,11,20


In [148]:
frame.loc['Primeira':'Teceira']

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20


In [151]:
frame.iloc[:, :3][frame > 20]

Unnamed: 0,Bolsonaro,Lula,Doria
Primeira,30.0,31,
Segunda,25.0,33,
Terceira,,35,


## Aritmética e alinhamento de dados

### Aritmética com Series

In [153]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],index=['a', 'c', 'e', 'f', 'g'])
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

### Aritmética com DataFrame

In [154]:
data_frame_1 = pd.DataFrame(np.arange(9).reshape((3, 3)), 
                            columns=list('bcd'),
                            index=['Ohio', 'Texas', 'Colorado'])

data_frame_2 = pd.DataFrame(np.arange(12).reshape((4, 3)), 
                            columns=list('bde'),
                            index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [155]:
data_frame_1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [156]:
data_frame_2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [157]:
data_frame_1 + data_frame_2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### Preenchendo valores inexistentes em data_frame_1

In [161]:
data_frame_1 = data_frame_1.add(data_frame_2, fill_value = 0)
    
data_frame_1

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,6.0,1.0,10.0,10.0
Oregon,18.0,,20.0,22.0
Texas,15.0,4.0,19.0,16.0
Utah,0.0,,2.0,4.0


### Funções aritméticas com operadores invertidos

In [162]:
1 / data_frame_1

Unnamed: 0,b,c,d,e
Colorado,0.166667,0.142857,0.125,
Ohio,0.166667,1.0,0.1,0.1
Oregon,0.055556,,0.05,0.045455
Texas,0.066667,0.25,0.052632,0.0625
Utah,inf,,0.5,0.25


In [164]:
data_frame_1.rdiv(1)

Unnamed: 0,b,c,d,e
Colorado,0.166667,0.142857,0.125,
Ohio,0.166667,1.0,0.1,0.1
Oregon,0.055556,,0.05,0.045455
Texas,0.066667,0.25,0.052632,0.0625
Utah,inf,,0.5,0.25


In [165]:
data_frame_1.div(1)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,6.0,1.0,10.0,10.0
Oregon,18.0,,20.0,22.0
Texas,15.0,4.0,19.0,16.0
Utah,0.0,,2.0,4.0


### Operações entre Series e DataFrames

In [166]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

any_serie = frame.iloc[0]

In [167]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [168]:
any_serie

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [169]:
frame - any_serie

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


### Aplicação de funções e mapeamento

In [171]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [172]:
frame

Unnamed: 0,b,d,e
Utah,0.398812,0.746665,0.541715
Ohio,1.678706,-0.021954,-0.972466
Texas,0.693938,1.01486,1.267691
Oregon,1.068979,-0.283593,1.722495


In [173]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.398812,0.746665,0.541715
Ohio,1.678706,0.021954,0.972466
Texas,0.693938,1.01486,1.267691
Oregon,1.068979,0.283593,1.722495


#### Aplicando uma função nas colunas

In [174]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.279895
d    1.298452
e    2.694961
dtype: float64

#### Aplicando uma função nas linhas

In [176]:
frame.apply(f, axis='columns')

Utah      0.347853
Ohio      2.651172
Texas     0.573753
Oregon    2.006087
dtype: float64

#### Aplicando uma função por elemento

In [177]:
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.4,0.75,0.54
Ohio,1.68,-0.02,-0.97
Texas,0.69,1.01,1.27
Oregon,1.07,-0.28,1.72


### Ordenação

In [178]:
candidatos = ['Bolsonaro', 'Lula', 'Doria', 'Ciro', 'Outros']
primeira_pesquisa = [30, 31, 10, 9, 20]
segunda_pesquisa = [25, 33, 11, 11, 20]
terceira_pesquisa = [20, 35, 12, 15, 18]

pesquisas = np.array([primeira_pesquisa, segunda_pesquisa, terceira_pesquisa])
frame = pd.DataFrame(pesquisas, 
             index = ['Primeira', 'Segunda', 'Terceira'], 
             columns = candidatos)

frame

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20
Terceira,20,35,12,15,18


#### Ordenação por linhas

In [183]:
frame.sort_index()

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20
Terceira,20,35,12,15,18


In [186]:
frame.sort_index(ascending = False)

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Terceira,20,35,12,15,18
Segunda,25,33,11,11,20
Primeira,30,31,10,9,20


In [185]:
frame.sort_index(axis = 1)

Unnamed: 0,Bolsonaro,Ciro,Doria,Lula,Outros
Primeira,30,9,10,31,20
Segunda,25,11,11,33,20
Terceira,20,15,12,35,18


In [181]:
frame.sort_index(axis = 1, ascending = False)

Unnamed: 0,Outros,Lula,Doria,Ciro,Bolsonaro
Primeira,20,31,10,9,30
Segunda,20,33,11,11,25
Terceira,18,35,12,15,20


#### Ordenação por colunas

In [187]:
frame.sort_values(by='Lula')

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20
Terceira,20,35,12,15,18


In [188]:
frame.sort_values(by='Lula', ascending = False)

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Terceira,20,35,12,15,18
Segunda,25,33,11,11,20
Primeira,30,31,10,9,20


In [189]:
frame.sort_values(by=['Outros', 'Ciro'])

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Terceira,20,35,12,15,18
Primeira,30,31,10,9,20
Segunda,25,33,11,11,20


In [190]:
frame.sort_values(by=['Outros', 'Ciro'], ascending = False)

Unnamed: 0,Bolsonaro,Lula,Doria,Ciro,Outros
Segunda,25,33,11,11,20
Primeira,30,31,10,9,20
Terceira,20,35,12,15,18
