# Introdução ao Pandas - 3
## Leonardo Yves de Souza Melo
### (21)971771433 | prof.leoyves@gmail.com
## Fontes:
### 1) Python for Data Analysis - Wes McKinney; capítulo 5
### 2) Python for Finance - Yves Hilspisch; capítulo 5

## Objetos Index

In [1]:
import numpy as np
import pandas as pd

In [2]:
# construção de um objeto Series
obj = pd.Series(range(3),index=['a','b','c'])
obj

a    0
b    1
c    2
dtype: int64

In [3]:
# obtenção de um objeto Index por meio do objeto Series criado anteriormente
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [4]:
# acessando os elementos do objeto index
index[1:]

Index(['b', 'c'], dtype='object')

# o objeto index é imutável (revisar)

In [5]:
# construção de objeto index
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [6]:
# construção de um objeto series utilizando o objeto index
obj2 = pd.Series([1.5,-2.5,0],index=labels)
obj2,obj2.index is labels

(0    1.5
 1   -2.5
 2    0.0
 dtype: float64,
 True)

In [7]:
# construção de objetos para uso posterior 
pop = {'Nevada':{2001:2.4,2002:2.9},
      'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3.index.name = 'year';frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Tanto as linhas, quanto as colunas de objetos DataFrame, são objetos Index 

In [8]:
frame3.columns,frame3.index

(Index(['Nevada', 'Ohio'], dtype='object', name='state'),
 Int64Index([2001, 2002, 2000], dtype='int64', name='year'))

In [9]:
# são permitidos elementos repitidos em objetos Index
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## Reindexação

### Linhas em objetos Series e DataFrames

In [10]:
obj = pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
display(obj)
# reindexação criando novo objeto series
# a reindexação adiciona uma nova linha ao objeto Series, que pelo fato de não
# ter valor associado a ela, é atribuída NaN
obj2 = obj.reindex(['a','b','c','d','e'])
display(obj2)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Os métodos ``ffill`` e ``bfill`` substituem os valores NULL pelo valor da linha anterior (ou coluna anterior, se o parâmetro do eixo estiver definido como 'colunas').

``ffill``: forward fill<br>
``bfill``: backward fill

In [39]:
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
display(obj3)
display(obj3.reindex(range(6),method='bfill'),
        obj3.reindex(range(6),method='ffill'))

0      blue
2    purple
4    yellow
dtype: object

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [12]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index=['a','c','d'],
                    columns=['Ohio','Texas','California'])
display(frame)
frame2 = frame.reindex(['a','b','c','d'])
# a linha relativa ao índice que não possui correspondência em frame, consta 
# apenas com elementos NaN
display(frame2)

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [13]:
# atribuição de valores à linha b
frame2.loc['b'] = np.random.randn(3)
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,-0.032184,-0.713068,0.215127
c,3.0,4.0,5.0
d,6.0,7.0,8.0


### Colunas em objetos DataFrame

In [14]:
states = ['Texas','Utah','California']
# forma de alterar o nome das colunas preservando as informações de cada uma
display(frame.reindex(columns=states),frame)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


## Drop

### Construção de objeto Series

In [15]:
obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

### Objeto construído a partir de ``obj``, com a eliminação da linha ``c``

In [16]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### Objeto construído a partir de ``obj``, com a eliminação das linhas ``c`` e ``d``

In [17]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [18]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['Ohio','Colorado','Utah','New York'],
                   columns=['one','two','three','four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [19]:
# eliminação das linhas Colorado e Ohio
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [20]:
# note que a transformação não ocorre no objeto data
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [21]:
# eliminação da coluna two, por meio do argumento axis=1
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [22]:
# eliminaçã simultanea de duas colunas
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### A realização de operações que afetam os objetos em que aplicamos o método drop, precisam do argumento `inplace`

In [23]:
obj.drop('c',inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

## Indexação, Seleção e Filtragem
### Em objetos `Series`

In [24]:
obj = pd.Series(np.arange(4.),index=list('abcd'))
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [25]:
# elemento na linha indexada por b
obj['b']

1.0

Indexação "numérica-posicional"<br>
`obj[1]`: objeto de índice 1

In [26]:
obj[1]

1.0

In [27]:
# elementos de índice 2 até o 3
# numeração igual das listas
obj[2:4]

c    2.0
d    3.0
dtype: float64

Seleção dos elementos indexados com os rótulos `b`,`a` e `d`, respectivamente

In [28]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

Seleção dos elementos de posição 3 e 1, respectivamente

In [29]:
obj[[3,1]]

d    3.0
b    1.0
dtype: float64

Indexação booleana, acessando apenas os elementos em `obj` que são menores que 2

In [30]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

Indexação utilizando rótulos. Inclui os pontos extremos.

In [31]:
obj['a':'c']

a    0.0
b    1.0
c    2.0
dtype: float64

É possível realizar atribuição de valores por meio da indexação, igual é feito em arrays.

In [32]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

### Em objetos `DataFrame` 

In [33]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio','Colorado','Utah','New York'],
                    columns=['one','two','three','four'])
data                    

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


`data['two']`: objeto `Series` com todas os elementos da coluna `two` 

In [34]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

Seleção de duas colunas simultaneamente do `DataFrame``data`. Por se tratar de duas colunas, o objeto retornado é um `DataFrame`

In [35]:
data[['three','one']] 

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


Seleção do conteúdo das linhas de índice 0 e 1, no objeto `Index`, `data.Index`.

In [36]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


Indexação Booleana. Seleção das linhas que atendem ao requisito de ter seu valor numérico maior do que 5, na coluna `'three'`

In [40]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


``DataFrame`` apenas com valores booleanos. Atribuição igual do ``Numpy``.

In [41]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


Todos os valores ``True`` do ``DataFrame`` ``Data < 5``, foram substituídos por 0.

In [42]:
data[data<5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15
