# Introdução ao Pandas - 2
## Leonardo Yves de Souza Melo
### (21)971771433 | prof.leoyves@gmail.com
## Fontes:
### 1) Python for Data Analysis - Wes McKinney; capítulo 5
### 2) Python for Finance - Yves Hilspisch; capítulo 5

# Bibliotecas

In [1]:
import numpy as np
import pandas as pd

# Introdução aos `DataFrames`

A construção de um `DataFrame` a partir de um dicionário, faz com que as chaves se tornem as colunas do `DataFrame` e o conteúdo delas precisa ter a mesma quantidade de elementos, pensando em listas, tuplas e arrays, o mesmo `len`. E a indexação dos elementos é feita por meio da atribuição de algum objeto sequencial de `len` igual ao dos conteúdos de cada chave, para que todas as linhas da tabela sejam identificadas.

In [2]:
# construção de um DataFrame a partir de um dicionário
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
       'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [3]:
# exibição das três primeiras linhas
frame.head(3)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


In [4]:
# alteração da posição das colunas a partir da atribuição dos nomes e ordem
# um novo objeto DataFrame foi construído
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [5]:
# mudando a indexação do DataFrame
# adição da coluna debt, sem nenhum valor associado a ela
# novas linhas e colunas podem ser adicionadas sem elementos
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],
                     index=['one','two','three','four','five','six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [6]:
# maneiras de acessar os índices e colunas do DataFrame
frame2.columns,frame2.index

(Index(['year', 'state', 'pop', 'debt'], dtype='object'),
 Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object'))

### Formas de acessar os elementos de cada coluna 

In [7]:
display(frame2.year,frame2.state,frame2.debt)

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
six      NaN
Name: debt, dtype: object

In [8]:
frame2['pop']

one      1.5
two      1.7
three    3.6
four     2.4
five     2.9
six      3.2
Name: pop, dtype: float64

In [9]:
# acessando todos os elementos associados à linha three
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [10]:
# atribuição de valores à determinada coluna 
frame2['debt'] = 16.5
display(frame2)
frame2['debt'] = np.arange(6.)
display(frame2)

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [11]:
# atribuindo valores apenas para algumas das linhas do DataFrame por intermédio
# de um objeto Series
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])
display(val)
frame2['debt'] = val
display(frame2,frame2['debt'])

two    -1.2
four   -1.5
five   -1.7
dtype: float64

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


one      NaN
two     -1.2
three    NaN
four    -1.5
five    -1.7
six      NaN
Name: debt, dtype: float64

In [12]:
# caso em que não há correspondência entre os elementos do index do objeto Series
# criado e o DataFrame em questão
## não há alteração dos valores
val = pd.Series([-1.2,-1.5,-1.7],index=[1,2,3])
frame2['debt'] = val
display(frame2,frame2['debt'])

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


one     NaN
two     NaN
three   NaN
four    NaN
five    NaN
six     NaN
Name: debt, dtype: float64

In [13]:
# frame2.eastern não cria novas colunas 
frame2['eastern'] = (frame2.state == 'Ohio')
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,,False
five,2002,Nevada,2.9,,False
six,2003,Nevada,3.2,,False


In [14]:
# eliminação da coluna eastern
del frame2['eastern']

In [15]:
display(frame2.columns,frame2)

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


Forma alternativa de criar `DataFrames`a partir de dicionários, em que as chaves possuem tamanhos diferentes, sem que ocorram problemas de dimensionalidade.

Note que se trata de um dicionário de dicionários.

In [16]:
# construção de DataFrame via dicionário que já inclui os objetos index
# cada chave representa um elemento de indexação
## chaves que não aparecem simultaneamente nos dois dicionários recebem NaN em 
## algumas entradas
pop = {'Nevada':{2001:2.4,2002:2.9},
      'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [17]:
# é possível fazer a transposição dos dados com uma sintaxe igual a do numpy
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [18]:
# chaves que não aparecem no dicionário pop têm suas entradas nulas no DataFrame
# chaves que não constam no objeto index, não aparecem no DataFrame
pd.DataFrame(pop,index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [19]:
# utilizando os objetos Series derivados das colunas do DataFrame
pdata = {'Ohio': frame3['Ohio'][:-1],
        'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [20]:
# frame3.index.name: nomeando os elementos index
# frame3.columns.name: nomeando os elementos das colunas
frame3.index.name = 'year';frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [21]:
# acessando todos os valores presentes no corpo da planilha 
display(frame3.values,frame2.values)

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)