# Introdução ao Dataframe Pandas

Um dataframe é um objeto bidimensional (tabela de dados retangular), porém pode ser usado para representar dados de dimensões maiores em um formato tabular.

Existem muitas maneiras de se criar um DataFrame, embora um das mais comuns seja a partir de um dicionário de listas de mesmo tamanho ou de arrays NumPy

In [1]:
data = {"state": ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [3]:
import pandas as pd
frame = pd.DataFrame(data)

In [4]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [5]:
frame.head() # Seleciona as 5 primeiras linhas

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [6]:
frame.tail() # Últimas 5 linhas

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [7]:
pd.DataFrame(data, columns=["year", "state", "pop"]) # É possível especificar a sequencia de colunas

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [8]:
pd.DataFrame(data, columns=["year", "state", "pop", "debt"]) # Se passar uma coluna que não existe os valores irão ficar ausentes

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [9]:
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

In [10]:
frame['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [11]:
frame.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [13]:
frame.loc[1] # Localiza (recupera) a linha 1

state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object

In [14]:
frame.iloc[2]

state    Ohio
year     2002
pop       3.6
Name: 2, dtype: object

In [15]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt']) # cria um novo dataframe com a nova coluna

In [16]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [17]:
# Para preencher o valor desta coluna é poss[ivel atribuir
frame2.debt = 16.5

In [18]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [21]:
# ou utilizar o numpy para criar o valor a partir de um range, por exemplo
import numpy as np
frame2.debt = np.arange(6.)

In [22]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [27]:
# Fazer uma atribuição a uma coluna que não exista criará uma nova coluna
frame2["eastern"] = frame2["state"] == "Ohio" # this is not possible using frame2.eastern, idkw

In [28]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,0.0,True
1,2001,Ohio,1.7,1.0,True
2,2002,Ohio,3.6,2.0,True
3,2001,Nevada,2.4,3.0,False
4,2002,Nevada,2.9,4.0,False
5,2003,Nevada,3.2,5.0,False


In [29]:
# Para deletar este djanho basta usar o del para a coluna
del frame2["eastern"]

In [30]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [32]:
# Para fazer a transposição de linhas e colunas pode ser utilizada a mesma sintaxe do Numpy
frame2.T

Unnamed: 0,0,1,2,3,4,5
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,0.0,1.0,2.0,3.0,4.0,5.0


In [33]:
frame2 # Lembrando que o original tá normal ainda, se quiser que mantenha cria uma copia

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [34]:
frame2.to_numpy() # Dá pra ver no formato de array do numpy.

array([[2000, 'Ohio', 1.5, 0.0],
       [2001, 'Ohio', 1.7, 1.0],
       [2002, 'Ohio', 3.6, 2.0],
       [2001, 'Nevada', 2.4, 3.0],
       [2002, 'Nevada', 2.9, 4.0],
       [2003, 'Nevada', 3.2, 5.0]], dtype=object)

## Objetos Index
Estes objetos do pandas são responsáveis por contes os rótulos dos eixos (incluindo o nome das colunas de um DataFrame), e outros metadados. 

Objetos Index são imutáveis

In [35]:
obj = pd.Series(np.arange(3), index=['a', 'b', 'c'])

In [36]:
obj

a    0
b    1
c    2
dtype: int64

In [37]:
index = obj.index

In [38]:
index

Index(['a', 'b', 'c'], dtype='object')

In [39]:
index[1:]

Index(['b', 'c'], dtype='object')

In [40]:
index[1] = 'd'

TypeError: Index does not support mutable operations

In [41]:
# A imutabilidade torna mais segguro compartilhar objetos Index entre as estruturas de dados
labels = pd.Index(np.arange(3))

In [42]:
labels

Index([0, 1, 2], dtype='int64')

In [None]:
obj2 = pd.Series