### Breve introdução a DataFrames com Pandas

#### Introdução
DataFrames com pandas é essencial se você deseja usar Python para analisar dados.

Pode-se pensar um DataFrame como uma matriz mas as suas colunas têm nomes e podem conter dados de tipo diferente. Um data frame pode ser visto como uma tabela de uma base de dados, em que cada linha corresponde a um registo (linha) da tabela e cada coluna corresponde a um atributo de cada registo da tabela.

#### Criando o DataFrame


In [1]:
#Importando os pacotes
import pandas as pd
import numpy as np

In [2]:
#Importando a função randn do pacote random e usando a semente 1- Se quiser reproduzir os mesmos resultados utilize a mesma semente!
np.random.seed(1)
from numpy.random import randn

In [3]:
#criando data frame para os exemplos usando função randn que retorna uma amostra (ou amostras) da distribuição “normal padrão”.
data=(randn(5,4))

In [4]:
data

array([[ 1.62434536, -0.61175641, -0.52817175, -1.07296862],
       [ 0.86540763, -2.3015387 ,  1.74481176, -0.7612069 ],
       [ 0.3190391 , -0.24937038,  1.46210794, -2.06014071],
       [-0.3224172 , -0.38405435,  1.13376944, -1.09989127],
       [-0.17242821, -0.87785842,  0.04221375,  0.58281521]])

In [5]:
indice='A B C D E'.split() #criando um nome para as linhas do meu dataframe

In [6]:
indice

['A', 'B', 'C', 'D', 'E']

In [7]:
colunas='W X Y Z'.split() # criando um nome para as colunas do meu dataframe

In [8]:
colunas

['W', 'X', 'Y', 'Z']

Vamos agora criar um data frame usando pandas, a sintaxe é:

pd.DataFrame(data=None, index=None, columns=None))

Onde:

- data : numpy array um dicionário, um DataFrame ou uma lista

- index : índice de linhas

- columns : Index or nome de colunas

No nosso caso, temos:

In [11]:
df = pd.DataFrame(data,index=indice,columns=colunas)

Vamos olhar o DataFrmae gerado:

In [12]:
df

Unnamed: 0,W,X,Y,Z
A,1.624345,-0.611756,-0.528172,-1.072969
B,0.865408,-2.301539,1.744812,-0.761207
C,0.319039,-0.24937,1.462108,-2.060141
D,-0.322417,-0.384054,1.133769,-1.099891
E,-0.172428,-0.877858,0.042214,0.582815


 #### Indexação e Seleção de Linhas, Colunas ou celulas


In [13]:
#Selecionando uma coluna:
df['X']  

A   -0.611756
B   -2.301539
C   -0.249370
D   -0.384054
E   -0.877858
Name: X, dtype: float64

In [14]:
#Selecionando mais que uma coluna:
df[['W', 'Y']]

Unnamed: 0,W,Y
A,1.624345,-0.528172
B,0.865408,1.744812
C,0.319039,1.462108
D,-0.322417,1.133769
E,-0.172428,0.042214


Vamos selecionar linhas usando loc e iloc. Com loc associamos o nome e com iloc associamos o indice da linha

In [19]:
#Selecionando primeira linha usando loc:
df.loc['A']

W    1.624345
X   -0.611756
Y   -0.528172
Z   -1.072969
Name: A, dtype: float64

In [20]:
#Selecionando terceira linha usando iloc:
df.iloc[2]

W    0.319039
X   -0.249370
Y    1.462108
Z   -2.060141
Name: C, dtype: float64

In [21]:
#Selecionando uma celula- linha 1 coluna 2:

df.iloc[0,1]

-0.6117564136500754

In [22]:
#Selecionando um subconjunto do dataframe
df.loc[['A','C'],['X','Z']]

Unnamed: 0,X,Z
A,-0.611756,-1.072969
C,-0.24937,-2.060141


Muito show, não é?

In [23]:
#Verificando o tipo de dado:
type(df['W'])

pandas.core.series.Series

In [24]:
#Criando uma nova coluna:

df['U'] = randn(5)  # observei que criei de forma aleatoria usando a distribuição normal

In [25]:
#Ficou assim:
df

Unnamed: 0,W,X,Y,Z,U
A,1.624345,-0.611756,-0.528172,-1.072969,-1.100619
B,0.865408,-2.301539,1.744812,-0.761207,1.144724
C,0.319039,-0.24937,1.462108,-2.060141,0.901591
D,-0.322417,-0.384054,1.133769,-1.099891,0.502494
E,-0.172428,-0.877858,0.042214,0.582815,0.900856


In [26]:
#Removendo colunas:
df.drop('Y',axis=1)

Unnamed: 0,W,X,Z,U
A,1.624345,-0.611756,-1.072969,-1.100619
B,0.865408,-2.301539,-0.761207,1.144724
C,0.319039,-0.24937,-2.060141,0.901591
D,-0.322417,-0.384054,-1.099891,0.502494
E,-0.172428,-0.877858,0.582815,0.900856


In [27]:
#Observe que a coluna não foi removida do dataframe original
df

Unnamed: 0,W,X,Y,Z,U
A,1.624345,-0.611756,-0.528172,-1.072969,-1.100619
B,0.865408,-2.301539,1.744812,-0.761207,1.144724
C,0.319039,-0.24937,1.462108,-2.060141,0.901591
D,-0.322417,-0.384054,1.133769,-1.099891,0.502494
E,-0.172428,-0.877858,0.042214,0.582815,0.900856


In [28]:
#Para isso precisa do parametro inplace:
df.drop('Y',axis=1,inplace=True)

In [29]:
#Agora sim:
df

Unnamed: 0,W,X,Z,U
A,1.624345,-0.611756,-1.072969,-1.100619
B,0.865408,-2.301539,-0.761207,1.144724
C,0.319039,-0.24937,-2.060141,0.901591
D,-0.322417,-0.384054,-1.099891,0.502494
E,-0.172428,-0.877858,0.582815,0.900856


In [30]:
#Pode excluir linhas:
df.drop('B',axis=0)

Unnamed: 0,W,X,Z,U
A,1.624345,-0.611756,-1.072969,-1.100619
C,0.319039,-0.24937,-2.060141,0.901591
D,-0.322417,-0.384054,-1.099891,0.502494
E,-0.172428,-0.877858,0.582815,0.900856


#### Filtrando subconjuntos com uma condição


In [31]:
#Nosso dataFrame:
df

Unnamed: 0,W,X,Z,U
A,1.624345,-0.611756,-1.072969,-1.100619
B,0.865408,-2.301539,-0.761207,1.144724
C,0.319039,-0.24937,-2.060141,0.901591
D,-0.322417,-0.384054,-1.099891,0.502494
E,-0.172428,-0.877858,0.582815,0.900856


In [33]:
#Observe que aparece 'True ou 'False' de acorco com a condição ser verdadeira ou falsa
df<0

Unnamed: 0,W,X,Z,U
A,False,True,True,True
B,False,True,True,False
C,False,True,True,False
D,True,True,True,False
E,True,True,False,False


In [35]:
#Se quiser exibir os valores basta passar dentro dos colchetes:
df[df<0]

Unnamed: 0,W,X,Z,U
A,,-0.611756,-1.072969,-1.100619
B,,-2.301539,-0.761207,
C,,-0.24937,-2.060141,
D,-0.322417,-0.384054,-1.099891,
E,-0.172428,-0.877858,,


In [36]:
#Pode passar a condição em uma coluna:
df[df['U']<0]

Unnamed: 0,W,X,Z,U
A,1.624345,-0.611756,-1.072969,-1.100619


Era isso que queria mostrar. Uma breve introdução ao manipulação de dataframe com Pandas!

**Keep calm and analysing data!**