# Pandas - DataFrames

É o elemento mais importante dos Pandas (data + indice + colunas)

Inspirado pela linguagem de programação R

Um DataFrame é como vários objetos "Series" juntos que compartilham o mesmo índice

* Topicos:
    * Inicialização
    * Seleção de linhas e colunas
    * Manipulação de linhas e colunas
    * Seleção Condicional
    * Resetar Indice ou Configurar
    * Níveis de Índice

In [20]:
# Importar Bibliotecas

import pandas as pd
import numpy as np

# Configurar Semente dos números aleatórios (para gerar sempre os mesmo resultados)

from numpy.random import randn
np.random.seed(101)

# Inicializar Dataframe a partir de Dicionario

dados = {'Estados': ['Am','Sp','Rj','Ce','Rs','Bsb','Ba'],
        'Anos': [2017,2016,2015,2011,2010,2008,2007],
        'Salarios':[2500,4500,3500,2500,1100,4500,3500]}

df1 = pd.DataFrame(dados)
print(df1)
print()

df1 = pd.DataFrame(dados,columns=['Estados','Anos','Salarios'])
print(df1)
print()

# Obter nomes das colunas e dos indices

print(df1.columns)
print()

print(df1.index)
print()

# Cinco primeiros valores do Dataframe

print(df1.head())

   Anos Estados  Salarios
0  2017      Am      2500
1  2016      Sp      4500
2  2015      Rj      3500
3  2011      Ce      2500
4  2010      Rs      1100
5  2008     Bsb      4500
6  2007      Ba      3500

  Estados  Anos  Salarios
0      Am  2017      2500
1      Sp  2016      4500
2      Rj  2015      3500
3      Ce  2011      2500
4      Rs  2010      1100
5     Bsb  2008      4500
6      Ba  2007      3500

Index(['Estados', 'Anos', 'Salarios'], dtype='object')

RangeIndex(start=0, stop=7, step=1)

  Estados  Anos  Salarios
0      Am  2017      2500
1      Sp  2016      4500
2      Rj  2015      3500
3      Ce  2011      2500
4      Rs  2010      1100


In [21]:
# Seleção e Indexação

# Inicializar Dataframe de 5 linhas e 4 colunas

df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
print(df)
print()

# Selecionar coluna (Serie)

print(df['W'])
print()

# Gerar novo DataFrame, a partir de lista de colunas

print(df[['W','Z']])
print()

# Selecionar coluna (Serie) - Sintaxe SQL (Não recomendado)

print(df.W)
print()

# Coluna de um DataFrame é uma Serie

print(type(df['W']))
print()

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
C -2.018168  0.740122  0.528813 -0.589001
D  0.188695 -0.758872 -0.933237  0.955057
E  0.190794  1.978757  2.605967  0.683509

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

          W         Z
A  2.706850  0.503826
B  0.651118  0.605965
C -2.018168 -0.589001
D  0.188695  0.955057
E  0.190794  0.683509

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

<class 'pandas.core.series.Series'>



In [22]:
# Manipulação de DataFrames

# Criar nova coluna

df['new'] = df['W'] + df['Y']
print(df)
print()

# Remover coluna (inplace é necessário)

df.drop('new',axis=1,inplace=True)
print(df)
print()

# Remover linha (inplace é necessário)

df.drop('E',axis=0,inplace=True)
print(df)
print()

# Remover Coluna

del df['Z']
print(df)
print()

          W         X         Y         Z       new
A  2.706850  0.628133  0.907969  0.503826  3.614819
B  0.651118 -0.319318 -0.848077  0.605965 -0.196959
C -2.018168  0.740122  0.528813 -0.589001 -1.489355
D  0.188695 -0.758872 -0.933237  0.955057 -0.744542
E  0.190794  1.978757  2.605967  0.683509  2.796762

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
C -2.018168  0.740122  0.528813 -0.589001
D  0.188695 -0.758872 -0.933237  0.955057
E  0.190794  1.978757  2.605967  0.683509

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
C -2.018168  0.740122  0.528813 -0.589001
D  0.188695 -0.758872 -0.933237  0.955057

          W         X         Y
A  2.706850  0.628133  0.907969
B  0.651118 -0.319318 -0.848077
C -2.018168  0.740122  0.528813
D  0.188695 -0.758872 -0.933237



In [23]:
# Seleção de Linhas e Colunas

# Seleciona Linha A
print(df.loc['A'])
print()

# Seleciona linha C (pelo indice)
print(df.iloc[2])
print()

# Seleciona linha B, coluna Y
print(df.loc['B','Y'])
print()

# Seleciona linhas e colunas (por nomes)
print(df.loc[['A','B'],['X','Y','Z']])
print()

# Seleciona linhas e colunas (por indices)
print(df.iloc[1:4,2:])
print()

W    2.706850
X    0.628133
Y    0.907969
Name: A, dtype: float64

W   -2.018168
X    0.740122
Y    0.528813
Name: C, dtype: float64

-0.848076983404

          X         Y   Z
A  0.628133  0.907969 NaN
B -0.319318 -0.848077 NaN

          Y
B -0.848077
C  0.528813
D -0.933237



In [24]:
# Seleção condicional

np.random.seed(101)

df = pd.DataFrame(randn(5,4),index = 'A B C D E'.split(), columns = 'W X Y Z'.split())
print(df)
print()

# Dataframe com valores booleanos
print(df>0)
print()

# novo Dataframe com "NaN" nas posições onde df < 0
print(df[df>0])
print()

# novo Dataframe com linhas onde coluna 'W' > 0
print(df[df['W']>0])
print()

# novo Dataframe, Apenas colunas 'X' e 'Y'
print(df[df['W']>0][['Y','X']])
print()

# novo Dataframe, Mais de uma condição (operadores '&' ou '|')
print(df[(df['W']>0) & (df['Y'] > 1)])
print()

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
C -2.018168  0.740122  0.528813 -0.589001
D  0.188695 -0.758872 -0.933237  0.955057
E  0.190794  1.978757  2.605967  0.683509

       W      X      Y      Z
A   True   True   True   True
B   True  False  False   True
C  False   True   True  False
D   True  False  False   True
E   True   True   True   True

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118       NaN       NaN  0.605965
C       NaN  0.740122  0.528813       NaN
D  0.188695       NaN       NaN  0.955057
E  0.190794  1.978757  2.605967  0.683509

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
D  0.188695 -0.758872 -0.933237  0.955057
E  0.190794  1.978757  2.605967  0.683509

          Y         X
A  0.907969  0.628133
B -0.848077 -0.319318
D -0.933237 -0.758872
E  2.605967  1

In [25]:
# Resetar Indice ou Configurar de Outra Forma

# Resetar Indice (de 0 a n-1)

df.reset_index(inplace=True)
print(df)
print()

# Setar Indice

col = 'RS RJ SP AM SC'.split()
df['Estado'] = col
print(df)
print()

df.set_index('Estado',inplace=True)
print(df)
print()

  index         W         X         Y         Z
0     A  2.706850  0.628133  0.907969  0.503826
1     B  0.651118 -0.319318 -0.848077  0.605965
2     C -2.018168  0.740122  0.528813 -0.589001
3     D  0.188695 -0.758872 -0.933237  0.955057
4     E  0.190794  1.978757  2.605967  0.683509

  index         W         X         Y         Z Estado
0     A  2.706850  0.628133  0.907969  0.503826     RS
1     B  0.651118 -0.319318 -0.848077  0.605965     RJ
2     C -2.018168  0.740122  0.528813 -0.589001     SP
3     D  0.188695 -0.758872 -0.933237  0.955057     AM
4     E  0.190794  1.978757  2.605967  0.683509     SC

       index         W         X         Y         Z
Estado                                              
RS         A  2.706850  0.628133  0.907969  0.503826
RJ         B  0.651118 -0.319318 -0.848077  0.605965
SP         C -2.018168  0.740122  0.528813 -0.589001
AM         D  0.188695 -0.758872 -0.933237  0.955057
SC         E  0.190794  1.978757  2.605967  0.683509



In [26]:
# Níveis de Índice

# Objeto Multinivel

outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))             # Lista de tuplas
hier_index = pd.MultiIndex.from_tuples(hier_index) # Objeto Multinivel

# DataFrame com Indice Multinivel

df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
print(df)
print()

# Get nivel G1

print(df.loc['G1'])
print()

print(df.loc['G1'].loc[1])
print()

# Dar nome aos indices

df.index.names = ['Grupo','Numero']
print(df)
print()

# Get nivel G1

print(df.xs('G1'))
print()

# Get nivel "numero" = 1

print(df.xs(1,level='Numero'))
print()

             A         B
G1 1  0.302665  1.693723
   2 -1.706086 -1.159119
   3 -0.134841  0.390528
G2 1  0.166905  0.184502
   2  0.807706  0.072960
   3  0.638787  0.329646

          A         B
1  0.302665  1.693723
2 -1.706086 -1.159119
3 -0.134841  0.390528

A    0.302665
B    1.693723
Name: 1, dtype: float64

                     A         B
Grupo Numero                    
G1    1       0.302665  1.693723
      2      -1.706086 -1.159119
      3      -0.134841  0.390528
G2    1       0.166905  0.184502
      2       0.807706  0.072960
      3       0.638787  0.329646

               A         B
Numero                    
1       0.302665  1.693723
2      -1.706086 -1.159119
3      -0.134841  0.390528

              A         B
Grupo                    
G1     0.302665  1.693723
G2     0.166905  0.184502

