# Pandas

Agora vamos falar um pouco de Pandas, uma biblioteca de Python que pode ser encarada bem grossamente como uma versão do Excel em Python.<br><br>

O nome **Pandas** vem de Panel Data, e não do urso. E é utilizado justamente para a visualização de dados em painel. Vimos que por meio do numpy, foi possível criar vetores e matrizes. Com o Pandas, poderemos anexar cabeçalhos a esses valores presentes nos vetores ou matrizes, como se fosse de fato uma tabela em Excel.<br><br>

Sem mais delongas, vamos começar a falar de Pandas e como funciona...

Primeiramente, você deve ter o módulo Pandas instalado no seu computador, isso foi ensinado previamente no material de módulos. <br><br>

Após ter instalado, vamos importar o módulo. É extremamente comum, sempre que você trabalhar com o módulo Pandas, trabalhar com o Numpy junto, até porque o Pandas é baseado no numpy. Portanto, importarei o Numpy também:

In [1]:
import pandas as pd
import numpy as np

## Pandas Series

O primeiro tipo de dado que vamos abordar com o Pandas são as Series.<br><br>

As Series são bem similares à listas e à vetores, de forma que não é um tipo de dado matricial e sim unidimensional, porém, a diferença é que para cada elemento da Serie teremos um label específico, ao invés de um simples index location.<br><br>

Vamos trabalhar alguns exemplos:

In [2]:
labels = ['a','b','c','d']
lista = [1,2,3,4]
arr = np.arange(1,5,1)
dic = {'a':1, 'b':2, 'c':3, 'd':4}

Acima eu criei alguns objetos que usarei para criar Series. Farei isso para mostrar que posso partir de diferentes tipos de objetos para criar a nossa série. Primeiro vou mostrar o que acontece se criarmos uma Serie utilizando apenas uma lista:

In [3]:
pd.Series(data=lista)

0    1
1    2
2    3
3    4
dtype: int64

Veja que eu tenho o que se parece com um vetor de numpy, mas note que ao lado de cada elemento, eu possuo o index location de cada um. Eu estou sendo mostrado o index location pois não atribui nenhum label para os elementos, eu posso fazer isso utilizado minha outra lista "labels". Veja:

In [4]:
pd.Series(data=lista,index=labels)

a    1
b    2
c    3
d    4
dtype: int64

Agora, ao lado esquerdo de cada elemento, possuo o label correspondente! Eu posso criar o mesmo exato dicionário a partir de um array de Numpy. Veja:

In [5]:
pd.Series(data=arr,index=labels)

a    1
b    2
c    3
d    4
dtype: int32

Se eu utilizar um dicionário para criar uma série, os labels serão automaticamente colocados de acordo com o valor de cada elemento e sua key. Veja:

In [6]:
pd.Series(dic)

a    1
b    2
c    3
d    4
dtype: int64

Importante se notar que os dados armazenados em uma Serie ou um DataFrame (abordaremos um pouco mais a frente) não se limitam a números. Tanto que eu posso inverter a ordem dos fatores. Colocando a minha lista de labels como os valores e os valores como labels:

In [7]:
pd.Series(data=labels,index=arr)

1    a
2    b
3    c
4    d
dtype: object

## Utilizando indexação e somando séries

Vou criar um cenário hipotético. Pense que estamos na copa do mundo e eu vou criar uma Serie para mostrar a pontuação de cada país.

In [8]:
pont_1 = pd.Series(data=[5,7,15,9,3], index=['EUA', 'Alemanha',
                                            'Brasil', 'Italia', 'Japao'])

In [9]:
pont_1

EUA          5
Alemanha     7
Brasil      15
Italia       9
Japao        3
dtype: int64

In [10]:
# Se eu quiser indexar algum elemento desta série, posso fazer da seguinte forma:
pont_1['Brasil']

15

Agora vamos supor que por algum erro, estão faltando pontos e alguns paises na Serie pont_1. O restante dos pontos estão em outra Serie pont_2:

In [11]:
pont_2 = pd.Series(data=[2,3,1,9], index=['Coreia do Sul',
                                            'Brasil', 'Italia', 'Argentina'])

In [12]:
pont_2

Coreia do Sul    2
Brasil           3
Italia           1
Argentina        9
dtype: int64

Algo que podemos fazer com Series seria somar ambas, porém teremos um problema que mostrarei como solucionar posteriormente, quando estivermos lidando com valores nulos. Vamos somar:

In [13]:
pont_1 + pont_2

Alemanha          NaN
Argentina         NaN
Brasil           18.0
Coreia do Sul     NaN
EUA               NaN
Italia           10.0
Japao             NaN
dtype: float64

Veja que todos os labels que não eram comuns entre as duas Series foram atribuidos valores de NaN (isto significa: Not a Number)

**Agora que falamos um pouco de Series, vamos passar para dos DataFrames. Que vai utilizar e expandir os conceitos que aprendemos até agora**

## DataFrames

Os **DataFrames** são de fato o cerne da biblioteca Pandas. Podemos encarar os DataFrames como um conjunto de Series todas juntas e compartilando os mesmos index. Vou aqui criar um DataFrame para vermos como funciona:

In [14]:
#Vou aqui mostrar a documentação da classe DataFrame.
#Lembre-se que no Jupyter, você pode facilmente ver a documentação apertando SHIFT + TAB
help(pd.DataFrame)

Help on class DataFrame in module pandas.core.frame:

class DataFrame(pandas.core.generic.NDFrame)
 |  DataFrame(data=None, index: Union[Collection, NoneType] = None, columns: Union[Collection, NoneType] = None, dtype: Union[str, numpy.dtype, ForwardRef('ExtensionDtype'), NoneType] = None, copy: bool = False)
 |  
 |  Two-dimensional, size-mutable, potentially heterogeneous tabular data.
 |  
 |  Data structure also contains labeled axes (rows and columns).
 |  Arithmetic operations align on both row and column labels. Can be
 |  thought of as a dict-like container for Series objects. The primary
 |  pandas data structure.
 |  
 |  Parameters
 |  ----------
 |  data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame
 |      Dict can contain Series, arrays, constants, or list-like objects.
 |  
 |      .. versionchanged:: 0.23.0
 |         If data is a dict, column order follows insertion-order for
 |         Python 3.6 and later.
 |  
 |      .. versionchanged:: 0.25.0

In [15]:
df = pd.DataFrame(data=np.random.randn(5,4),
                  index='A B C D E'.split(),
                  columns='W X Y Z'.split())

In [16]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Esse é o nosso DataFrame, veja que se parece com uma matriz, porém temos labels para as colunas e para as linhas!

### Indexação
Vamos ver algumas maneiras diferentes para capturar dados dos DataFrames:

In [17]:
df['X']

A   -2.351614
B    1.350820
C    0.920148
D    2.426338
E    0.382727
Name: X, dtype: float64

In [18]:
# Posso também passar uma lista de nomes de colunas:
df[['X','Z']]

Unnamed: 0,X,Z
A,-2.351614,0.672217
B,1.35082,-0.44697
C,0.920148,1.503183
D,2.426338,0.847775
E,0.382727,0.383717


In [19]:
# Eu posso também chamar a coluna como se fosse um método:
# Esta maneira de indexar não é muito recomendada, pois corre-se o risco de você chamar algum método em vez de indexar a coluna
df.X

A   -2.351614
B    1.350820
C    0.920148
D    2.426338
E    0.382727
Name: X, dtype: float64

Para criar uma nova coluna no seu DataFrame, basta indexar uma coluna com um nome que ainda não foi criado, e especificar o dado que ela deve conter.  Veja como é simples:

In [20]:
df['nova_col'] = df['X'] + df['Z']

In [21]:
df

Unnamed: 0,W,X,Y,Z,nova_col
A,0.475503,-2.351614,0.782916,0.672217,-1.679397
B,-0.225925,1.35082,0.477558,-0.44697,0.90385
C,-2.035758,0.920148,0.822441,1.503183,2.423331
D,-1.02707,2.426338,-0.031602,0.847775,3.274114
E,-2.396329,0.382727,-0.368922,0.383717,0.766444


Agora, se eu quiser remover uma parte do DataFrame, eu posso utilizar o método **.drop()** para fazê-lo:

In [22]:
#Veja o que acontece se eu tentar simplesmente remover uma coluna:
df.drop('nova_col')

KeyError: "['nova_col'] not found in axis"

Temos um erro que o label "nova-col" não foi encontrado, porém, existe uma coluna com este nome! Isto corre pelo seguinte: <br><br>

A função drop, assim como algumas outras que veremos mais a frente, possui o argumento **axis**, que tem como default, o valor 0. Quando o valor do axis é 0, significa que estamos nos referindo às linhas, e quando o valor do axis é 1 significa que estamos nos referindo às colunas (seguindo a ordem de indexação de elementos de matrizes, primeiro as linhas e depois as  colunas!). Veja como é feito da forma correta:

In [23]:
df.drop('nova_col',axis=1)

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Agora funcionou! Se eu quiser deletar uma linha, eu posso fazê-la simplesmente sem especificar um valor para o argumento "axis", ou especificando e falando que é 0, porém isso não é necessário, visto que esse método atribui o valor 0 como default para o argumento "axis".

In [24]:
df.drop('E')

Unnamed: 0,W,X,Y,Z,nova_col
A,0.475503,-2.351614,0.782916,0.672217,-1.679397
B,-0.225925,1.35082,0.477558,-0.44697,0.90385
C,-2.035758,0.920148,0.822441,1.503183,2.423331
D,-1.02707,2.426338,-0.031602,0.847775,3.274114


Note que a coluna que eu havia deletado voltou a aparecer!

Isso ocorre porque o Pandas não deleta de fato as colunas ou linhas com o método drop, a não ser que você especifique um argumento **inplace** como **True**. Veja:

In [25]:
df.drop(labels='nova_col',axis=1,inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


### loc e iloc

Você deve ter notado que ao indexarmos elementos de um df, estávamos indexando as colunas:

In [26]:
df['W']

A    0.475503
B   -0.225925
C   -2.035758
D   -1.027070
E   -2.396329
Name: W, dtype: float64

Para indexarmos linhas, podemos utilizar os métodos **loc** e **iloc**. Veja como funciona:

In [27]:
# O loc funciona como se estivéssemos indexando normalmente:
df.loc['A']

W    0.475503
X   -2.351614
Y    0.782916
Z    0.672217
Name: A, dtype: float64

Ao indexarmos uma linha, nos é retornado uma série, assim como se estivéssemos indexando uma coluna.

Agora, ao falar do método **iloc**, é bem semelhante, a diferença é que vamos especificar a linha por seu index location, e não por seu label:

In [28]:
# Pegando a linha A, que é a primeira, e possui o index location 0
df.iloc[0]

W    0.475503
X   -2.351614
Y    0.782916
Z    0.672217
Name: A, dtype: float64

Com **loc** eu posso pegar subsets de linhsa e colunas e também passar listas para pegar partes do DataFrame

In [29]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


In [30]:
# Pegando um elemento especifico passando a linha e depois a coluna
df.loc['B','Z']

-0.4469704496152444

In [31]:
# Pegando parte do DataFrame passando listas de linhas e colunas:
df.loc[['B', 'E'], ['W', 'Y']]

Unnamed: 0,W,Y
B,-0.225925,0.477558
E,-2.396329,-0.368922


### Seleção condicional

Assim como vimos em Numpy, podemos selecionar e filtrar elementos de um DataFrame por meio de afirmações condicionais, e isso vai ser uma ferramenta muito importante quando trabalhando com Pandas:

In [32]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Se eu criar uma afirmação condicional a partir do meu df, será me retornado um df com *boolean values* apenas. Veja:

In [33]:
df<0

Unnamed: 0,W,X,Y,Z
A,False,True,False,False
B,True,False,False,True
C,True,False,False,False
D,True,False,True,False
E,True,False,True,False


A partir disso, eu posso tentar indexar o df original, vamos ver o que acontece:

In [34]:
df[df<0]

Unnamed: 0,W,X,Y,Z
A,,-2.351614,,
B,-0.225925,,,-0.44697
C,-2.035758,,,
D,-1.02707,,-0.031602,
E,-2.396329,,-0.368922,


Em todos os lugares em que afirmação foi falsa, o valor foi alterado para NaN. Hm, e se eu quiser filtrar meu df, tirando os valores negativos de alguma coluna? Isso pode ser feito da seguinte forma:

In [35]:
df[df['Z']>0]

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Vamos por partes, pois essa parte é importante compreender de fato. Vamos lembrar o que acontece se eu selecionar a coluna Z do meu DataFrame:

In [36]:
df['Z']

A    0.672217
B   -0.446970
C    1.503183
D    0.847775
E    0.383717
Name: Z, dtype: float64

Beleza, fui retornado uma série com o valor de cada linha para a coluna que escolhi. Agora vamos aplicar uma afirmação condicional:

In [37]:
df['Z']>0

A     True
B    False
C     True
D     True
E     True
Name: Z, dtype: bool

Eu tenho agora a mesma série porém com valores boolean apenas. O Pandas possui a inteligência para que, se eu realizar a indexação do df com uma série de valores boolean, de me retornar apenas as linhas nas quais os valores são **True**. Então, juntando tudo:

In [38]:
df[df['Z']>0]

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Note que o Output disso tudo foi mais um DataFrame, então, se eu quiser, eu posso indexar alguma coluna dele pra obter uma outra série como Output:

In [39]:
df[df['Z']>0]['Y']

A    0.782916
C    0.822441
D   -0.031602
E   -0.368922
Name: Y, dtype: float64

In [40]:
# Ou então indexar algumas colunas, por meio de uma lista, e obter outro DataFrame
df[df['Z']>0][['Y', 'Z']]

Unnamed: 0,Y,Z
A,0.782916,0.672217
C,0.822441,1.503183
D,-0.031602,0.847775
E,-0.368922,0.383717


Se eu quiser realizar dois filtros ao mesmo tempo no meu df, posso realizá-lo da seguinte forma:

In [41]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


In [42]:
# Dessa forma estamos juntando duas afirmações condicionais
df[(df['Y'] > 0) & (df['Z'] > 0)]

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
C,-2.035758,0.920148,0.822441,1.503183


In [43]:
df[(df['Y'] > 0) | (df['Z'] > 0)]

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


### Alguns métodos para trabalhar com indexes

In [44]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Algo que podemos fazer é resetar o index de um DataFrame, por exemplo, se eu quiser eu posso remover o index A, B, C... para colocar 0, 1, 2... Com o seguinte método:

In [45]:
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,0.475503,-2.351614,0.782916,0.672217
1,B,-0.225925,1.35082,0.477558,-0.44697
2,C,-2.035758,0.920148,0.822441,1.503183
3,D,-1.02707,2.426338,-0.031602,0.847775
4,E,-2.396329,0.382727,-0.368922,0.383717


Reminder: o argumento **Inplace** ainda é válido para esses métodos, portanto, se eu chamar o df agora, ele será mostrado como foi feito originalmente:

In [46]:
df

Unnamed: 0,W,X,Y,Z
A,0.475503,-2.351614,0.782916,0.672217
B,-0.225925,1.35082,0.477558,-0.44697
C,-2.035758,0.920148,0.822441,1.503183
D,-1.02707,2.426338,-0.031602,0.847775
E,-2.396329,0.382727,-0.368922,0.383717


Existe um outro método para indicar uma nova coluna para ser os indexes do DataFrame. Veja, vou adicionar uma nova coluna com siglas de estados brasileiros e depois vou colocá-la como um index:

In [47]:
estados = 'SP RJ MT SC RS'.split()
df['Estados'] = estados
df

Unnamed: 0,W,X,Y,Z,Estados
A,0.475503,-2.351614,0.782916,0.672217,SP
B,-0.225925,1.35082,0.477558,-0.44697,RJ
C,-2.035758,0.920148,0.822441,1.503183,MT
D,-1.02707,2.426338,-0.031602,0.847775,SC
E,-2.396329,0.382727,-0.368922,0.383717,RS


In [48]:
df.set_index('Estados')

Unnamed: 0_level_0,W,X,Y,Z
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,0.475503,-2.351614,0.782916,0.672217
RJ,-0.225925,1.35082,0.477558,-0.44697
MT,-2.035758,0.920148,0.822441,1.503183
SC,-1.02707,2.426338,-0.031602,0.847775
RS,-2.396329,0.382727,-0.368922,0.383717


In [49]:
# Como não usei o inplace=True, se eu chamar o df:
df

Unnamed: 0,W,X,Y,Z,Estados
A,0.475503,-2.351614,0.782916,0.672217,SP
B,-0.225925,1.35082,0.477558,-0.44697,RJ
C,-2.035758,0.920148,0.822441,1.503183,MT
D,-1.02707,2.426338,-0.031602,0.847775,SC
E,-2.396329,0.382727,-0.368922,0.383717,RS


### Hierarquia de Index e Multi-Index

O que podemos fazer com o DataFrame também é criar mais de um tipo de índice, imagine como se alguns indices fizessem parte de um grupo e outros fizessem parte de outro grupo. <br><br>

Vou tentar trazer um exemplo didático seguindo a lógica dos estados brasileiros:

In [50]:
maior = 'Sudeste Sudeste Sudeste Sudeste CentroOeste CentroOeste CentroOeste CentroOeste'.split()
menor = 'SP RJ ES MG MS MT GO DF'.split()
indexador = list(zip(maior, menor))
index = pd.MultiIndex.from_tuples(indexador)

In [51]:
index

MultiIndex([(    'Sudeste', 'SP'),
            (    'Sudeste', 'RJ'),
            (    'Sudeste', 'ES'),
            (    'Sudeste', 'MG'),
            ('CentroOeste', 'MS'),
            ('CentroOeste', 'MT'),
            ('CentroOeste', 'GO'),
            ('CentroOeste', 'DF')],
           )

In [52]:
df = pd.DataFrame(np.random.randn(8,2), index=index, columns=['A', 'B'])
df.index.names=['Regiões', 'Estados']

In [53]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Regiões,Estados,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,3.019573,0.652048
Sudeste,RJ,-0.34906,-0.381213
Sudeste,ES,-0.141022,0.994119
Sudeste,MG,-2.25848,-2.168206
CentroOeste,MS,0.139751,0.263355
CentroOeste,MT,1.945916,-0.861472
CentroOeste,GO,-0.678697,-0.746083
CentroOeste,DF,-0.596523,-0.908167


### Lidando com NaNs

Vou agora mostrar dois métodos que podemos utilizar para lidar com NaNs em nossos DataFrames:

In [54]:
import numpy as np
import pandas as pd

In [55]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

Veja que acima eu defini o dicionário direto no argumento do DataFrame, isso pode ser feito sem problemas!

In [56]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


Primeiro eu vou mostrar o método **dropna**, que vai eliminar linhas ou colunas que possuem elementos NaN:

In [57]:
# Sem definir axis=1, eu elimino as linhas
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [58]:
# Definindo o argumento axis=1, eu vou eliminar as colunas:
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [59]:
# Ver o Help das funções ou utilizar Shift+Tab no Jupyter sempre ajuda:
help(pd.DataFrame.dropna)

Help on function dropna in module pandas.core.frame:

dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)
    Remove missing values.
    
    See the :ref:`User Guide <missing_data>` for more on which values are
    considered missing, and how to work with missing data.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        Determine if rows or columns which contain missing values are
        removed.
    
        * 0, or 'index' : Drop rows which contain missing values.
        * 1, or 'columns' : Drop columns which contain missing value.
    
        .. versionchanged:: 1.0.0
    
           Pass tuple or list to drop on multiple axes.
           Only a single axis is allowed.
    
    how : {'any', 'all'}, default 'any'
        Determine if row or column is removed from DataFrame, when we have
        at least one NA or all NA.
    
        * 'any' : If any NA values are present, drop that row or column.
        * 'all' :

Outro método que utilizamos para lidar com NaNs é o **.fillna** que irá substituir os valores NaNs por algum de sua preferência:

In [60]:
df.fillna(value='VALOR DE SUA PREFERÊNCIA') #risos

Unnamed: 0,A,B,C
0,1,5,1
1,2,VALOR DE SUA PREFERÊNCIA,2
2,VALOR DE SUA PREFERÊNCIA,VALOR DE SUA PREFERÊNCIA,3


Dependendo da base de dados com a qual você esteja trabalhando, existirá uma forma melhor de lidar com os valores ausentes, porém uma forma possível seria colocar a média dos valores daquela coluna:

In [61]:
df.apply(lambda x : x.fillna(x.mean()),axis=0)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,1.5,5.0,3


Acima, eu consegui colocar a média dos valores de cada coluna por meio do método **.apply**, que insere uma fórmula por algum dos eixos do df. E criei uma função lambda contendo o método fillna a partir da média dos valores daquela coluna.

### GroupBy

Agora vamos falar de um outro método importante do Pandas que é o **groupby**. Que nos permitirá agregar os dados baseados em alguma chave em comum. Veja:

In [62]:
dados = pd.DataFrame({'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Samuel','Carlos','Ana','Vanessa','Mateus','Bruna'],
       'Vendas':[200,120,340,124,243,350]})
dados

Unnamed: 0,Empresa,Nome,Vendas
0,GOOG,Samuel,200
1,GOOG,Carlos,120
2,MSFT,Ana,340
3,MSFT,Vanessa,124
4,FB,Mateus,243
5,FB,Bruna,350


Repare na estrutura do DF acima, veja que o nome da empresa se repete de acordo com o nome do vendedor, mas supomos que por ora o nome do vendedor não importe para a gente e só queremos saber as vendas por empresa, o que podemos fazer é utilizar o método groupby para resolver esse problema:

In [63]:
dados.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C543DC1EC8>

Veja que foi me retornado um objeto que não consigo visualizar e seu endereço na memória. Isso ocorre porque pedimos para os dados serem agrupados porém não falamos exatamente o que queremos com isso, portanto, vou mostrar o que podemos fazer. Vou criar um novo DF e mostrar como podemos calcular os dados:

In [64]:
dados_emp = dados.groupby('Empresa')

In [65]:
#Se eu quiser saber o total de vendas por empresa, posso fazer:
dados_emp.sum()

Unnamed: 0_level_0,Vendas
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [66]:
# Posso fazer para a média:
dados_emp.mean()

Unnamed: 0_level_0,Vendas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [67]:
# Desvio Padrào
dados_emp.std()

Unnamed: 0_level_0,Vendas
Empresa,Unnamed: 1_level_1
FB,75.660426
GOOG,56.568542
MSFT,152.735065


In [68]:
# Min e Max
dados_emp.min() # se quiser o máximo, basta colocar max

Unnamed: 0_level_0,Nome,Vendas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Bruna,243
GOOG,Carlos,120
MSFT,Ana,124


In [69]:
# Se eu quiser um resumo de estatísticas, posso usar o método describe:
dados_emp.describe()

Unnamed: 0_level_0,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [70]:
help(pd.DataFrame.describe)

Help on function describe in module pandas.core.generic:

describe(self: ~FrameOrSeries, percentiles=None, include=None, exclude=None) -> ~FrameOrSeries
    Generate descriptive statistics.
    
    Descriptive statistics include those that summarize the central
    tendency, dispersion and shape of a
    dataset's distribution, excluding ``NaN`` values.
    
    Analyzes both numeric and object series, as well
    as ``DataFrame`` column sets of mixed data types. The output
    will vary depending on what is provided. Refer to the notes
    below for more detail.
    
    Parameters
    ----------
    percentiles : list-like of numbers, optional
        The percentiles to include in the output. All should
        fall between 0 and 1. The default is
        ``[.25, .5, .75]``, which returns the 25th, 50th, and
        75th percentiles.
    include : 'all', list-like of dtypes or None (default), optional
        A white list of data types to include in the result. Ignored
        for `

## Merge, Join e Concatenação

Existem 3 principais maneiras de combinar DataFrames, que são as funções: 
**merge, join e concat**. Vamos ver como estas funcionam com exemplos.

In [71]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [72]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [73]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

#### Concatenação

Vamos começar falando da função **.concat**. Que serve para basucamente "colar" um DF no outro, seja por linhas ou colunas. Veja:

In [74]:
help(pd.concat)

Help on function concat in module pandas.core.reshape.concat:

concat(objs: Union[Iterable[Union[ForwardRef('DataFrame'), ForwardRef('Series')]], Mapping[Union[Hashable, NoneType], Union[ForwardRef('DataFrame'), ForwardRef('Series')]]], axis=0, join='outer', ignore_index: bool = False, keys=None, levels=None, names=None, verify_integrity: bool = False, sort: bool = False, copy: bool = True) -> Union[ForwardRef('DataFrame'), ForwardRef('Series')]
    Concatenate pandas objects along a particular axis with optional set logic
    along the other axes.
    
    Can also add a layer of hierarchical indexing on the concatenation axis,
    which may be useful if the labels are the same (or overlapping) on
    the passed axis number.
    
    Parameters
    ----------
    objs : a sequence or mapping of Series or DataFrame objects
        If a dict is passed, the sorted keys will be used as the `keys`
        argument, unless it is passed, in which case the values will be
        selected (see

In [75]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [76]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


Simples, certo? Bom, agora vamos falar do **merge**. Se você tiver conhecimento de SQL, verá que o merge traz a mesma lógica. Porém, para um iniciante isso pode ser relativamente confuso, sugiro que procure mais a respeito também e tente entender.

In [80]:
esquerda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
direita = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})  

In [81]:
esquerda

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [82]:
direita

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [84]:
pd.merge(esquerda, direita)

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [86]:
pd.merge(esquerda, direita, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [87]:
# Tentando com dataframes com keys diferentes
esquerda = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
direita = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [88]:
esquerda

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [89]:
direita

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [92]:
pd.merge(esquerda, direita, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [93]:
pd.merge(esquerda, direita, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


Bom, vamos falar um pouco do que foi feito aqui.<br><br>

O merge é uma função com maior funcionalidade do que a concatenação, porém para juntarmos apenas dois dataframes, enquanto no concat, eu posso passar uma lista de dataframes e ir colando um no outro!<br><br>

A função merge possui uma boa quantidade de argumentos que podem ser explorados e inclusive eu recomendo que o faça, um muito importante é esse **how**, vou deixar aqui uma documentação legal a respeito de join em SQL que explica como funciona o argumento **how**: <br>
>https://www.w3schools.com/sql/sql_join.asp

Bom, agora falando sobre o método **join**. Ele é a mesma coisa que o merge, porém em vez de uma função, é um método que do DataFrame! Ou seja, chamamos ele de uma forma diferente em nosso código, veja:

In [96]:
esquerda = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [99]:
esquerda

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [100]:
direita

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [97]:
esquerda.join(direita)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [98]:
esquerda.join(direita, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


## Outras operações

Vou mostrar alguns outros métodos que são úteis no Pandas e que não pude mostrar até agora em nenhuma categoria específica. Vamos ver:

In [101]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[100,500,600,100],'col3':['abc','def','ghi','xyz']})
df

Unnamed: 0,col1,col2,col3
0,1,100,abc
1,2,500,def
2,3,600,ghi
3,4,100,xyz


In [102]:
# podemos saber quais são os valores únicos de uma coluna
df['col2'].unique()

array([100, 500, 600], dtype=int64)

In [103]:
# podemos saber da quantidade de valores únicos
df['col2'].nunique()

3

In [104]:
# saber quantas vezes cada valor aparece
df['col2'].value_counts()

100    2
500    1
600    1
Name: col2, dtype: int64

In [105]:
# o método apply aplica uma função no DF ou em alguma parte dele:
df['col1'].apply(lambda x: x*2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [106]:
df[['col1', 'col2']].apply(lambda x: x*2)

Unnamed: 0,col1,col2
0,2,200
1,4,1000
2,6,1200
3,8,200


In [107]:
df.apply(lambda x : x*2) #eu posso multiplicar strings em Python!

Unnamed: 0,col1,col2,col3
0,2,200,abcabc
1,4,1000,defdef
2,6,1200,ghighi
3,8,200,xyzxyz


In [108]:
# posso obter a soma de uma coluna
df['col2'].sum()

1300

In [109]:
# posso remover uma coluna permanentemente, como se inplace=True
del df['col1']

In [110]:
df

Unnamed: 0,col2,col3
0,100,abc
1,500,def
2,600,ghi
3,100,xyz


In [112]:
#ver as colunas de um DataFrame
df.columns

Index(['col2', 'col3'], dtype='object')

In [113]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [114]:
df.set_index('col3').index

Index(['abc', 'def', 'ghi', 'xyz'], dtype='object', name='col3')

In [116]:
# Posso ordenar meu DataFrame
df.sort_values('col2') #inplace=False por default

Unnamed: 0,col2,col3
0,100,abc
3,100,xyz
1,500,def
2,600,ghi


In [117]:
df

Unnamed: 0,col2,col3
0,100,abc
1,500,def
2,600,ghi
3,100,xyz


Outra coisa que podemos fazer com os DataFrames é criar pivot tables (a famosa tabela dinâmica do Excel) a partir deles. Se você é um usuário de Excel relativamente avançado, você deve ter bastante prática com isso. Vamos ver como fazer isso com Pandas:

In [119]:
df = pd.DataFrame({'A':['legal','legal','legal','chato','chato','chato'],
     'B':['um','um','dois','dois','um','um'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]})

df

Unnamed: 0,A,B,C,D
0,legal,um,x,1
1,legal,um,y,3
2,legal,dois,x,2
3,chato,dois,y,5
4,chato,um,x,4
5,chato,um,y,1


In [120]:
# Vamos fazer uma Pivot Table a partir dos dados acima
df.pivot_table(values='D', index=['A', 'B'], columns='C')

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
chato,dois,,5.0
chato,um,4.0,1.0
legal,dois,2.0,
legal,um,1.0,3.0


Olha, de fato não se preocupe caso não tenha ficado 100% claro algumas das coisas que fiz aqui, o mais importante é você saber que existem essas ferramentas e conseguir aplicá-las para o seu uso. No meu caso, e acredito que possa ser o seu, alguns desses métodos e funções só fazem sentido pra mim quando estou trabalhando com dados reais, e quando estou simplesmente chamando tudo de X e Y fica confuso!

Portanto, não se preocupe. Acredito que se você conseguiu absorver o que eu apresentei aqui de forma básica, já possui um bom conhecimento de Pandas que agora pode ser aplicado e aprofundado!

# Boa sorte e bom trabalho!