<!--NAVIGATION-->
< [NumPy Library](3-NumPy_Library.ipynb) | [Contents](0-Index.ipynb) | [Scikit-Learn Library](5-Scikit-Learn_Library.ipynb)  >

# 4  Biblioteca Pandas


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/computational-chemical-biology/DataScience/blob/master/4-Pandas_Library.ipynb)

 <a id="top"></a> <br>
**Conteúdo do *Notebook***
1. [Introdução à biblioteca Pandas](#1)
2. [Objetos da biblioteca Pandas](#2)
    1. [Objetos do tipo *Series*](#21)
    1. [Objetos do tipo *DataFrame*](#22)
    1. [Objetos do tipo *Index*](#23)
3. [Manipulação de índices e seleção](#3)
4. [Aplicação de operações aos dados](#4)
5. [Combinando *DataFrames*](#5)
6. [Referências](#6)

<a id="1"></a> <br>
# 1 - Introdução à biblioteca Pandas

A biblioteca Pandas fornece métodos para manipulação eficiente de *arrays* multidimensionais com rótulos (*labels*) para linhas e colunas, e com a possibilidade de armazenar diferentes tipos de dados. Estes *arrays* multidimensionais são denominados ``DataFrames``<cite data-cite="236589/TU28EEPW"></cite>. 

Pandas estende as funcionalidades dos objetos ``ndarrays`` da biblioteca NumPy, incorporando maior flexibilidade a manipulação de grandes conjuntos de dados.

Assim como NumPy, a biblioteca Pandas possui uma extensa [documentação](http://pandas.pydata.org/).

Como na seção anterior, recomendamos a versão 0.18.1 ou superior.

In [1]:
# importar biblioteca e inspecionar versão
import pandas as pd
pd.__version__

'0.24.2'

<a id="2"></a> <br>
# 2 - Objetos da biblioteca Pandas

Pandas fornece uma ampla gama de ferramentas para manipular as estruturas básicas de armazenamento de dados de diferentes tipos. Na sequência discutiremos três estruturas de dados fornecidas pela biblioteca ``Series``, ``DataFrame``, e ``Index``.

<a id="21"></a> <br>
## 2.1 - Objetos do tipo *Series*

Um objeto ``Series`` é um *array* de uma dimensão onde os dados são indexados.
``Series`` podem ser criadas a partir de listas:

In [2]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0])
dados

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Pela saída anterior podemos observar que as ``Series`` possuem valores (``values``) e índices (``index``). Os mesmos podem ser convenientemente acessados da seguinte forma:

In [3]:
dados.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
dados.index

RangeIndex(start=0, stop=4, step=1)

Os dados podem ser acessados utilizando os respectivos índices como visto para listas e *arrays*.

In [5]:
dados[1]

0.5

In [6]:
dados[1:3]

1    0.50
2    0.75
dtype: float64

A definição explícita de índices ``Series``, diferentemente dos índices implícitos nos *arrays*, lhes confere capacidades adicionais. Por exemplo, os índices não necessitam ser numéricos:

In [7]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
dados

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
dados['b']

0.5

Os índices também podem ter sequências arbitrárias

In [9]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
dados

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
dados[5]

0.5

Um objeto do tipo ``Series`` é análogo a um dicionário. No entanto as ``Series`` são mais eficientes para operações que requerem chaves ou índices, associadas a valores.

Vejamos o exemplo da contrução de uma ``Series`` a partir de um dicionário:

In [11]:
# Note que por padrão as chaves do dicionário se tornam índices
dic_populacao = {'Sao Paulo': 45919049,
                 'Minas Gerais': 21168791,
                 'Rio de Janeiro': 17264943,
                 'Bahia': 14873064,
                  'Parana': 11433957}
populacao = pd.Series(dic_populacao)
populacao

Sao Paulo         45919049
Minas Gerais      21168791
Rio de Janeiro    17264943
Bahia             14873064
Parana            11433957
dtype: int64

In [12]:
populacao['Sao Paulo']

45919049

Diferentemente de um dicionário uma ``Series`` suporta operações análogas as de *arrays*:

In [13]:
populacao['Sao Paulo':'Rio de Janeiro']

Sao Paulo         45919049
Minas Gerais      21168791
Rio de Janeiro    17264943
dtype: int64

<a id="22"></a> <br>
## 2.2 - Objetos do tipo *DataFrame*

Seguindo a mesma analogia utilizada para as ``Series``, um ``DataFrame`` é análogo a um *array* de duas dimensões, com rótulos (*labels*) flexíveis para linhas e colunas.

Vamos começar criando outra ``Series``, antes de um ``DataFrame``:

In [14]:
dic_area = {'Sao Paulo': 248222, 'Minas Gerais': 586522,  'Rio de Janeiro': 43780,
            'Bahia': 564733, 'Parana': 199307}
area = pd.Series(dic_area)
area

Sao Paulo         248222
Minas Gerais      586522
Rio de Janeiro     43780
Bahia             564733
Parana            199307
dtype: int64

Podemos agora ilustrar a criação de ``DataFrame`` de duas dimensões, a partir de duas ``Series``:

In [15]:
estados = pd.DataFrame({'Populacao': populacao,
                       'Area': area})
estados

Unnamed: 0,Populacao,Area
Sao Paulo,45919049,248222
Minas Gerais,21168791,586522
Rio de Janeiro,17264943,43780
Bahia,14873064,564733
Parana,11433957,199307


Com um objeto ``Series``, os ``DataFrame`` possuem um atributo ``index`` armazenando os rótulos das linhas:

In [16]:
estados.index

Index(['Sao Paulo', 'Minas Gerais', 'Rio de Janeiro', 'Bahia', 'Parana'], dtype='object')

Em adição, os ``DataFrame`` possuem o atributo ``columns``, que é também um objeto ``Index`` armazenando os rótulos das colunas:

In [17]:
estados.columns

Index(['Populacao', 'Area'], dtype='object')

De forma semelhante às ``Series`` os ``DataFrame`` podem ser imaginados como dicionários. Entretanto, o acesso primário pelos rótulos é para colunas

In [18]:
estados['Area']

Sao Paulo         248222
Minas Gerais      586522
Rio de Janeiro     43780
Bahia             564733
Parana            199307
Name: Area, dtype: int64

Os objetos ``DataFrame`` podem ser construídos de formas variadas, como exemplos

In [19]:
# de um único objeto Series 
pd.DataFrame(populacao, columns=['Populacao'])

Unnamed: 0,Populacao
Sao Paulo,45919049
Minas Gerais,21168791
Rio de Janeiro,17264943
Bahia,14873064
Parana,11433957


In [20]:
# de uma lista de dicionários
dados = [{'a': i, 'b': 2 * i}
        for i in range(3)] # lembra-se da 'list comprehension'?
pd.DataFrame(dados)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Uma função muito útil é a união de dicionários com chaves diferentes, e a atribuição de valores ``NaN`` (*not a number*) para valores ausentes

In [21]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [22]:
# a partir de um array
import numpy as np
pd.DataFrame(np.random.rand(3, 2), # lembra-se do array de duas dimensões
             columns=['Coluna 1', 'Coluna 2'],
             index=['a', 'b', 'c'])

Unnamed: 0,Coluna 1,Coluna 2
a,0.214413,0.053231
b,0.171614,0.085477
c,0.861232,0.613422


<a id="23"></a> <br>
## 2.3 - Objetos do tipo *Index*

Como descrito anteriormente objetos do tipo ``Series`` e ``DataFrame`` contém um índice (*index*) explícito que permite a referência e modificação de valores específicos. Os índices são objetos do tipo ``Index``, para os quais veremos algumas propriedades a seguir.

In [23]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [24]:
# opera como um array
ind[1]

3

In [25]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Objetos do tipo ``Index`` tem muitos atributos de arrays NumPy:

In [26]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Uma diferença entre objetos do tipo ``Index`` e arrays NumPy é que os primeiros são imutáveis (*immutable*), não podendo ser modificados como um array:

In [27]:
ind[1] = 0

TypeError: Index does not support mutable operations

A caracteristica da imutabilidade confere segurança no compartilhamento de índices entre múltiplos ``DataFrame``.

Os objetos ``Index`` seguem muitas convenções dos tipos nativos ``set`` em Python, de modo que uniões, intersecões, diferenças, e outras combinações podem ser executadas de maneira familiar e irão auxiliar operações mais complexas em ``DataFrame``.

In [28]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [29]:
indA & indB  # interseção

Int64Index([3, 5, 7], dtype='int64')

In [30]:
indA | indB  # união

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [31]:
indA ^ indB  # diferença simétrica

Int64Index([1, 2, 9, 11], dtype='int64')

In [32]:
# as operações também podem ser acessados come métodos
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')

<a id="3"></a> <br>
# 3 - Manipulação de índices e seleção

Adiante verificaremos métodos para acessar e modificar valors em objetos Pandas dos tipos ``Series`` e ``DataFrame``. Os métodos são semelhantes aos usados anteriormente para manipular arrays NumPy.

In [33]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
dados

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [34]:
dados['b']

0.5

Podemos inspecionar as ``Series`` como fazemos para dicionários em Python

In [35]:
'a' in dados

True

In [36]:
dados.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [37]:
list(dados.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

O mesmo para a adição de dados a uma ``Series``, como em um dicionário

In [38]:
dados['e'] = 1.25
dados

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Uma ``Series`` também fornece mecanismos de sub-seleção como arrays NumPy

In [39]:
# seleção por índices explícitos
dados['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [40]:
# seleção por índices implícitos
dados[0:2] # note que o ultimo índice não é incluso

a    0.25
b    0.50
dtype: float64

In [41]:
# masking
dados[(dados > 0.3) & (dados < 0.8)]

b    0.50
c    0.75
dtype: float64

In [42]:
# múltiplos índices (fancy indexing)
dados[['a', 'e']]

a    0.25
e    1.25
dtype: float64

O atributo ``loc`` permite que a indexação e seleção utilizando índices explícitos:

In [43]:
dados.loc['a']

0.25

In [44]:
dados.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

O atributo ``iloc`` permite a indexação e seleção sempre usando os índices implícitos:

In [45]:
dados.iloc[1]

0.5

In [46]:
dados.iloc[1:3]

b    0.50
c    0.75
dtype: float64

De forma equivalente à seleção por colunas vista anteriormente, a seleção em um ``DataFrame`` pode ser feita da seguinte forma

In [47]:
estados.Area # Nota: Tenha cuidado para não escolher um nome que entre em conflito com os métodos
             # do DataFrame, inspecione os métodos fazendo estados.<TAB>

Sao Paulo         248222
Minas Gerais      586522
Rio de Janeiro     43780
Bahia             564733
Parana            199307
Name: Area, dtype: int64

O estilo dicionário também pode ser utilizado para modificar o ``DataFrame``:

In [48]:
estados['Densidade'] = estados['Populacao'] / estados['Area']
estados

Unnamed: 0,Populacao,Area,Densidade
Sao Paulo,45919049,248222,184.991858
Minas Gerais,21168791,586522,36.092066
Rio de Janeiro,17264943,43780,394.356852
Bahia,14873064,564733,26.336453
Parana,11433957,199307,57.368567


Podemos também utilizar a sintaxe de *arrays*

In [49]:
dados.values

array([0.25, 0.5 , 0.75, 1.  , 1.25])

Operações de *arrays* podem ser executas em ``DataFrame``, como a transposição por exemplo

In [50]:
estados.T

Unnamed: 0,Sao Paulo,Minas Gerais,Rio de Janeiro,Bahia,Parana
Populacao,45919050.0,21168790.0,17264940.0,14873060.0,11433960.0
Area,248222.0,586522.0,43780.0,564733.0,199307.0
Densidade,184.9919,36.09207,394.3569,26.33645,57.36857


Podemos utilizar o atributo ``iloc`` para indexação implícitas para índices e colunas:

In [51]:
estados.iloc[:3, :2]

Unnamed: 0,Populacao,Area
Sao Paulo,45919049,248222
Minas Gerais,21168791,586522
Rio de Janeiro,17264943,43780


De forma similar, podemos utilizar ``loc`` para indexação explícita

In [52]:
estados.loc[:'Rio de Janeiro', :'Area']

Unnamed: 0,Populacao,Area
Sao Paulo,45919049,248222
Minas Gerais,21168791,586522
Rio de Janeiro,17264943,43780


Qualquer padrão de seleção presente em NumPy pode ser utilizado.
Por exemplo, ``loc`` pode ser combinado com *masking* e seleção múltipla:

In [53]:
estados.loc[estados.Densidade > 100, ['Populacao', 'Densidade']]

Unnamed: 0,Populacao,Densidade
Sao Paulo,45919049,184.991858
Rio de Janeiro,17264943,394.356852


Estes padrões também podemos ser utilizados para criar ou modificar valores em um ``DataFrame``

In [54]:
estados.iloc[1, 2] = 36
estados

Unnamed: 0,Populacao,Area,Densidade
Sao Paulo,45919049,248222,184.991858
Minas Gerais,21168791,586522,36.0
Rio de Janeiro,17264943,43780,394.356852
Bahia,14873064,564733,26.336453
Parana,11433957,199307,57.368567


<a id="4"></a> <br>
# 4 - Aplicação de operações aos dados

Pandas herda habilidades funcionais de NumPy para realizações de operações numéricas variadas. Uma adição importante é a manutenção dos índices e rótulos de colunas nas saídas da operações. Desta forma, a manutenção do contexto em operações complexas é assegurada.

Qualquer *ufunc* de NumPy funciona com Pandas.

In [55]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [56]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


Aplicando uma *ufunc* de NumPy nos objetos criados acima retorna objetos Pandas __com os índices preservados__:

In [57]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

Em uma operação mais complexa:

In [58]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


Em operações binárias em dois objetos ``Series`` ou ``DataFrame``, os índices serão alinhados no processo da operação.

In [59]:
# Um estado foi removido de cada dicionário
area = pd.Series({'Sao Paulo': 248222, 'Minas Gerais': 586522,  
                  'Rio de Janeiro': 43780, 'Bahia': 564733}, 
                 name='area')

populacao = pd.Series({'Sao Paulo': 45919049, 'Minas Gerais': 21168791,
                       'Rio de Janeiro': 17264943, 'Parana': 11433957}, 
                        name='populacao')

In [60]:
populacao / area

Bahia                    NaN
Minas Gerais       36.092066
Parana                   NaN
Rio de Janeiro    394.356852
Sao Paulo         184.991858
dtype: float64

O resultado de saída contém a união dos índices dos dois *arrays* de entrada, que poderia ter sido determinada comparando os índices

In [61]:
area.index | populacao.index

Index(['Bahia', 'Minas Gerais', 'Parana', 'Rio de Janeiro', 'Sao Paulo'], dtype='object')

Um alinhamento similar é realizado em índices e colunas quando operações são aplicadas a ``DataFrame``s:

In [62]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [63]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [64]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


Podemos utilizar o método ``fill_value`` para substituir os dados ausentes (*NaN*):

In [65]:
fill = A.stack().mean() # retorna média de todos os valores de A
A.add(B, fill_value=fill) # preenche os valores ausentes com o valor armazenado na variável fill

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


Operadores em Python e seus equivalentes em Pandas:

| Operador em Python  | Método(s)  em Pandas              |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


<a id="5"></a> <br>
# 5 - Combinando *DataFrames*

A função ``pd.concat()`` pode ser utilizada para ``Series`` ou ``DataFrame`` com os seguintes parâmetros:

```python
pd.concat(<Objetos>, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

In [66]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [67]:
df1 = pd.DataFrame({'A':['A1', 'A2'], 'B':['B1', 'B2']})
df2 = pd.DataFrame({'A':['A3', 'A4'], 'B':['B3', 'B4']})

pd.concat([df1, df2])

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
0,A3,B3
1,A4,B4


Por padrão a 'concatenação' ocorre pelas linhas (*row-wise*), mas este comportamento pode ser modificado com o parâmetro ``axis`` (por padrão igual a 0).

In [68]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,A.1,B.1
0,A1,B1,A3,B3
1,A2,B2,A4,B4


Uma característica vantajosa de Pandas é sua funcionalidade comparar e reunir `DataFrames` de forma rápida e eficiente. A principal interface para estas operações é a função ``pd.merge``. A função ``pd.merge`` implementa três tipos principais de junções um-para-um, muitos-para-um e muitos-para-muitos (*one-to-one*, *many-to-one*, and *many-to-many*).

In [69]:
# Junção um-para-um 
df1 = pd.DataFrame({'Empregado': ['Carlos', 'Luiz', 'Livia', 'João'],
                    'Grupo': ['Contabilidade', 'Engenharia', 'Engenharia', 'RH']})
df2 = pd.DataFrame({'Empregado': ['Livia', 'Carlos', 'Luiz', 'João'],
                    'Data_contratacao': [2004, 2008, 2012, 2014]})

df3 = pd.merge(df1, df2)
df3

Unnamed: 0,Empregado,Grupo,Data_contratacao
0,Carlos,Contabilidade,2008
1,Luiz,Engenharia,2012
2,Livia,Engenharia,2004
3,João,RH,2014


Como os dois ``DataFrame`` têm uma coluna com rótulo 'Empregado', esta é reconhecida como chave e utilizada para reunir os ``DataFrames``. Note que a ordem dos itens não importa, uma vez que tenham a mesma chave.

Na junção muitos-para-um, uma das chaves possui entradas duplicadas em outro `DataFrame` e as mesmas são preservadas na junção.

In [70]:
df4 = pd.DataFrame({'Grupo': ['Contabilidade', 'Engenharia', 'RH'],
                    'Supervisor': ['Marcelo', 'Paulo', 'Helen']})
pd.merge(df3, df4)

Unnamed: 0,Empregado,Grupo,Data_contratacao,Supervisor
0,Carlos,Contabilidade,2008,Marcelo
1,Luiz,Engenharia,2012,Paulo
2,Livia,Engenharia,2004,Paulo
3,João,RH,2014,Helen


Na junção muitos-para-muitos, se as colunas em ambos `DataFrame` possuem duplicações, ambas serão levadas em conta no resultado

In [71]:
df5 = pd.DataFrame({'Grupo': ['Contabilidade', 'Contabilidade',
                              'Engenharia', 'Engenharia', 'RH', 'RH'],
                    'Habilidades': ['matemática', 'planilhas', 'programação', 'linux',
                               'planilhas', 'linux']})
pd.merge(df1, df5)

Unnamed: 0,Empregado,Grupo,Habilidades
0,Carlos,Contabilidade,matemática
1,Carlos,Contabilidade,planilhas
2,Luiz,Engenharia,programação
3,Luiz,Engenharia,linux
4,Livia,Engenharia,programação
5,Livia,Engenharia,linux
6,João,RH,planilhas
7,João,RH,linux


In [72]:
# podemos também especificar a coluna para unir
pd.merge(df1, df2, on='Empregado')

Unnamed: 0,Empregado,Grupo,Data_contratacao
0,Carlos,Contabilidade,2008
1,Luiz,Engenharia,2012
2,Livia,Engenharia,2004
3,João,RH,2014


In [73]:
# Podemos também especificar nomes de colunas diferentes
df3 = pd.DataFrame({'Nome': ['Carlos', 'Luiz', 'Livia', 'João'],
                    'Salário': [70000, 80000, 120000, 90000]})
pd.merge(df1, df3, left_on="Empregado", right_on="Nome")

Unnamed: 0,Empregado,Grupo,Nome,Salário
0,Carlos,Contabilidade,Carlos,70000
1,Luiz,Engenharia,Luiz,80000
2,Livia,Engenharia,Livia,120000
3,João,RH,João,90000


In [74]:
# Podemos ainda descartar o nome redundante
pd.merge(df1, df3, left_on="Empregado", right_on="Nome").drop('Nome', axis=1)

Unnamed: 0,Empregado,Grupo,Salário
0,Carlos,Contabilidade,70000
1,Luiz,Engenharia,80000
2,Livia,Engenharia,120000
3,João,RH,90000


In [75]:
# Podemos utilizar uma lógica semelhante 
# e fazer a junção pelos índices
df1a = df1.set_index('Empregado')
df2a = df2.set_index('Empregado')

pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,Grupo,Data_contratacao
Empregado,Unnamed: 1_level_1,Unnamed: 2_level_1
Carlos,Contabilidade,2008
Luiz,Engenharia,2012
Livia,Engenharia,2004
João,RH,2014


In [76]:
# o método 'join' também opera nos índices
df1a.join(df2a)

Unnamed: 0_level_0,Grupo,Data_contratacao
Empregado,Unnamed: 1_level_1,Unnamed: 2_level_1
Carlos,Contabilidade,2008
Luiz,Engenharia,2012
Livia,Engenharia,2004
João,RH,2014


In [77]:
# Podemos também misturar os conceitos
pd.merge(df1a, df3, left_index=True, right_on='Nome')

Unnamed: 0,Grupo,Nome,Salário
0,Contabilidade,Carlos,70000
1,Engenharia,Luiz,80000
2,Engenharia,Livia,120000
3,RH,João,90000


Podemos também especificar como a junção é feita pelo parâmetros ``how`` quem tem como padrão o valor ``"inner"``:

In [78]:
df6 = pd.DataFrame({'Nome': ['Marcelo', 'Paula', 'Maria'],
                    'Comida': ['Peixe', 'Feijão', 'Pão']},
                   columns=['Nome', 'Comida'])
df7 = pd.DataFrame({'Nome': ['Maria', 'José'],
                    'Bebida': ['Vinho', 'Cerveja']},
                   columns=['Nome', 'Bebida'])

pd.merge(df6, df7)

Unnamed: 0,Nome,Comida,Bebida
0,Maria,Pão,Vinho


In [79]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,Nome,Comida,Bebida
0,Maria,Pão,Vinho


In [80]:
# A opção `outer` faz a junção como a união das entradas
# preenchendo os valores vazios com NAs
pd.merge(df6, df7, how='outer')

Unnamed: 0,Nome,Comida,Bebida
0,Marcelo,Peixe,
1,Paula,Feijão,
2,Maria,Pão,Vinho
3,José,,Cerveja


In [81]:
# As junções 'left' (esquerda) e 'right' (direita)
# retornam DataFrames com as chaves da referência
pd.merge(df6, df7, how='left')

Unnamed: 0,Nome,Comida,Bebida
0,Marcelo,Peixe,
1,Paula,Feijão,
2,Maria,Pão,Vinho


In [82]:
pd.merge(df6, df7, how='right')

Unnamed: 0,Nome,Comida,Bebida
0,Maria,Pão,Vinho
1,José,,Cerveja


<a id="6"></a> <br>
# 6 - Referências
<div class="cite2c-biblio"></div>

###### [Voltar ao topo](#top)

<!--NAVIGATION-->
< [NumPy Library](3-NumPy_Library.ipynb) | [Contents](0-Index.ipynb) | [Scikit-Learn Library](5-Scikit-Learn_Library.ipynb)  >