<!--NAVIGATION-->
< [Numpy](16.Numpy.ipynb) | [Sumario](00.Sumario.ipynb) |

<a href="https://colab.research.google.com/github/psloliveirajr/Introducao_a_Python3/blob/master/17.Pandas.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

# Introdução a Pandas

Pandas é um pacote mais recente construído sobre NumPy e fornece uma implementação eficiente de um DataFrame. DataFrames são matrizes essencialmente multidimensionais com rótulos de linha e coluna anexados e, frequentemente, com tipos heterogêneos e/ou dados ausentes. Além de oferecer uma interface de armazenamento conveniente para dados rotulados, o Pandas implementa uma série de operações de dados poderosas, familiares aos usuários de estruturas de banco de dados e programas de planilha (Excel).

O Pandas, e em particular seus objetos Series e DataFrame, baseia-se na estrutura de array NumPy e fornece acesso eficiente a esses tipos de tarefas de "manipulação de dados" que ocupam muito do tempo de um cientista de dados.

No nível mais básico, os objetos Pandas podem ser considerados como versões aprimoradas de matrizes estruturadas NumPy nas quais as linhas e colunas são identificadas com rótulos em vez de índices inteiros simples. O Pandas fornece uma série de ferramentas, métodos e funcionalidades úteis além das estruturas de dados básicas, mas quase tudo o que se segue exigirá uma compreensão do que são essas estruturas. Portanto, antes de prosseguirmos, vamos introduzir essas três estruturas de dados fundamentais do Pandas: o `` Series``, o `` DataFrame`` e o `` Index``.

Iniciaremos nossas sessões de código com as importações padrão de NumPy e Pandas:

In [None]:
import numpy as np
import pandas as pd

# O objeto Series do Pandas

Um Pandas `` Series`` é uma matriz unidimensional de dados indexados.
Ele pode ser criado a partir de uma lista ou matriz da seguinte maneira:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Como podemos ver na saída, o `` Series`` envolve uma sequência de valores e uma sequência de índices, que podemos acessar com os atributos `` values`` e `` index``.
Os `` valores`` são simplesmente uma matriz NumPy:

In [None]:
data.values

O `` index`` é um objeto semelhante a um array do tipo `` pd.Index``, que discutiremos em mais detalhes momentaneamente.

In [None]:
data.index

Como com uma matriz NumPy, os dados podem ser acessados pelo índice associado por meio da conhecida notação de colchetes do Python:

In [None]:
data[1]

In [None]:
data[1:3]

Como veremos, as `` Series`` Pandas é muito mais geral e flexível do que a matriz NumPy unidimensional que ele emula.

## ``Series`` como matriz NumPy generalizada

Pelo que vimos até agora, pode parecer que o objeto `` Series`` é basicamente intercambiável com um array NumPy unidimensional. A diferença essencial é a presença do índice: enquanto o Numpy Array tem um índice inteiro *implicitamente definido* usado para acessar os valores, o Pandas `` Series`` tem um índice *explicitamente definido* associado aos valores.

Esta definição de índice explícita dá ao objeto `` Series`` recursos adicionais. Por exemplo, o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado.
Por exemplo, se desejarmos, podemos usar strings como um índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

E o acesso ao item funciona conforme o esperado:

In [None]:
data['b']

Podemos até usar índices não contíguos ou não sequenciais:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [None]:
data[5]

## Série como dicionário especializado

Desta forma, você pode pensar em uma `` Series`` Pandas um pouco como uma especialização de um dicionário Python.
Um dicionário é uma estrutura que mapeia chaves arbitrárias para um conjunto de valores arbitrários, e uma `` Série`` é uma estrutura que mapeia chaves digitadas para um conjunto de valores digitados.
Essa digitação é importante: assim como o código compilado específico do tipo por trás de uma matriz NumPy o torna mais eficiente do que uma lista Python para certas operações, a informação de tipo de uma `` Series`` Pandas o torna muito mais eficiente do que os dicionários Python com certeza operações.

A analogia `` Series``como um dicionario pode ser ainda mais clara construindo um objeto `` Series`` diretamente de um dicionário Python:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

Por padrão, uma `` Series`` será criada onde o índice é extraído das chaves. A partir daqui, o acesso a um item é da mesma maneira que um dicionário:

In [None]:
population['California']

Ao contrário de um dicionário, o `` Series`` também suporta operações no estilo matriz, como o fatiamento:

In [None]:
population['California':'Illinois']

## Construindo objetos Series

Já vimos algumas maneiras de construir uma `` Série`` Pandas do zero; todos eles são alguma versão do seguinte:

```python
>>> pd.Series (dados, index = index)
```

onde `` index`` é um argumento opcional, e `` dados`` pode ser uma de muitas entidades.

Por exemplo, `` dados`` pode ser uma lista ou array NumPy, em cujo caso `` index`` é padronizado para uma sequência inteira:

In [None]:
pd.Series([2, 4, 6])

`` dados`` pode ser um escalar, que é repetido para preencher o índice especificado:

In [None]:
pd.Series(5, index=[100, 200, 300])

`` dados`` pode ser um dicionário, no qual `` index`` é padronizado para as chaves de dicionário classificadas:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

Em cada caso, o índice pode ser definido explicitamente se um resultado diferente for preferido:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

Observe que, neste caso, a `` Series`` é preenchida apenas com as chaves explicitamente identificadas.

# O objeto DataFrame do Pandas

A próxima estrutura fundamental no Pandas é o `` DataFrame``.
Como o objeto `` Series`` discutido na seção anterior, o `` DataFrame`` pode ser pensado tanto como uma generalização de uma matriz NumPy, ou como uma especialização de um dicionário Python.
Vamos agora dar uma olhada em cada uma dessas perspectivas.

## DataFrame como uma matriz NumPy generalizado

Se um `` Series`` é um análogo de uma matriz unidimensional com índices flexíveis, um `` DataFrame`` é um análogo de uma matriz bidimensional com índices de linha flexíveis e nomes de coluna flexíveis.
Assim como você pode pensar em uma matriz bidimensional como uma sequência ordenada de colunas unidimensionais alinhadas, você pode pensar em um `` DataFrame`` como uma sequência de objetos `` Series`` alinhados.
Aqui, por "alinhado" queremos dizer que eles compartilham o mesmo índice.

Para demonstrar isso, vamos primeiro construir uma nova `` Series`` listando a área de cada um dos cinco estados discutidos na seção anterior:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Agora que temos isso junto com a série `` population`` anterior, podemos usar um dicionário para construir um único objeto bidimensional contendo esta informação:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Como o objeto `` Series``, o `` DataFrame`` tem um atributo `` index`` que dá acesso aos rótulos de índice:

In [None]:
states.index

Além disso, o `` DataFrame`` tem um atributo `` columns``, que é um objeto `` Index`` contendo os rótulos das colunas:

In [None]:
states.columns

Assim, o `` DataFrame`` pode ser pensado como uma generalização de uma matriz NumPy bidimensional, onde tanto as linhas quanto as colunas têm um índice generalizado para acessar os dados.

## DataFrame como dicionário especializado

Da mesma forma, também podemos pensar em um `` DataFrame`` como uma especialização de um dicionário.
Onde um dicionário mapeia uma chave para um valor, um `` DataFrame`` mapeia um nome de coluna para uma `` Série`` de dados de coluna.
Por exemplo, pedir o atributo `` 'area'`` retorna o objeto `` Series`` contendo as áreas que vimos anteriormente:

In [None]:
states['area']

Notice the potential point of confusion here: in a two-dimesnional NumPy array, ``data[0]`` will return the first *row*. For a ``DataFrame``, ``data['col0']`` will return the first *column*.
Because of this, it is probably better to think about ``DataFrame``s as generalized dictionaries rather than generalized arrays, though both ways of looking at the situation can be useful.
We'll explore more flexible means of indexing ``DataFrame``s in [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).

## Construindo objetos DataFrame

Um `` DataFrame`` do Pandas pode ser construído de várias maneiras.
Aqui, daremos vários exemplos.

### De um único objeto Series

Um `` DataFrame`` é uma coleção de objetos `` Series``, e um `` DataFrame`` de coluna única pode ser construído a partir de um único `` Series``:

In [None]:
pd.DataFrame(population, columns=['population'])

### De uma lista de dictos

Qualquer lista de dicionários pode ser transformada em um `` DataFrame``.
Usaremos uma compreensão de lista simples para criar alguns dados:

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Mesmo se algumas chaves no dicionário estiverem faltando, o Pandas irá preenchê-las com valores `` NaN`` (ou seja, "não é um número"):

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

### De um dicionário de objetos Series

Como vimos antes, um `` DataFrame`` também pode ser construído a partir de um dicionário de objetos `` Series``:

In [None]:
pd.DataFrame({'population': population,
              'area': area})

### De uma matriz NumPy bidimensional

Dado uma matriz bidimensional de dados, podemos criar um `` DataFrame`` com qualquer coluna especificada e nomes de índice.
Se omitido, um índice inteiro será usado para cada:

In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

### De uma matriz estruturada NumPy

Cobrimos matrizes estruturadas em [Numpy](02.Numpy.ipynb).
Um Pandas `` DataFrame`` opera muito como um array estruturado e pode ser criado diretamente a partir de um:

In [None]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

In [None]:
pd.DataFrame(A)

# O objeto de índice Pandas

Vimos aqui que os objetos `` Series`` e `` DataFrame`` contêm um *índice* explícito que permite referenciar e modificar os dados.
Este objeto `` Index`` é uma estrutura interessante em si, e pode ser pensado tanto como uma *matriz imutável* ou como um *conjunto ordenado*.
Essas visualizações têm algumas consequências interessantes nas operações disponíveis em objetos `` Index``.
Como um exemplo simples, vamos construir um `` Index`` de uma lista de inteiros:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

## Índice como matriz imutável

O `` Index`` de muitas maneiras opera como um.
Por exemplo, podemos usar a notação de indexação Python padrão para recuperar valores ou fatias:

In [None]:
ind[1]

In [None]:
ind[::2]

Objetos `` Index`` também têm muitos dos atributos familiares dos arrays NumPy:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Uma diferença entre objetos `` Index`` e matrizes NumPy é que os índices são imutáveis ​​- isto é, eles não podem ser modificados pelos meios normais:

In [None]:
ind[1] = 0

Esta imutabilidade torna mais seguro compartilhar índices entre múltiplos `` DataFrame``s e arrays, sem o potencial de efeitos colaterais da modificação inadvertida do índice.

## Índice como conjunto ordenado

Os objetos Pandas são projetados para facilitar operações, como junções entre conjuntos de dados, que dependem de muitos aspectos da aritmética de conjuntos.
O objeto `` Index`` segue muitas das convenções usadas pela estrutura de dados `` set`` embutida do Python, de forma que uniões, interseções, diferenças e outras combinações podem ser calculadas de uma maneira familiar:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  # interseção

In [None]:
indA | indB  # união

In [None]:
indA ^ indB  # diferença simetrica

Estas operações também podem ser acessadas através de métodos de objeto, por exemplo `` indA.intersection (indB) ``.

# Indexação e seleção de dados

## Seleção de dados em série

Como vimos na seção anterior, um objeto `` Series`` atua de várias maneiras como um array NumPy unidimensional e de várias maneiras como um dicionário Python padrão.
Se mantivermos essas duas analogias sobrepostas em mente, isso nos ajudará a entender os padrões de indexação e seleção de dados nessas matrizes.

### Série como dicionário

Como um dicionário, o objeto `` Series`` fornece um mapeamento de uma coleção de chaves para uma coleção de valores:

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

Também podemos usar expressões e métodos Python semelhantes a um dicionário para examinar as chaves / índices e valores:

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

Objetos `` Series`` podem até mesmo ser modificados com uma sintaxe semelhante a um dicionário.
Assim como você pode estender um dicionário atribuindo a uma nova chave, você pode estender uma `` Série`` atribuindo a um novo valor de índice:

In [None]:
data['e'] = 1.25
data

### Série como matriz unidimensional

Uma `` Series`` se baseia nesta interface semelhante a um dicionário e fornece seleção de itens no estilo array por meio dos mesmos mecanismos básicos dos arrays NumPy - ou seja, *fatias*, *mascaramento* e *indexação sofisticada*.
Os exemplos destes são os seguintes:

In [None]:
# fatiamento por índice explícito
data['a': 'c']

In [None]:
# fatiamento por índice implicito
data[0:2]

In [None]:
# mascaramento
data[(data > 0.3) & (data < 0.8)]

In [None]:
# indexação sofisticada
data[['a', 'e']]

Entre eles, fatiar pode ser a fonte de maior confusão.
Observe que ao fatiar com um índice explícito (ou seja, `` dados ['a': 'c'] ``), o índice final é *incluído* na fatia, enquanto ao fatiar com um índice implícito ( ou seja, `` dados [0: 2] ``), o índice final é *excluído* da fatia.

### Indexadores: loc, iloc

Essas convenções de segmentação e indexação podem ser uma fonte de confusão.
Por exemplo, se sua `` Series`` tem um índice inteiro explícito, uma operação de indexação como `` dados [1] `` usará os índices explícitos, enquanto uma operação de fatiamento como `` dados [1: 3] `` usará o índice implícito no estilo Python.

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
# índice explicito quando indexamos
data[1]

In [None]:
# índice implicito quando fatiamos
data[1:3]

Por causa dessa confusão potencial no caso de índices inteiros, o Pandas fornece alguns atributos especiais de *indexador* que expõem explicitamente certos esquemas de indexação.
Estes não são métodos funcionais, mas atributos que expõem uma interface de fatiamento particular para os dados na `` Série``.

Primeiro, o atributo `` loc`` permite a indexação e divisão que sempre faz referência ao índice explícito:

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

O atributo `` iloc`` permite indexação e fracionamento que sempre referencia o índice implícito no estilo Python:

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

## Seleção de dados no DataFrame

Lembre-se de que um `` DataFrame`` atua de várias maneiras como uma matriz bidimensional ou estruturado, e de outras maneiras como um dicionário de estruturas `` Series`` compartilhando o mesmo índice.
Essas analogias podem ser úteis para manter em mente enquanto exploramos a seleção de dados dentro desta estrutura.

### DataFrame como um dicionário

A primeira analogia que consideraremos é o `` DataFrame`` como um dicionário de objetos `` Series`` relacionados.
Voltemos ao nosso exemplo de áreas e populações de estados:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

A `` Series`` individual que compõe as colunas do `` DataFrame`` pode ser acessada via indexação de estilo de dicionário do nome da coluna:

In [None]:
data['area']

Da mesma forma, podemos usar o acesso de estilo de atributo com nomes de coluna que são strings:

In [None]:
data.area

Este acesso de coluna de estilo de atributo realmente acessa exatamente o mesmo objeto que o acesso de estilo de dicionário:

In [None]:
data.area is data['area']

Embora esta seja uma abreviatura útil, lembre-se de que não funciona para todos os casos!
Por exemplo, se os nomes das colunas não são strings, ou se os nomes das colunas estão em conflito com os métodos do `` DataFrame``, este acesso de estilo de atributo não é possível.
Por exemplo, o `` DataFrame`` tem um método `` pop () ``, então `` data.pop`` irá apontar para isso ao invés da coluna `` "pop" ``:

In [None]:
data.pop is data['pop']

Em particular, você deve evitar a tentação de tentar atribuição de coluna via atributo (ou seja, use `` data ['pop'] = z`` ao invés de `` data.pop = z``).

Como com os objetos `` Series`` discutidos anteriormente, esta sintaxe de estilo de dicionário também pode ser usada para modificar o objeto, neste caso adicionando uma nova coluna:

In [None]:
data['density'] = data['pop'] / data['area']
data

### DataFrame como matriz bidimensional

Conforme mencionado anteriormente, também podemos ver o `` DataFrame`` como uma matriz bidimensional aprimorado.
Podemos examinar a matriz de dados básicos brutos usando o atributo `` values``:

In [None]:
data.values

Com esta imagem em mente, muitas observações familiares semelhantes a matriz podem ser feitas no próprio `` DataFrame``.
Por exemplo, podemos transpor todo o `` DataFrame`` para trocar linhas e colunas:

In [None]:
data.T

Quando se trata de indexação de objetos `` DataFrame``, no entanto, está claro que a indexação de colunas no estilo de dicionário impede nossa capacidade de simplesmente tratá-la como uma matriz NumPy.
Em particular, passar um único índice para uma matriz acessa uma linha:

In [None]:
data.values[0]

e passar um único "índice" para um `` DataFrame`` acessa uma coluna:

In [None]:
data['area']

Portanto, para indexação de estilo de array, precisamos de outra convenção.
Aqui, o Pandas usa novamente os indexadores `` loc``, `` iloc`` e `` ix`` mencionados anteriormente.
Usando o indexador `` iloc``, podemos indexar o array subjacente como se fosse um array NumPy simples (usando o índice implícito no estilo Python), mas o índice `` DataFrame`` e os rótulos das colunas são mantidos no resultado:

In [None]:
data.iloc[:3, :2]

Similarly, using the ``loc`` indexer we can index the underlying data in an array-like style but using the explicit index and column names:

In [None]:
data.loc[:'Illinois', :'pop']

Keep in mind that for integer indices, the ``ix`` indexer is subject to the same potential sources of confusion as discussed for integer-indexed ``Series`` objects.

Any of the familiar NumPy-style data access patterns can be used within these indexers.
For example, in the ``loc`` indexer we can combine masking and fancy indexing as in the following:

Qualquer um dos padrões familiares de acesso a dados no estilo NumPy pode ser usado nesses indexadores.
Por exemplo, no indexador `` loc`` podemos combinar mascaramento e indexação extravagante da seguinte forma:

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

Qualquer uma dessas convenções de indexação também pode ser usada para definir ou modificar valores; isso é feito da maneira padrão que você deve estar acostumado ao trabalhar com o NumPy:

In [None]:
data.iloc[0, 2] = 90
data

Para aumentar sua fluência na manipulação de dados do Pandas, sugiro passar algum tempo com um simples `` DataFrame`` e explorar os tipos de indexação, divisão, mascaramento e indexação sofisticada que são permitidos por essas várias abordagens de indexação.

### Convenções de indexação adicionais

Existem algumas convenções de indexação extras que podem parecer divergentes com a discussão anterior, mas mesmo assim podem ser muito úteis na prática.
Primeiro, enquanto *indexação* se refere a colunas, *fatiar* se refere a linhas:

In [None]:
data['Florida':'Illinois']

Essas fatias também podem se referir a linhas por número, em vez de por índice:

In [None]:
data[1:3]

Da mesma forma, as operações de mascaramento direto também são interpretadas por linha em vez de por coluna:

In [None]:
data[data.density > 100]

Essas duas convenções são sintaticamente semelhantes àquelas em uma matriz NumPy e, embora possam não se encaixar precisamente no molde das convenções do Pandas, são, no entanto, bastante úteis na prática.

# Operando com dados em pandas

Uma das peças essenciais do NumPy é a capacidade de realizar operações rápidas de elementos, tanto com aritmética básica (adição, subtração, multiplicação, etc.) e com operações mais sofisticadas (funções trigonométricas, funções exponenciais e logarítmicas, etc.).
O Pandas herda muito dessa funcionalidade do NumPy, e os ufuncs que apresentamos em [Numpy](02.Numpy.ipynb) são a chave para isso.

O Pandas inclui algumas variações úteis, no entanto: para operações unárias, como negação e funções trigonométricas, esses ufuncs irão *preservar o índice e rótulos de coluna* na saída, e para operações binárias, como adição e multiplicação, os Pandas irão automaticamente *alinhar índices* ao passar os objetos para o ufunc.
Isso significa que manter o contexto de dados e combinar dados de fontes diferentes - ambas tarefas potencialmente sujeitas a erros com matrizes NumPy brutas - tornam-se essencialmente à prova de falhas com o Pandas.
Além disso, veremos que existem operações bem definidas entre estruturas `` Series`` unidimensionais e estruturas `` DataFrame`` bidimensionais.

## Ufuncs: Preservação do Índice

Como o Pandas foi projetado para funcionar com NumPy, qualquer ufunc NumPy funcionará nos objetos Pandas `` Series`` e `` DataFrame``.
Vamos começar definindo um `` Series`` e um `` DataFrame`` simples para demonstrar isso:

In [None]:
import pandas as pd
import numpy as np

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Se aplicarmos um ufunc NumPy em qualquer um desses objetos, o resultado será outro objeto Pandas *com os índices preservados:*

In [None]:
np.exp(ser)

Ou, para um cálculo um pouco mais complexo:

In [None]:
np.sin(df * np.pi / 4)

## UFuncs: Índice de alinhamento

Para operações binárias em dois objetos `` Series`` ou `` DataFrame``, o Pandas irá alinhar os índices no processo de realização da operação.
Isso é muito conveniente ao trabalhar com dados incompletos, como veremos em alguns dos exemplos a seguir.

### Índice de alinhamento em série

Como exemplo, suponha que estejamos combinando duas fontes de dados diferentes e encontremos apenas os três principais estados dos EUA por *área* e os três principais estados dos EUA por *população*:

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

Vamos ver o que acontece quando os dividimos para calcular a densidade populacional:

In [None]:
population / area

A matriz resultante contém a *união* de índices das duas matrizes de entrada, que pode ser determinada usando aritmética de conjunto Python padrão nestes índices:

In [None]:
area.index | population.index

Qualquer item para o qual um ou outro não tenha uma entrada é marcado com `` NaN``, ou "Não é um número", que é como o Pandas marca os dados ausentes (Não irei falar sobre tratar valores faltantes, mas aconselho a pesquisar sobre pois pode ser muito importante).
Essa correspondência de índice é implementada dessa forma para qualquer uma das expressões aritméticas integradas do Python; quaisquer valores ausentes são preenchidos com NaN por padrão:

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

Se usar valores NaN não for o comportamento desejado, o valor de preenchimento pode ser modificado usando métodos de objeto apropriados no lugar dos operadores.
Por exemplo, chamar `` A.add (B) `` é equivalente a chamar `` A + B``, mas permite a especificação explícita opcional do valor de preenchimento para quaisquer elementos em `` A`` ou `` B`` que pode estar faltando:

In [None]:
A.add(B, fill_value=0)

### Alinhamento do índice no DataFrame

Um tipo semelhante de alinhamento ocorre para *ambas* colunas e índices ao realizar operações em `` DataFrame``s:

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

In [None]:
A + B

Observe que os índices estão alinhados corretamente, independentemente de sua ordem nos dois objetos, e os índices no resultado são classificados.
Como foi o caso com `` Series``, podemos usar o método aritmético do objeto associado e passar qualquer `` fill_value`` desejado para ser usado no lugar das entradas ausentes.
Aqui, preencheremos com a média de todos os valores em `` A`` (calculados primeiro empilhando as linhas de `` A``):

In [None]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

A tabela a seguir lista os operadores Python e seus métodos de objeto Pandas equivalentes:

| Operadores Python |  Métodos Pandas                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


## Ufuncs: Operações entre DataFrame e Series

Ao realizar operações entre um `` DataFrame`` e uma `` Series``, o índice e o alinhamento da coluna são mantidos de forma semelhante.
As operações entre um `` DataFrame`` e uma `` Series`` são semelhantes às operações entre uma matriz NumPy bidimensional e unidimensional.
Considere uma operação comum, onde encontramos a diferença de uma matriz bidimensional e uma de suas linhas:

In [None]:
A = rng.randint(10, size=(3, 4))
A

In [None]:
A - A[0]

A subtração entre uma matriz bidimensional e uma de suas linhas é aplicada em linha.

No Pandas, a convenção opera de forma semelhante em linha por padrão:

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Se, em vez disso, você deseja operar em colunas, pode usar os métodos de objeto mencionados anteriormente, enquanto especifica a palavra-chave `` axis``:

In [None]:
df.subtract(df['R'], axis=0)

Observe que essas operações `` DataFrame`` / `` Series``, como as operações discutidas acima, irão alinhar automaticamente os índices entre os dois elementos:

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

Esta preservação e alinhamento de índices e colunas significa que as operações nos dados no Pandas sempre manterão o contexto dos dados, o que evita os tipos de erros bobos que podem surgir ao trabalhar com dados heterogêneos e / ou desalinhados em matrizes NumPy brutas.

# Combinação de conjuntos de dados: concat e append

Alguns dos estudos de dados mais interessantes vêm da combinação de diferentes fontes de dados.
Essas operações podem envolver qualquer coisa, desde a concatenação direta de dois conjuntos de dados diferentes até junções e mesclagens mais complicadas no estilo de banco de dados que tratam corretamente de quaisquer sobreposições entre os conjuntos de dados.
Os `` Series`` e `` DataFrame``s são construídos com este tipo de operação em mente, e o Pandas inclui funções e métodos que tornam este tipo de manipulação de dados rápida e direta.

Aqui vamos dar uma olhada na concatenação simples de `` Series`` e `` DataFrame``s com a função `` pd.concat``; posteriormente, mergulharemos em mesclagens e junções mais sofisticadas na memória implementadas no Pandas.

Começamos com as importações padrão:

In [None]:
import pandas as pd
import numpy as np

Por conveniência, definiremos esta função que cria um `` DataFrame`` de um formulário particular que será útil abaixo:

In [None]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Além disso, criaremos uma classe rápida que nos permite exibir múltiplos `` DataFrame``s lado a lado. O código faz uso do método especial `` _repr_ html_``, que IPython usa para implementar sua exibição de objeto rico:

In [None]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)
    

O uso disso ficará mais claro à medida que continuarmos nossa discussão na seção seguinte.

## Relembrar: Concatenação de matrizes NumPy

A concatenação de objetos `` Series`` e `` DataFrame`` é muito semelhante à concatenação de matrizes Numpy, que pode ser feita por meio da função `` np.concatenate`` conforme discutido em [Numpy](02.Numpy.ipynb).
Lembre-se de que, com ele, você pode combinar o conteúdo de dois ou mais matrizes em um única matriz:

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

O primeiro argumento é uma lista ou tupla de matrizes para concatenar.
Além disso, é necessária uma palavra-chave `` axis`` que permite especificar o eixo ao longo do qual o resultado será concatenado:

In [None]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

## Simple Concatenation with ``pd.concat``

Pandas has a function, ``pd.concat()``, which has a similar syntax to ``np.concatenate`` but contains a number of options that we'll discuss momentarily:

```python
# Signature in Pandas v0.18
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

``pd.concat()`` can be used for a simple concatenation of ``Series`` or ``DataFrame`` objects, just as ``np.concatenate()`` can be used for simple concatenations of arrays:

Pandas tem uma função, `` pd.concat () ``, que tem uma sintaxe semelhante a `` np.concatenate``, mas contém uma série de opções que discutiremos em breve:

```python
# Assinatura no Pandas v0.18
pd.concat (objs, axis = 0, join = 'outer', join _axes = None, ignore_ index = False,
          keys = None, levels = None, names = None, verify_integrity = False,
          copy = True)
```

`` pd.concat () `` pode ser usado para uma concatenação simples de objetos `` Series`` ou `` DataFrame``, assim como `` np.concatenate () `` pode ser usado para concatenações simples de arrays:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

Ele também funciona para concatenar objetos de dimensões superiores, como `` DataFrame``s:

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

Por padrão, a concatenação ocorre por linha dentro do `` DataFrame`` (ou seja, `` axis = 0``).
Como `` np.concatenate``, `` pd.concat`` permite a especificação de um eixo ao longo do qual a concatenação ocorrerá.
Considere o seguinte exemplo:

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', "pd.concat([df3, df4], axis='col')")

Poderíamos ter especificado de forma equivalente `` axis = 1``; aqui nós usamos o mais intuitivo `` axis = 'col'``.

### Concatenação com junções

Nos exemplos simples que acabamos de ver, estávamos concatenando principalmente `` DataFrame``s com nomes de colunas compartilhados.
Na prática, dados de fontes diferentes podem ter conjuntos diferentes de nomes de coluna, e `` pd.concat`` oferece várias opções neste caso.
Considere a concatenação dos seguintes dois `` DataFrame``s, que têm algumas (mas não todas!) Colunas em comum:

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6', 'pd.concat([df5, df6])')

Por padrão, as entradas para as quais não há dados disponíveis são preenchidas com valores NA.
Para mudar isso, podemos especificar uma das várias opções para os parâmetros `` join`` e `` join_axes`` da função concatenar.
Por padrão, a junção é uma união das colunas de entrada (`` join = 'outer'``), mas podemos mudar isso para uma interseção das colunas usando `` join =' inner'``:

In [None]:
display('df5', 'df6',
        "pd.concat([df5, df6], join='inner')")

Outra opção é especificar diretamente o índice das colunas restantes usando o argumento `` join_axes``, que obtém uma lista de objetos de índice.
Aqui, especificaremos que as colunas retornadas devem ser as mesmas da primeira entrada:

In [None]:
display('df5', 'df6',
        "pd.concat([df5, df6], join_axes=[df5.columns])")

A combinação de opções da função `` pd.concat`` permite uma ampla gama de comportamentos possíveis ao unir dois conjuntos de dados; tenha isso em mente ao usar essas ferramentas para seus próprios dados.

### O método `` append () ``

Como a concatenação direta de array é tão comum, os objetos `` Series`` e `` DataFrame`` têm um método `` append`` que pode realizar a mesma coisa em menos teclas.
Por exemplo, em vez de chamar `` pd.concat ([df1, df2]) ``, você pode simplesmente chamar `` df1.append (df2) ``:

In [None]:
display('df1', 'df2', 'df1.append(df2)')

Tenha em mente que ao contrário dos métodos `` append () `` e `` extend () `` das listas Python, o método `` append () `` no Pandas não modifica o objeto original - em vez disso, cria um novo objeto com os dados combinados.
Também não é um método muito eficiente, porque envolve a criação de um novo índice *e* buffer de dados.
Assim, se você planeja fazer múltiplas operações `` append``, geralmente é melhor construir uma lista de `` DataFrame``s e passá-los todos de uma vez para a função `` concat () ``.

<!--NAVIGATION-->
< [Numpy](16.Numpy.ipynb) | [Sumario](00.Sumario.ipynb) |

<a href="https://colab.research.google.com/github/psloliveirajr/Introducao_a_Python3/blob/master/17.Pandas.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>