# Pandas: Operação de Dados
A capacidade de realizar operações de elemento a elemento é essencial para o Pandas. Grante parte das funcionalidades são herdadas do NumPy, e nota-se a presença até das UFuncs vistas no arquivo 28 (NumPy: Funções Universais). Uma característica distinta do Pandas é qeu para operações unárias, o indíce e label de coluna são preservaados na saída, e para operações binárias, os indíces dos objetos são alinhados pelo Pandas quando passados para a UFuncs. Assim, operações de combinação de dados de diferentes fontes são tarefas extremamente simples com o Pandas. 

# Preservação de Indíces de UFuncs
Para relembrar, uma UFunc nada mais é que uma implementação compilada de uma operação vetorizada, com alto desempenho computacional. As UFuncs do NumPy funcionam para um objeto do Pandas, conforme mostrado abaixo.

In [13]:
import pandas as pdp
import numpy as np

In [14]:
rng = np.random.RandomState(0)
df1 = pd.DataFrame(rng.randint(0,10,(3,4)), columns = ['A', 'B', 'C', 'D'])
np.sin(df1 * np.pi / 8)

Unnamed: 0,A,B,C,D
0,0.92388,0.0,0.92388,0.92388
1,0.382683,-0.382683,0.92388,0.92388
2,0.707107,1.0,0.382683,0.707107


No geral, qualquer UFunc vista anteriormente pode ser utilizado de maneira similar. 

In [15]:
np.greater(df1,5)

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,True,True,False,False
2,False,False,True,True


## Alinhamento de Indíces
O alinhamento de indíces pode ser observado quando operações binárias são realizadas, e dois objetos do Pandas são utilizado. Observe que as linhas e colunas são alinhadas, assim, a operação é feita celula a celula, sobrepondo os dataframes.

In [17]:
df2 = pd.DataFrame(rng.randint(10,20,(3,4)), columns = ['A', 'B', 'C', 'D'])
df1 + df2

Unnamed: 0,A,B,C,D
0,19,13,13,16
1,22,19,15,18
2,20,15,20,19


Uma vantagem é quando se trabalha com dados ausentes. As colunas são alinhadas com as colunas existentes, e as linhas são utilizadas na ordem fornecida. A Operação é realizada, entretanto, para os dados ausentes, o resultado retornado é `NaN` (Not a Number, indicador de Dados Ausentes ou Resultado não numérico).

In [19]:
sr = pd.Series({'A':10, 'C':5}, name='sr')
sr2 = pd.Series({'A':5, 'B': 6}, name='sr')
sr+sr2

A    15.0
B     NaN
C     NaN
Name: sr, dtype: float64

Para realizar operações binárias e lidar com valores ausentes, os métodos de operações binárias do Pandas podem ser utilizados. Estes métodos recebem um paramêtro fill value, que é utilizado para preencher valores ausentes. Os métodos disponibilizados são os seguintes:

| Operador Python | Método Pandas | 
| --- | --- | 
| + | add() |
| - | sub(), subtract() |
| * | mul(), multiply() |
| / | div(), truediv(), divide() |
| // | floordiv() |
| % | mod() |
| ** | pow() |

In [20]:
sr.add(sr2, fill_value=0)

A    15.0
B     6.0
C     5.0
Name: sr, dtype: float64

Observe que é possível realizar operações entre series e dataframes. Por exemplo, pode ser interessante obter a diferença de todas as linhas de um dataframe em relação a uma única linha conforme visto abaixo. Observe que a realização dessas operações segue a ordem de Broadcasting no Numpy (Arquivo 30 - Numpy:Broadcasting).

In [22]:
df1.sub(df1.iloc[0])

Unnamed: 0,A,B,C,D
0,0,0,0,0
1,2,9,0,2
2,-3,4,4,3


Observe que a ordem pode ser alterada especificando o axis da operação para os métodos do Pandas.

In [24]:
df1.sub(df1['A'], axis=0)

Unnamed: 0,A,B,C,D
0,0,-5,-2,-2
1,0,2,-4,-2
2,0,2,5,4


Outra observação é a possibilidade de realizar as operações com um subconjunto dos dados, onde o alinhamento entre indíces e linhas ocorre, e os dados ausentes são preenchidos com `NaN`.

In [31]:
df1 - df1.iloc[0,::2]

Unnamed: 0,A,B,C,D
0,0.0,,0.0,
1,2.0,,0.0,
2,-3.0,,4.0,
