## ufuncs: pandas e numpy
---

In [1]:
import pandas as pd
import numpy as np

qualquer ufunc visto em numpy vai funcionar aqui com series e dataframe de pandas, pois estes são contruídos baseados naquele.

In [2]:
rng = np.random.RandomState(42)
serie = pd.Series(rng.randint(0, 10, 4))
dataframe = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['a', 'b', 'c', 'd'])

por exemplo

In [3]:
np.exp(serie)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [4]:
np.tan(dataframe)

Unnamed: 0,a,b,c,d
0,-0.291006,-0.452316,-2.18504,-0.291006
1,0.871448,1.157821,-0.142547,0.871448
2,0.871448,-2.18504,-3.380515,1.157821


In [5]:
dataframe**2 + np.pi

Unnamed: 0,a,b,c,d
0,39.141593,84.141593,7.141593,39.141593
1,52.141593,19.141593,12.141593,52.141593
2,52.141593,7.141593,28.141593,19.141593


#### alinhamento dos índices
---

quando trabalhando com operações binárias, pandas alinha os índices dos dois ou mais arrays durante a operação, evitando erros, por exemplo, quando falta informações.

por exemplo:

In [6]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

as series acima dizem respeito à área e à população de alguns estados dos USA, respectivamente. só que, os dados não mostram os mesmos  estados, só alguns. Então, se for para calcular a densidade desses estados, o cálculo deve ocorrer apenas com aqueles estados que estão presentes em ambas as series. O pandas vai observar isso e corrigir os índices para fazer o cálculo de forma correta:

In [8]:
population/area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

observe que só há valores para os valores que intersectam as duas series:

In [10]:
area.index.intersection(population.index)

Index(['Texas', 'California'], dtype='object')

aqueles valores que não intersectam as series recebem `NaN`, que pode ser alterado, se desejar, com o parâmetro `fill_value`:

In [19]:
population.divide(area, fill_value=0)

Alaska         0.000000
California    90.413926
New York            inf
Texas         38.018740
dtype: float64

este alinhamento dos índices também ocorre com os dataframes:

In [20]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))

In [21]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


ou, se desejar dar outro valor a `NaN`:

In [26]:
A.add(B, fill_value='inf')

Unnamed: 0,A,B,C
0,1.0,15.0,inf
1,13.0,6.0,inf
2,inf,inf,inf


as operações que pandas suporta, são:

python|array1.função(array2)
---|---
+|add
-|sub, subtract
*|mul, multiply
/|truediv, div, divide
//|floordiv
%|mod
**|pow

#### operações entre serie e dataframe
---

ocorre o mesmo processo do `broadcasting` do numpy:

In [34]:
A = pd.DataFrame(rng.randint(10, size=(2, 3)))
A

Unnamed: 0,0,1,2
0,8,6,1
1,3,8,1


In [33]:
A - A[0]

array([[ 0,  0,  0],
       [-6,  4,  0]])

para fazer operações com as colunas, é necessário especificar através do parâmetro `axis=0`:

In [35]:
A.sub(A[0], axis=0)

Unnamed: 0,0,1,2
0,0,-2,-7
1,0,5,-2


aqui, também, ocorre o alinhamento de índices entre a serie e o dataframe.