# 04 - Pandas - Processamento e Análise de Dados
## Aula 11 - 06 - Pandas - Comparação de Dataframes

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)

# 06 - Pandas - Comparação de Dataframes
## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
'primeiro': pd.Series(np.random.randint(1,10,3), index=['a', 'b', 'c']),
'segundo': pd.Series(np.random.randint(1,10,4), index=['a', 'b', 'c', 'd']),
'col1': pd.Series(np.random.randint(1,10,3), index=['b', 'c', 'd'])})
df

Unnamed: 0,primeiro,segundo,col1
a,9.0,3,
b,8.0,8,5.0
c,9.0,7,3.0
d,,2,2.0


In [3]:
df1 = pd.DataFrame({
'primeiro': pd.Series(np.random.randint(1,10,3), index=['a', 'b', 'c'])})
df1

Unnamed: 0,primeiro
a,7
b,4
c,5


In [4]:
df2 = pd.DataFrame({
    'primeiro': pd.Series(np.random.randint(1,10,4), index=['a', 'b', 'c', 'd'])})
df2

Unnamed: 0,primeiro
a,8
b,3
c,3
d,8


### Comparações flexíveis 
Série e DataFrame tem os métodos de comparação de binário eq, ne, lt, gt, le, e ge cujo comportamento é análogo ao das operações aritméticas binárias.

Essas operações produzem um objeto pandas do mesmo tipo que a entrada do lado esquerdo que é do tipo d bool. Esses booleanobjetos podem ser usados ​​em operações de indexação

In [5]:
df1.gt(df2)

Unnamed: 0,primeiro
a,False
b,True
c,True
d,False


In [6]:
df2.ne(df1)

Unnamed: 0,primeiro
a,True
b,True
c,True
d,True


## Reduções booleanas 
#### Você pode aplicar as reduções: empty, any(), all(), e bool() para fornecer uma maneira de resumir um resultado boolean.

In [7]:
df > 0

Unnamed: 0,primeiro,segundo,col1
a,True,True,False
b,True,True,True
c,True,True,True
d,False,True,True


In [8]:
(df > 0).all()

primeiro    False
segundo      True
col1        False
dtype: bool

In [9]:
(df['primeiro'] > 0).all()

False

In [10]:
(df > 0).any()

primeiro    True
segundo     True
col1        True
dtype: bool

#### Você pode reduzir a um valor booleano final.

In [11]:
(df > 0).all().any()

True

#### Você pode testar se um objeto pandas está vazio, por meio da emptypropriedade.

In [12]:
df.empty

False

In [13]:
df = pd.DataFrame(columns=list('ABC'))
if df.empty:
    print('Data frame vazio')
else:
    df.head()

Data frame vazio


In [14]:
df = pd.DataFrame({ 'a' : [1,2,3], 'b':[3,4,5]})
if df.empty:
    print('Data frame vazio')
else:
    print(df.head())

   a  b
0  1  3
1  2  4
2  3  5


## Comparando se os objetos são equivalentes 

In [15]:
df

Unnamed: 0,a,b
0,1,3
1,2,4
2,3,5


In [16]:
df + df == df * 2

Unnamed: 0,a,b
0,True,True
1,True,True
2,True,True


In [17]:
(df + df == df * 2).all()

a    True
b    True
dtype: bool

#### Series e DataFrames têm um equals()método para testar a igualdade, com NaNs em locais correspondentes tratados como iguais.

In [18]:
(df + df).equals(df * 2)

True

### Comparando objetos semelhantes a array 
Você pode realizar comparações de elementos de forma conveniente ao comparar uma estrutura de dados do pandas com um valor escalar

In [19]:
import pandas as pd
pd.Series(['01', '02', '03']) == '01'

0     True
1    False
2    False
dtype: bool

In [20]:
pd.Index(['01', '02', '03']) == '04'

array([False, False, False])

pd.Index(['01', '02', '03']) == '01'

### O Pandas também lida com comparações de elementos entre diferentes objetos semelhantes a matrizes do mesmo comprimento:

In [21]:
pd.Series(['01', '02', '03']) == pd.Index(['01', '02', '04'])

0     True
1     True
2    False
dtype: bool

In [22]:
pd.Series(['01', '02', '03']) == np.array(['01', '02', '04'])

0     True
1     True
2    False
dtype: bool

## Combinando conjuntos de dados sobrepostos com combine_first():

In [23]:
df1 = pd.DataFrame({'A': [1., np.nan, 3., 5., np.nan],
                    'B': [np.nan, 2., 3., np.nan, 6.]})
df1

Unnamed: 0,A,B
0,1.0,
1,,2.0
2,3.0,3.0
3,5.0,
4,,6.0


In [24]:
df2 = pd.DataFrame({'A': [5., 2., 4., np.nan, 3., 7.],
                              'B': [np.nan, np.nan, 3., 4., 6., 8.]})
df2

Unnamed: 0,A,B
0,5.0,
1,2.0,
2,4.0,3.0
3,,4.0
4,3.0,6.0
5,7.0,8.0


In [25]:
df1.combine_first(df2)

Unnamed: 0,A,B
0,1.0,
1,2.0,2.0
2,3.0,3.0
3,5.0,4.0
4,3.0,6.0
5,7.0,8.0


### Combinação de DataFrame Generico
O DataFrame.combine() pega outro DataFrame e uma função combinadora, alinha o DataFrame de entrada e então passa os pares de função combinadora de Series (isto é, colunas cujos nomes são iguais).

In [26]:
def combiner(x, y):
    return np.where(pd.isna(x), y, x)

df1.combine(df2,func = combiner , fill_value =0)

Unnamed: 0,A,B
0,1.0,0.0
1,0.0,2.0
2,3.0,3.0
3,5.0,0.0
4,0.0,6.0
5,0.0,0.0


## Leituras Adicionais e Referências:

- Python Tutorial at W3Schools: https://www.w3schools.com/python/
- Python official documentation: https://docs.python.org/3/tutorial/index.html
- Pandas  official documentation: https://pandas.pydata.org/pandas-docs/stable/index.html