# <font color="blue"><h4 align="center">Comparações Logicas com Pandas</font>

- [Fonte:] https://towardsdatascience.com/using-logical-comparisons-with-pandas-dataframes-3520eb73ae63

In [14]:
import pandas as pd
# fixed data so sample data will stay the same
#df = pd.read_html("https://finance.yahoo.com/quote/TSLA/history?period1=1277942400&period2=1594857600&interval=1d&filter=history&frequency=1d")[0]
df = pd.read_csv("TSLA.csv")
df = df.tail(10) # only work with the first 10 points
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
2517,2020-07-01,216.600006,227.065994,216.100006,223.925995,223.925995,66634500
2518,2020-07-02,244.296005,245.600006,237.119995,241.731995,241.731995,86250500
2519,2020-07-06,255.337997,275.558014,253.207993,274.31601,274.31601,102849500
2520,2020-07-07,281.002014,285.899994,267.34201,277.971985,277.971985,107448500
2521,2020-07-08,281.0,283.451996,262.268005,273.175995,273.175995,81556500
2522,2020-07-09,279.39801,281.712006,270.256012,278.855988,278.855988,58588000
2523,2020-07-10,279.200012,309.783997,275.201996,308.929993,308.929993,116688000
2524,2020-07-13,331.799988,358.997986,294.221985,299.411987,299.411987,194927000
2525,2020-07-14,311.200012,318.0,286.200012,303.359985,303.359985,117090500
2526,2020-07-15,308.600006,310.0,291.399994,309.201996,309.201996,81839000


## <font color="purple"><h4 align="left">Logical Comparisons With Pandas</font>
Os invólucros disponíveis para uso são:

- eq (equivalente a ==) — igual
- ne (equivalente a !=) — diferente
- le (equivalente a <=) — menor ou igual a
- lt (equivalente a <) — menor que
- ge (equivalente a >=) — maior ou igual a
- gt (equivalente a >) — maior que

### <font color="purple"><h4 align="left">Antes de realizar comparações logicas devemos converter os tipos de dados no Dataframe Pandas</font>

In [15]:
df = df.astype({"Open":'float',
                "High":'float',
                "Low":'float',
                "Close":'float',
                "Adj Close":'float',
                "Volume":'float'})

In [16]:
old = df['Open'] >= 270

In [17]:
old

2517    False
2518    False
2519    False
2520     True
2521     True
2522     True
2523     True
2524     True
2525     True
2526     True
Name: Open, dtype: bool

## <font color="purple"><h4 align="left">1) Comparando duas colunas com o sinal de diferente.</font>
    No conjunto de dados, você verá que há uma coluna "Close*" e uma coluna" Adj Close**". O preço de fechamento ajustado é alterado para refletir dividendos e divisões potenciais, enquanto o preço de fechamento é ajustado apenas para divisões. Para ver se esses eventos podem ter acontecido, podemos fazer um teste básico para ver se os valores nas duas colunas não são iguais.
    
    Para isso, executamos o seguinte:

In [23]:
# o adj close é diferente do close?
df['Close Comparison'] = df['Adj Close'].ne(df['Close'])
df[['Date','Close','Adj Close','Close Comparison']]

Unnamed: 0,Date,Close,Adj Close,Close Comparison
2517,2020-07-01,223.925995,223.925995,False
2518,2020-07-02,241.731995,241.731995,False
2519,2020-07-06,274.31601,274.31601,False
2520,2020-07-07,277.971985,277.971985,False
2521,2020-07-08,273.175995,273.175995,False
2522,2020-07-09,278.855988,278.855988,False
2523,2020-07-10,308.929993,308.929993,False
2524,2020-07-13,299.411987,299.411987,False
2525,2020-07-14,303.359985,303.359985,False
2526,2020-07-15,309.201996,309.201996,False


 Aqui, tudo o que fizemos foi chamar a função .ne() na coluna “Adj Close” e passar “Close”, a coluna que queremos comparar, como argumento para a função.

 Se dermos uma olhada no DataFrame resultante, você verá que criamos uma nova coluna “Close Comparison” que mostrará “True” se as duas colunas Close originais forem diferentes e “False” se forem iguais. Nesse caso, você pode ver que os valores de “Close” e “Adj Close” em todas as linhas são os mesmos, então a “Comparação de Close” tem apenas valores “False”. Tecnicamente, isso significaria que poderíamos remover a coluna “Adj Close”, pelo menos para este subconjunto de dados, pois ela contém apenas valores duplicados para a coluna “Close”.

## <font color="purple"><h4 align="left">2) Comparando se uma coluna é maior que outra.</font>
    Muitas vezes, gostaríamos de ver se o preço de uma ação aumentou até o final do dia. Uma maneira de fazer isso seria ver um valor “True” se o preço “Close*” fosse maior que o preço “Open” ou “False” caso contrário.
    
Para implementar isso, executamos o seguinte:    

In [24]:
# o fechamento é maior que o aberto?
df['Aumento de preço Boleano'] = df['Close'].gt(df['Open'])
df[['Date','Open','Close','Aumento de preço Boleano']]

Unnamed: 0,Date,Open,Close,Aumento de preço Boleano
2517,2020-07-01,216.600006,223.925995,True
2518,2020-07-02,244.296005,241.731995,False
2519,2020-07-06,255.337997,274.31601,True
2520,2020-07-07,281.002014,277.971985,False
2521,2020-07-08,281.0,273.175995,False
2522,2020-07-09,279.39801,278.855988,False
2523,2020-07-10,279.200012,308.929993,True
2524,2020-07-13,331.799988,299.411987,False
2525,2020-07-14,311.200012,303.359985,False
2526,2020-07-15,308.600006,309.201996,True


   Aqui, vemos que o preço “Close” no final do dia foi superior ao preço “Open” no início do dia 07/01 vezes nas duas primeiras semanas de julho de 2020. Isso pode não ser tão informativo porque é uma amostra tão pequena, mas se você estendesse isso para meses ou até anos de dados, poderia indicar a tendência geral do estoque (para cima ou para baixo).

## <font color="purple"><h4 align="left">3) Checando se uma coluna é maior que um valor escalar.</font>
    Até agora, apenas comparamos colunas umas com as outras. Você também pode usar os operadores lógicos para comparar valores em uma coluna com um valor escalar como um número inteiro. Por exemplo, digamos que se o volume negociado por dia for maior ou igual a 100 milhões, chamaremos de dia de “alto volume”.
    
    Para isso, executamos o seguinte:

In [26]:
# o volume foi maior que 100m?
df['Volume alto de transações'] = df['Volume'].ge(100000000)
df[['Date','Volume','Volume alto de transações']]

Unnamed: 0,Date,Volume,Volume alto de transações
2517,2020-07-01,66634500.0,False
2518,2020-07-02,86250500.0,False
2519,2020-07-06,102849500.0,True
2520,2020-07-07,107448500.0,True
2521,2020-07-08,81556500.0,False
2522,2020-07-09,58588000.0,False
2523,2020-07-10,116688000.0,True
2524,2020-07-13,194927000.0,True
2525,2020-07-14,117090500.0,True
2526,2020-07-15,81839000.0,False


 Em vez de passar uma coluna para a função de comparação lógica, desta vez simplesmente temos que passar nosso valor escalar “100000000”.
 
 Agora, podemos ver que em 5/10 dias o volume foi maior ou igual a 100 milhões.

## <font color="purple"><h4 align="left">4) Verificando se uma coluna é maior que ela mesma.</font>
   Anteriormente, comparamos se os valores “Abrir” e “Fechar*” em cada linha eram diferentes. Seria legal se, em vez disso, comparássemos o valor de uma coluna com o valor anterior, para rastrear um aumento ou diminuição ao longo do tempo. Isso significa que podemos verificar se o valor "Fechar*" de 15 de julho foi maior que o valor de 14 de julho.

   Para isso, executamos o seguinte:

In [29]:
# o fechamento foi maior que o fechamento de ontem?
df['Close (t-1)'] = df['Close'].shift(-1)
df['Aumentolongo do tempo'] = df['Close'].gt(df['Close'].shift(-1))
df[['Date','Close','Close (t-1)','Aumentolongo do tempo']]

Unnamed: 0,Date,Close,Close (t-1),Aumentolongo do tempo
2517,2020-07-01,223.925995,241.731995,False
2518,2020-07-02,241.731995,274.31601,False
2519,2020-07-06,274.31601,277.971985,False
2520,2020-07-07,277.971985,273.175995,True
2521,2020-07-08,273.175995,278.855988,False
2522,2020-07-09,278.855988,308.929993,False
2523,2020-07-10,308.929993,299.411987,True
2524,2020-07-13,299.411987,303.359985,False
2525,2020-07-14,303.359985,309.201996,False
2526,2020-07-15,309.201996,,False


Para fins de ilustração, incluí a coluna “Fechar (t-1)” para que você possa comparar cada linha diretamente. Na prática, você não precisa adicionar uma coluna totalmente nova, pois tudo o que estamos fazendo é passar a coluna “Close*” novamente para o operador lógico, mas também estamos chamando shift(-1) para mover todos os valores “aumentaram em um”.

O que está acontecendo aqui é basicamente subtrair um do índice, então o valor de 14 de julho sobe, o que permite compará-lo com o valor real de 15 de julho. O valor “Close*” foi maior que o valor “Close*” do dia anterior.

## <font color="purple"><h4 align="left">5) Comparando uma coluna com uma lista.</font>
   Como exercício final, digamos que desenvolvemos um modelo para prever os preços das ações para 10 dias. Armazenaremos essas previsões em uma lista e, em seguida, compararemos os valores "Open" e "Close" de cada dia com os valores da lista.

    Para isso, executamos o seguinte:

In [31]:
# o preço de abertura e fechamento correspondeu às previsões?
predictions = [309.2, 303.36, 300, 489, 391, 445, 402.84, 274.32, 410, 223.93]
df2 = df[['Open','Close']].eq(predictions, axis='index')
df2[['Open','Close']]

Unnamed: 0,Open,Close
2517,False,False
2518,False,False
2519,False,False
2520,False,False
2521,False,False
2522,False,False
2523,False,False
2524,False,False
2525,False,False
2526,False,False


   Aqui, comparamos nossa lista gerada de previsões para os preços diários das ações e a comparamos com a coluna "Close". Para fazer isso, passamos “previsões” para a função eq() e definimos axis='index'. Por padrão, os wrappers de comparação têm axis='columns', mas, neste caso, queremos trabalhar com cada linha em cada coluna.
   
   O que isso significa é que o Pandas irá comparar "309.2", que é o primeiro elemento da lista, com os primeiros valores de "Open" e "Close*". Em seguida, ele passará para o segundo valor na lista e os segundos valores do DataFrame e assim por diante. Lembre-se de que o índice de uma lista e um DataFrame começam em 0, então você deve olhar para “308.6” e “309.2” respectivamente para os primeiros valores da coluna DataFrame (role para cima se quiser verificar novamente os resultados).

   Com base nessas previsões arbitrárias, você pode ver que não houve correspondências entre os valores da coluna "Open" e a lista de previsões. Houve 4/10 correspondências entre os valores da coluna "Close" e a lista de previsões.

- Espero que você tenha achado útil esta introdução básica às comparações lógicas no Pandas usando os wrappers. Lembre-se de comparar apenas os dados que podem ser comparados (ou seja, não tente comparar uma string com um float) e verifique manualmente os resultados para garantir que seus cálculos estejam produzindo os resultados pretendidos.

Vá em frente e compare!

In [32]:
!jupyter nbconvert --to HTML OPERAÇÕES_LOGICAS_COM_DATAFRAME.ipynb

[NbConvertApp] Converting notebook OPERAÇÕES_LOGICAS_COM_DATAFRAME.ipynb to HTML
[NbConvertApp] Writing 602285 bytes to OPERAÇÕES_LOGICAS_COM_DATAFRAME.html
