# CURSO USANDO PYTHON PARA ANÁLISE DE DADOS

https://www.udemy.com/usando-python-para-analise-de-dados

## NumPy

## Indexação booleana

Nesta aula vou mostrar um exemplo de como utilizar indexação booleana em arrays.
Vamos imaginar o seguinte cenário:
Temos um array com o número de vendas mensais de três vendedores, onde cada linha representa uma semana e cada coluna, um dia.
Temos também um array com os nomes dos vendedores na mesma ordem, significando que cada linha no array de vendas representa uma linha no array de vendedores.

In [1]:
import numpy as np

In [2]:
vendedores = np.array(["Sócrates", "Aristóteles",
                       "Platão", "Sócrates",
                       "Sócrates", "Platão",
                       "Platão", "Platão",
                       "Aristóteles", "Sócrates",
                       "Aristóteles", "Aristóteles"])

In [3]:
vendas = np.array([
                    [10,19,30,3,14],
                    [13,18,18,5,16],
                    [0,4,19,16,20],
                    [17,21,1,3,4],
                    [25,6,14,9,7],
                    [18,17,21,7,6],
                    [9,10,2,3,3],
                    [7,5,12,21,9],
                    [8,3,5,4,17],
                    [1,9,4,4,16],
                    [4,8,3,4,13],
                    [6,5,5,4,27]
                   ])

De posse destes dois dados, como podemos usar indexação booleana para nos ajudar a selecionar as vendas de um determinado vendedor?
Resp.: Podemos criar um novo array contendo valores True e False de acordo com cada ocorrência do nome do vendedor no array que possui os nomes dos vendedores. Vamos ver como ficaria se quiséssemos somente os dados do vendedor “Sócrates”.

In [4]:
vendedores == "Sócrates"

array([ True, False, False,  True,  True, False, False, False, False,
        True, False, False])

In [5]:
vendas[vendedores == "Sócrates"]

array([[10, 19, 30,  3, 14],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  9,  7],
       [ 1,  9,  4,  4, 16]])

O array booleano deve ter o mesmo tamanho do eixo do array que ele está indexando. Podemos até misturar e fazer correspondência entre arrays booleanos e fatias, inteiros ou sequências de inteiros.
Vamos agora utilizar fatias em conjunto com o array booleano para selecionar todas as vendas do vendedor “Sócrates” que foram realizadas em dias de terça-feira.

In [6]:
vendas[vendedores == "Sócrates", 1:2]

array([[19],
       [21],
       [ 6],
       [ 9]])

Para retornar todos, exceto sócrates podemos usar:

In [7]:
vendas[vendedores != "Sócrates"]

array([[13, 18, 18,  5, 16],
       [ 0,  4, 19, 16, 20],
       [18, 17, 21,  7,  6],
       [ 9, 10,  2,  3,  3],
       [ 7,  5, 12, 21,  9],
       [ 8,  3,  5,  4, 17],
       [ 4,  8,  3,  4, 13],
       [ 6,  5,  5,  4, 27]])

Ou negar a condição desta forma:

In [8]:
vendas[~(vendedores == "Sócrates")]

array([[13, 18, 18,  5, 16],
       [ 0,  4, 19, 16, 20],
       [18, 17, 21,  7,  6],
       [ 9, 10,  2,  3,  3],
       [ 7,  5, 12, 21,  9],
       [ 8,  3,  5,  4, 17],
       [ 4,  8,  3,  4, 13],
       [ 6,  5,  5,  4, 27]])

O operador “~” inverte uma condição.

Podemos também utilizar os operadores matemáticos booleanos & (e) e | (ou). As palavras reservadas and e or não funcionam com arrays booleanos.

In [9]:
validacao = (vendedores == "Sócrates") | (vendedores == "Platão")
vendas[(validacao)]

array([[10, 19, 30,  3, 14],
       [ 0,  4, 19, 16, 20],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  9,  7],
       [18, 17, 21,  7,  6],
       [ 9, 10,  2,  3,  3],
       [ 7,  5, 12, 21,  9],
       [ 1,  9,  4,  4, 16]])

Selecionar dados de um array com indexação booleana sempre criará uma cópia dos dados, mesmo que o array devolvido não seja alterado.

In [10]:
resultado = vendas[vendedores == "Sócrates"]
resultado

array([[10, 19, 30,  3, 14],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  9,  7],
       [ 1,  9,  4,  4, 16]])

In [11]:
# A substituição é feita somente na cópia
resultado[resultado == 9] = 0
resultado

array([[10, 19, 30,  3, 14],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  0,  7],
       [ 1,  0,  4,  4, 16]])

In [12]:
# Os valores 9 não foram substitúidos por zero no array original
vendas

array([[10, 19, 30,  3, 14],
       [13, 18, 18,  5, 16],
       [ 0,  4, 19, 16, 20],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  9,  7],
       [18, 17, 21,  7,  6],
       [ 9, 10,  2,  3,  3],
       [ 7,  5, 12, 21,  9],
       [ 8,  3,  5,  4, 17],
       [ 1,  9,  4,  4, 16],
       [ 4,  8,  3,  4, 13],
       [ 6,  5,  5,  4, 27]])

Outro exemplo:

In [13]:
vendas[vendedores == "Aristóteles"] = 10
vendas

array([[10, 19, 30,  3, 14],
       [10, 10, 10, 10, 10],
       [ 0,  4, 19, 16, 20],
       [17, 21,  1,  3,  4],
       [25,  6, 14,  9,  7],
       [18, 17, 21,  7,  6],
       [ 9, 10,  2,  3,  3],
       [ 7,  5, 12, 21,  9],
       [10, 10, 10, 10, 10],
       [ 1,  9,  4,  4, 16],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10]])