<a target="_blank" href="https://colab.research.google.com/github/paulotguerra/QXD0178/blob/main/00.01-Introducao-Jupyter-NumPy-Pandas.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## QXD0178 - Mineração de Dados
# Introdução: Jupyter, NumPy e Pandas

**Professor:** Paulo de Tarso Guerra Oliveira ([paulodetarso@ufc.br](mailto:paulodetarso@ufc.br))

Parcialmente adaptado de: [*Overview of Colaboratory Features*](https://colab.research.google.com/notebooks/basic_features_overview.ipynb) e 


## Jupyter Project

Jupyter é um projeto com diversas aplicações que permitem criar e editar cadernos interativos baseados na web, nos quais é possível combinar código, texto e gráficos, tornando mais acessível e dinâmica a exploração de dados e a programação.

O Jupyter Notebook é parte do Jupyter Project é um ambiente baseado em web muito útil para desenvolvimento, colaboração e compartilhamento de implementações Python.

Jupyter Notebook combinam dois componentes:
1. **Cadernos computacionais (notebooks)**: um documento compartilhável que combina código de computador, descrições em linguagem simples, dados, visualizações avançadas como modelos 3D, gráficos, matemática, gráficos e figuras e controles interativos;
1. **Aplicativo da Web**: um programa de edição baseado em navegador para criação interativa de notebooks que fornece um ambiente interativo rápido para prototipagem e descrição de código, exploração e visualização de dados e compartilhamento de ideias com outras pessoas.


### Instalação
Para instalar o Jupyter Notebook usando o `pip`:
```bash
pip install notebook
```

Para executar o Jupyter Notebook faça
```bash
jupyter notebook
```


Jupyter Lab é uma nova versão do ambiente de desenvolvimento interativo baseado na Web para notebooks, código e dados. Sua interface flexível permite que os usuários configurem e organizem fluxos de trabalho em ciência de dados, computação científica, jornalismo computacional e aprendizado de máquina. Um design modular convida extensões para expandir e enriquecer a funcionalidade.

Para instalar o Jupyter Lab usando o `pip`:
```bash
pip install jupyterlab
```

Para executar o Jupyter Lab faça
```bash
jupyter lab
```


### Escrevendo notebooks

Um notebook é composto por **células de código** e **células de texto** (como esta).

#### Células de código
Abaixo está uma **célula de código**. Assim que o botão da barra de ferramentas indicar que está conectado, clique na célula para selecioná-la e execute o conteúdo da seguinte forma: 

* Clique no **ícone Play** a esquerda da célula;
* Digite **Ctrl+Enter** para executar a célula no local;
* Digite **Shift+Enter** para executar a célula e mover o foco para a próxima célula.

Existem opções adicionais para executar algumas ou todas as células no menu **Executar**. Caso a última linha da célula represente um objeto, o Jupyter irá exibir sua visualização.


In [1]:
a = 10
a

10

#### Células de texto
Você pode **clicar duas vezes** para editar uma **célula de texto**. Para escrever células de texto use a sintaxe de [**Markdown**](https://colab.research.google.com/notebooks/markdown_guide.ipynb).

Você também pode adicionar matemática a células de texto usando [LaTeX](http://www.latex-project.org/) que será renderizado via [MathJax](https://www.mathjax.org). Basta colocar a declaração dentro de um par de sinais ``$``. Por exemplo `$\sqrt{3x-1}+(1+x)^2$` torna-se $\sqrt{3x-1}+(1+x)^2.$

#### Adicionando ou movendo células
Você pode adicionar novas células clicando em **+** na barra de ferramentas superior ou usando os botões que aparecem quando você passa o mouse entre as células. Esses botões também estão na barra de ferramentas acima do notebook, onde podem ser usados para adicionar uma célula abaixo da célula atualmente selecionada.

Você pode mover uma célula selecionando-a e clicando em **para cima** ou **para baixo** na barra de ferramentas superior.



#### Kernel
Os **kernels** são processos específicos da linguagem de programação que são executados de forma independente e interagem com o Jupyter. Eles guardam estados do programa e podem ser iniciados e interrompidos a qualquer momento.

In [2]:
import time
print("Sleeping...")
time.sleep(10)
print("Done.")

Sleeping...
Done.


#### Comandos de sistema
O Jupyter inclui atalhos para operações comuns, como `ls`:

In [5]:
!ls /

bin    dev   lib    libx32	mnt   root  snap      sys  var
boot   etc   lib32  lost+found	opt   run   srv       tmp
cdrom  home  lib64  media	proc  sbin  swapfile  usr


Esses comandos podem ser integrados com o código Python

In [6]:
root_dir = !ls /
print(root_dir)

['bin', 'boot', 'cdrom', 'dev', 'etc', 'home', 'lib', 'lib32', 'lib64', 'libx32', 'lost+found', 'media', 'mnt', 'opt', 'proc', 'root', 'run', 'sbin', 'snap', 'srv', 'swapfile', 'sys', 'tmp', 'usr', 'var']


#### Magics

Existem anotações abreviadas que alteram a forma como o texto de uma célula é executado (Ver [página de magics](https://colab.research.google.com/corgiredirector?site=http%3A%2F%2Fnbviewer.jupyter.org%2Fgithub%2Fipython%2Fipython%2Fblob%2F1.x%2Fexamples%2Fnotebooks%2FCell%2520Magics.ipynb) do Jupyter).

In [7]:
%%html
<marquee style='width: 30%; color: blue;'><b>Whee!</b></marquee>

In [8]:
%%html
<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 450 400" width="200" height="200">
  <rect x="80" y="60" width="250" height="250" rx="20" style="fill:red; stroke:black; fill-opacity:0.7" />
  <rect x="180" y="110" width="250" height="250" rx="40" style="fill:blue; stroke:black; fill-opacity:0.5;" />
</svg>

In [9]:
%time print("Hello World")

Hello World
CPU times: user 126 µs, sys: 18 µs, total: 144 µs
Wall time: 126 µs


## NumPy

NumPy (abreviação de *Numerical Python*) fornece uma interface eficiente para armazenar e operar em grandes buffers de dados. As matrizes NumPy formam o núcleo de quase todo o ecossistema de ferramentas de ciência de dados em Python.

De certa forma, as matrizes NumPy são como o tipo `list` do Python, mas à medida que as matrizes aumentam de tamanho as matrizes NumPy fornecem armazenamento e operações de dados muito eficientes.

Primeiro é importante entender que um simples inteiro em Python é muito mais que apenas o armazenamento direto deste. No Python 3.10, a definição do tipo inteiro (longo) se parece com o seguinte código:

```C
struct _longobject {
    long ob_refcnt; // contador que auxilia a alocação e desalocação de memória
    PyTypeObject *ob_type; // tipo da variável 
    size_t ob_size; // especifica o tamanho do dado
    long ob_digit[1]; // valor do inteiro que a variável representa 
};
```
Essa informação extra na estrutura inteira do Python é o que permite que o Python seja codificado de forma tão livre e dinâmica.

No Python, um `list` também é muito mais que apenas uma lista

In [10]:
L1 = list(range(10))
L1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
L2 = [True, "2", 3.0, 4]
[type(x) for x in L2]

[bool, str, float, int]

Para permitir esses tipos flexíveis, cada item da lista deve conter seu próprio tipo, contagem de referência e outras informações. Ou seja, cada item é um objeto Python completo.

De modo similar ao que ocorre com o tipo `int` de C e Python, trabalhar com grandes dados necessita de muito mais informações e eficiência que o tipo `list` do Python pode proporcionar.

Em Python existe o tipo de dados nativo `array`, que pode ser usado para criar vetores grandes e uniformes, que podem ser armazenados de modo muito mais eficiente.

In [12]:
import array
L = list(range(10))
A = array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

O NumPy traz contudo o tipo `ndarray` que adiciona a essa eficiencia *operações* sobre esses dados.

In [13]:
import numpy as np

In [14]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

In [15]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

In [16]:
np.array([1, 2, 3, 4], dtype=np.float32)

array([1., 2., 3., 4.], dtype=float32)

In [17]:
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### Arrays com NumPy

#### Modos de criar arrays com NumPy

In [18]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [19]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [20]:
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [21]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

#### Acessando elementos do array

In [22]:
x = np.array([1, 2, 3, 4, 5])
x[0], x[1], x[-1], x[-2]

(1, 2, 5, 4)

In [23]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [24]:
y[1,2]

6

In [25]:
y[0,-1] = 0
y

array([[2, 3, 0],
       [4, 5, 6],
       [6, 7, 8]])

#### Acessando subarrays de um array unidimensional

In [26]:
x = np.array([1, 2, 3, 4, 5])
x[:3], x[3:], x[1:4]

(array([1, 2, 3]), array([4, 5]), array([2, 3, 4]))

In [27]:
x[::2], x[1::2]

(array([1, 3, 5]), array([2, 4]))

In [28]:
x[::-1], x[4::-2]

(array([5, 4, 3, 2, 1]), array([5, 3, 1]))

#### Acessando subarrays de um array multidimensional

In [29]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [30]:
y[:2, :3]

array([[2, 3, 4],
       [4, 5, 6]])

In [31]:
y[:3, ::2] 

array([[2, 4],
       [4, 6],
       [6, 8]])

In [32]:
y[::-1, ::-1]

array([[8, 7, 6],
       [6, 5, 4],
       [4, 3, 2]])

#### Acessando linhas e colunas

In [33]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [34]:
y[1,:], y[:,1]

(array([4, 5, 6]), array([3, 5, 7]))

#### Remodelando arrays

In [35]:
x = np.arange(1, 10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [36]:
x.reshape((3,3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [37]:
x.reshape((1,9)), x.reshape((9,1))

(array([[1, 2, 3, 4, 5, 6, 7, 8, 9]]),
 array([[1],
        [2],
        [3],
        [4],
        [5],
        [6],
        [7],
        [8],
        [9]]))

####  Concatenando arrays

In [38]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
z = np.array([9, 9, 9])
np.concatenate([x, y, z])

array([1, 2, 3, 3, 2, 1, 9, 9, 9])

In [39]:
y = np.arange(1, 10).reshape((3, 3))
y

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [40]:
np.concatenate([y,y])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [41]:
np.concatenate([y, y], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

####  Dividindo arrays

In [42]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
x1, x2, x3

(array([1, 2, 3]), array([99, 99]), array([3, 2, 1]))

In [43]:
y = np.arange(16).reshape((4, 4))
y

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [44]:
np.vsplit(y, [2])

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [45]:
np.hsplit(y, [2])

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

### Operações sobre arrays (*Ufunc*)

A implementação padrão do Python (conhecida como CPython) faz algumas operações muito lentamente.

Isso se deve em parte à natureza dinâmica e interpretada da linguagem; os tipos são flexíveis, portanto, as sequências de operações não podem ser compiladas em código de máquina eficiente, como em linguagens como C e Fortran.

O NumPy fornece operação *vetorizada*, uma interface conveniente para esse tipo de rotina compilada e tipada estaticamente. Essa abordagem vetorizada foi projetada para enviar o loop para a camada compilada subjacente ao NumPy, levando a uma execução muito mais rápida.

As operações vetorizadas no NumPy são implementadas via **Ufuncs** (*Universal Functions*), cujo objetivo principal é executar rapidamente operações repetidas em valores em arrays NumPy.

In [46]:
import numpy as np

big_array = np.arange(1, 1000000)

In [47]:
def divide_by_2(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = values[i] / 2.0
    return output

%time divide_by_2(big_array)

CPU times: user 2.3 s, sys: 11.5 ms, total: 2.31 s
Wall time: 2.31 s


array([5.000000e-01, 1.000000e+00, 1.500000e+00, ..., 4.999985e+05,
       4.999990e+05, 4.999995e+05])

In [48]:
%time big_array / 2.0

CPU times: user 5.86 ms, sys: 205 µs, total: 6.07 ms
Wall time: 5.3 ms


array([5.000000e-01, 1.000000e+00, 1.500000e+00, ..., 4.999985e+05,
       4.999990e+05, 4.999995e+05])

In [49]:
%time big_array * big_array

CPU times: user 4.18 ms, sys: 22 µs, total: 4.2 ms
Wall time: 3.9 ms


array([           1,            4,            9, ..., 999994000009,
       999996000004, 999998000001])

#### Lista de operadores aritméticos implementados no NumPy

| Operador    | Ufunc equivalente | Descrição                         |
|-------------|-------------------|-----------------------------------|
|`+`          |`np.add`           |Adição (ex., `1 + 1 = 2`)          |
|`-`          |`np.subtract`      |Subtração (ex., `3 - 2 = 1`)       |
|`-`          |`np.negative`      |Negação unária (ex., `-2`)         |
|`*`          |`np.multiply`      |Multiplicação (ex., `2 * 3 = 6`)   |
|`/`          |`np.divide`        |Divisão (ex., `3 / 2 = 1.5`)       |
|`//`         |`np.floor_divide`  |Divisão inteira (ex., `3 // 2 = 1`)|
|`**`         |`np.power`         |Exponenciação (ex., `2 ** 3 = 8`)  |
|`%`          |`np.mod`           |Módulo (ex., `9 % 4 = 1`)          |

In [50]:
big_array = np.arange(1, 1000000)

big_array // 2

array([     0,      1,      1, ..., 499998, 499999, 499999])

#### Outros operadores

| Operador    | Ufunc equivalente | Descrição                                |
|-------------|-------------------|------------------------------------------|
|`abs`        |`np.absolute`      |Valor absoluto (ex., `abs(-1) = 1`)       |
|`sin`        |`np.sin`           |Seno (ex., `sen(pi/2) = 1`)               |
|`cos`        |`np.cos`           |Cosseno (ex., `cos(2*pi) = 1`)            |
|`tan`        |`np.tan`           |Tangente (ex., `tan(pi/4) = 1`)           |
|`e^x`        |`np.exp`           |Exponencial (ex., `e^1 = 2.7182`)         |
|`2^x`        |`np.exp2`          |Exponencial (ex., `2^1 = 2`)              |
|`ln`         |`np.log`           |Logaritmo natural (ex., `ln(10) = 2.3025`)|
|`log`        |`np.log10`         |Logaritmo base 10 (ex., `log10(10)= 1`)   |

In [69]:
big_array_pi = big_array*np.pi
np.cos(big_array_pi)

array([-1.,  1., -1., ..., -1.,  1., -1.])

#### Operações avançadas

| Ufunc                      |Descrição              |
|----------------------------|-----------------------|
|`np.add.reduce`             |Somatório              |
|`np.multiply.reduce`        |Produtório             |
|`np.add.accumulate`         |Acumular soma          |
|`np.multiply.accumulate(x)` |Acumular multiplicação |
|`np.multiply.outer`         |Tabela de multiplicação|


In [70]:
x = np.arange(1, 6)
np.add.reduce(x)

15

#### Operadores booleanos

Lista de operadores booleanos implementados no NumPy

| Operador    | Ufunc equivalente | Descrição                               |
|-------------|-------------------|-----------------------------------------|
|`&`          |`np.bitwise_and`   | Conjunção (ex. `1 & 0 = 0`)             |
|&#124;       |`np.bitwise_or`    | Disjunção (ex. `1 \| 0 = 1`)      |
|`^`          |`np.bitwise_xor`   | Disjunção-exclusiva (ex. `1 ^ 1 = 0`)   |
|`~`          |`np.bitwise_not`   | Negação (ex. `~1 = 0`)                  |
|`==`         |`np.equal`         | Igualdade (ex. `1 = 1`)                 |
|`!=`         |`np.not_equal`     | Desigualdade (ex. `1 != 0`)             |
|`<`          |`np.less`          | Menor que (ex. `0 < 1`)                 |
|`<=`         |`np.less_equal`    | Menor ou igual (ex. `1 <= 1`)           |
|`>`          |`np.greater`       | Maior que (ex. `1 > 0`)                 |
|`>=`         |`np.greater_equal` | Maior ou igual (ex. `1 >= 1`)           |

In [53]:
x = np.arange(1,10)
x <= 5

array([ True,  True,  True,  True,  True, False, False, False, False])

#### Operações com arrays booleanos

In [71]:
x = np.arange(1,10)
np.count_nonzero(x < 8)

7

In [55]:
np.sum(x < 8)

7

In [56]:
np.any(x < 0)

False

In [57]:
np.all(x < 10)

True

#### Arrays como máscara

In [58]:
x = np.arange(1,10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [59]:
x <= 5

array([ True,  True,  True,  True,  True, False, False, False, False])

In [60]:
x[x <= 5]

array([1, 2, 3, 4, 5])

In [75]:
y = x.reshape((3,3))
y < 5

array([[ True,  True,  True],
       [ True, False, False],
       [False, False, False]])

## Pandas