<a target="_blank" href="https://colab.research.google.com/github/paulotguerra/QXD0178/blob/main/00.01-Introducao-Jupyter-NumPy-Pandas.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## QXD0178 - Mineração de Dados
# Introdução: Jupyter, NumPy e Pandas

**Professor:** Marcos Antonio de Oliveira ([marcos.deoliveira@ufc.br](mailto:marcos.oliveira@ufc.br))

Parcialmente adaptado de: [*Overview of Colaboratory Features*](https://colab.research.google.com/notebooks/basic_features_overview.ipynb)


## Jupyter Project

Jupyter é um projeto com diversas aplicações que permitem criar e editar cadernos interativos baseados na web, nos quais é possível combinar código, texto e gráficos, tornando mais acessível e dinâmica a exploração de dados e a programação.

O Jupyter Notebook é parte do Jupyter Project é um ambiente baseado em web muito útil para desenvolvimento, colaboração e compartilhamento de implementações Python.

Jupyter Notebook combinam dois componentes:
1. **Cadernos computacionais (notebooks)**: um documento compartilhável que combina código de computador, descrições em linguagem simples, dados, visualizações avançadas como modelos 3D, gráficos, matemática, gráficos e figuras e controles interativos;
1. **Aplicativo da Web**: um programa de edição baseado em navegador para criação interativa de notebooks que fornece um ambiente interativo rápido para prototipagem e descrição de código, exploração e visualização de dados e compartilhamento de ideias com outras pessoas.


### Instalação
Para instalar o Jupyter Notebook usando o `pip`:
```bash
pip install notebook
```

Para executar o Jupyter Notebook faça
```bash
jupyter notebook
```


Jupyter Lab é uma nova versão do ambiente de desenvolvimento interativo baseado na Web para notebooks, código e dados. Sua interface flexível permite que os usuários configurem e organizem fluxos de trabalho em ciência de dados, computação científica, jornalismo computacional e aprendizado de máquina. Um design modular convida extensões para expandir e enriquecer a funcionalidade.

Para instalar o Jupyter Lab usando o `pip`:
```bash
pip install jupyterlab
```

Para executar o Jupyter Lab faça
```bash
jupyter lab
```


### Escrevendo notebooks

Um notebook é composto por **células de código** e **células de texto** (como esta).

#### Células de código
Abaixo está uma **célula de código**. Assim que o botão da barra de ferramentas indicar que está conectado, clique na célula para selecioná-la e execute o conteúdo da seguinte forma:

* Clique no **ícone Play** a esquerda da célula;
* Digite **Ctrl+Enter** para executar a célula no local;
* Digite **Shift+Enter** para executar a célula e mover o foco para a próxima célula.

Existem opções adicionais para executar algumas ou todas as células no menu **Executar**. Caso a última linha da célula represente um objeto, o Jupyter irá exibir sua visualização.


In [None]:
a = 10 + 2
a

12

#### Células de texto
Você pode **clicar duas vezes** para editar uma **célula de texto**. Para escrever células de texto use a sintaxe de [**Markdown**](https://colab.research.google.com/notebooks/markdown_guide.ipynb).

Você também pode adicionar matemática a células de texto usando [LaTeX](http://www.latex-project.org/) que será renderizado via [MathJax](https://www.mathjax.org). Basta colocar a declaração dentro de um par de sinais ``$``. Por exemplo `$\sqrt{3x-1}+(1+x)^2$` torna-se $\sqrt{3x-1}+(1+x)^2.$

#### Adicionando ou movendo células
Você pode adicionar novas células clicando em **+** na barra de ferramentas superior ou usando os botões que aparecem quando você passa o mouse entre as células. Esses botões também estão na barra de ferramentas acima do notebook, onde podem ser usados para adicionar uma célula abaixo da célula atualmente selecionada.

Você pode mover uma célula selecionando-a e clicando em **para cima** ou **para baixo** na barra de ferramentas superior.



#### Kernel
Os **kernels** são processos específicos da linguagem de programação que são executados de forma independente e interagem com o Jupyter. Eles guardam estados do programa e podem ser iniciados e interrompidos a qualquer momento.

In [None]:
import time
print("Sleeping...")
time.sleep(10)
print("Done.")

Sleeping...
Done.


#### Comandos de sistema
O Jupyter inclui atalhos para operações comuns, como `ls`:

In [None]:
!ls /

bin    dev   lib    libx32	mnt   root  snap      sys  var
boot   etc   lib32  lost+found	opt   run   srv       tmp
cdrom  home  lib64  media	proc  sbin  swapfile  usr


Esses comandos podem ser integrados com o código Python

In [None]:
root_dir = !ls /
print(root_dir)

['bin', 'boot', 'cdrom', 'dev', 'etc', 'home', 'lib', 'lib32', 'lib64', 'libx32', 'lost+found', 'media', 'mnt', 'opt', 'proc', 'root', 'run', 'sbin', 'snap', 'srv', 'swapfile', 'sys', 'tmp', 'usr', 'var']


#### Magics

Existem anotações abreviadas que alteram a forma como o texto de uma célula é executado (Ver [página de magics](https://colab.research.google.com/corgiredirector?site=http%3A%2F%2Fnbviewer.jupyter.org%2Fgithub%2Fipython%2Fipython%2Fblob%2F1.x%2Fexamples%2Fnotebooks%2FCell%2520Magics.ipynb) do Jupyter).

In [None]:
%%html
<marquee style='width: 30%; color: blue;'><b>Whee!</b></marquee>

In [None]:
%%html
<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 450 400" width="200" height="200">
  <rect x="80" y="60" width="250" height="250" rx="20" style="fill:red; stroke:black; fill-opacity:0.7" />
  <rect x="180" y="110" width="250" height="250" rx="40" style="fill:blue; stroke:black; fill-opacity:0.5;" />
</svg>

In [None]:
%time print("Hello World")

Hello World
CPU times: user 664 µs, sys: 120 µs, total: 784 µs
Wall time: 482 µs


## NumPy

NumPy (abreviação de *Numerical Python*) fornece uma interface eficiente para armazenar e operar em grandes buffers de dados. As matrizes NumPy formam o núcleo de quase todo o ecossistema de ferramentas de ciência de dados em Python.

De certa forma, as matrizes NumPy são como o tipo `list` do Python, mas à medida que as matrizes aumentam de tamanho as matrizes NumPy fornecem armazenamento e operações de dados muito eficientes.

Primeiro é importante entender que um simples inteiro em Python é muito mais que apenas o armazenamento direto deste. No Python 3.10, a definição do tipo inteiro (longo) se parece com o seguinte código:

```C
struct _longobject {
    long ob_refcnt; // contador que auxilia a alocação e desalocação de memória
    PyTypeObject *ob_type; // tipo da variável
    size_t ob_size; // especifica o tamanho do dado
    long ob_digit[1]; // valor do inteiro que a variável representa
};
```
Essa informação extra na estrutura inteira do Python é o que permite que o Python seja codificado de forma tão livre e dinâmica.

No Python, um `list` também é muito mais que apenas uma lista

In [None]:
L1 = list(range(10))
L1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
L2 = [True, "2", 3.0, 4]
[type(x) for x in L2]

[bool, str, float, int]

Para permitir esses tipos flexíveis, cada item da lista deve conter seu próprio tipo, contagem de referência e outras informações. Ou seja, cada item é um objeto Python completo.

De modo similar ao que ocorre com o tipo `int` de C e Python, trabalhar com grandes dados necessita de muito mais informações e eficiência que o tipo `list` do Python pode proporcionar.

Em Python existe o tipo de dados nativo `array`, que pode ser usado para criar vetores grandes e uniformes, que podem ser armazenados de modo muito mais eficiente.

In [None]:
import array
L = list(range(10))
A = array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

O NumPy traz contudo o tipo `ndarray` que adiciona a essa eficiencia *operações* sobre esses dados.

In [None]:
import numpy as np

In [None]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

In [None]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

In [None]:
np.array([3.14, 2, 3, 4], dtype=np.float32)

array([3.14, 2.  , 3.  , 4.  ], dtype=float32)

In [None]:
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### Arrays com NumPy

#### Modos de criar arrays com NumPy

In [None]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [None]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [None]:
np.arange(0, 20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

#### Acessando elementos do array

In [None]:
x = np.array([1, 2, 3, 4, 5])
x[0], x[1], x[-1], x[-2]

(1, 2, 5, 4)

In [None]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [None]:
y[1,2]

6

In [None]:
y[0,-1] = 0
y

array([[2, 3, 0],
       [4, 5, 6],
       [6, 7, 8]])

#### Acessando subarrays de um array unidimensional

In [None]:
x = np.array([0, 1, 2, 3, 4])
x[:3], x[3:], x[1:4]

(array([0, 1, 2]), array([3, 4]), array([1, 2, 3]))

In [None]:
x

array([0, 1, 2, 3, 4])

In [None]:
x[::-2]

array([4, 2, 0])

#### Acessando subarrays de um array multidimensional

In [None]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [None]:
y[:2, :3]

array([[2, 3, 4],
       [4, 5, 6]])

In [None]:
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [None]:
# y[:2, ::2]
y[::-1, ::-1]

array([[8, 7, 6],
       [6, 5, 4],
       [4, 3, 2]])

#### Acessando linhas e colunas

In [None]:
y = np.array([range(i, i + 3) for i in [2, 4, 6]])
y

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [None]:
y[1,:], y[:,1]

(array([4, 5, 6]), array([3, 5, 7]))

#### Remodelando arrays

In [None]:
x = np.arange(1, 10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x.reshape((3,3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
x.reshape((1,9)), x.reshape((9,1))

(array([[1, 2, 3, 4, 5, 6, 7, 8, 9]]),
 array([[1],
        [2],
        [3],
        [4],
        [5],
        [6],
        [7],
        [8],
        [9]]))

####  Concatenando arrays

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
z = np.array([9, 9, 9])
np.concatenate([x, y, z])

array([1, 2, 3, 3, 2, 1, 9, 9, 9])

In [None]:
y = np.arange(1, 10).reshape((3, 3))
y

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
np.concatenate([y,y])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
np.concatenate([y, y], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

####  Dividindo arrays

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
x1, x2, x3

(array([1, 2, 3]), array([99, 99]), array([3, 2, 1]))

In [None]:
y = np.arange(16).reshape((4, 4))
y

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
np.vsplit(y, [2])

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [None]:
np.hsplit(y, [2])

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

### Operações sobre arrays (*Ufunc*)

A implementação padrão do Python (conhecida como CPython) faz algumas operações muito lentamente.

Isso se deve em parte à natureza dinâmica e interpretada da linguagem; os tipos são flexíveis, portanto, as sequências de operações não podem ser compiladas em código de máquina eficiente, como em linguagens como C e Fortran.

O NumPy fornece operação *vetorizada*, uma interface conveniente para esse tipo de rotina compilada e tipada estaticamente. Essa abordagem vetorizada foi projetada para enviar o loop para a camada compilada subjacente ao NumPy, levando a uma execução muito mais rápida.

As operações vetorizadas no NumPy são implementadas via **Ufuncs** (*Universal Functions*), cujo objetivo principal é executar rapidamente operações repetidas em valores em arrays NumPy.

In [None]:
import numpy as np

big_array = np.arange(1, 1000000)
big_array

array([     1,      2,      3, ..., 999997, 999998, 999999])

In [None]:
def divide_by_2(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = values[i] / 2.0
    return output

%time divide_by_2(big_array)

CPU times: user 2.94 s, sys: 22.5 ms, total: 2.96 s
Wall time: 2.98 s


array([5.000000e-01, 1.000000e+00, 1.500000e+00, ..., 4.999985e+05,
       4.999990e+05, 4.999995e+05])

In [None]:
%time big_array / 2.0

CPU times: user 3.86 ms, sys: 7.4 ms, total: 11.3 ms
Wall time: 13.8 ms


array([5.000000e-01, 1.000000e+00, 1.500000e+00, ..., 4.999985e+05,
       4.999990e+05, 4.999995e+05])

In [None]:
%time big_array * big_array

CPU times: user 5 ms, sys: 24.3 ms, total: 29.3 ms
Wall time: 29 ms


array([           1,            4,            9, ..., 999994000009,
       999996000004, 999998000001])

#### Lista de operadores aritméticos implementados no NumPy

| Operador    | Ufunc equivalente | Descrição                         |
|-------------|-------------------|-----------------------------------|
|`+`          |`np.add`           |Adição (ex., `1 + 1 = 2`)          |
|`-`          |`np.subtract`      |Subtração (ex., `3 - 2 = 1`)       |
|`-`          |`np.negative`      |Negação unária (ex., `-2`)         |
|`*`          |`np.multiply`      |Multiplicação (ex., `2 * 3 = 6`)   |
|`/`          |`np.divide`        |Divisão (ex., `3 / 2 = 1.5`)       |
|`//`         |`np.floor_divide`  |Divisão inteira (ex., `3 // 2 = 1`)|
|`**`         |`np.power`         |Exponenciação (ex., `2 ** 3 = 8`)  |
|`%`          |`np.mod`           |Módulo (ex., `9 % 4 = 1`)          |

In [None]:
big_array = np.arange(1, 1000000)

%time big_array // 2

CPU times: user 9.67 ms, sys: 4.23 ms, total: 13.9 ms
Wall time: 15.5 ms


array([     0,      1,      1, ..., 499998, 499999, 499999])

#### Outros operadores

| Operador    | Ufunc equivalente | Descrição                                |
|-------------|-------------------|------------------------------------------|
|`abs`        |`np.absolute`      |Valor absoluto (ex., `abs(-1) = 1`)       |
|`sin`        |`np.sin`           |Seno (ex., `sen(pi/2) = 1`)               |
|`cos`        |`np.cos`           |Cosseno (ex., `cos(2*pi) = 1`)            |
|`tan`        |`np.tan`           |Tangente (ex., `tan(pi/4) = 1`)           |
|`e^x`        |`np.exp`           |Exponencial (ex., `e^1 = 2.7182`)         |
|`2^x`        |`np.exp2`          |Exponencial (ex., `2^1 = 2`)              |
|`ln`         |`np.log`           |Logaritmo natural (ex., `ln(10) = 2.3025`)|
|`log`        |`np.log10`         |Logaritmo base 10 (ex., `log10(10)= 1`)   |

In [None]:
big_array_pi = big_array*np.pi
%time np.log10(big_array)

CPU times: user 41.8 ms, sys: 4.21 ms, total: 46 ms
Wall time: 47.1 ms


array([0.        , 0.30103   , 0.47712125, ..., 5.9999987 , 5.99999913,
       5.99999957])

#### Operações avançadas

| Ufunc                      |Descrição              |
|----------------------------|-----------------------|
|`np.add.reduce`             |Somatório              |
|`np.multiply.reduce`        |Produtório             |
|`np.add.accumulate`         |Acumular soma          |
|`np.multiply.accumulate(x)` |Acumular multiplicação |
|`np.multiply.outer`         |Tabela de multiplicação|


In [None]:
x = np.arange(1, 6)
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

#### Operadores booleanos

Lista de operadores booleanos implementados no NumPy

| Operador    | Ufunc equivalente | Descrição                               |
|-------------|-------------------|-----------------------------------------|
|`&`          |`np.bitwise_and`   | Conjunção (ex. `1 & 0 = 0`)             |
|&#124;       |`np.bitwise_or`    | Disjunção (ex. `1 \| 0 = 1`)      |
|`^`          |`np.bitwise_xor`   | Disjunção-exclusiva (ex. `1 ^ 1 = 0`)   |
|`~`          |`np.bitwise_not`   | Negação (ex. `~1 = 0`)                  |
|`==`         |`np.equal`         | Igualdade (ex. `1 = 1`)                 |
|`!=`         |`np.not_equal`     | Desigualdade (ex. `1 != 0`)             |
|`<`          |`np.less`          | Menor que (ex. `0 < 1`)                 |
|`<=`         |`np.less_equal`    | Menor ou igual (ex. `1 <= 1`)           |
|`>`          |`np.greater`       | Maior que (ex. `1 > 0`)                 |
|`>=`         |`np.greater_equal` | Maior ou igual (ex. `1 >= 1`)           |

In [None]:
x = np.arange(1,10)
x <= 5

array([ True,  True,  True,  True,  True, False, False, False, False])

#### Operações com arrays booleanos

In [None]:
x = np.arange(1,10)
np.count_nonzero(x < 8)

7

In [None]:
np.sum(x < 8)

7

In [None]:
np.any(x < 0)

False

In [None]:
np.all(x < 10)

True

#### Arrays como máscara

In [None]:
import numpy as np
%time x = np.arange(1,100000000)
x

CPU times: user 214 ms, sys: 3.06 s, total: 3.28 s
Wall time: 3.48 s


array([       1,        2,        3, ..., 99999997, 99999998, 99999999])

In [None]:
%time x % 5 == 0
%time x[x % 5 == 0]

CPU times: user 2.38 s, sys: 10.2 s, total: 12.6 s
Wall time: 53.3 s
CPU times: user 2.01 s, sys: 2.2 s, total: 4.21 s
Wall time: 5.27 s


array([       5,       10,       15, ..., 99999985, 99999990, 99999995])

In [None]:
%time print(x[x % 5 == 0])

[       5       10       15 ... 99999985 99999990 99999995]
CPU times: user 1.7 s, sys: 1.25 s, total: 2.95 s
Wall time: 3.04 s


In [None]:
y = x.reshape((3,3))
y < 5

ValueError: cannot reshape array of size 99999999 into shape (3,3)

## Pandas

**Pandas** é uma ferramenta de análise e manipulação de dados de código aberta, rápida, poderosa, flexível e fácil de usar, construída sobre a linguagem de programação Python e a biblioteca NumPy.

In [None]:
import numpy as np
import pandas as pd

### `Series`

`Series` do Pandas é um array unidimensional de dados indexados.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

`Series` combina uma sequência de valores com uma sequência explícita de índices, que podem ser acessados por meio dos atributos `values` e `index`.


In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

O atributo `values` é um simples array NumPy.

In [None]:
type(data.values)

numpy.ndarray

O atributo `index` é um objeto Pandas semelhante ao `numpy.array`, porém específico para lidar indexação.

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

Um objeto `Series` pode ser indexado e repartido como um array.

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

`Series` pode ser visto como uma generalização de um `numpy.array`, no sentido que em vez de ter uma indexação numérica *implícita* para acessar seus valores, o objeto `Series` tem uma indexação *explícita* podendo ser inclusive de valores não-numéricos.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Podemos como antes acessar o valor ou fazer recortes usando seus índices, mesmo que não-numéricos.

In [None]:
data['b':'d'] # intervalo inclusivo

b    0.50
c    0.75
d    1.00
dtype: float64

`Series` pode também ser visto como um `dict`, no sentido que é uma estrutura que mapeia chaves tipificadas para dados também tipificados. Essa tipificação é importante do mesmo modo que é para o ganho de eficiência no NumPy.

Podemos construir um objeto `Series` diretamente de um dicionário Python.

In [None]:
populacao_dict = {'Brasil':209000000, 'Argentina':100000000, 'Uruguai':3500000, 'Paraguai':7000000}
populacao = pd.Series(populacao_dict)
populacao

Brasil       209000000
Argentina    100000000
Uruguai        3500000
Paraguai       7000000
dtype: int64

In [None]:
populacao['Brasil']

209000000

In [None]:
populacao

Brasil       209000000
Argentina    100000000
Uruguai        3500000
Paraguai       7000000
dtype: int64

O campo índice pode ser usados para definir a ordem que os dados serão listados no objeto `Series`.

In [None]:
populacao_dict = {'Brasil':203062512, 'Argentina':47327407, 'Uruguai':3351016, 'Paraguai':6780744 }
populacao = pd.Series(populacao_dict, index=['Argentina', 'Brasil', 'Paraguai', 'Uruguai'])
populacao

Argentina     47327407
Brasil       203062512
Paraguai       6780744
Uruguai        3351016
dtype: int64

### `DataFrame`

`DataFrame` é um tipo de array bidimensional com índices explícitos para linhas e colunas. Podemos pensar o `DataFrame` como uma sequência de `Series` alinhadas, no sentido que tais seŕies compartilham os mesmo índices.

In [None]:
area_dict = {'Brasil':8510417, 'Argentina':2780400, 'Uruguai':176215, 'Paraguai':406752}
area = pd.Series(area_dict)
area

Brasil       8510417
Argentina    2780400
Uruguai       176215
Paraguai      406752
dtype: int64

In [None]:
populacao

Argentina     47327407
Brasil       203062512
Paraguai       6780744
Uruguai        3351016
dtype: int64

In [None]:






mercosul = pd.DataFrame({'populacao': populacao, 'area': area})
mercosul


Unnamed: 0,populacao,area
Argentina,47327407,2780400
Brasil,203062512,8510417
Paraguai,6780744,406752
Uruguai,3351016,176215


Assim como em `Series`, podemo acessar no `DataFrame` os índices compartilhados por meio do atributo `index`.

In [None]:
mercosul.index

Index(['Argentina', 'Brasil', 'Paraguai', 'Uruguai'], dtype='object')

O `DataFrame` tem um atributo `columns` que contém um objeto índices composto pelos rótulos das colunas.

In [None]:
mercosul.columns

Index(['populacao', 'area'], dtype='object')

`DataFrame` pode também ser visto com um dicionário, que mapeia um nome de coluna para um objeto `Series`.

In [None]:
mercosul['populacao']

Argentina     47327407
Brasil       203062512
Paraguai       6780744
Uruguai        3351016
Name: populacao, dtype: int64

Quando o nome da coluna obdecer as regras de nomeação do Python, ela pode ser acessada como um atributo do `DataFrame`.

In [None]:
mercosul.populacao

Argentina     47327407
Brasil       203062512
Paraguai       6780744
Uruguai        3351016
Name: populacao, dtype: int64

Observe que em uma matriz NumPy bidimensional, `data[0]` retornará a primeira *linha*. Para um `DataFrame`, `data['col0']` retornará a primeira *coluna*.

In [None]:
data = np.array([[1,2],[3,4]])
data

array([[1, 2],
       [3, 4]])

In [None]:
data[0]

array([1, 2])

In [None]:
data = pd.DataFrame([[1,2],[3,4]])
data







Unnamed: 0,0,1
0,1,2
1,3,4


In [None]:
data[0]

0    1
1    3
Name: 0, dtype: int64

In [None]:
mercosul['Argentina':'Brasil']

Unnamed: 0,populacao,area
Argentina,47327407,2780400
Brasil,203062512,8510417


In [None]:
mercosul[0:2]

Unnamed: 0,populacao,area,densidade
Argentina,47327407,2780400,17.021798
Brasil,203062512,8510417,23.860466


In [None]:
mercosul.loc[:'Brasil', :'area']

Unnamed: 0,populacao,area
Argentina,47327407,2780400
Brasil,203062512,8510417


In [None]:
mercosul.iloc[:2,:2]

Unnamed: 0,populacao,area
Argentina,47327407,2780400
Brasil,203062512,8510417


In [None]:
mercosul['populacao'] < 10000000

Argentina    False
Brasil       False
Paraguai      True
Uruguai       True
Name: populacao, dtype: bool

In [None]:
mercosul[mercosul['populacao'] < 10000000]

Unnamed: 0,populacao,area,densidade
Paraguai,6780744,406752,16.670463
Uruguai,3351016,176215,19.016633


Pandas traz ainda uma conjunto de funções e operações sobre `DataFrame`.

In [None]:
mercosul = pd.DataFrame({'populacao': populacao, 'area': area})
mercosul['densidade'] = mercosul['populacao'] / mercosul['area']
mercosul







Unnamed: 0,populacao,area,densidade
Argentina,47327407,2780400,17.021798
Brasil,203062512,8510417,23.860466
Paraguai,6780744,406752,16.670463
Uruguai,3351016,176215,19.016633


In [None]:
mercosul.T

Unnamed: 0,Argentina,Brasil,Paraguai,Uruguai
populacao,47327410.0,203062500.0,6780744.0,3351016.0
area,2780400.0,8510417.0,406752.0,176215.0
densidade,17.0218,23.86047,16.67046,19.01663


In [None]:
mercosul.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Argentina to Uruguai
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   populacao  4 non-null      int64  
 1   area       4 non-null      int64  
 2   densidade  4 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 300.0+ bytes


In [None]:
mercosul.describe()

Unnamed: 0,populacao,area,densidade
count,4.0,4.0,4.0
mean,65130420.0,2968446.0,19.14234
std,94098510.0,3877612.0,3.31076
min,3351016.0,176215.0,16.670463
25%,5923312.0,349117.8,16.933964
50%,27054080.0,1593576.0,18.019216
75%,86261180.0,4212904.0,20.227591
max,203062500.0,8510417.0,23.860466


Operações com `DataFrame` precisam de um cuidado especial com o alinhamento de índices.

In [None]:
A = pd.DataFrame([[1,2],[3,4]],columns=['A','B'])
B = pd.DataFrame([[4,3],[2,1]],columns=['A','B'])
A+B


Unnamed: 0,A,B
0,5,5
1,5,5


In [None]:
A = pd.DataFrame([[1,2],[3,4]],columns=['A','B'])
C = pd.DataFrame([[4,3],[2,1]],columns=['A','C'])
A+C

Unnamed: 0,A,B,C
0,5,,
1,5,,


In [None]:
A.add(C, fill_value=0)

Unnamed: 0,A,B,C
0,5,2.0,3.0
1,5,4.0,1.0


In [None]:
A = pd.DataFrame([[1,2],[3,4]],columns=['A','B'])
C = pd.DataFrame([[4,3],[2,1],[0,0]],columns=['A','B'])
A+C

Unnamed: 0,A,B
0,5.0,5.0
1,5.0,5.0
2,,


In [None]:
A.add(C, fill_value=0)

Unnamed: 0,A,B
0,5.0,5.0
1,5.0,5.0
2,0.0,0.0


In [None]:
pd.concat([A,B])

Unnamed: 0,A,B
0,1,2
1,3,4
0,4,3
1,2,1


In [None]:




pd.concat([A,B],ignore_index=True)




Unnamed: 0,A,B
0,1,2
1,3,4
2,4,3
3,2,1


In [None]:




pd.concat([A,B],axis=1)

Unnamed: 0,A,B,A.1,B.1
0,1,2,4,3
1,3,4,2,1


In [None]:
A = pd.DataFrame({x:[x+y for y in "123"] for x in 'ABC'})
B = pd.DataFrame({x:[x+y for y in "123"] for x in 'BCD'})
display(A)
display(B)
pd.concat([A,B])

Unnamed: 0,A,B,C
0,A1,B1,C1
1,A2,B2,C2
2,A3,B3,C3


Unnamed: 0,B,C,D
0,B1,C1,D1
1,B2,C2,D2
2,B3,C3,D3


Unnamed: 0,A,B,C,D
0,A1,B1,C1,
1,A2,B2,C2,
2,A3,B3,C3,
0,,B1,C1,D1
1,,B2,C2,D2
2,,B3,C3,D3


In [None]:
A = pd.DataFrame({x:[x+y for y in "123"] for x in 'ABC'})
B = pd.DataFrame({x:[x+y for y in "234"] for x in 'BCD'})
display(A)
display(B)
display(pd.merge(A,B,how='left'))

Unnamed: 0,A,B,C
0,A1,B1,C1
1,A2,B2,C2
2,A3,B3,C3


Unnamed: 0,B,C,D
0,B2,C2,D2
1,B3,C3,D3
2,B4,C4,D4


Unnamed: 0,A,B,C,D
0,A1,B1,C1,
1,A2,B2,C2,D2
2,A3,B3,C3,D3
