# Meus Estudos em Python

## VirtualEnv

### Criando Novo Ambiente

Para criarmos um novo ambiente contendo a versão do Python de sua escolha (Python 2.x ou Python 3.x), devemos informar ao virtualenv, no momento da criação de um novo ambiente, a localização do binário do Python.

Caso você não saiba o caminho do binário do Python que você está procurando, utilize o comando `which`.

Por exemplo, para saber onde estava o binário do Python 3 em minha máquina, eu executei o comando `which python3` que me respondeu com `/usr/local/bin/python3`.

```
virtualenv --python='/usr/local/bin/python3' <nome_da_pasta>
```

### Ativando um Ambiente Criado

```
source <nome_da_pasta>/bin/activate
```

### Desativando o Ambiente

```
deactivate
```

> Para destruir o ambiente após desativá-lo, basta apagar a pasta que foi criada quando o criou: `rm -r <nome_da_pasta>`

## Jupyter

### Instalando o Jupyter

```
python -m pip install --upgrade pip
python -m pip install jupyter
```

### Rodando o Jupyter

```
jupyter notebook
```

> Uma página web abrirá com o ambiente do Jupyter.

### Atalhos do Jupyter Notebook

- `Shift + Enter` executa o código na célula;
- `ESC` entra no modo de comando, permitindo navegar pelo notebook com as setas. Durante este modo:
    - `A` para inserir uma célula *acima* (**A**bove) da célula atual, `B` para inserir *abaixo* (**B**ellow) da célula atual;
    - `M` para mudar a célula para o modo *Markdown* e `Y` para o modo *Code*;
    - `D + D` para apagar a célula atual;
    - `Enter` sai do modo de comando e seleciona a célula atual para edição de conteúdo;
- Em Python, pressionando `TAB` após um `.` de uma classe, podemos ver a lista de opções possíveis:

In [None]:
str.

- Ainda em Python, podemos ver um Docstring de um método pressionando `Shift + TAB` dentro dos parêntesis de um método:

In [None]:
len()

## Python Tricks

### Invertendo uma lista

In [4]:
l = [1,2,3,4,5]
l[::-1]

[5, 4, 3, 2, 1]

### Lambda functions

```python
lambda arguments: expression
```

In [7]:
# we are twins
def take_last_n(something, n):
    return something[-n]

l = [1,2,3,4,5]
s = "This is amazing!"

print(take_last_n(l,1))
print(take_last_n(s,1))

# we are twins
f = lambda something,n: something[-n]

print(f(l,1))
print(f(s,1))

5
!
5
!


### Python 3 e as Variáveis \*var ou \*\*var

Em todas as versões de Python os parâmetros `*args` e `**kwargs` são bem conhecidos, dando a possibilidade de receber os valores passados para a função quando chamada em forma de *tupla* ou *dicionário*, respectivamente.

> **CURIOSIDADE**: `args` é um acrônimo para ***arg**ument**s***, ou seja, **argumentos** e por isso se trata de uma simples *tupla* de **argumentos**. `**kwargs` é um acrônimo para ***k**ey**w**ord **arg**ument**s***, ou seja, "*argumentos palavra-chaveados*" e por isso apresenta argumentos estruturados em um *dicionário*.

Em `Python 3`, `*` tem funcionamento semelhante quando colocado imediatamente antes da declaração de uma variável qualquer (e não somente para parâmetros de funções).

In [1]:
primeiro, *resto = [1,2,3,4,5]
primeiro

1

In [2]:
resto

[2, 3, 4, 5]

In [3]:
primeiro, *resto, ultimo = (1,2,3,4,5)
primeiro

1

In [4]:
resto

[2, 3, 4]

In [5]:
ultimo

5

## Numpy

### Instalação

```
pip install numpy
```

### Importação Padrão

In [5]:
import numpy as np

In [66]:
# raiz quadrada
np.sqrt(81)

9.0

In [112]:
# seno
np.sin(np.pi) #repare que o resultado é algo como 'quase zero' devido ao problema de representação de ponto flutuante

1.2246467991473532e-16

In [114]:
# cosseno
np.cos(0)

1.0

### Numpy Arrays

In [10]:
# vetor (1 dimensão)
np.array([1,2,3,4,5])

array([1, 2, 3, 4, 5])

In [12]:
# matriz (2 dimensões)
np.array([[1,2,3],[4,5,6],[7,8,9],[0,0,0]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [0, 0, 0]])

In [13]:
# são todos equivalentes (para ver mais dá SHIFT + TAB dentro do parentêsis de uma delas)
np.arange(0,10,1)
np.arange(0,10)
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
# arrays de zeros
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [21]:
np.zeros((5,7))

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [20]:
np.zeros((2,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [24]:
# arrays de uns
np.ones((3,8))

array([[1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.]])

In [26]:
# matriz identidade
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [47]:
# linspace é semelhante ao arange, porém seu terceiro parâmetro define
# quantos elementos igualmente espaçados devem aparecer no seu array
# (o default é 50)
np.linspace(0,49)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49.])

In [46]:
np.linspace(0,50,3)

array([ 0., 25., 50.])

> O método `reshape` vale um destaque nesse momento, com ele podemos transformar vetores em matrizes, desde que matematicamente faça sentido.

In [72]:
arr = np.linspace(0,1,10)
arr

array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])

In [74]:
arr2 = arr.reshape((5,2))
arr2

array([[0.        , 0.11111111],
       [0.22222222, 0.33333333],
       [0.44444444, 0.55555556],
       [0.66666667, 0.77777778],
       [0.88888889, 1.        ]])

#### Conferindo as dimensões dos arrays

In [75]:
# vetor com 10 elementos (uma dimensão)
arr.shape

(10,)

In [76]:
# matriz 5x2, 5 linhas e 2 colunas
arr2.shape

(5, 2)

In [77]:
# perceba que vetores são diferentes de matrizes com uma única coluna!
arr3 = arr.reshape((10,1))
arr3.shape

(10, 1)

In [78]:
arr3

array([[0.        ],
       [0.11111111],
       [0.22222222],
       [0.33333333],
       [0.44444444],
       [0.55555556],
       [0.66666667],
       [0.77777778],
       [0.88888889],
       [1.        ]])

#### Métodos Embutidos

In [90]:
vector = np.random.randint(0,50,25)
vector

array([ 2,  7,  5, 43, 16, 49,  7,  2, 12, 15, 25, 24,  0, 45, 22, 46, 46,
       26, 45, 39, 47, 24,  8, 42, 25])

In [91]:
matrix = vector.reshape((5,5))
matrix

array([[ 2,  7,  5, 43, 16],
       [49,  7,  2, 12, 15],
       [25, 24,  0, 45, 22],
       [46, 46, 26, 45, 39],
       [47, 24,  8, 42, 25]])

In [92]:
# maior valor da matriz
matrix.max()

49

In [93]:
# menor valor da matriz
matrix.min()

0

In [94]:
# indice do maior valor da matriz (dado como vetor corrido
# (conta como se estivesse lendo a matriz: da esquerda para
# a direita, de cima para baixo, começando por zero))
matrix.argmax()

5

In [95]:
# exatamente como era no vector que deu origem a ela
vector.argmax()

5

In [96]:
# indice do menor valor da matriz (dado como vetor corrido
# (conta como se estivesse lendo a matriz: da esquerda para
# a direita, de cima para baixo, começando por zero))
matrix.argmin()

12

In [97]:
# exatamente como era no vector que deu origem a ela
vector.argmin()

12

In [98]:
# média aritmética
vector.mean()

24.88

In [99]:
# desvio padrão
matrix.std()

16.652495308511572

In [104]:
# matriz transposta (não é um método)
matrix.T

array([[ 2, 49, 25, 46, 47],
       [ 7,  7, 24, 46, 24],
       [ 5,  2,  0, 26,  8],
       [43, 12, 45, 45, 42],
       [16, 15, 22, 39, 25]])

##### O parâmetro 'axis'

In [90]:
# imagine que se queira o maior valor em cada linha de uma matriz
# podemos alcançar isso com o parâmetro axis. Ele está presente não
# só no método max, min, argmax e argmin, possuindo sempre o mesmo
# funcionamento: axis=1 se refere a linhas; axis=0 se refere a colunas
#
# IMPORTANTE: dependendo da função o axis pode referir-se a todas,
# parte, ou até mesmo uma linha/coluna específica
matrix.argmin(axis=1)

array([2, 3, 4, 0, 2])

In [78]:
# desvio padrão entre os valores de cada coluna
matrix.std(axis=0)

array([0.40095794, 0.19138642, 0.25850815, 0.33868608, 0.24560239])

#### Indexação e Fatiamento

Toda indexação e fatiamento de *listas* comuns do Python funcionam normalmente para *Numpy Arrays*:

In [15]:
arr = np.arange(0,30,3)
arr

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [16]:
arr[3]

9

In [17]:
arr[:4]

array([0, 3, 6, 9])

A diferença começa nas associações. *Numpy Arrays* podem associar valores de maneira mais mágica que *listas* do Python:

In [19]:
arr[3:] = 666
arr

array([  0,   3,   6, 666, 666, 666, 666, 666, 666, 666])

> IMPORTANTE: *arrays* associam e passam seus valores _por referência_ para otimizarem sua utilização em memória e sua velocidade de armazenamento, recuperação e remoção de valores. Então é preciso ter cuidado ao se modificar esses retornos como no exemplo abaixo:

In [20]:
matrix = np.arange(50).reshape((5,10))
matrix

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [21]:
matrix2 = matrix[:3]
matrix2

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [22]:
matrix2[:] = 8001
matrix

array([[8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001],
       [8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001],
       [8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001, 8001],
       [  30,   31,   32,   33,   34,   35,   36,   37,   38,   39],
       [  40,   41,   42,   43,   44,   45,   46,   47,   48,   49]])

O resultado acima ocorre pois, apesar de termos modificado apenas a `matrix2`, esta estava apenas *apontando* uma referência a um trecho da `matrix` e por isso, ao ser alterada, enviar essas alterações para o *endereço* onde está apontando.

Para evitar isso, utilize o método `copy()`:

In [24]:
matrix = np.arange(50).reshape((5,10))
matrix

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [25]:
matrix2 = matrix[:2].copy()
matrix2

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [26]:
matrix2[:] = 40
matrix2

array([[40, 40, 40, 40, 40, 40, 40, 40, 40, 40],
       [40, 40, 40, 40, 40, 40, 40, 40, 40, 40]])

In [27]:
matrix

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

Para acessarmos ou fatiarmos valores ou trechos de valores de um *array multidimencional*, recomenda-se usar a seguinte sintaxe:

In [29]:
# acessando um valor de um array que represente uma matriz
matrix[1][2]

12

In [30]:
matrix[1,2]

12

In [34]:
# acessando um trecho da matriz
matrix[3:,4:]

array([[34, 35, 36, 37, 38, 39],
       [44, 45, 46, 47, 48, 49]])

In [35]:
multidimensionalArray = np.arange(100).reshape((5,2,10)) # 3 dimensões
multidimensionalArray

array([[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59]],

       [[60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79]],

       [[80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]])

In [36]:
multidimensionalArray[:2,0,6:]

array([[ 6,  7,  8,  9],
       [26, 27, 28, 29]])

*Arrays* também aceitam certas comparações, aplicando elas a cada elemento:

In [39]:
vector = np.random.randint(0,100,15)
vector

array([34, 70, 57, 30, 66, 78, 21, 11, 28, 84, 21,  8, 35, 87, 95])

In [40]:
matrix = np.random.randint(0,100,50).reshape((5,10))
matrix

array([[ 8, 11, 71, 18, 45, 58,  9,  1, 75, 86],
       [ 2, 38, 21, 38, 51, 23, 83, 65, 29, 91],
       [65, 17, 62, 72, 95, 35, 81, 78, 96, 63],
       [88, 34, 21, 57, 89, 87,  2, 51, 68, 77],
       [ 2, 39, 92, 26, 20, 59, 47, 55, 33, 72]])

In [41]:
multidimensionalArray = np.random.randint(0,100,100).reshape((5,2,10))
multidimensionalArray

array([[[12, 14,  4, 75, 44, 86, 90, 45, 52, 70],
        [61, 13, 90,  4, 53, 91, 97, 80, 84, 68]],

       [[36, 49, 60, 44, 49, 41, 80, 85, 31, 32],
        [76, 74, 10, 83, 65, 99, 29, 19, 78, 44]],

       [[34,  9, 44, 12, 88, 67, 78, 60,  7, 53],
        [31, 80, 43, 45, 71,  9, 58, 34,  3, 59]],

       [[ 3, 56, 41, 71, 17, 63, 19,  7, 79, 34],
        [50, 65, 47, 12, 73, 98, 76, 58, 73,  5]],

       [[31, 75, 36,  0, 72, 36, 34, 30, 26, 47],
        [73, 61, 90, 27,  2, 60, 18, 22, 66, 12]]])

In [42]:
vec_bool = vector >= 50
vec_bool

array([False,  True,  True, False,  True,  True, False, False, False,
        True, False, False, False,  True,  True])

In [43]:
m_bool = matrix >= 50
m_bool

array([[False, False,  True, False, False,  True, False, False,  True,
         True],
       [False, False, False, False,  True, False,  True,  True, False,
         True],
       [ True, False,  True,  True,  True, False,  True,  True,  True,
         True],
       [ True, False, False,  True,  True,  True, False,  True,  True,
         True],
       [False, False,  True, False, False,  True, False,  True, False,
         True]])

In [44]:
mda_bool = multidimensionalArray >= 50
mda_bool

array([[[False, False, False,  True, False,  True,  True, False,  True,
          True],
        [ True, False,  True, False,  True,  True,  True,  True,  True,
          True]],

       [[False, False,  True, False, False, False,  True,  True, False,
         False],
        [ True,  True, False,  True,  True,  True, False, False,  True,
         False]],

       [[False, False, False, False,  True,  True,  True,  True, False,
          True],
        [False,  True, False, False,  True, False,  True, False, False,
          True]],

       [[False,  True, False,  True, False,  True, False, False,  True,
         False],
        [ True,  True, False, False,  True,  True,  True,  True,  True,
         False]],

       [[False,  True, False, False,  True, False, False, False, False,
         False],
        [ True,  True,  True, False, False,  True, False, False,  True,
         False]]])

Esses *arrays booleanos* servem inclusive para resselecionar os elementos deles próprios. Isso é possível sempre que o `shape` de ambos forem iguais:

In [45]:
vector[vec_bool]

array([70, 57, 66, 78, 84, 87, 95])

In [46]:
matrix[m_bool]

array([71, 58, 75, 86, 51, 83, 65, 91, 65, 62, 72, 95, 81, 78, 96, 63, 88,
       57, 89, 87, 51, 68, 77, 92, 59, 55, 72])

In [47]:
multidimensionalArray[mda_bool]

array([75, 86, 90, 52, 70, 61, 90, 53, 91, 97, 80, 84, 68, 60, 80, 85, 76,
       74, 83, 65, 99, 78, 88, 67, 78, 60, 53, 80, 71, 58, 59, 56, 71, 63,
       79, 50, 65, 73, 98, 76, 58, 73, 75, 72, 73, 61, 90, 60, 66])

#### Operações

Todas as operações aritméticas estão disponíveis para *Arrays*. Vale ressaltar que, em casos de *impossibilidade* ou *indeterminabilidade* na operação, um *warning* é exibido e um valor `nan` ou `inf` é retornado.

In [48]:
arr = np.arange(0,16)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [49]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30])

In [50]:
arr - arr

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [51]:
arr * arr

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 144,
       169, 196, 225])

In [52]:
arr / arr

  """Entry point for launching an IPython kernel.


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.])

In [62]:
arr ** arr[::-1]

array([       0,        1,     8192,   531441,  4194304,  9765625,
       10077696,  5764801,  2097152,   531441,   100000,    14641,
           1728,      169,       14,        1])

In [53]:
multidimensionalArray - multidimensionalArray

array([[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]])

Toda aritmética também está disponível para operações entre *arrays* e *escalares* (variáveis dos tipos `int` ou `float`)

In [54]:
arr * 0.5

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5])

In [55]:
4 + arr

array([ 4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [57]:
arr / 0

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([nan, inf, inf, inf, inf, inf, inf, inf, inf, inf, inf, inf, inf,
       inf, inf, inf])

In [58]:
arr - 0.12341234

array([-0.12341234,  0.87658766,  1.87658766,  2.87658766,  3.87658766,
        4.87658766,  5.87658766,  6.87658766,  7.87658766,  8.87658766,
        9.87658766, 10.87658766, 11.87658766, 12.87658766, 13.87658766,
       14.87658766])

In [63]:
arr ** 3

array([   0,    1,    8,   27,   64,  125,  216,  343,  512,  729, 1000,
       1331, 1728, 2197, 2744, 3375])

É comum que os métodos presentes no *Numpy* também sejam aplicáveis aos *arrays*:

In [65]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ,
       3.16227766, 3.31662479, 3.46410162, 3.60555128, 3.74165739,
       3.87298335])

### O módulo random

In [37]:
from numpy import random

> Uma coisa importante sobre a geração de números aleatórios é que ela nunca será aleatória de fato. O computador sempre parte de uma base. Em casos gerais, o nome dada a essa base é *seed*. No módulo `random` podemos definir essa *seed* pelo método `seed`. Dessa forma, com a linha abaixo executada, pode reparar que mesmo executando em máquinas diferentes, o resultado será o mesmo!

In [96]:
random.seed(29061992)

In [100]:
# gera um número aleatório de 0 à 1 de uma distribuição uniforme
random.rand()

0.17152165622510307

In [101]:
# gera um número aleatório de uma distribuição normal
random.randn()

0.9079694464765431

In [58]:
# podem retornar arrays
random.rand(3)

array([[0.90362381, 0.32391634],
       [0.08685737, 0.79185365],
       [0.22457279, 0.2878167 ]])

In [57]:
# repare que em casos de multidimensões não precisamos passar uma tupla
random.randn(3,6)

array([[-1.42546713, -0.19351956, -1.70272941, -1.94190184,  1.83493705,
         0.78405181],
       [ 1.00985886,  0.46048615,  0.17186645,  0.29931723, -1.40899974,
         0.36452928],
       [ 0.70124881, -1.65909932, -0.33580262,  0.03262907, -0.39484826,
        -1.47662313]])

In [65]:
random.rand(2,5)

array([[0.2324326 , 0.94107281, 0.61921616, 0.92789324, 0.66837516],
       [0.91410536, 0.75530287, 0.12177268, 0.06378488, 0.85418931]])

In [60]:
# para números inteiros temos o randint (o 100 não está incluso)
random.randint(0,100)

15

In [61]:
random.randint(0,100,5)

array([63,  2, 94, 58, 40])

In [63]:
random.randint(0,100,(3,5))

array([[56, 82, 76, 24, 15],
       [21, 25, 29, 78, 18],
       [78,  3, 63, 33, 83]])

### Arredondamento

In [66]:
np.round(3.435456346,0)

3.0

In [67]:
np.round(random.randn(3,7),2)

array([[-0.48, -1.08,  1.25, -1.13,  1.26,  0.79,  1.47],
       [-0.04, -1.05,  1.27,  0.33,  0.37, -1.18, -0.11],
       [ 1.81,  0.79, -0.98,  0.54, -0.01, -0.26,  0.37]])

## Pandas

O *Pandas* é como um **Excel** do Python. Ele gera e trabalha com estruturas de dados semelhantes à planilhas.

### Instalação

```
pip install pandas
```

### Importação Padrão

In [4]:
import pandas as pd

### Series

Essa é a estrutura mais básica do *Pandas*. Uma *Series* é uma classe estruturada de maneira semelhante a um *dicionário* do Python.

Como se trata de uma classe, é importante ressaltar que o método a ser chamado é com letra maiúscula `Series` (construtor da classe).

Para conferir os parâmetros do construtor basta utilizar o comando `SHIFT + TAB` dentro dos parêntesis do construtor.

A fim de criar uma *Series* básica podemos preencher os parâmetros `data` e `index`

In [72]:
pd.Series(data=[1,2,3],index=['A', 'B', 'C'])

A    1
B    2
C    3
dtype: int64

Além de listas, também podemos usar os *Arrays* do Numpy:

In [73]:
import numpy as np

arr = np.array([1,2,3])
pd.Series(arr, ['A', 'B', 'C'])

A    1
B    2
C    3
dtype: int64

Podemos guardar inclusive métodos do Python:

In [74]:
pd.Series([sum, len])

0    <built-in function sum>
1    <built-in function len>
dtype: object

E, pela clara semelhança, Um *dicionário* pode montar `Series` com *índices* personalizados passando o mesmo como valor para o parâmetro `data` (não será possível preencher corretamente o `index` do construtor desta forma)

In [75]:
pd.Series({'A':1,'B':2,'C':3})

A    1
B    2
C    3
dtype: int64

#### Operações

In [76]:
ser1 = pd.Series({'Rio de Janeiro':20,'São Paulo':10,'Santa Catarina':30,'Bahia':40})
ser1

Bahia             40
Rio de Janeiro    20
Santa Catarina    30
São Paulo         10
dtype: int64

In [77]:
ser2 = pd.Series({'Rio de Janeiro':22,'Santa Catarina':15,'Minas Gerais':30,'Bahia':40})
ser2

Bahia             40
Minas Gerais      30
Rio de Janeiro    22
Santa Catarina    15
dtype: int64

In [78]:
ser1 + ser2

Bahia             80.0
Minas Gerais       NaN
Rio de Janeiro    42.0
Santa Catarina    45.0
São Paulo          NaN
dtype: float64

In [79]:
ser1 * ser2

Bahia             1600.0
Minas Gerais         NaN
Rio de Janeiro     440.0
Santa Catarina     450.0
São Paulo            NaN
dtype: float64

In [80]:
ser1 - ser2

Bahia              0.0
Minas Gerais       NaN
Rio de Janeiro    -2.0
Santa Catarina    15.0
São Paulo          NaN
dtype: float64

In [81]:
ser1 / ser2

Bahia             1.000000
Minas Gerais           NaN
Rio de Janeiro    0.909091
Santa Catarina    2.000000
São Paulo              NaN
dtype: float64

In [82]:
ser1 ** ser2

Bahia             1.208926e+64
Minas Gerais               NaN
Rio de Janeiro    4.194304e+28
Santa Catarina    1.434891e+22
São Paulo                  NaN
dtype: float64

### DataFrames

O `DataFrame`é a principal classe do *Pandas*. Ele nada mais é que um conjunto de `Series`.

Os principais parâmetros do construtor de um *DataFrame* são `data`, `index` e `columns`.

In [140]:
# repare como criamos um Array de duas dimensões
df = pd.DataFrame(np.random.randint(0,10,(6,5)), 'A B C D E F'.split(), 'K W X Y Z'.split())
df

Unnamed: 0,K,W,X,Y,Z
A,6,3,8,3,4
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


O `DataFrame` é exatamente como a prometida planilha do *Pandas*. Suas **colunas** são `Series` e podem ser acessadas pelas chaves definidas em `columns`:

In [141]:
df['X']

A    8
B    1
C    0
D    9
E    3
F    4
Name: X, dtype: int64

In [142]:
type(df['X'])

pandas.core.series.Series

Para conseguirmos uma *fatia de colunas* de um `DataFrame`, podemos utilizar as seguintes técnicas:

In [143]:
df[['Z','X']]

Unnamed: 0,Z,X
A,4,8
B,3,1
C,6,0
D,9,9
E,0,3
F,6,4


Podemos incluir novas colunas no `DataFrame` exatamente como faríamos com *dicionários*:

In [144]:
df['novo'] = np.random.randint(0,10,6)
df

Unnamed: 0,K,W,X,Y,Z,novo
A,6,3,8,3,4,8
B,2,6,1,4,3,0
C,4,1,0,9,6,0
D,1,9,9,1,9,3
E,8,7,3,7,0,0
F,4,5,4,3,6,2


E para deletar uma coluna, basta utilizar o método `drop` estando atento que ele também possui o famoso parâmetro `axis` com valor *default* 0 (ou seja, está montado para trabalha r com *linhas* por padrão, não *colunas*):

In [145]:
df.drop('novo')

KeyError: "['novo'] not found in axis"

In [146]:
df.drop('novo', axis=1)

Unnamed: 0,K,W,X,Y,Z
A,6,3,8,3,4
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


In [147]:
df.drop('A')

Unnamed: 0,K,W,X,Y,Z,novo
B,2,6,1,4,3,0
C,4,1,0,9,6,0
D,1,9,9,1,9,3
E,8,7,3,7,0,0
F,4,5,4,3,6,2


**Eita!**

Repare que quando rodamos o método `drop` para a linha *A* a coluna *novo* voltou a aparecer, mesmo tendo rodado `df.drop('novo', axis=1)` anteriormente! Isso ocorre porque o método não salva as alterações no próprio objeto, então para apagarmos a coluna *novo* deveríamos fazer o seguinte:

In [148]:
df = df.drop('novo',1)
df

Unnamed: 0,K,W,X,Y,Z
A,6,3,8,3,4
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


#### O parâmetro *inplace*

Outra forma de aplicarmos as alterações do método `drop` ao objeto de `DataFrame` que o executarmos é trocar o valor do parâmetro `inplace` de `False` para `True`.

**OBS.:** Este parâmetro segue presente em vários métodos internos de `DataFrame` do *Pandas* com a mesma finalidade.

In [149]:
# utilizando o parâmetro inplace para apagar, então a linha A
df.drop('A',inplace=True)
df

Unnamed: 0,K,W,X,Y,Z
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


#### Métodos de *loc*alização

Apesar de muitas vezes serem chamados de métodos, o `loc` e o `iloc` (explicados mais a frente) são atributos de um objeto `DataFrame` que guardam sua representação numa estrutura semelhante às matrizes que trabalhamos em *Numpy Arrays*. Isso nos permite acessar e fatiar da mesma maneira:

In [150]:
# retornando a linha toda (vem na estrutura Series)
df.loc['B']

K    2
W    6
X    1
Y    4
Z    3
Name: B, dtype: int64

In [151]:
# repare que para capturar colunas não podemos usar o loc, o jeito é usar os colchetes direto como visto anteriormente
df.loc['W']

KeyError: 'the label [W] is not in the [index]'

In [152]:
# df.loc[[linhas_separadas_por_virgulas], [colunas_separadas_por_virgulas]]
df.loc[['E','C'], ['W','Z','K']]

Unnamed: 0,W,Z,K
E,7,0,8
C,1,6,4


In [153]:
# o iloc usa índices númericos, dando maior liberdade para fazer os fatiamentos
# df.loc[indice_das_linhas, indice_das_colunas]
df.iloc[2:5, :4] # exatamente como em matrizes de Numpy Arrays

Unnamed: 0,K,W,X,Y
D,1,9,9,1
E,8,7,3,7
F,4,5,4,3


In [154]:
# representação booleana de testes, exatamente como o Numpy Arrays faziam
df_bool = df > 5
df_bool

Unnamed: 0,K,W,X,Y,Z
B,False,True,False,False,False
C,False,False,False,True,True
D,False,True,True,False,True
E,True,True,False,True,False
F,False,False,False,False,True


In [155]:
# selecionando os valores através de um DataFrame booleano
# repare que diferentemente dos Numpy Arrays, o DataFrame mantém o mesmo tamanho da estrutura ao fazer essa "filtragem"
df[df_bool]

Unnamed: 0,K,W,X,Y,Z
B,,6.0,,,
C,,,,9.0,6.0
D,,9.0,9.0,,9.0
E,8.0,7.0,,7.0,
F,,,,,6.0


In [156]:
# Os Series também fazem isso!
df['Z'] > 5

B    False
C     True
D     True
E    False
F     True
Name: Z, dtype: bool

In [157]:
# E podem ser usados novamente para selecionar linhas do DataFrame
# se minha Series representar uma coluna, ela selecionará linhas do DataFrame
# o contrário não é possível
df[df['Z'] > 5]

Unnamed: 0,K,W,X,Y,Z
C,4,1,0,9,6
D,1,9,9,1,9
F,4,5,4,3,6


Podemos aninhar vários testes com os operadores `&` e `|`, representando `and` e `or` respectivamente:

In [158]:
df[(df['Z'] > 5) & (df['X'] > 5)]

Unnamed: 0,K,W,X,Y,Z
D,1,9,9,1,9


##### reset_index()

O método `reset_index` extrai os índices definidos atualmente no seu `DataFrame` para uma coluna na primeira posição do mesmo, resetando os índices para o padrão numérico. Vale lembrar que esse método também tem o parâmetro `inplace` configurado como `False` por padrão. Então para aplicarmos as alterações dele no objeto do qual o estivermos executando precisamos defini-lo como `True`.

In [159]:
df.reset_index()

Unnamed: 0,index,K,W,X,Y,Z
0,B,2,6,1,4,3
1,C,4,1,0,9,6
2,D,1,9,9,1,9
3,E,8,7,3,7,0
4,F,4,5,4,3,6


In [160]:
df

Unnamed: 0,K,W,X,Y,Z
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


In [161]:
df.reset_index(inplace=True)
df

Unnamed: 0,index,K,W,X,Y,Z
0,B,2,6,1,4,3
1,C,4,1,0,9,6
2,D,1,9,9,1,9
3,E,8,7,3,7,0
4,F,4,5,4,3,6


##### set_index()

O método `set_index` define uma coluna do seu `DataFrame` como índice da mesma, sobrescrevendo a antiga. Vale lembrar que esse método também tem o parâmetro `inplace` configurado como `False` por padrão. Então para aplicarmos as alterações dele no objeto do qual o estivermos executando precisamos defini-lo como `True`.

In [162]:
df.set_index('index')

Unnamed: 0_level_0,K,W,X,Y,Z
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


In [163]:
df

Unnamed: 0,index,K,W,X,Y,Z
0,B,2,6,1,4,3
1,C,4,1,0,9,6
2,D,1,9,9,1,9
3,E,8,7,3,7,0
4,F,4,5,4,3,6


In [164]:
df.set_index('index', inplace=True)
df

Unnamed: 0_level_0,K,W,X,Y,Z
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


##### Nomeando índices

In [165]:
df.index.names

FrozenList(['index'])

In [166]:
df.index.names = [None]
df

Unnamed: 0,K,W,X,Y,Z
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


#### Índices Multiníveis

Podemos definir índices com múltiplos níveis para os nossos `DataFrame` com a classe do *Pandas* `MultiIndex`. Isso permite estruturar e acessar os dados do `DataFrame` de maneira bem interessante:

In [172]:
outside_indexes = ['RJ', 'RJ', 'RJ', 'SP', 'SP', 'SP']
inside_indexes = [1,2,3,1,2,3]
indexes = list(zip(outside_indexes,inside_indexes))
indexes

[('RJ', 1), ('RJ', 2), ('RJ', 3), ('SP', 1), ('SP', 2), ('SP', 3)]

In [173]:
multindex = pd.MultiIndex.from_tuples(indexes)
multindex

MultiIndex(levels=[['RJ', 'SP'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [174]:
midf = pd.DataFrame(np.random.randn(6,2), index=multindex, columns='A B'.split())
midf

Unnamed: 0,Unnamed: 1,A,B
RJ,1,0.264809,-0.592135
RJ,2,-1.90003,-0.481388
RJ,3,-1.036442,0.343608
SP,1,-0.961193,-0.879786
SP,2,1.603798,0.89779
SP,3,-1.039527,-1.363438


In [175]:
midf.index.names

FrozenList([None, None])

In [177]:
midf.index.names = ('Estado', 'Número')
midf

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Estado,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
RJ,1,0.264809,-0.592135
RJ,2,-1.90003,-0.481388
RJ,3,-1.036442,0.343608
SP,1,-0.961193,-0.879786
SP,2,1.603798,0.89779
SP,3,-1.039527,-1.363438


In [180]:
# acessando valores de DataFrames com MultiIndex
midf.xs('RJ')

Unnamed: 0_level_0,A,B
Número,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.264809,-0.592135
2,-1.90003,-0.481388
3,-1.036442,0.343608


In [181]:
midf.xs(1, level='Número')

Unnamed: 0_level_0,A,B
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1
RJ,0.264809,-0.592135
SP,-0.961193,-0.879786


#### Métodos para Tratamento de Dados Ausentes

In [212]:
idf = df.copy()
idf

Unnamed: 0,K,W,X,Y,Z
B,2,6,1,4,3
C,4,1,0,9,6
D,1,9,9,1,9
E,8,7,3,7,0
F,4,5,4,3,6


In [214]:
idf = idf[idf != 9]
idf

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,,6.0
D,1,,,1.0,
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


##### dropna()

De acordo com o parâmetro `axis` derruba linhas ou colunas que contenham algum valor `NaN`. Com o parâmetro `thresh` podemos definir quantas vezes um valor diferente de `NaN` deve aparecer na linha/coluna para que ela seja mantida. Vale lembrar que esse método também tem o parâmetro `inplace` configurado como `False` por padrão. Então para aplicarmos as alterações dele no objeto do qual o estivermos executando precisamos defini-lo como `True`.

In [215]:
idf.dropna()

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


In [216]:
idf.dropna(axis=1)

Unnamed: 0,K
B,2
C,4
D,1
E,8
F,4


In [227]:
idf.dropna(thresh=5)

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


##### fillna()

Preenche os valores `NaN` com o que for passado no parâmetro `value`. O parâmetro `method` dá várias opções de métodos para preenchimento dos `NaN`. Vale lembrar que esse método também tem o parâmetro `inplace` configurado como `False` por padrão. Então para aplicarmos as alterações dele no objeto do qual o estivermos executando precisamos defini-lo como `True`.

In [234]:
idf.fillna(value=-1)

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,-1.0,6.0
D,1,-1.0,-1.0,1.0,-1.0
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


In [237]:
# preenche com a média de cada coluna
idf.fillna(value=idf.mean())

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,3.75,6.0
D,1,4.75,2.0,1.0,3.75
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


In [273]:
# preenche com o valor acima mais próximo na coluna
idf.fillna(method='ffill', inplace=True)
idf

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,4.0,6.0
D,1,1.0,0.0,1.0,6.0
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


#### DataFrameGroupBy

In [239]:
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}
df = pd.DataFrame(data)
df

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


In [241]:
group = df.groupby('Empresa')
group

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f0a60287978>

In [244]:
# Não aplica a coluna 'Nome' porque a operação não é válida para o tipo dos dados nela
group.sum()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [245]:
group.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [246]:
group = df.groupby('Nome')
group.count()

Unnamed: 0_level_0,Empresa,Venda
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Amy,1,1
Carl,1,1
Charlie,1,1
Sam,1,1
Sarah,1,1
Vanessa,1,1


#### Algutinação de DataFrame

##### Concatenação

Possui parâmetro `axis`.

In [248]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [249]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [250]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [251]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [252]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [253]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [254]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [255]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


##### Mesclar

Parecido com o `JOIN` em SQL:

In [256]:
esquerda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
direita = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [257]:
esquerda

Unnamed: 0,A,B,key
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [258]:
direita

Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K1
2,C2,D2,K2
3,C3,D3,K3


In [259]:
pd.merge(esquerda,direita,how='inner',on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3


**Diferentes tipos de merge (semelhantes aos do SQL JOIN)**

In [260]:
esquerda = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
direita = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [261]:
pd.merge(esquerda, direita, on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


In [262]:
pd.merge(esquerda, direita, how='outer', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,
5,,,K2,K0,C3,D3


In [263]:
pd.merge(esquerda, direita, how='right', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2
3,,,K2,K0,C3,D3


In [264]:
pd.merge(esquerda, direita, how='left', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,


##### Juntar

É basicamente o `JOIN` de SQL, exatamente como o `merge`, porém o `join` é interno aos `DataFrame`

In [265]:
esquerda = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [266]:
esquerda

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [267]:
direita

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [268]:
esquerda.join(direita)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [269]:
esquerda.join(direita, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


#### Outros métodos

In [274]:
idf

Unnamed: 0,K,W,X,Y,Z
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,4.0,6.0
D,1,1.0,0.0,1.0,6.0
E,8,7.0,3.0,7.0,0.0
F,4,5.0,4.0,3.0,6.0


In [276]:
idf['Y'].unique()

array([4., 1., 7., 3.])

In [277]:
idf['Y'].nunique()

4

In [278]:
idf['Y'].value_counts()

4.0    2
3.0    1
7.0    1
1.0    1
Name: Y, dtype: int64

In [280]:
def proximo_impar(x):
    if x%2:
        return x+2
    return x+1

idf['Y'].apply(proximo_impar)

B    5.0
C    5.0
D    3.0
E    9.0
F    5.0
Name: Y, dtype: float64

In [284]:
idf.columns

Index(['K', 'W', 'X', 'Y', 'Z'], dtype='object')

In [283]:
idf.index

Index(['B', 'C', 'D', 'E', 'F'], dtype='object')

In [285]:
idf.sort_values('Y')

Unnamed: 0,K,W,X,Y,Z
D,1,1.0,0.0,1.0,6.0
F,4,5.0,4.0,3.0,6.0
B,2,6.0,1.0,4.0,3.0
C,4,1.0,0.0,4.0,6.0
E,8,7.0,3.0,7.0,0.0


In [286]:
idf.isnull()

Unnamed: 0,K,W,X,Y,Z
B,False,False,False,False,False
C,False,False,False,False,False
D,False,False,False,False,False
E,False,False,False,False,False
F,False,False,False,False,False


In [287]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

In [288]:
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [289]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


#### Entrada e Saída de Dados

In [None]:
# aperte TAB no final desses códigos
pd.read
df.to