<img src="http://iconshow.me/media/images/System/plex-icons/png/Other/256/python.png" width="150px" align="right" display="block">

## Objetivo

O objetivo deste primeiro notebook é discutir os aspectos básicos da linguagem python para o suporte a estatística computacinal.

1. Tópico 1: Python
    - Tipos básicos de dados;
    - Operações e funções matemáticas básicas;
    - Estruturas básicas de dados;
    - Estruturas de controle;
    - Programação funcional;
    - Introdução ao NumPy;
2. Tópico 2: Numpy
    - Estruturas numpy;
    - Álgebra linear usando numpy e modulos associados;
    - Distribuições de probabilidade;
    - Otimização;
    - Integração e derivação numéricas;
    - Exemplos.
3. Tópico 3: Pandas
    1. Introdução ao Pandas.
        1. Classes `Series` e `DataFrame`.
        2. Iniciando objetos das classes.
        3. Acesso as propriedades e métodos.
        4. Indexação e seleção.
        5. Modificação de conteúdo.
        6. Modificação de atributos.
    2. Manipulação de dados.
        1. Datasets internos do Python.
        2. Filtros e ordenação.
        3. Criar e excluir registros e variáveis.
        4. Empilhar e fundir tabelas.
        5. Estatística descritiva.
        6. Estatísticas por estrato.
    
# Python

### Tipos básicos de dados

A linguagem python é dinamicamente tipificada, isso significa que o interpretador do python vai reconhecer o tipo de objeto que o usuário esta declarando automaticamente. Os tipos de objetos fundamentais em python são: `integer`, `floats` e `string`.

Para identificar o tipo de objeto em python usamos a comando `type()` e para imprimir o resultado de uma linha de código usamos o comando `print()` veja a seguir.

In [1]:
a1 = 10 # Definimos a1 como o integer 10
print(type(a1))

a2 = 3 # Definimos a2 como o integer 3
print(type(a2))

a3 = 10.0 # Definimos a3 como o float 10.0
print(type(a3))

a4 = 3.0 # Definimos a4 como o float 3.0
print(type(a4))

<class 'int'>
<class 'int'>
<class 'float'>
<class 'float'>


No python 3 a divisão de integer por integer já é automaticamente tipificada para float. Entretando, em versões mais antigas (python 2.7) essa conversão não é automática e requer o uso de pacotes específicos. Neste documento estamos usando a versão 3, então não precisamos nos preocupar com isso.

In [2]:
b1 = a1/a2 # Divisão integer por integer -> float
print(b1)
print(type(b1)) 

b2 = a3/a4 # Divisão float por float -> float
print(b2)
print(type(b2))

b3 = a1/a4 # Divisão integer por float -> float
print(b3)
print(type(b3))

3.3333333333333335
<class 'float'>
3.3333333333333335
<class 'float'>
3.3333333333333335
<class 'float'>


Um aspecto muito interessante da linguagem python é que todos os objetos tem uma classe e toda classe tem uma série de atributos associados. Por exemplo, podemos acessar o número de bits usados pelo integer 10.

In [3]:
a1.bit_length()

4

Entretanto, objetos do tipo float obviamente não tem esse atributo. Você pode obter informações sobre float objetos usando o modulo `sys`.

In [4]:
import sys 
sys.float_info

sys.float_info(max=1.7976931348623157e+308, max_exp=1024, max_10_exp=308, min=2.2250738585072014e-308, min_exp=-1021, min_10_exp=-307, dig=15, mant_dig=53, epsilon=2.220446049250313e-16, radix=2, rounds=1)

Internamente um float é representado como a razão entre dois integers. Para ver isso, objetos da class float tem um atributo.

In [5]:
print(a3.as_integer_ratio())
c1 = 0.35
print(c1.as_integer_ratio())

(10, 1)
(3152519739159347, 9007199254740992)


### Operações e funções matemáticas básicas


Em termos de operações matemáticas simples (soma, subtração, multiplicação e divisão) o python funciona exatamente como uma simples calculadora.

In [6]:
c1 = 10 + 20 # Soma de integer
print(c1)
print(type(c1))

c2 = 10.0 + 20.0 # Soma de float
print(c2)
print(type(c2))

c3 = 10 - 20 # Subtração de integer
print(c3)
print(type(c3))

c4 = 10.0 - 20.0 # Subtração de float
print(c4)
print(type(c4))

c5 = 30*50 + 80/4 - 20*2 # python respeita as operações matemáticas naturais mesmo sem o uso de parenteses.
print(c5)

# apesar de sempre recomendar o uso dos parenteses para facilitar a leitura de grandes equações
c6 = (30*50) + (80/4) - (20*2) 
print(c6)

30
<class 'int'>
30.0
<class 'float'>
-10
<class 'int'>
-10.0
<class 'float'>
1480.0
1480.0


Funções matemáticas especiais como logaritmo, exponencial, potênciação, funções trigonométricas, radiciação entre outras estão disponíveis através do modulo `math`. Ao carregar um modulo em python recomenda-se que apenas as funções que serão usadas sejam carregadas. Por exemplo, no código abaixo queremos calcular o logaritmo, a raiz quadrada, a exponencial e a potência de um número. Desta forma, importamos apenas estas funções do modulo `math`. Uma lista com todas as funções matemáticas disponíveis no modulo `math` pode ser encontrada no endereço (https://www.programiz.com/python-programming/modules/math). 

In [7]:
from math import log, sqrt, exp, pow

print(log(10)) # Logaritmo de 10
print(sqrt(10)) # raiz quadrada de 10
print(exp(0)) # exponencial
print(pow(10, 2)) # 10^2
print(pow(10, 3)) # 10^3

2.302585092994046
3.1622776601683795
1.0
100.0
1000.0


### Estruturas básicas de dados

Como uma regra geral, estruturas de dados são objetos que contêm possívelmente um grande número de outros objetos. Entre outros o python oferece as seguintes estruturas de dados:

   - `tuple`: Coleção arbitrária de objetos com poucos métodos disponíveis.
   - `list`: Coleção arbitrária de objetos com muitos métodos disponíveis.
   - `dict`: Objeto que armazenam valores-chaves.
   - `set`: Coleção não enumerada de objetos para outros objetos únicos.

#### Tuples

`tuple` é uma estrutura muito simples e com poucos recursos. A `tuple` é definida através de um conjunto de objetos entre parêntenses.

In [8]:
t1 = (1, 2.5, 'tuple')
print(type(t1))

<class 'tuple'>


Podemos selecionar elementos de uma `tuple` através de seus indices. Um aspecto importante é que o python usa zero-based numbering, ou seja, os índices começam em zero. Também podemos selecionar slices da `tuple` através de seus índices.

In [9]:
print(t1[1])
print(t1[0])
print(type(t1[2]))

print(t1[0:1]) # Seleciona apenas o elemento na posição 0
print(t1[0:2]) # Elemento da posição 0 e 1
print(t1[-1]) # Índices negativos tbm funcionam

2.5
1
<class 'str'>
(1,)
(1, 2.5)
tuple


Para objetos do tipo `tuple` existem apenas dois métodos disponíveis: `count` e `index`. O método `count` conta as ocorrências de um certo valor e o método `index` retorno o índice que o valor apareceu pela primeira vez.

In [10]:
t2 = (1,2,2,2,3,3,3,5,5,5,5, "tuple2")
print(t2.count(5))
print(t2.index(5))

4
7


#### Lists

Objetos do tipo `list` são muito mais flexíveis e poderosos do que `tuple`. Uma `list` é definida através de colchetes (brackets) e em termos de aplicações em estatística serão muito úteis. Entretando, a seleção de elementos e comportamentos básicas são similares aos de uma `tuple`.

In [11]:
l1 = [1, 2.5, 'lista']
print(type(l1))
print(l1[2]) # Elemento posição 3

<class 'list'>
lista


Podemos também converter objetos do tipo `tuple` para `list` usando a função `list()`.

In [12]:
t1 = (1, 2.5, 'tuple')
print(type(t1))
t1 = list(t1)
print(type(t1))

<class 'tuple'>
<class 'list'>


Objetos do tipo `list` podem ser expandidos e/ou reducidos. Em python essas propriedades definem um objeto `mutable`. Assim, temos que um `list` é `mutable` enquanto que um `tuple` é `immutable`. Vamos ver algumas operações com objetos `list`.

In [13]:
# Acrescenta valores ao fim da list
l1.append([4, 3])
print(l1)
# Extende a list ja existente
l1.extend([1.0, 1.5, 2.0])
print(l1)
# Insere objetos em uma posição especifica
l1.insert(1, 'insert')
print(l1)
# Remove a primeira occorência de um objeto
l1.remove('lista')
print(l1)
# Remove e retorna o objeto em um indice
p = l1.pop(3)
print(l1)
print(p)

[1, 2.5, 'lista', [4, 3]]
[1, 2.5, 'lista', [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, 'lista', [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, [4, 3], 1.0, 1.5, 2.0]
[1, 'insert', 2.5, 1.0, 1.5, 2.0]
[4, 3]


Slicing refere-se a operação de quebrar o conjunto de dados em pequenas partes de interesse.

In [14]:
l1[2:5] # Elementos da terceira a quinta posição

[2.5, 1.0, 1.5]

Mais alguns exemplos de operações com objetos `list`.

In [15]:
print(l1)
l1[2] = 5 # substitui o elemento 3 pelo valor 5
print(l1)
l1[3:5] = [2,1,3] # Interessante
print(l1)
l1.append(10) # Junta o 10 na list
print(l1.count(10)) # Conta o numero de ocorrência do 10
del l1[3:5] # Deleta
print(l1)
l1.extend([10,20,30])
print(l1)
l1.reverse() # Do maior para o menor
print(l1)
l1.sort() # Do menor para o maior
print(l1)

[1, 'insert', 2.5, 1.0, 1.5, 2.0]
[1, 'insert', 5, 1.0, 1.5, 2.0]
[1, 'insert', 5, 2, 1, 3, 2.0]
1
[1, 'insert', 5, 3, 2.0, 10]
[1, 'insert', 5, 3, 2.0, 10, 10, 20, 30]
[30, 20, 10, 10, 2.0, 3, 5, 'insert', 1]


TypeError: '<' not supported between instances of 'str' and 'int'

#### Dicts

Objetos do tipo `dict` são dicionários `mutable` e permitem o armazenamento de dados através de `keys` que podem ser por exemplo, `string`. `dict` objetos não são ordenáveis. Um exemplo ilustra melhor a diferença entre `list` e `dict`.

In [16]:
d = {
    'Nome' : 'Wagner Hugo Bonat',
    'País' : 'Brasil',
    'Profissão' : 'Professor',
    'Idade' : 32
}
print(type(d))
print( d['Nome'], d['Idade'] )

d.keys() # Acessa o nome das chaves

d.values() # Acessa os valores

<class 'dict'>
Wagner Hugo Bonat 32


dict_values(['Wagner Hugo Bonat', 'Brasil', 'Professor', 32])

Existem uma séries de métodos para iterar em objetos da classe `dict`. Veremos detalhes na seção de estruturas de controle e programação funcional.

#### Sets

A última estrutura de dados básica que vamos discutir é a estrutura `set`. A estrutura `set` implementa a teoria dos conjuntos atráves de simples objetos. Ela pode ser útil para explicar conceitos de probabilidade. Vamos ver alguns conceitos simples de probabilidade usando a estrutura `set`em python.

In [17]:
s = set(['A','B', 'AB', 'BA', 'B', 'BA']) # Note que objeto repetidas são automaticamente descartados
print(s)
t = set(['B', 'BB', 'AA', 'A'])
print(t)

print(s.union(t)) # União dos conjuntos
print(s.intersection(t)) # Intersecção
print(s.difference(t)) # Em s mas não em t
print(t.difference(s)) # Em t mas não em s
print(s.symmetric_difference(t)) # em s ou t mas não em ambos

{'AB', 'A', 'B', 'BA'}
{'A', 'AA', 'B', 'BB'}
{'A', 'B', 'AA', 'BA', 'BB', 'AB'}
{'A', 'B'}
{'AB', 'BA'}
{'AA', 'BB'}
{'AA', 'BB', 'BA', 'AB'}


### Estruturas de controle

Estruturas de controle são a forma que o programador tem de controlar o que e para quais objetos o código vai funcionar. Apesar de uso geral, nesta seção vou focar mais em objetos do tipo `list`. 
O exemplo a seguir define uma lista com 6 valores e imprime o quadrado os valores entre os índices 2 e 5. 
Em python a indentação é parte da linguagem, então observe com atenção os espaços em branco na segunda linha.
Note ainda que no segundo loop for o índice teve que ser apropriadamente restrito.
Esta estrutura de looping é muito útil e fácil de usar. 

In [18]:
l2 = [1,2,3,4,5,6]
print(l2[2:5])

for i in l2[2:5]:
    print(l2[i] ** 2)

for i in l2:
    print(l2[i-1])
    
# Entretando, podemos usar o mais tradicional loop baseado em um contador (como usual em linguagens com C).

r = range(0, 6, 1)

for r in range(2, 5):
    print(l2[r] ** 2)

[3, 4, 5]
16
25
36
1
2
3
4
5
6
9
16
25


Uma especialidade do python é a chamada `list comprehensions`. Ao invés de rodar sobre objetos tipo `list` já existentes, esta abordagem gerá a `list` via loops em uma forma muito compacta.

In [19]:
m = [i ** 2 for i in range(5)]
print(m)

[0, 1, 4, 9, 16]


Em certo sentido a abordagem de `list comprehensions` já fornece algo como vetorização de código, que será discutida em detalhes na seção Vetorização de código.

### Programação funcional

Python oferece muitas ferramentas para programação funcional *functional programming*. Programação funcional refere-se ao processo de aplicar uma função a um conjunto de entradas, em geral em python a um objeto do tipo `list`. Entre estas ferramentas estão `filter`, `map` e `reduce`. Entretando, para começar precisamos definir uma função em python. 

Para começar vamos implementar a distribuição de probabilidade mais usada em estatística, ou seja, a distribuição Gaussiana. A função densidade probabilidade da distribuição Gaussiana é dada por

$$ f(y;\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left \{- \frac{1}{2\sigma^2} (y - \mu)^2 \right \}, $$
onde $ y, \mu \in \Re$ e $\sigma^2 > 0$. Nesta parametrização tem-se que $E(Y) = \mu$ e $Var(Y) = \sigma^2$.

Para implementar tal função em python, primeiro identificamos quais argumentos serão necessários. Neste caso são três $y$, $\mu$ e $\sigma^2$. Na sequência identificamos quais as funções matemática especiais envolvidas na função, no caso da distribuição Gaussiana temos, raiz quadrada, constant $\pi$, potência e exponencial (`sqrt`, `pi`, `pow` e `exp`) todas estão disponíveis através do módulo `math`. Vamos ver como fica a distribuição Gaussiana implementada em python.

In [20]:
from math import sqrt, pi, exp, pow

def dnorm(y, mu = 0, sigma2 = 1):
    output = (1/(sqrt(2 * pi * sigma2)))*exp( - (1/(2 * sigma2)) * pow(y - mu, 2)  )
    return output

print(dnorm(y = 0))
print(dnorm(y = 0, mu = 10, sigma2 = 2))

0.3989422804014327
3.917716632754334e-12


Suponha que queremos aplicar a função `dnorm` para uma `list` de objetos. Podemos fazer isso usando um loop for como na seção anterior. 

In [21]:
# Tradicional loop for
numbers = [-3, -2, -1, 0, 1, 2, 3]
for i in numbers:
    print(dnorm(y = i, mu = 0, sigma2 = 1))

0.0044318484119380075
0.05399096651318806
0.24197072451914337
0.3989422804014327
0.24197072451914337
0.05399096651318806
0.0044318484119380075


De uma forma mais elegante podemos usar programação funcional através da função map em python.

In [22]:
print(list(map(dnorm, numbers)))
print(list(map(dnorm, numbers, [10,10,10,10,10,10,10], [1,1,1,1,1,1,1]))) # Um pouco incoveniente mais funciona!

[0.0044318484119380075, 0.05399096651318806, 0.24197072451914337, 0.3989422804014327, 0.24197072451914337, 0.05399096651318806, 0.0044318484119380075]
[7.998827757006813e-38, 2.1463837356630605e-32, 2.1188192535093538e-27, 7.69459862670642e-23, 1.0279773571668917e-18, 5.052271083536893e-15, 9.134720408364594e-12]


Para funções simples (em geral de uma linha) podemos usar funções anônimas ou como são chamadas em python `lambda functions`. 

In [23]:
list(map(lambda x: x ** 2, numbers))

[9, 4, 1, 0, 1, 4, 9]

Funções também podem ser usadas para filtrar valores de interesse. Suponha que queremos obter apenas os valores pares de uma grande `list` de números. Primeiro definimos a função que faz a seleção e depois aplicamos ela a cada elemento da nossa lista de valores filtrando os que temos interesse.

In [24]:
def even(x):
    return x % 2 == 0

list(filter(even, range(15)))

[0, 2, 4, 6, 8, 10, 12, 14]

Finalmente, podemos reduzir o conjunto de dados aplicando alguma função em todos os elementos da `list`. Um exemplo é a soma cumulativa dos objetos em uma `list`. Importante ressaltar que a função `reduce` no python 3.0 é parte do modulo functools, e portante precisa ser importada explicitamente.

In [25]:
from functools import reduce

reduce(lambda x, y: x + y, range(10))

45

Podemos também usar as funções em conjunto ganhando ainda mais flexibilidade. Por exemplo, suponha que queremos somar apenas os números positivos de uma sequência de números em uma `list`.

In [26]:
reduce(lambda x, y: x + y, filter(even, range(20)))

90

É considerado uma boa prática evitar loop for em Python tanto quanto possível. `list comprehension` e `functional programming` atráves de funções como `map`, `filter`  e `reduce` oferecem um código mais compacto e em geral de fácil leitura. 

### Estrutura de dados NumPy

As seções anteriores mostraram que o python oferece algumas estruturas flexíveis para o armazenamento e manipulação de dados básicos. Em particular, `list` são muito úteis para trabalhar com dados e analises estatística. Entretando, quando trabalhando com analise de dados reais, tem-se a necessidade para operações de alta performance em dados com estruturas especiais. Uma das estruturas mais importantes é o `array`. `array` geralmente estruturam outros objetos em linhas e colunas. 

Assuma que estamos trabalhando com números (os conceitos funcionam também para `string`). No caso mais simples, um `array` unidimensional representa um vetor de números reais representados internamente como `float`. De forma mais geral um `array` representa uma matrix $i \times j$ de elementos. O mais interessantes sobre `array` é que estes conceitos generalizam para cubos $i \times j \times k$ de elementos, bem como, para n-dimensionais arrays de corpo $i \times j \times k \times l \times, \ldots$.

De forma geral, matrizes são de extrema importância em estatística, assim precisamos de uma forma simples e eficiente de trabalhar ao menos com `arrays` bidimensionais. É neste ponto que a biblioteca `NumPy` é de extrema importância dentro do ambiente python.

Antes de introduzir o modelo `NumPy` vamos discutir como `array` podem ser obtidos como uma `list` de `list`.

In [27]:
v = [0.5, 1, 1.5, 2, 2.5, 3] # vector of numbers
m = [v, v, v] # matriz
print(m)
m[1][0] # Segunda linha primeiro elemento

[[0.5, 1, 1.5, 2, 2.5, 3], [0.5, 1, 1.5, 2, 2.5, 3], [0.5, 1, 1.5, 2, 2.5, 3]]


0.5

Podemos também ter um cubo de números, ou um `array` tridimensional.

In [28]:
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1,v2]
c = [m, m]
print(c)
print(c[1])
print(c[1][0])
print(c[1][0][1])

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]
[[0.5, 1.5], [1, 2]]
[0.5, 1.5]
1.5


É importante enfatizar que combinar elementos como feito anteriormente funciona como `reference pointers` para os objetos anteriores. Essa idéia fica clara através de um exemplo.

In [29]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
print(m)

v[0] = 'python'
print(m)

[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]
[['python', 0.75, 1.0, 1.5, 2.0], ['python', 0.75, 1.0, 1.5, 2.0], ['python', 0.75, 1.0, 1.5, 2.0]]


Para evitar este comportamento usamos a função `deepcopy` do modulo `copy`.

In [30]:
from copy import deepcopy

v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = 3 * [deepcopy(v), ]
print(m)
v[0] = 'python'
print(m)

[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]
[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]


Apesar de flexível esta forma de criar `array` não é muito útil para aplicações em estatística, uma vez que, o ferramental de álgebra linear não está disponível para este tipo de objetos. Por exemplo, a simples multiplicação de um escalar por um vetor não é definida para objetos do tipo `list` em  python.

In [31]:
v = [0.5, 1, 1.5] # vetor
n = 2 # escalar
n*v # Repete a list duas vezes, ao invés da multiplicação de escalar por vetor

[0.5, 1, 1.5, 0.5, 1, 1.5]

Isso mostra que precisamos de um tipo de objeto mais especializado que automaticamente entenda operações de álgebra linear e similares. A *library* `NumPy` traz este tipo de objeto que é chamada genericamente de `ndarray`.

In [32]:
import numpy as np

a = np.array([0, 0.5, 1.0, 1.5, 2.0])
print(a)
print(type(a))

[0.  0.5 1.  1.5 2. ]
<class 'numpy.ndarray'>


A principal vantagem deste tipo de objeto é a grande quantidade de métodos disponíveis. Alguns exemplos:

In [33]:
print(a.sum()) # Soma todos os elementos
print(a.std()) # Erro padrão
print(a.cumsum()) # Soma acumulada
print(a.shape)
print(a.size)

5.0
0.7071067811865476
[0.  0.5 1.5 3.  5. ]
(5,)
5


Uma lista completa de todos os métodos disponíveis para `ndarray` objetos pode ser obtida [aqui](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.ndarray.html). 
Do ponto de vista de aplicações em estatística a grande vantagem de objetos do tipo `ndarray` é que operações matriciais são reconhecidas. Aqui vamos apresentar apenas o básico, no decorrer da discussão teremos um encontro dedicado especificamente a álgebra linear usando `NumPy`.

In [34]:
a = [1, 2] # Python basic
b = [3, 4]
print(a + b) # Concatena

a = np.array([1, 2]) # Usando NumPy
print(a*2) # Multiplicação por escalar

b = np.array([3, 4])
print(a + b) # Soma de vetores

# Matrix 2 x 2
c = np.matrix([ [1,2], [3,4] ])
print(c)
print(c.shape)

c2 = np.matrix([ [4,5], [6, 7]])
print(c2[0,:]) # Primeira linha
print(c2[:,0]) # Primeira coluna

# Multiplicacao de matrizes
np.dot(c,c2)

[1, 2, 3, 4]
[2 4]
[4 6]
[[1 2]
 [3 4]]
(2, 2)
[[4 5]]
[[4]
 [6]]


matrix([[16, 19],
        [36, 43]])

Uma outra especialidade da biblioteca `NumPy` são os `array` estruturados. Essa opção permite que em um mesmo `array` sejam armazenados diferentes tipos de dados por coluna. Porém, vamos deixar esta discussão para um encontro específico.

# Numpy

---

A biblioteca `numpy` é o centro de toda computação científica em python. Ela implementa objetos `array` multidimensionais de alta performance e métodos para manipular tais objetos. 

## Estruturas numpy

Um `numpy array` é um gride de valores todos de mesmo tipo indexado por um `tuple` de inteiros não negativos. O número de dimensões é o `size` do `array` e o `shape` do `array` é uma `tuple` que mostra o tamanho de cada dimensão. Podemos inicializar arrays usando objetos do tipo `list` e acessar elementos do array usando colchetes (*square brackets*).

In [35]:
import numpy as np

a = np.array([1, 2, 3]) # Cria um array de rank = 1
print(type(a))
print(a.size) # Tamanho
print(a.shape) # Dimensão

a[0] = 10 # Modifica um elemento do array
print(a)

b = np.array([[1,2,3],[4,5,6]]) # array 2 linhas e 3 colunas
print(b)
print(b.size)
print(b.shape)

<class 'numpy.ndarray'>
3
(3,)
[10  2  3]
[[1 2 3]
 [4 5 6]]
6
(2, 3)


`Numpy` também fornece várias opções para inicializar arrays.

In [36]:
a = np.zeros((3,3))   # array de zeros 2x2
print(a)

b = np.ones((2,3))    # array de 1's 2x3
print(b)

c = np.full((4,4), 10)  # array 4x4 com todas as entradas iguais a 10
print(c)

d = np.eye(3)         # Matrix identidade 3x3
print(d)

e = np.random.random((2,2))  # Matrix 3x3 de números aleatórios
print(e)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[0.41882434 0.63101561]
 [0.90485637 0.88302582]]


### Acessando elementos do array

Similar a objetos do tipo `list` um `array` pode ser fatiados (*sliced*). Como os arrays são multidimensionais podemos especificar uma fatia para cada dimensão do `array`.

In [37]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) # array 
print(a.shape) # 3x4
print(a[0,]) # Primeira linha
print(a[0:2,]) # Primeira e segunda linha
print(a[2,]) # Terceira linha

(3, 4)
[1 2 3 4]
[[1 2 3 4]
 [5 6 7 8]]
[ 9 10 11 12]


In [38]:
# Acessando as colunas do `array`.

print(a[:,2:4]) # Terceira e quarta coluna
print(a[:,3]) # Apenas a quarta coluna rsrs
print(a[:,2:3]) # Isso é estranho!!

[[ 3  4]
 [ 7  8]
 [11 12]]
[ 4  8 12]
[[ 3]
 [ 7]
 [11]]


In [39]:
# Acessando elementos específicos.

a[1,1] # Segunda linha segunda coluna
print(a[1,2:4]) # Segunda linha colunas 3 e 4.

# Tirando apenas uma fatia do array e criando um novo
b = a[:2, 1:3]
print(b) 
# Mais cuidado os objetos ainda são os mesmos
b[0,0] = 100
print(a) 

# Evitando esse comportamento usando função deepcopy do module copy
from copy import deepcopy
c = deepcopy(a[:2, 1:3])
c[0,0] = 50
print(c)
print(a)

[7 8]
[[2 3]
 [6 7]]
[[  1 100   3   4]
 [  5   6   7   8]
 [  9  10  11  12]]
[[50  3]
 [ 6  7]]
[[  1 100   3   4]
 [  5   6   7   8]
 [  9  10  11  12]]


Capturar pedaços de um `array` que não sejam fatias é um pouco mais complicado. Suponha que queremos capturar a primeira e terceira linhas.

In [40]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
b = np.array([a[0,],a[2,]]) # novo array
b[0,0] = 100
print(a) # note que agora realmente temos um novo array que não altera o array anterior
print(b)
print(b.shape) #2x4

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[100   2   3   4]
 [  9  10  11  12]]
(2, 4)


Importante entender o que acontece com objetos `array`. Quando capturamos um `slice` do `array` a fatia capturada ainda é parte do `array` original e portanto qualquer modificação na fatia vai mudar também o `array`. Entretanto, quando capturamos fatias ou pedaços de um `array` e com essas fatias ou pedaços criamos um novo `array` que portanto não é mais parte do `array` original. Assim, mudanças no novo `array` não afetaram o `array` original.

Podemos selecionar elementos de um `array` usando variáveis boleanas. 

In [41]:
a[a > 2]

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Existem muitas opções de como manipular e capturar fatias e/ou pedaços de `array` usando `numpy` para mais detalhes ver (http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html).

## Álgebra linear usando `numpy`

A classe `ndarray` disponibilizada pela biblioteca `numpy` é muito geral e flexível. Entretanto, em estatística em geral estamos interessados em matrizes. Uma matriz nada mais é do que um `array` bidimensional. Devido a sua importância não apenas em estatística mais em diversas áreas a biblioteca `numpy` oferece ferramentas específicas para trabalhar com matrizes em python. Para inicializar uma matriz em python o processo é muito similar a inicialização de um `array`. O interessante é que agora operações matemáticas simples podem ser feitas em todos os elementos da matriz que pode ser apenas um vetor linha ou coluna como mostra o código abaixo.

In [42]:
a = np.matrix([[1,2,3]]) # vetor linha
a.shape
b = a.T # transposto (vetor coluna)

print(a * 2) # Multiplicação por constante
print(b * 2)

print(np.sqrt(a)) # Raiz de cada elemento de a
print(np.exp(a)) # Exponencial de cada elemento de a
print(np.log(a)) # Logaritmo de cada elemento de a

print(a + a) # Soma dois vetores (elementwise)
print(b - b) # Subtrai dois vetores
print(a/a) # Divisão elementwise
print(np.multiply(a,a)) # multiplicação elementwise

[[2 4 6]]
[[2]
 [4]
 [6]]
[[1.         1.41421356 1.73205081]]
[[ 2.71828183  7.3890561  20.08553692]]
[[0.         0.69314718 1.09861229]]
[[2 4 6]]
[[0]
 [0]
 [0]]
[[1. 1. 1.]]
[[1 4 9]]


Para inicializar uma matriz usando a `numpy` usamos uma sintaxe parecida com a inicialização de uma `list`.

In [43]:
A = np.matrix([ [1, 0.8, 0.6], [0.8, 1, 0.4], [0.6, 0.4, 1]])
B = np.matrix([ [1, 0.2, 0.3], [0.2, 1, 0.5], [0.3, 0.5, 1]])
print(A.shape)
print(B.shape)

(3, 3)
(3, 3)


In [44]:
# Operações matriciais são executadas de forma intuitiva.

print(A + B) # Soma Elementwise
print(A - B) # Subtração
print(np.dot(A,B)) # Multiplicação matricial
print(np.diag(A)) # Pega só a diagonal
print(np.exp(A)) # Exponencial de cada entrada - util para geoestatística ;)

[[2.  1.  0.9]
 [1.  2.  0.9]
 [0.9 0.9 2. ]]
[[ 0.   0.6  0.3]
 [ 0.6  0.  -0.1]
 [ 0.3 -0.1  0. ]]
[[1.34 1.3  1.3 ]
 [1.12 1.36 1.14]
 [0.98 1.02 1.38]]
[1. 1. 1.]
[[2.71828183 2.22554093 1.8221188 ]
 [2.22554093 2.71828183 1.4918247 ]
 [1.8221188  1.4918247  2.71828183]]


As principais operações de álgebra linear estão implementadas em um modulo extra da `numpy` chamado de `numpy.linalg`. Sendo, vamos importar a biblioteca `numpy.linalg` usando apenas o prefixo `lp` e fazer algumas operações matriciais básicas como inversão, cálculo de determinantes e decomposições de autovalor e autovetor e Cholesky. Também podemos obter algumas propriedades da matrix como sua norma e rank.

In [45]:
import numpy.linalg as lp

print(lp.inv(A)) # inverse de A
print(lp.det(A)) # determinante de A

print(lp.eig(A)) # Autovalores e autovetores
print(lp.cholesky(A)) # Decomposição de Cholesky

print(lp.norm(A)) # Norma
print(lp.matrix_rank(A)) # Rank (numero de colunas li)

[[ 3.75       -2.5        -1.25      ]
 [-2.5         2.85714286  0.35714286]
 [-1.25        0.35714286  1.60714286]]
0.22399999999999995
(array([2.21493472, 0.16242348, 0.6226418 ]), matrix([[ 0.63457746,  0.75716113, -0.15497893],
        [ 0.58437383, -0.60130182, -0.54492509],
        [ 0.50578521, -0.25523155,  0.82403773]]))
[[ 1.          0.          0.        ]
 [ 0.8         0.6         0.        ]
 [ 0.6        -0.13333333  0.78881064]]
2.3065125189341593
3


Outra ferramenta muito útil é a solução de sistemas lineares do tipo $Ax = b$. Em python isso é facilmente implementado, novamente usando o modulo `numpy.linalg`.

In [46]:
A = np.matrix([ [1, 0.8, 0.6], [0.8, 1, 0.4], [0.6, 0.4, 1]])
b = np.matrix([[1,2,3]]).T # Note o transposto precisamos de um vetor coluna
lp.solve(A,b)

matrix([[-5.        ],
        [ 4.28571429],
        [ 4.28571429]])

# Introdução ao Pandas

O tipo "primitivo" de objeto fornecido pelo Pandas é o [`Series`]. Nada mais é que o nome para um vetor de dados. Ele é contruido a partir do
`numpy.array()`.

In [107]:
# Importa o módulo.
import pandas as pd

# Exibe a documentação.
#help(pd.Series)

# Criando um objeto tipo Series.
s = pd.Series(range(10))
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [108]:
# Atributos da classe (não termina com parênteses.)
print(s.dtype)
print(s.nbytes)
print(s.shape)
print(s.values)

type(s)

int64
80
(10,)
[0 1 2 3 4 5 6 7 8 9]


pandas.core.series.Series

```python
# (funções) Métodos associadas a classe.
# ATTENTION: mostrar recursos de REGEX do Emacs para colocar o print().
s.min()
s.max()
s.mean()
s.median()
s.std()
s.head(3)
s.tail(3)
s.describe()
```

O [`DataFrame`] é o tipo de objeto que representa a tabela de dados. Ele é contruído a partir do `Series`.

In [109]:
# Dicionário com listas de mesmo tamanho.
d = {'grr': [1, 2, 3, 4],
     'nome': ["Andre", "Gabriela", "Rodrigo", "Tatiana"],
     'nota': [9.0, 9.2, 7.9, 8.3]}
d

{'grr': [1, 2, 3, 4],
 'nome': ['Andre', 'Gabriela', 'Rodrigo', 'Tatiana'],
 'nota': [9.0, 9.2, 7.9, 8.3]}

In [110]:
# Conversão para DataFrame.
df = pd.DataFrame(data = d)
df

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
1,2,Gabriela,9.2
2,3,Rodrigo,7.9
3,4,Tatiana,8.3


In [111]:
# Atributos.
df.shape  # Comprimento em cada dimensão.
df.size   # Número de entradas.
df.axes   # Nome dos eixos.
df.values # Representação NumPy.
df.dtypes # Tipagem de cada coluna.

grr       int64
nome     object
nota    float64
dtype: object

In [112]:
# Acesso as `Series`. Pelo nome não pode haver espaços.
df.grr

0    1
1    2
2    3
3    4
Name: grr, dtype: int64

In [113]:
df.nome

0       Andre
1    Gabriela
2     Rodrigo
3     Tatiana
Name: nome, dtype: object

In [114]:
# Pelo nome dos índices. Permite mais de uma coluna.
df[['nota']]

Unnamed: 0,nota
0,9.0
1,9.2
2,7.9
3,8.3


In [115]:
df[['nota', 'nome']]

Unnamed: 0,nota,nome
0,9.0,Andre
1,9.2,Gabriela
2,7.9,Rodrigo
3,8.3,Tatiana


In [116]:
# Por sequência de posições.
df.iloc[:,1:3]

Unnamed: 0,nome,nota
0,Andre,9.0
1,Gabriela,9.2
2,Rodrigo,7.9
3,Tatiana,8.3


In [117]:
# Seleção de linhas (três formas equivalentes).
df.iloc[1:3]

Unnamed: 0,grr,nome,nota
1,2,Gabriela,9.2
2,3,Rodrigo,7.9


In [118]:
df.iloc[1:3,]

Unnamed: 0,grr,nome,nota
1,2,Gabriela,9.2
2,3,Rodrigo,7.9


In [119]:
df.iloc[1:3,:]

Unnamed: 0,grr,nome,nota
1,2,Gabriela,9.2
2,3,Rodrigo,7.9


In [120]:
# Seleção de linhas e colunas.
df.iloc[1:3, 0:2]

Unnamed: 0,grr,nome
1,2,Gabriela
2,3,Rodrigo


In [121]:
df.iloc[1:3, ][['nome', 'grr']]

Unnamed: 0,nome,grr
1,Gabriela,2
2,Rodrigo,3


In [122]:
# Retonar o nome das colunas.
df.columns

Index(['grr', 'nome', 'nota'], dtype='object')

In [123]:
df.columns[-2] # É uma lista.

'nome'

In [124]:
df.columns[[0, 2]] # É uma lista.

Index(['grr', 'nota'], dtype='object')

In [125]:
# Usar as opções combinadas (passando a lista).
df.iloc[1:3, ][df.columns[-2]]

1    Gabriela
2     Rodrigo
Name: nome, dtype: object

In [126]:
df.iloc[:, [0, 2]]

Unnamed: 0,grr,nota
0,1,9.0
1,2,9.2
2,3,7.9
3,4,8.3


In [127]:
df.iloc[[0, 2], [0, 2]]

Unnamed: 0,grr,nota
0,1,9.0
2,3,7.9


In [128]:
df.iloc[[0, 2]]

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
2,3,Rodrigo,7.9


In [129]:
df.iloc[[0, 2],]

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
2,3,Rodrigo,7.9


In [130]:
df.iloc[[0, 2],:]

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
2,3,Rodrigo,7.9


In [131]:
x = range(0, 3, 2)
df.iloc[x,:]

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
2,3,Rodrigo,7.9


In [132]:
df.iloc[0:3:2,:]

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
2,3,Rodrigo,7.9


In [133]:
# Com intervalo dado pelo nome dos extremos.
df.loc[:, 'grr':'nota']

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
1,2,Gabriela,9.2
2,3,Rodrigo,7.9
3,4,Tatiana,8.3


In [134]:
# Dar nome para as linhas.
df = df.set_index('grr')
df

Unnamed: 0_level_0,nome,nota
grr,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Andre,9.0
2,Gabriela,9.2
3,Rodrigo,7.9
4,Tatiana,8.3


In [135]:
# `grr` deixou de ser uma coluna para der o ID.
df.columns

Index(['nome', 'nota'], dtype='object')

In [136]:
# Restaura o índice e retorna `grr` como coluna.
df.reset_index(inplace = True)
df.columns

Index(['grr', 'nome', 'nota'], dtype='object')

In [137]:
# Usa nome como índice dos registros.
df = df.set_index('nome')
df.columns

Index(['grr', 'nota'], dtype='object')

In [138]:
df

Unnamed: 0_level_0,grr,nota
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Andre,1,9.0
Gabriela,2,9.2
Rodrigo,3,7.9
Tatiana,4,8.3


In [139]:
# Seleciona linhas pelo nome do índice.
df.loc["Andre"]

grr     1.0
nota    9.0
Name: Andre, dtype: float64

In [140]:
df.loc["Tatiana"]

grr     4.0
nota    8.3
Name: Tatiana, dtype: float64

In [141]:
# Pela posição.
df.iloc[0]

grr     1.0
nota    9.0
Name: Andre, dtype: float64

In [142]:
df.iloc[-1]

grr     4.0
nota    8.3
Name: Tatiana, dtype: float64

In [143]:
# Mudar o nome das colunas.
df.columns = ['Grr', 'Nota']
df

Unnamed: 0_level_0,Grr,Nota
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Andre,1,9.0
Gabriela,2,9.2
Rodrigo,3,7.9
Tatiana,4,8.3


In [144]:
df.rename(columns = {'Grr': 'GRR', 'Nota': 'nota'}, inplace = True)
df

Unnamed: 0_level_0,GRR,nota
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Andre,1,9.0
Gabriela,2,9.2
Rodrigo,3,7.9
Tatiana,4,8.3


In [145]:
# Estrutura do DataFrame.
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Andre to Tatiana
Data columns (total 2 columns):
GRR     4 non-null int64
nota    4 non-null float64
dtypes: float64(1), int64(1)
memory usage: 96.0+ bytes


In [146]:
# Medidas descritivas para variáveis numéricas.
df.describe()

Unnamed: 0,GRR,nota
count,4.0,4.0
mean,2.5,8.6
std,1.290994,0.60553
min,1.0,7.9
25%,1.75,8.2
50%,2.5,8.65
75%,3.25,9.05
max,4.0,9.2


In [147]:
# Restaura o índice.
df.reset_index(inplace = True)
df

Unnamed: 0,nome,GRR,nota
0,Andre,1,9.0
1,Gabriela,2,9.2
2,Rodrigo,3,7.9
3,Tatiana,4,8.3


In [148]:
# Adiciona um registro ao final da tabela (usa dict).
df = pd.DataFrame(data = d)
df

Unnamed: 0,grr,nome,nota
0,1,Andre,9.0
1,2,Gabriela,9.2
2,3,Rodrigo,7.9
3,4,Tatiana,8.3


In [149]:
df = df.append({'grr': 5, 'nota': 10, 'nome': 'Pedro', 'falta': 6}, ignore_index = True)
df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
3,4,Tatiana,8.3,
4,5,Pedro,10.0,6.0


In [150]:
df = df.append(pd.DataFrame(
    {'grr': [6, 7], 'nota': [10, 9], 'nome': ['Maicon', 'Maria'], 'falta': [6, 0]}
), ignore_index = True, sort=False)

df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
3,4,Tatiana,8.3,
4,5,Pedro,10.0,6.0
5,6,Maicon,10.0,6.0
6,7,Maria,9.0,0.0


In [151]:
# Exclui o registro pelo índice.
df.drop([3], inplace = True)
df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
4,5,Pedro,10.0,6.0
5,6,Maicon,10.0,6.0
6,7,Maria,9.0,0.0


In [152]:
dg = pd.DataFrame(
    [[99, 'Carolina', 9.5, 8],[98, 'Lígia', 7.1, 10]],
    columns = ['grr', 'nome', 'nota', 'falta'])
dg

Unnamed: 0,grr,nome,nota,falta
0,99,Carolina,9.5,8
1,98,Lígia,7.1,10


In [153]:
# Empilha duas tabelas.
df.append(dg)
df.append(dg, ignore_index = True, sort=False)


Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
3,5,Pedro,10.0,6.0
4,6,Maicon,10.0,6.0
5,7,Maria,9.0,0.0
6,99,Carolina,9.5,8.0
7,98,Lígia,7.1,10.0


In [154]:
df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
4,5,Pedro,10.0,6.0
5,6,Maicon,10.0,6.0
6,7,Maria,9.0,0.0


In [155]:
dg

Unnamed: 0,grr,nome,nota,falta
0,99,Carolina,9.5,8
1,98,Lígia,7.1,10


In [156]:
# Remove uma colunas.
df.drop(['falta'], axis = 1)
df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,
1,2,Gabriela,9.2,
2,3,Rodrigo,7.9,
4,5,Pedro,10.0,6.0
5,6,Maicon,10.0,6.0
6,7,Maria,9.0,0.0


In [157]:
# Criando uma coluna.
df.falta = pd.Series([10, 0, 4, 2, 18, 16], index = df.index)
df

Unnamed: 0,grr,nome,nota,falta
0,1,Andre,9.0,10
1,2,Gabriela,9.2,0
2,3,Rodrigo,7.9,4
4,5,Pedro,10.0,2
5,6,Maicon,10.0,18
6,7,Maria,9.0,16


## Medidas descritivas por estrato

In [158]:
# Lendo um TSV.
cap = pd.read_table('http://leg.ufpr.br/~walmes/data/desfolha.txt')

# Informações.
cap.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 125 entries, 0 to 124
Data columns (total 8 columns):
estag     125 non-null object
desf      125 non-null int64
rep       125 non-null int64
pcapu     125 non-null float64
nnos      125 non-null int64
alt       125 non-null float64
ncapu     125 non-null int64
nestru    125 non-null int64
dtypes: float64(2), int64(5), object(1)
memory usage: 7.9+ KB


In [159]:
# Exibe a tabela.
cap

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
0,1veg,0,1,33.160,32,151.0,10,10
1,1veg,0,2,28.675,29,145.5,9,9
2,1veg,0,3,31.485,29,139.5,8,8
3,1veg,0,4,28.925,27,155.0,8,9
4,1veg,0,5,36.430,28,149.5,10,10
...,...,...,...,...,...,...,...,...
120,5capu,100,1,22.460,31,151.0,9,9
121,5capu,100,2,25.750,29,140.0,8,8
122,5capu,100,3,30.760,28,140.0,10,10
123,5capu,100,4,22.200,31,145.5,8,8


In [160]:
# Medidas descritivas para as variáveis numéricas.
cap.describe()

Unnamed: 0,desf,rep,pcapu,nnos,alt,ncapu,nestru
count,125.0,125.0,125.0,125.0,125.0,125.0,125.0
mean,50.0,3.0,25.77984,29.816,138.448,7.824,8.224
std,35.497615,1.419905,6.831864,2.913772,13.028632,2.106304,1.740708
min,0.0,1.0,4.735,23.0,110.0,2.0,3.0
25%,25.0,2.0,22.56,28.0,129.5,7.0,7.0
50%,50.0,3.0,26.994,30.0,139.0,8.0,8.0
75%,75.0,4.0,30.01,31.0,148.5,9.0,9.0
max,100.0,5.0,38.32,38.0,175.0,13.0,13.0


In [162]:
# Descrição pelo tipo de variável.
cap.describe(include = 'int')

Unnamed: 0,desf,rep,nnos,ncapu,nestru
count,125.0,125.0,125.0,125.0,125.0
mean,50.0,3.0,29.816,7.824,8.224
std,35.497615,1.419905,2.913772,2.106304,1.740708
min,0.0,1.0,23.0,2.0,3.0
25%,25.0,2.0,28.0,7.0,7.0
50%,50.0,3.0,30.0,8.0,8.0
75%,75.0,4.0,31.0,9.0,9.0
max,100.0,5.0,38.0,13.0,13.0


In [163]:
cap.describe(include = 'float')

Unnamed: 0,pcapu,alt
count,125.0,125.0
mean,25.77984,138.448
std,6.831864,13.028632
min,4.735,110.0
25%,22.56,129.5
50%,26.994,139.0
75%,30.01,148.5
max,38.32,175.0


In [165]:
cap.describe(include = ['int', 'float'])

Unnamed: 0,desf,rep,pcapu,nnos,alt,ncapu,nestru
count,125.0,125.0,125.0,125.0,125.0,125.0,125.0
mean,50.0,3.0,25.77984,29.816,138.448,7.824,8.224
std,35.497615,1.419905,6.831864,2.913772,13.028632,2.106304,1.740708
min,0.0,1.0,4.735,23.0,110.0,2.0,3.0
25%,25.0,2.0,22.56,28.0,129.5,7.0,7.0
50%,50.0,3.0,26.994,30.0,139.0,8.0,8.0
75%,75.0,4.0,30.01,31.0,148.5,9.0,9.0
max,100.0,5.0,38.32,38.0,175.0,13.0,13.0


In [166]:
cap.describe(include = 'object')

Unnamed: 0,estag
count,125
unique,5
top,4maca
freq,25


In [167]:
cap.describe(include = 'all')

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
count,125,125.0,125.0,125.0,125.0,125.0,125.0,125.0
unique,5,,,,,,,
top,4maca,,,,,,,
freq,25,,,,,,,
mean,,50.0,3.0,25.77984,29.816,138.448,7.824,8.224
std,,35.497615,1.419905,6.831864,2.913772,13.028632,2.106304,1.740708
min,,0.0,1.0,4.735,23.0,110.0,2.0,3.0
25%,,25.0,2.0,22.56,28.0,129.5,7.0,7.0
50%,,50.0,3.0,26.994,30.0,139.0,8.0,8.0
75%,,75.0,4.0,30.01,31.0,148.5,9.0,9.0


In [171]:
# Média por estrato.
cap.groupby(['estag'])['pcapu'].mean()
cap.groupby(['estag'])['pcapu', 'ncapu'].mean()
cap.groupby(['estag', 'desf'])['pcapu', 'ncapu'].mean()
cap.groupby(['estag', 'desf'])['pcapu', 'ncapu'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,pcapu,pcapu,pcapu,pcapu,pcapu,pcapu,pcapu,pcapu,ncapu,ncapu,ncapu,ncapu,ncapu,ncapu,ncapu,ncapu
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
estag,desf,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
1veg,0,5.0,31.735,3.21698,28.675,28.925,31.485,33.16,36.43,5.0,9.0,1.0,8.0,8.0,9.0,10.0,10.0
1veg,25,5.0,31.7406,3.882532,27.93,29.32,30.01,34.105,37.338,5.0,10.0,0.707107,9.0,10.0,10.0,10.0,11.0
1veg,50,5.0,28.942,3.982732,25.228,26.205,26.75,33.2,33.327,5.0,8.6,0.894427,8.0,8.0,8.0,9.0,10.0
1veg,75,5.0,29.0196,2.055041,27.277,27.306,28.305,30.18,32.03,5.0,8.0,1.0,7.0,7.0,8.0,9.0,9.0
1veg,100,5.0,20.8776,2.965986,16.235,20.755,20.875,22.2,24.323,5.0,6.2,1.095445,5.0,6.0,6.0,6.0,8.0
2bot,0,5.0,29.1354,3.096609,24.4,27.98,30.015,30.845,32.437,5.0,8.4,1.140175,7.0,8.0,8.0,9.0,10.0
2bot,25,5.0,28.858,1.949259,26.453,27.7,28.815,29.775,31.547,5.0,9.4,1.81659,7.0,9.0,9.0,10.0,12.0
2bot,50,5.0,29.5688,3.938454,25.093,26.957,29.975,30.389,35.43,5.0,8.8,0.83666,8.0,8.0,9.0,9.0,10.0
2bot,75,5.0,26.5722,5.068817,20.5,24.929,26.071,26.86,34.501,5.0,8.8,1.643168,7.0,8.0,8.0,10.0,11.0
2bot,100,5.0,23.2402,1.300616,21.706,22.449,23.015,24.024,25.007,5.0,7.2,0.447214,7.0,7.0,7.0,7.0,8.0


In [172]:
capg = cap.groupby(['estag', 'desf'])
capg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f49a6214c10>

In [173]:
# Médias de duas variáveis.
m = cap.groupby(['estag'])['pcapu', 'ncapu'].mean()
m

Unnamed: 0_level_0,pcapu,ncapu
estag,Unnamed: 1_level_1,Unnamed: 2_level_1
1veg,28.46296,8.36
2bot,27.47492,8.52
3flor,20.85216,6.32
4maca,22.57676,6.72
5capu,29.5324,9.2


In [174]:
m.reset_index(inplace = True)
m

Unnamed: 0,estag,pcapu,ncapu
0,1veg,28.46296,8.36
1,2bot,27.47492,8.52
2,3flor,20.85216,6.32
3,4maca,22.57676,6.72
4,5capu,29.5324,9.2


In [175]:
# Máximo de uma outra variável,
M = cap.groupby(['estag'])['alt'].max()
M

estag
1veg     168.5
2bot     175.0
3flor    161.0
4maca    139.0
5capu    151.0
Name: alt, dtype: float64

In [176]:
M = pd.DataFrame(M)
M.reset_index(inplace = True)
M

Unnamed: 0,estag,alt
0,1veg,168.5
1,2bot,175.0
2,3flor,161.0
3,4maca,139.0
4,5capu,151.0


In [177]:
pd.merge(m, M, on = ['estag'])

Unnamed: 0,estag,pcapu,ncapu,alt
0,1veg,28.46296,8.36,168.5
1,2bot,27.47492,8.52,175.0
2,3flor,20.85216,6.32,161.0
3,4maca,22.57676,6.72,139.0
4,5capu,29.5324,9.2,151.0


## Função com medidas descritivas

In [178]:
import numpy as np

cap.groupby(['estag'])['pcapu'].agg({
    "media" : np.mean,
    "errpd" : np.std,
    "ampli" : lambda x: np.max(x) - np.min(x),
    "cv" : lambda x: 100 * np.std(x)/np.mean(x)
})

res = cap.groupby(['estag', 'desf'])['pcapu', 'alt'].agg({
    "media" : np.mean,
    "errpd" : np.std
})
res

is deprecated and will be removed in a future version. Use                 named aggregation instead.

    >>> grouper.agg(name_1=func_1, name_2=func_2)

  import sys
in a future version.

For column-specific groupby renaming, use named aggregation

    >>> df.groupby(...).agg(name=('column', aggfunc))

  return super().aggregate(arg, *args, **kwargs)


Unnamed: 0_level_0,Unnamed: 1_level_0,media,media,errpd,errpd
Unnamed: 0_level_1,Unnamed: 1_level_1,pcapu,alt,pcapu,alt
estag,desf,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1veg,0,31.735,148.1,3.21698,5.888548
1veg,25,31.7406,151.6,3.882532,15.159156
1veg,50,28.942,146.6,3.982732,10.23108
1veg,75,29.0196,149.6,2.055041,8.605231
1veg,100,20.8776,151.9,2.965986,6.208865
2bot,0,29.1354,140.4,3.096609,13.049904
2bot,25,28.858,142.4,1.949259,7.427988
2bot,50,29.5688,136.2,3.938454,6.447868
2bot,75,26.5722,141.1,5.068817,14.583381
2bot,100,23.2402,157.2,1.300616,12.930584


In [179]:
# Organização do objeto.
res.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 25 entries, (1veg, 0) to (5capu, 100)
Data columns (total 4 columns):
(media, pcapu)    25 non-null float64
(media, alt)      25 non-null float64
(errpd, pcapu)    25 non-null float64
(errpd, alt)      25 non-null float64
dtypes: float64(4)
memory usage: 1.0+ KB


In [180]:
# Atributos de linhas e colunas são MultiIndex.
res.columns
res.columns.levels
res.index
res.index.levels

res.reset_index()

Unnamed: 0_level_0,estag,desf,media,media,errpd,errpd
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,pcapu,alt,pcapu,alt
0,1veg,0,31.735,148.1,3.21698,5.888548
1,1veg,25,31.7406,151.6,3.882532,15.159156
2,1veg,50,28.942,146.6,3.982732,10.23108
3,1veg,75,29.0196,149.6,2.055041,8.605231
4,1veg,100,20.8776,151.9,2.965986,6.208865
5,2bot,0,29.1354,140.4,3.096609,13.049904
6,2bot,25,28.858,142.4,1.949259,7.427988
7,2bot,50,29.5688,136.2,3.938454,6.447868
8,2bot,75,26.5722,141.1,5.068817,14.583381
9,2bot,100,23.2402,157.2,1.300616,12.930584


## Filtros

In [181]:
# Máscaras lógicas.

cap[cap.alt > 150]
cap[cap['alt'] > 150]

# IMPORTANT: tem que ter os parenteses.
cap[(cap.alt > 150) & ((cap.ncapu >= 10) | (cap.nnos > 30))]

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
0,1veg,0,1,33.16,32,151.0,10,10
5,1veg,25,1,34.105,30,156.5,11,11
6,1veg,25,2,30.01,33,153.5,9,9
8,1veg,25,4,27.93,29,168.5,10,10
9,1veg,25,5,29.32,26,152.5,10,10
16,1veg,75,2,27.306,33,160.5,7,7
21,1veg,100,2,20.875,35,161.0,6,6
40,2bot,75,1,34.501,31,150.5,11,12
41,2bot,75,2,26.86,33,156.0,10,10
46,2bot,100,2,25.007,34,175.0,7,8


In [182]:
# Partições feitas com o groupby().

# Com uma variável de agrupamento.
gb = cap.groupby(['estag'])
gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f49a6890d90>

In [183]:
gb.groups

{'1veg': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24],
            dtype='int64'),
 '2bot': Int64Index([25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,
             42, 43, 44, 45, 46, 47, 48, 49],
            dtype='int64'),
 '3flor': Int64Index([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
             67, 68, 69, 70, 71, 72, 73, 74],
            dtype='int64'),
 '4maca': Int64Index([75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91,
             92, 93, 94, 95, 96, 97, 98, 99],
            dtype='int64'),
 '5capu': Int64Index([100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112,
             113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124],
            dtype='int64')}

In [184]:
gb.get_group('1veg')
gb.get_group('5capu')

pd.concat([gb.get_group('1veg'), gb.get_group('5capu')])

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
0,1veg,0,1,33.16,32,151.0,10,10
1,1veg,0,2,28.675,29,145.5,9,9
2,1veg,0,3,31.485,29,139.5,8,8
3,1veg,0,4,28.925,27,155.0,8,9
4,1veg,0,5,36.43,28,149.5,10,10
5,1veg,25,1,34.105,30,156.5,11,11
6,1veg,25,2,30.01,33,153.5,9,9
7,1veg,25,3,37.338,23,127.0,10,11
8,1veg,25,4,27.93,29,168.5,10,10
9,1veg,25,5,29.32,26,152.5,10,10


In [185]:
# Com duas variáveis de agrupamento.
gb = cap.groupby(['estag', 'desf'])
gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f49a67f2050>

In [186]:
gb.groups

{('1veg', 0): Int64Index([0, 1, 2, 3, 4], dtype='int64'),
 ('1veg', 25): Int64Index([5, 6, 7, 8, 9], dtype='int64'),
 ('1veg', 50): Int64Index([10, 11, 12, 13, 14], dtype='int64'),
 ('1veg', 75): Int64Index([15, 16, 17, 18, 19], dtype='int64'),
 ('1veg', 100): Int64Index([20, 21, 22, 23, 24], dtype='int64'),
 ('2bot', 0): Int64Index([25, 26, 27, 28, 29], dtype='int64'),
 ('2bot', 25): Int64Index([30, 31, 32, 33, 34], dtype='int64'),
 ('2bot', 50): Int64Index([35, 36, 37, 38, 39], dtype='int64'),
 ('2bot', 75): Int64Index([40, 41, 42, 43, 44], dtype='int64'),
 ('2bot', 100): Int64Index([45, 46, 47, 48, 49], dtype='int64'),
 ('3flor', 0): Int64Index([50, 51, 52, 53, 54], dtype='int64'),
 ('3flor', 25): Int64Index([55, 56, 57, 58, 59], dtype='int64'),
 ('3flor', 50): Int64Index([60, 61, 62, 63, 64], dtype='int64'),
 ('3flor', 75): Int64Index([65, 66, 67, 68, 69], dtype='int64'),
 ('3flor', 100): Int64Index([70, 71, 72, 73, 74], dtype='int64'),
 ('4maca', 0): Int64Index([75, 76, 77, 78, 79

In [187]:
# Tem que usar uma tupla.
gb.get_group(('1veg', 0))
gb.get_group(('5capu', 100))

pd.concat([gb.get_group(('1veg', 0)), gb.get_group(('5capu', 100))])

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
0,1veg,0,1,33.16,32,151.0,10,10
1,1veg,0,2,28.675,29,145.5,9,9
2,1veg,0,3,31.485,29,139.5,8,8
3,1veg,0,4,28.925,27,155.0,8,9
4,1veg,0,5,36.43,28,149.5,10,10
120,5capu,100,1,22.46,31,151.0,9,9
121,5capu,100,2,25.75,29,140.0,8,8
122,5capu,100,3,30.76,28,140.0,10,10
123,5capu,100,4,22.2,31,145.5,8,8
124,5capu,100,5,25.575,31,142.0,10,10


In [188]:
# Ordenação
cap.sort_values(['alt'], ascending = False).head(10)
cap.sort_values(['ncapu', 'alt']).head(10)

Unnamed: 0,estag,desf,rep,pcapu,nnos,alt,ncapu,nestru
97,4maca,100,3,5.56,35,139.0,2,5
99,4maca,100,5,5.535,37,111.0,3,3
95,4maca,100,1,8.75,35,126.0,3,7
96,4maca,100,2,4.735,32,138.5,3,6
98,4maca,100,4,9.055,34,133.0,4,6
69,3flor,75,5,13.99,38,140.0,4,7
63,3flor,50,4,14.59,33,146.0,4,5
72,3flor,100,3,9.686,35,155.0,4,6
73,3flor,100,4,14.556,34,161.0,4,6
66,3flor,75,2,15.475,27,121.5,5,6


In [189]:
# Junção de tabelas

tabA = pd.DataFrame({
    'nome': ["Marcos", "Julia", "Gabriel"],
    'nota': [8.9, 6.7, 8.1]
})

tabB = pd.DataFrame({
    'nome': ["Ulisses", "Andrea", "Ana", "Pedro"],
    'nota': [7.7, 7.1, 8.3, 5.0]
})

tabC = pd.DataFrame({
    'falta': [10, 12, 4, 0],
    'idade': [18, 20, 18, 19]
})
tabC.index = [0, 1, 3, 4] # Index com falha.

In [190]:
# Empilhar.

# Usando append().
tabA.append(tabB)
tabA.append(tabB, ignore_index = True)

Unnamed: 0,nome,nota
0,Marcos,8.9
1,Julia,6.7
2,Gabriel,8.1
3,Ulisses,7.7
4,Andrea,7.1
5,Ana,8.3
6,Pedro,5.0


In [191]:
# Usando concat().
pd.concat([tabA, tabB], axis = 0)
pd.concat([tabA, tabB], axis = 0, ignore_index = True)

Unnamed: 0,nome,nota
0,Marcos,8.9
1,Julia,6.7
2,Gabriel,8.1
3,Ulisses,7.7
4,Andrea,7.1
5,Ana,8.3
6,Pedro,5.0


In [192]:
# Lado a lado.

pd.concat([tabB, tabC], axis = 1)

Unnamed: 0,nome,nota,falta,idade
0,Ulisses,7.7,10.0,18.0
1,Andrea,7.1,12.0,20.0
2,Ana,8.3,,
3,Pedro,5.0,4.0,18.0
4,,,0.0,19.0


In [193]:
# De formato long para wide e vice versa.

tab_wide = pd.DataFrame({
    'trat'  : ["A", "B", "C"],
    'aval1' : [1, 2, 3],
    'aval2' : [10, 20, 30],
    'aval3' : [100, 200, 300]
})
tab_wide

Unnamed: 0,trat,aval1,aval2,aval3
0,A,1,10,100
1,B,2,20,200
2,C,3,30,300


In [194]:
tab_long = pd.melt(
    tab_wide,
    id_vars = ['trat'],
    var_name = 'x',
    value_name = 'y')

tab_long

Unnamed: 0,trat,x,y
0,A,aval1,1
1,B,aval1,2
2,C,aval1,3
3,A,aval2,10
4,B,aval2,20
5,C,aval2,30
6,A,aval3,100
7,B,aval3,200
8,C,aval3,300


In [195]:
# Para complicar, vamos remover uma linha.
tab_long.drop([3], axis = 0, inplace = True)

tab_wide = tab_long.pivot(index = 'trat', columns = 'x', values = 'y')
tab_wide.reset_index(inplace = True)

tab_wide

x,trat,aval1,aval2,aval3
0,A,1.0,,100.0
1,B,2.0,20.0,200.0
2,C,3.0,30.0,300.0


# Referências

  1. Livros
     1. Dale, K. (2016). *Data visualization with Python and JavaScript:
        scrape, clean, explore & transform your data*. Sebastopol, CA:
        O'Reilly Media.  Homepage:
        <http://shop.oreilly.com/product/0636920037057.do>.  Source
        code: <https://github.com/Kyrand/dataviz-with-python-and-js>.
     2. Massaron, L. & Mueller, J. (2015). *Python for data science for
        dummies*. Hoboken, NJ: John Wiley and Sons, Inc.  Homepage:
        <https://www.wiley.com/en-us/Python+for+Data+Science+For+Dummies-p-9781118844182>.
        Source code:
        <https://media.wiley.com/product_ancillary/81/11188441/DOWNLOAD/844182-Source-Code-10-25-2016.zip>
  2. Webpages
     1. Chris Albon webpage: <https://chrisalbon.com/#python>.
     2. <https://pandas.pydata.org/pandas-docs/stable/tutorials.html>.
     3. <https://pandas.pydata.org/pandas-docs/stable/merging.html>.
  3. Cheat sheets
     2. <https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf>
     3. <https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Pandas_Cheat_Sheet_2.pdf>
     4. <https://s3.amazonaws.com/quandl-static-content/Documents/Quandl+-+Pandas,+SciPy,+NumPy+Cheat+Sheet.pdf>
     5. <http://www.webpages.uidaho.edu/~stevel/504/Pandas%20DataFrame%20Notes.pdf>