# CURSO USANDO PYTHON PARA ANÁLISE DE DADOS

https://www.udemy.com/usando-python-para-analise-de-dados

Evaldo Wolkers

## pandas

### Introdução às estruturas de dados do pandas - Objetos Index

Vimos que tanto o Series quanto o DataFrame contêm um índice explícito que permite fazer referência e modificar dados. Este objeto Index é uma estrutura interessante em si, e pode ser pensado como uma matriz imutável ou como um conjunto ordenado. Essas visões têm algumas consequências interessantes nas operações disponíveis nos objetos Index.

Os objetos Index do pandas armazenam os rótulos dos eixos e outros metadados (como o nome ou os nomes dos eixos). Qualquer array ou outra sequência de rótulos que você usar ao construir uma Series ou um DataFrame será internamente convertido em um Index.

In [48]:
import pandas as pd

In [49]:
series = pd.Series(range(5), index=['a', 'e', 'i', 'o', 'u'])

In [50]:
indice = series.index

In [51]:
indice

Index(['a', 'e', 'i', 'o', 'u'], dtype='object')

In [52]:
indice[2:]

Index(['i', 'o', 'u'], dtype='object')

Objetos Index são imutáveis.

In [53]:
indice[0] = 'A'

TypeError: Index does not support mutable operations

Por serem imutáveis, é mais seguro compartilhar objetos Index entre estruturas de dados.

In [57]:
import numpy as np

In [58]:
indices = pd.Index(np.arange(4))

In [59]:
indices

Int64Index([0, 1, 2, 3], dtype='int64')

In [60]:
series = pd.Series([-30, 0, 15, 45], index=indices)

In [61]:
series

0   -30
1     0
2    15
3    45
dtype: int64

In [62]:
series.index is indices

True

Além de ser como os arrays, um Index também se comporta como um conjunto de tamanho fixo.

In [64]:
dados = {'estado': ['Minas Gerais', 'Espírito Santo', 'Rio de Janeiro', 'São Paulo'], 'populacao_2000': [17891494, 3097232, 14391282, 37032403], 'populacao_2010': [19595309, 3512672, 15993583, 41252160]}

In [65]:
indice = pd.Index(['Um', 'Dois', 'Três', 'Quatro'])

In [66]:
print(indice.size, indice.shape, indice.ndim, indice.dtype)

4 (4,) 1 object


In [67]:
frame = pd.DataFrame(dados, columns=['estado', 'populacao_2000', 'populacao_2010'], index=indice)

In [68]:
frame

Unnamed: 0,estado,populacao_2000,populacao_2010
Um,Minas Gerais,17891494,19595309
Dois,Espírito Santo,3097232,3512672
Três,Rio de Janeiro,14391282,15993583
Quatro,São Paulo,37032403,41252160


In [23]:
'Um' in frame.index

True

In [24]:
'Cinco' in frame.index

False

Diferente dos conjuntos, um Index do pandas pode conter rótulos duplicados. A seleção com rótulos duplicados conterão todas ocorrências destes rótulos.

In [69]:
duplicados = pd.Index(['Um', 'Um', 'Dois', 'Três'])

In [70]:
duplicados

Index(['Um', 'Um', 'Dois', 'Três'], dtype='object')

In [27]:
frame = pd.DataFrame(dados, columns=['estado', 'populacao_2000', 'populacao_2010'], index=duplicados)

In [28]:
frame

Unnamed: 0,estado,populacao_2000,populacao_2010
Um,Minas Gerais,17891494,19595309
Um,Espírito Santo,3097232,3512672
Dois,Rio de Janeiro,14391282,15993583
Três,São Paulo,37032403,41252160


Podemos acessar o conteúdo através do índice usando fatiamento.

Veja algumas operações com índices

In [84]:
a = pd.Index([1, 2, 3, 4, 5])

In [85]:
b = pd.Index([1, 5, 6, 7, 8])

In [86]:
a & b # Interseção

Int64Index([1, 5], dtype='int64')

In [87]:
a | b # União

Int64Index([1, 2, 3, 4, 5, 6, 7, 8], dtype='int64')

In [88]:
a - b # Diferença

Int64Index([0, -3, -3, -3, -3], dtype='int64')

![tabela.png](image/tabela.png)