# Pandas: Introdução as Classes
O Pandas é um pacote que fornece estruturas de dados e ferramentas de análise de dados de alto desempenho para Python. Este módulo realiza isto através de um objeto chamado DataFrame, que lembra a estrutura de uma tabela, ótima para trabalhar com dados. Prentedemos estudar neste tópico como reestruturar um conjunto de dados, através de agregação, união, modifcação. O pandas permite trabalhar com multiplos tipos de arquivos como CSVs, TXTs, Arquivo do Excel e Bases de Dados SQL.

In [125]:
import numpy as np
import pandas as pd

## Classes do Pandas
De forma superficial,objetos do Pandas são versões melhoradas dos arrays estruturados do NumPy, onde as colunas são indentificadas com labels ao invés de utilizar indíces inteiros. Para entender como utilizar o Pandas, primeiro temos que entender três estruturas primordiais: **Series**, **DataFrame**  e **Index**.

## Classe Series
Esta classe é um array unidimensional de dados indexados. Ela pode ser criar a partir de uma lista conforme demonstrado abaixo.

In [126]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0])
dados

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

O resultado é uma sequência de valores associado a uma sequência de indíces, que podem ser utilizado para acessar os valores de forma semelhante aquela vista para arrays. Este objeto possuí dois atributos: `values` é um array contendo os valores em sí e `index` é um range contendo os indíces do objeto. 

In [127]:
dados.values[:]

array([0.25, 0.5 , 0.75, 1.  ])

In [128]:
dados.index

RangeIndex(start=0, stop=4, step=1)

Até então a classe series aparenta ser semelhante a um array unidimensional do NumPy, entretanto, a existência do atributo de indíces mostra que a definição de indíces do Pandas é explicíta, enquanto a do NumPy é implicita. A definição explicíta de indíces permite a transformação de indíces, por exemplo, podemos reescrever os indíces para trabalhar com caracteres.

In [129]:
dados = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a','b','c','d'])
dados['b']

0.5

Podemos visualizar a classe Series como sendo uma especialização otimizada de um dicionário do Python, que associa valores a um conjunto de valores típados (dicionário é não tipado). É possível criar este objeto diretamente a partir de um dicionário.

In [130]:
dic = {'a':0.25,'b':0.5,'c':0.75,'d':1.00}
dados = pd.Series(dic)
dados

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

A ordem é definida para as chaves no momemento de criação, e diferente de dicionários, é possível utilizar operações de arrays como indexação por fatiamento.

In [131]:
dados['a':'d':2]

a    0.25
c    0.75
dtype: float64

## Classe DataFrame
Semelhante a classe series, esta classe também é uma generiliação de um array do NumPy. Da mesma forma que uma Series é analoga a um array unidimensional, um dataframe é anologa a um array bidimensional com nomes/índices de colunas e linhas flexíveis. É ainda mais intuítivo visualizar uma dataframe como sendo um conjunto de series alinhados, onde elementos com o mesmo indíce são colocados lado a lado. 

In [132]:
dic2 = {'a':1,'b':0,'c':3,'d':2}
dados2 = pd.Series(dic2)
dataframe = pd.DataFrame({'medida':dados,
                          'inteiro':dados2})
dataframe

Unnamed: 0,medida,inteiro
a,0.25,1
b,0.5,0
c,0.75,3
d,1.0,2


Semelhante ao séries, esta classe possuí os atributos `value` e `index`, além de um novo atributo `columns`, contendo os nomes/indíces das colunas do objeto. 

In [133]:
dataframe.columns

Index(['medida', 'inteiro'], dtype='object')

O nome das colunas pode ser utilizado para indexar e acessar as estruturas series individuais. 

In [134]:
dataframe['inteiro']

a    1
b    0
c    3
d    2
Name: inteiro, dtype: int64

Além das maneiras ja demonstradas para criar arrays já demonstradas (lista/dicionário de dicionários), é possível criar dataframes com dados ausentes, ou seja, nem todas as chaves precisam ser preenchidas. Quando isto ocorre, os valores são preenchidos com `NaN`s (Not a Number)

In [135]:
dic = {'a':0.25,'c':0.75,'d':1.00}
dic2 = {'a':1,'b':0,'c':3}
dataframe = pd.DataFrame({'medida':dic,
                          'inteiro':dic2})
dataframe

Unnamed: 0,medida,inteiro
a,0.25,1.0
c,0.75,3.0
d,1.0,
b,,0.0


Também é possível utilizar arrays do NumPy (uni e bidimensionais), onde podemos especificar ou não os indíces. 

In [136]:
pd.DataFrame(np.random.rand(3,2),
             columns = ['a','b'])
             

Unnamed: 0,a,b
0,0.862431,0.647749
1,0.592118,0.906144
2,0.556949,0.759406


Por ultimo, podemos criar um dataframe a partir de um array estruturado.

In [137]:
dados = np.zeros(4,dtype = {'names':('nome','idade','peso'),
                            'formats':('U10', 'i4', 'f8')})
dados['nome'] = ['Joao','Maria','Jose',"Ana"]
dados['idade'] = [20,61,29,17]
dados['peso'] = [68.0, 63.0, 88.0, 71.3]
pd.DataFrame(dados)

Unnamed: 0,nome,idade,peso
0,Joao,20,68.0
1,Maria,61,63.0
2,Jose,29,88.0
3,Ana,17,71.3


## Classe Index
Até então, percebemos que as classes dataframe e series possuem um objeto de indíce que permite acessar e modificar dados, mas não exploramos o que ele é. Pode se pensar neste array como um array imútavel ou um multiset ordenado. 

In [139]:
ind = pd.Index([2,3,5,8,13])
ind

Int64Index([2, 3, 5, 8, 13], dtype='int64')

Estes arrays possuem vários atributos que um array normal possuí.

In [140]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Uma diferença é que esses arrays são imútaveis, não se pode "atualizar" valores. Isto garante que compartilhar indíces entre multiplos dataframes é seguro. 

In [141]:
ind[0] = 1

TypeError: Index does not support mutable operations

A forma que estes objetos são projetados facilitam operações de conjuntos, como união, intersecção, diferenças e outras combinações. 

In [142]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [143]:
indA |  indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [144]:
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')