In [1]:
import pandas as pd

# Iniciando com o Pandas
O pandas contém uma série de estruturas e funções cuja o objetivo é facilitar as tarefas de análise de dados com Python. Construido com base no NumPy o pandas provê ferramentas performáticas para realização dessas tarefas.

O pandas provê:
- Estruturas de dados que utilizam de eixos e indexação;
- Funções de series temporais integradas;
- As mesmas estruturas podem lidar com `time series` e `non-time series`;
- Operações aritméticas e de redução;
- Fácil manipulação de dados inexistentes (missing data);
- Junções e outras operações comuns em banco de dados (Tais como bancos SQL).

## Introdução as estruturas de dados do Pandas
Para iniciar com o pandas você deve se sentir confortável com duas das principais estruturas fornecidas: `Series` e `Dataframe`. Podem não ser a solução para todos os problemas, mas funcionam de base para a maioria das aplicações.

### Series
Uma Serie é um array unidimensional contendo um array de dados (de qualquer tipo do NumPy) e um array de labels associados aos dados, chamado de índices (`index`). Uma Serie mais simples é formada apenas pelo array dos dados.

In [2]:
series = pd.Series([4, 7, -5, 3])
series

0    4
1    7
2   -5
3    3
dtype: int64

A representação de uma série contem os índices na esquerda, valores associados aos índices na direita e por último o tipo de dado atribuido a este Serie. Para acessar os índices ou valores podemos utilizar os métodos `values` e `index` que retornarão os respectivos arrays.

In [3]:
series.index
# Range: 0 1 2 3
# Ou seja, inicia no 0 para no 4 com salto = 1.

RangeIndex(start=0, stop=4, step=1)

In [4]:
series.values

array([ 4,  7, -5,  3], dtype=int64)

Caso seja desejado é possível inicializar uma Serie com valores específicos para os índices. Por exemplo:

In [5]:
series2 = pd.Series([2, 4, 6, 8], index=['a', 'b', 'c', 'd'])
series2

a    2
b    4
c    6
d    8
dtype: int64

In [6]:
series2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Para acessar os valores de uma Serie podemos utilizar os índices como chave de acesso.

In [7]:
series2['b']

4

Assim como os arrays NumPy, podemos realizar as operações do NumPy normalmente com uma Serie.

In [8]:
series2[series2 > 4]

c    6
d    8
dtype: int64

Podemos criar uma Serie passando como parâmetro um dicionário do Python, assim as chaves se tornarão os indices e os valores continuarão como valores.

In [9]:
dicionario = {'SP':1.2, 'RJ':1, 'SC': .8 }
dicionario

{'SP': 1.2, 'RJ': 1, 'SC': 0.8}

In [10]:
series3 = pd.Series(dicionario)
series3

SP    1.2
RJ    1.0
SC    0.8
dtype: float64

Podemos também criar uma Serie da seguinte forma:

In [11]:
indices = ['SP', 'RJ', 'RN']
series4 = pd.Series(dicionario, index=indices)
series4

SP    1.2
RJ    1.0
RN    NaN
dtype: float64

Como o dicionário não possuia uma chave **RN** o valor NaN foi atribuido para essa posição. Os outros foram normalmente mantido e o SC descartado já que não existia um índice compatível com a chave do dicionário.  
Podemos utilizar também os métodos do Pandas para verificar a existencia destes valores nulos ou inexistentes.

In [12]:
pd.isnull(series4)

SP    False
RJ    False
RN     True
dtype: bool

In [13]:
pd.notnull(series4)

SP     True
RJ     True
RN    False
dtype: bool

Podemos também atribuir nomes para as colunas(`index`) e para a Serie toda.

In [14]:
series3.name = 'Exemplo de nome'
series3

SP    1.2
RJ    1.0
SC    0.8
Name: Exemplo de nome, dtype: float64

In [15]:
series3.index.name = 'Estados'
series3

Estados
SP    1.2
RJ    1.0
SC    0.8
Name: Exemplo de nome, dtype: float64

### Dataframes
Um Dataframe representa uma estrutura de dados tabular, contendo uma série de colunas onde cada coluna pode armazenar um tipo de dado diferente. O Dataframe possui índices como colunas e linhas, pode ser comparado como semelhante a um dicionário de Series.  
Existem diversas maneiras de se criar um Dataframe mas a mais comum é a partir de um dicionário:

In [16]:
dados = {
    'estado': ['Ohio', 'California', 'Ohio', 'Nevada', 'Ohio'],
    'ano': [2000, 2001, 2002, 2001, 2002],
    'populacao': [1.5, 1.7, 3.6, 2.4, 2.9]
}
dados

{'estado': ['Ohio', 'California', 'Ohio', 'Nevada', 'Ohio'],
 'ano': [2000, 2001, 2002, 2001, 2002],
 'populacao': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [17]:
df = pd.DataFrame(dados)
df

Unnamed: 0,estado,ano,populacao
0,Ohio,2000,1.5
1,California,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Ohio,2002,2.9


Podemos acessar valores somente de colunas específicas.

In [18]:
df['estado']

0          Ohio
1    California
2          Ohio
3        Nevada
4          Ohio
Name: estado, dtype: object

Podemos criar novas colunas atribuindo a elas valores, como por exemplo:

In [19]:
import numpy as np
df['debito'] = np.arange(5)
df

Unnamed: 0,estado,ano,populacao,debito
0,Ohio,2000,1.5,0
1,California,2001,1.7,1
2,Ohio,2002,3.6,2
3,Nevada,2001,2.4,3
4,Ohio,2002,2.9,4


Como as Series, os DataFrames podem ser utilizados como base para funções do NumPy, porém podemos utilizar as colunas no lugar de arrays unidimensionais, como por exemplo a média de uma coluna:

In [20]:
df['populacao'].mean()

2.4200000000000004

Para deletar uma coluna podemos utilizar o comando `del` do Python.

In [21]:
del df['debito']
df

Unnamed: 0,estado,ano,populacao
0,Ohio,2000,1.5
1,California,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Ohio,2002,2.9


### Index Objects
O Index Object do Pandas é responsável por manter os labels dos eixos e suas informações. Um array de labels utilizado na construção de um DataFrame ou Serie é convertido em um Index Object automaticamente.

In [22]:
series = pd.Series(range(3), index=['a', 'b', 'c'])
series

a    0
b    1
c    2
dtype: int64

In [23]:
indices = series.index
indices

Index(['a', 'b', 'c'], dtype='object')

In [24]:
indices[1:]

Index(['b', 'c'], dtype='object')

Index Objects são imutáveis e não podem ser alterados pelo usuário.