## Pandas

Biblioteca para tratamento de dados. 

### Series
Estrutura base consiste na <code>Series</code>. Essa estrtura funciona como um array.
O argumento base para construir uma <code>Series</code> é preciso de uma lista de elementos.

A <code>Series</code> tem um nome, que é equivalente ao nome (<code>name</code>) da coluna que ela virá a ser no <code>DataFrame</code>.

A <code>Series</code> também tem um <code>dtype</code> que indica o tipo de dados a ser tratado.
No caso abaixo temos um dtype: object, isso porque o pandas trata o tipo <code>str</code> do python como object.

In [1]:
import pandas as pd

series = pd.Series(["Clóvis","Maíra","Penha","Simone","Dió","Dani"], name="Família")
series

0    Clóvis
1     Maíra
2     Penha
3    Simone
4       Dió
5      Dani
Name: Família, dtype: object

### DataFrame

O <code>DataFrame</code> é uma composição de <code>Series</code>.
Nesse caso, cada série é uma coluna no dataframe.

Podemos construir um <code>DataFrame</code> usando um dicionário de listas, onde a chave consiste no nome de cada série.
A indexação do dataframe também pode ser modificada no construtor.

Cada lista, seja da series ou do index, deve ter o mesmo tamanho. Valores nulos podem ser representados por objetos.

In [2]:
data = pd.DataFrame({"Familia":["Clóvis","Maíra","Penha","Simone","Dió","Dani"], "Idade":[26,27,62,46,52,37]}, index =["a", "b", "c", "d", "e", "f"])
data.head()

Unnamed: 0,Familia,Idade
a,Clóvis,26
b,Maíra,27
c,Penha,62
d,Simone,46
e,Dió,52


### Indexação

No pandas, a indexação se dar por meio da chave usada no dicionário.
Também é possível acessar uma serie pelo atributo case-sensitive referente ao nome da chave.

Dois atributos importantes é o <code>data.iloc</code> e <code>data.loc</code>, onde através desses é possível acessar a linha primeiro na indexação. Importante salientar que o iloc e loc tem indexação dupla.

Assim, para ter por exemplo a series família, eu deveria ter que usar algo como:
<code>data.iloc[:,0]</code>

e para pegar a primeira linha dos meus dados bastaria:
<code>data.iloc[0]</code>

A vantagem do loc sobre o iloc é que o primeiro pode trabalhar com as chaves de dicionário, enquanto o segundo não.
<code>data.loc[:,'Familia'] === data.iloc[:,0]</code>

Outra diferença importante é que pela implementação ser diferente, o loc retorna uma entrada a mais que o esperado quando trabalhado com intervalos. No caso abaixo, retornamos as 10 primeiras linhas dos dados:
<code> data.loc[:9] === data.iloc[:10] </code>


In [3]:
data["Familia"], data.Familia

(a    Clóvis
 b     Maíra
 c     Penha
 d    Simone
 e       Dió
 f      Dani
 Name: Familia, dtype: object,
 a    Clóvis
 b     Maíra
 c     Penha
 d    Simone
 e       Dió
 f      Dani
 Name: Familia, dtype: object)

In [4]:
data.iloc[:,0]

a    Clóvis
b     Maíra
c     Penha
d    Simone
e       Dió
f      Dani
Name: Familia, dtype: object

### Seleção condicional

Uma das grandes vantagens do pandas são as seleções por condicional.
Podemos construír um filtro que o pandas aceita como indexação e converte a saída que obedece aquele filtro.

In [5]:
data.loc[data.Familia == 'Clóvis']

Unnamed: 0,Familia,Idade
a,Clóvis,26


O pandas possui element wise operation em cima de alguns operadores o que facilita a criação do filtro

In [6]:
data.Familia == 'Clóvis'

a     True
b    False
c    False
d    False
e    False
f    False
Name: Familia, dtype: bool

O pandas faz uso dos operadores & e | para criação de filtros mais complexos. Para o uso desses operadores é necessário fazer a construção da prescedência com os parênteses.

In [7]:
data.loc[(data.Familia == 'Clóvis') | (data.Familia == 'Maíra')]

Unnamed: 0,Familia,Idade
a,Clóvis,26
b,Maíra,27


O método <code>isin</code> pode ser usado para buscar os elementos que possuem aquela entrada.
Ele é usado na série de um dataframe ou no próprio dataframe.

Vale salientar que não é um método nativo das séries.

In [8]:
data.Familia.isin(['Clóvis','Maíra'])

a     True
b     True
c    False
d    False
e    False
f    False
Name: Familia, dtype: bool

In [9]:
data.isin(['Clóvis'])

Unnamed: 0,Familia,Idade
a,True,False
b,False,False
c,False,False
d,False,False
e,False,False
f,False,False


Por último, como o pandas trata sua estrutura principal como um dicionário, para adicionar uma nova coluna, basta criar uma da mesma forma como em um dicionário. Isso, desde que tenha o mesmo tamanho que as demais colunas.

In [10]:
data['Exemplo'] = ['a', None, 'c', 'd', None, 'e']
data.head()

Unnamed: 0,Familia,Idade,Exemplo
a,Clóvis,26,a
b,Maíra,27,
c,Penha,62,c
d,Simone,46,d
e,Dió,52,


### Métodos not null e is null
<code>notnull</code> e <code>isnull</code> são métodos úteis para construção de filtros que querem excluir ou separar os elementos que são nulos naqueles dados. Eles podem ser usado a partir de séries do dataframe.

In [11]:
data.notnull()

Unnamed: 0,Familia,Idade,Exemplo
a,True,True,True
b,True,True,False
c,True,True,True
d,True,True,True
e,True,True,False
f,True,True,True


### Funções de resumo, e mapas

O pandas possuem algumasa funções que são úteis para análise dos dados. 

<code>data.serie.describe()</code> da um resumo indicando algumas estatísticas da série em questão. Os tipos de estatísticas retornadas variam com o tipo de dado da serie.

```python
data.serie.mean() # Retorna a média
data.serie.median() # Retorna a mediana
data.serie.unique() # Retorna elementos únicos
data.serie.value_counts() # Retorna a contagem de elementos da série.
```

Os mapas por sua vez permitem o tratamento de dados de forma prática. Devemos entender que ao usar um mapa em uma série, o valor retornado no callback será o valor final de uma das céluas da série retornada.

In [18]:
data.Exemplo = data.Exemplo.map(lambda d: 'Vazio' if d is None else d)

### GroupBy

O método groupby permite o agrupamento de elementos por uma ou mais séries. Com isso é permitido fazer diversas análises a partir dos agrupamentos dos dados.

In [19]:
data.groupby('Exemplo').Familia.count()

Exemplo
Vazio    2
a        1
c        1
d        1
e        1
Name: Familia, dtype: int64