# Pandas

Pandas é uma ferramenta em Python desenhada para trabalhar eficientemente com dados tabulares e heterogêneos. Ele se inspira bastante em NumPy e o usa internamente.
Dado que a fundação de Pandas é baseado em NumPy, podemos usar expressões e funções de NumPy nas estruturas do Pandas.

Forma convencional para importar Pandas:

In [2]:
import pandas as pd

In [3]:
import numpy as np

## Data Structure
As duas principais estruturas de dados presentes no Pandas são: *Series* e *Dataframe*.

### Series
Uma Series (ou séries em português) é um objeto do tipo array unidimensional contendo uma sequência de valores do mesmo tipo e um array de índices associado. É similar a uma coluna em uma tabela de dados, onde cada valor é identificado por um rótulo de índice único.

Criando uma Series a partir de um array:

In [3]:
obj = pd.Series([4, 7, -5, 3])

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Se não especificarmos os rótulos do índice, ele assumira uma forma numérica e sequencial, indo de `0` até `N-1` (sendo `N` o tamanho da Series).

Os campos `array` e `index` devolvem o array interno da série e o índice associado, respectivamente:

In [5]:
obj.array

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Especificando rótulos para os índices:

In [28]:
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])

In [8]:
obj2

a    4
b    7
c   -5
d    3
dtype: int64

In [9]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Semelhante ao NumPy, podemos selecionar ou atribuir valores baseado no índice, *slicing*, expressões booleanos, ou em um outro array:

In [10]:
obj2["a"]

np.int64(4)

In [11]:
obj2["d"] = 6

In [12]:
obj2["d"]

np.int64(6)

In [30]:
obj2[:-1] # todos os valores menos o último

a    4
b    7
c   -5
dtype: int64

In [14]:
obj2[obj2 > 0]

a    4
b    7
d    6
dtype: int64

In [13]:
obj2[['b', 'c', 'd']]

b    7
c   -5
d    6
dtype: int64

É possível alterar o rótulo de índices existentes:

In [15]:
obj2.index = ["e", "f", "g", "h"]

In [16]:
obj2

e    4
f    7
g   -5
h    6
dtype: int64

Realizando operações matemáticas e usando funções NumPy:

In [17]:
obj2 * 2

e     8
f    14
g   -10
h    12
dtype: int64

In [18]:
np.exp(obj2)

e      54.598150
f    1096.633158
g       0.006738
h     403.428793
dtype: float64

Uma Series é semelhante a um dicionário do Python:

In [19]:
"e" in obj2

True

In [20]:
"a" in obj2

False

In [21]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}

In [37]:
obj3 = pd.Series(sdata) # criando uma série a partir de um dicionário

In [23]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [24]:
obj3.to_dict() # converte para dicionário

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

A série irá respeitar a ordem das chaves do dicionário. Para alterá-la, podemos usar o campo `index`:

In [25]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [26]:
obj4 = pd.Series(sdata, index=states)

In [27]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

O rótulo `California` não existia no dicionário `sdata`, então ele aparece como `NaN` (not a number) ou `NA` (not available) que é usado no pandas para indicar dados faltantes ou ausentes. Além disso, como não incluimos `Utah` no índice, ele foi excluído da série.

As funções `pd.isna` e `pd.notna` ou o método `isna` podem ser usadas para detectar dados ausentes:

In [28]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [30]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Em operações aritméticas envolvendo duas ou mais séries, os índices são automaticamente alinhados:

In [31]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [32]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [33]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

É possível atribuir um nome ao objeto Series, bem como ao array de índices:

In [34]:
obj4.name = "population"

In [35]:
obj4.index.name = "state"

In [36]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame
Um DataFrame representa uma tabela de dados organizada por colunas ordenadas e linhas (i.e. duas ou mais dimensões). Cada coluna pode armazenar um tipo diferente de valor (numérico, string, booleano etc.).\
Um DataFrame possui um índice de coluna e outro de linha.\
Ele pode ser imaginado como um dicionário de Series, com um grupo compartilhando o mesmo índice.

Há várias maneiras de criar um DataFrame. A mais comum utiliza um dicionário com listas (ou *ndarrays*) de mesmo tamanho:

In [4]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [5]:
frame = pd.DataFrame(data)

Assim como uma série, um DataFrame receberá um índice numérico sequencial caso não atribuirmos um.

In [40]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


O método `head` seleciona apenas as 5 primeiras linhas:

In [41]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9


O método `tail` seleciona as 5 últimas linhas:

In [42]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


O atributo `columns` retorna os rótulos das colunas (que é o índice do DataFrame):

In [7]:
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

Durante a criação de um DataFrame, é possível especificar a ordem das colunas:

In [43]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2003,Nevada,2.4
4,2004,Nevada,2.9
5,2005,Nevada,3.2


Se uma coluna não existir no DataFrame, elas ficará vazia (`NaN`):

In [9]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

In [45]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,
5,2005,Nevada,3.2,


Uma coluna pode ser selecionada usando uma notação do tipo dicionário ou com um ponto (`.`):

In [46]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [48]:
# essa notação só funciona se o nome da coluna não tiver espaço, caracteres especiais e não for igual a nenhum método do DataFrame
frame2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

Quando selecionas apenas uma coluna, percebemos que uma Series é retornada.\
Os valores retornados são apenas visões do DataFrame e, portanto, qualquer alteração feita sobre esses dados será refletida no objeto original.

Copiando um DataFrame com o método `copy`:

In [17]:
frame3 = frame2.copy()

In [18]:
frame3

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


In [19]:
colCopy = frame3["state"].copy()

In [20]:
colCopy

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

Para selecionar uma linha, usamos os atributos `iloc` ou `loc`:

In [49]:
frame2.loc[0]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: 0, dtype: object

In [50]:
frame2.iloc[0]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: 0, dtype: object

Atribuindo um valor a uma coluna inteira:

In [10]:
frame2["debt"] = 16.5

In [52]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2003,Nevada,2.4,16.5
4,2004,Nevada,2.9,16.5
5,2005,Nevada,3.2,16.5


In [11]:
frame2["debt"] = np.arange(6.)

In [54]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2003,Nevada,2.4,3.0
4,2004,Nevada,2.9,4.0
5,2005,Nevada,3.2,5.0


Para atribuir uma lista ou Series a uma coluna, o seu tamanho precisa ser igual ao do DataFrame.\
Se os índices da Series não coincidir com o do DataFrame, a coluna pode acabar com linhas vazias.

In [12]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])

In [13]:
frame2["debt"] = val

In [64]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


Ao atribuir um valor a uma coluna que não existe, ela é adicionada ao DataFrame (só funciona com a notação de dicionário):

In [14]:
frame2["eastern"] = frame2.state == "Ohio"

In [66]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2003,Nevada,2.4,,False
4,2004,Nevada,2.9,-1.5,False
5,2005,Nevada,3.2,-1.7,False


O operador `del` deleta uma coluna:

In [15]:
del frame2["eastern"]

In [16]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


É possível criar um DataFrame a partir de um dicionário aninhado. Nesse caso, as chaves do dicionário externo são transformadas em índices de coluna, enquanto as chaves do dicionário mais interno são transformadas em índices de linha:

In [21]:
population = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
              "Nevada": {2001: 2.4, 2002: 2.9}}

In [22]:
frame3 = pd.DataFrame(population)

In [23]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Semelhante a NumPy, é possível inverter as colunas e linhas (transposição):

In [24]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


> **Cuidado**
>
> Transpor e transpor devolta um DataFrame com colunas de diferentes tipos de dados pode causar perdas de dados, visto que os tipos não são preservados.

Usando colunas de um DataFrame para construir outro DataFrame:

In [25]:
pdata = {"Ohio": frame3["Ohio"][:-1],    # pega todos os elementos menos o último
         "Nevada": frame3["Nevada"][:2]} # pega os dois primeiros elementos

In [26]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


O construtor do DataFrame aceita os seguintes tipos de dados:

| Type                      | Notes
----------------------------|------------------------------------------------
2D ndarray                  | Matriz de dados, passando rótulos de colunas e linhas (opcional)
Dicionário de arrays, listas ou tuplas | Cada sequência se torna uma coluna; todas as sequências precisam ter o mesmo tamanho
Dicionário de séries        | Cada série se torna uma coluna
Estrutura de dados NumPy    | O caso do dicionário de arrays se aplica
Dicionários aninhados       | Cada dicionário interno se torna uma coluna
Lista de dicionários ou séries | Cada item se torna uma linha; a união de todas as chaves dos dicionários ou séries se tornam os rótulos das colunas
Lista aninhada ou de tuplas | O caso do "2D ndarray" se aplica
Outro DataFrame             | A estrutura do DataFrame é replicada
NumPy MaskedArray           | O caso do "2D ndarray" se aplica, mas os valores mascarados ficam vazios

É possível adicionar nomes às colunas e linhas:

In [31]:
frame3.index.name = "year"

In [32]:
frame3.columns.name = "state"

In [33]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


O método `to_numpy` retorna um ndarray bidimensional:

In [35]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

### Index objects