# Pandas

Pandas é uma ferramenta em Python desenhada para trabalhar eficientemente com dados tabulares e heterogêneos. Ele se inspira bastante em NumPy e o usa internamente.
Dado que a fundação de Pandas é baseado em NumPy, podemos usar expressões e funções de NumPy nas estruturas do Pandas.

Forma convencional para importar Pandas:

In [2]:
import pandas as pd

In [3]:
import numpy as np

## Data Structure
As duas principais estruturas de dados presentes no Pandas são: *Series* e *Dataframe*.

### Series
Uma Series (ou séries em português) é um objeto do tipo array unidimensional contendo uma sequência de valores do mesmo tipo e um array de índices associado. É similar a uma coluna em uma tabela de dados, onde cada valor é identificado por um rótulo de índice único.

Criando uma Series a partir de um array:

In [7]:
obj = pd.Series([4, 7, -5, 3])

In [8]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Se não especificarmos um índice, a forma padrão será um índice numérico indo de `0` até `N-1` (sendo `N` o tamanho da Series).

Os campos `array` e `index` devolvem o array interno da série e o índice associado, respectivamente:

In [9]:
obj.array

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64

In [10]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Especificando rótulos para os índices:

In [11]:
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])

In [12]:
obj2

a    4
b    7
c   -5
d    3
dtype: int64

In [13]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Semelhante ao NumPy, podemos selecionar ou atribuir valores baseado no índice, expressões booleanos ou em um outro array:

In [14]:
obj2["a"]

np.int64(4)

In [15]:
obj2["d"] = 6

In [16]:
obj2["d"]

np.int64(6)

In [18]:
obj2[['b', 'c', 'd']]

b    7
c   -5
d    6
dtype: int64

In [19]:
obj2[obj2 > 0]

a    4
b    7
d    6
dtype: int64

É possível alterar o rótulo dos índices existentes:

In [40]:
obj2.index = ["e", "f", "g", "h"]

In [41]:
obj2

e    4
f    7
g   -5
h    6
dtype: int64

Realizando operações matemáticas e usando funções NumPy:

In [42]:
obj2 * 2

e     8
f    14
g   -10
h    12
dtype: int64

In [43]:
np.exp(obj2)

e      54.598150
f    1096.633158
g       0.006738
h     403.428793
dtype: float64

Uma Series é semelhante a um dicionário do Python:

In [44]:
"e" in obj2

True

In [45]:
"a" in obj2

False

In [24]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}

In [25]:
obj3 = pd.Series(sdata)

In [26]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [27]:
obj3.to_dict() # converte para dicionário

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

A série irá respeitar a ordem das chaves passadas como argumento, para alterá-las, podemos usar o campo `index`:

In [28]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [29]:
obj4 = pd.Series(sdata, index=states)

In [30]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

O rótulo `California` não existia no dicionário `sdata`, então ele aparece como `NaN` (not a number) ou `NA` (not available) que é usado no pandas para indicar dados faltantes ou ausentes. Além disso, como não incluimos `Utah` no índice, ele foi excluído da série.

As funções `pd.isna` e `pd.notna` ou o método `isna` podem ser usadas para detectar dados ausentes:

In [31]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [32]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [33]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Em operações aritméticas envolvendo duas ou mais séries, os índices são automaticamente alinhados:

In [34]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [35]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [36]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

É possível atribuir um nome ao objeto Series, bem como ao array de índices:

In [37]:
obj4.name = "population"

In [38]:
obj4.index.name = "state"

In [39]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame