# Pandas

## Series

Como vimos, podemos criar um objeto `pd.Series` a partir de uma lista (ou de um array do numpy). Assim como com o NumPy, nós podemos controlar o tipo dos elementos da série. Assim como com o NumPy, nós podemos controlar o tipo dos elementos da série, mas o grande diferencial do Pandas é que as series são *indexadas*.

In [1]:
import pandas as pd
import numpy as np

In [2]:
minha_lista = [10,20,30,40]

In [3]:
serie = pd.Series(minha_lista)
print(serie)

0    10
1    20
2    30
3    40
dtype: int64


In [4]:
serie = pd.Series(minha_lista, index = ['a', 'b', 'c', 'd'])
print(serie)

a    10
b    20
c    30
d    40
dtype: int64


In [5]:
serie = pd.Series(minha_lista, index = ['a', 'b', 'c', 'd'], dtype=np.float64)
print(serie)

a    10.0
b    20.0
c    30.0
d    40.0
dtype: float64


In [6]:
precos = pd.Series(minha_lista, index=['Geladeira', 'Fogao', 'Air Fryer', 'Lava-Louças'], dtype=np.float64)
print(precos)

Geladeira      10.0
Fogao          20.0
Air Fryer      30.0
Lava-Louças    40.0
dtype: float64


In [7]:
precos.sort_index() # precisa do inplace para alterar a variável

Air Fryer      30.0
Fogao          20.0
Geladeira      10.0
Lava-Louças    40.0
dtype: float64

In [8]:
print(precos)

Geladeira      10.0
Fogao          20.0
Air Fryer      30.0
Lava-Louças    40.0
dtype: float64


O nome de cada linha (o "index" da série) pode ser alterado após a criação da série. Basta atribuirmos um novo valor ao atributo `index`. O mesmo vale para o tipo dos elementos da série. Eles podem ser alterados após a criação da série, utilizando o método `astype`.

In [9]:
serie = pd.Series(minha_lista, index = ['a', 'b', 'c', 'd'])
print(serie)

a    10
b    20
c    30
d    40
dtype: int64


In [10]:
serie.astype(np.float64)

a    10.0
b    20.0
c    30.0
d    40.0
dtype: float64

In [11]:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')


Vale notar, contudo, que a função `astype` retorna uma cópia da série. Ela não salva o resultado dentro da mesma variável que tínhamos. Isso significa que, se formos olhar a variável série novamente, após a última linha do código acima, veríamos que o `dtype` continua sendo `int64`. Para alterar a variável, é necessários utilizar `inplace=True`.

Uma última propriedade das séries do pandas que podemos controlar é o nome delas.

In [12]:
minha_lista = [10, 20, 30, 40]
serie = pd.Series(minha_lista, index=['a', 'b', 'c', 'd'], name='Números')
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

## Manipulando Pandas Series

Quando usamos listas básicas do Python, nós podemos querer usar um elemento numa posição específica. Para isso, usamos um índice ao lado da lista, como `lista_valores[3]`, que retorna o elemento que se encontra na posição 3 (lembrando que o Python começa a contagem de índices da lista pelo 0).

Com uma série do pandas, a ideia é a mesma. Seja para usar um elemento específico, ou para usar um intervalo de valores da série, a sintaxe do pandas é análoga. Porém, aqui nós usamos ativamente os índices da série.

In [13]:
minha_lista = [10, 20, 30, 40]
serie_a = pd.Series(minha_lista, dtype=np.float32)
serie_b = pd.Series(minha_lista, index=['a', 'b', 'c', 'd'], dtype=np.float32)

In [14]:
print(serie_a)
print(serie_b)

0    10.0
1    20.0
2    30.0
3    40.0
dtype: float32
a    10.0
b    20.0
c    30.0
d    40.0
dtype: float32


In [15]:
serie_a[2]

30.0

In [16]:
serie_b[2]

  serie_b[2]


30.0

Podemos trazer um único elemento pelo seu índice.

In [17]:
serie_b['c']

30.0

Podemos trazer múltiplos elementos pelos seu índice.

In [18]:
serie_b[['a', 'c']]

a    10.0
c    30.0
dtype: float32

E podemos, inclusive, trazer um slice pelos índices da série.

In [19]:
serie_b['a':'c'] # O slicing é inclusivo nas duas pontas

a    10.0
b    20.0
c    30.0
dtype: float32

Também podemos selecionar os elementos desejados usando os métodos
- `iloc`: localiza o elemento pela posição númerica do índice (começando de 0)
- `loc`: localiza o elemento pelo próprio índice da série (que foi nomeado em algum momento anterior)

In [20]:
serie_b.loc['a']

10.0

In [21]:
serie_b.iloc[0]

10.0

In [22]:
serie_b.iloc[1:3] # Inclusivo no inicio e exclusivo no final

b    20.0
c    30.0
dtype: float32

In [23]:
serie_b.loc['c':'a']

Series([], dtype: float32)

Como não existe índice depois de "c" mas antes de "a", o resultado da última linha do bloco de código acima foi uma série vazia.

Por fim, de forma análoga ao NumPy, nós podemos usar "filtros lógicos" (também chamados máscaras booleanas). Eles nada mais são que uma lista (ou `ndarray`, ou `Series`) de valores booleanos. Onde tivermos o valor `True` são as posições dos elementos que queremos utilizar.

Podemos selecionar assim apenas os elementos que satisfaçam determinada condição.

In [24]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [25]:
serie[[True, True, False, False]]

a    10
b    20
Name: Números, dtype: int64

In [26]:
serie[serie>15]

b    20
c    30
d    40
Name: Números, dtype: int64

In [27]:
serie[(serie<15) | (serie>35)]

a    10
d    40
Name: Números, dtype: int64

De forma semelhante, podemos passar essa máscara para o método `loc` e obter o mesmo comportamento.

In [28]:
mask = serie>15
mask

a    False
b     True
c     True
d     True
Name: Números, dtype: bool

In [29]:
serie.loc[mask]

b    20
c    30
d    40
Name: Números, dtype: int64

Note que a variável `mask` é uma série do Pandas, resultante da operação `> 15` elemento a elemento. Por trás dos panos, o mesmo estava acontecendo no exemplo anterior.

## Métodos e Operações

Como já dito no texto, o pandas é construído em cima do NumPy. Os objetos fundamentais do pandas sempre tem um ndarray por trás. Por isso, muitas operações do pandas são análogas às do NumPy.

As operações matemáticas (`+`, `-`, `*`, `/`, `**`), por exemplo, são realizadas elemento a elemento assim como no NumPy. Uma diferença crucial é que o Pandas faz isso formando pares de elementos com o mesmo índice. Vamos ver um exemplo.

In [30]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [31]:
values = pd.Series([0.5, 1., 1.5, 2.], index = ['b', 'd', 'a', 'c'], dtype=np.float32)
values

b    0.5
d    1.0
a    1.5
c    2.0
dtype: float32

In [32]:
values * serie

a    15.0
b    10.0
c    60.0
d    40.0
dtype: float64

No exemplo acima, note que os elementos com índice "a" são o 10, na variável `serie`, e 1.5, na variável `values`. Logo, o resultado da multiplicação para o índice "a" é 15.

Se as séries não tiverem o mesmo conjunto de valores nos índices, as operações darão valores absurdos (o pandas não irá levantar um erro ou uma exceção).

In [33]:
serie

a    10
b    20
c    30
d    40
Name: Números, dtype: int64

In [34]:
other_values = pd.Series([0.5, 1.0, 1.5, 2.0], dtype=np.float32)
other_values

0    0.5
1    1.0
2    1.5
3    2.0
dtype: float32

In [35]:
serie * other_values

a   NaN
b   NaN
c   NaN
d   NaN
0   NaN
1   NaN
2   NaN
3   NaN
dtype: float64

Todos os valores resultantes no exemplo acima são `NaN` (Not a Number - o que significa que não há resultado ou é inválido), e temos os índices de ambas as séries. Isso porque tentamos multiplicar cada elemento de cada série por um elemento vazio (afinal, o índice "a", por exemplo, não existe na série `other_values`, e logo seu valor é "vazio").

Existem também alguns métodos para operar em cima da série de forma agregada. Eles podem retornar algum valor estatístico dos valores da série (como a média), podem só somar os valores, ou podem retornar um resumo dos dados.

Abaixo estão alguns exemplos de métodos que as séries possuem para esse tipo de operação.

|  Método          |Descrição                     |
|:----------------:|:----------------------------:|
|```sum```         |soma os valores               |
|```mean```        |média dos valores             |
|```std```         |desvio padrão dos valores     |
|```mode```        |moda dos valores              |
|```max```         |valor máximo na série         |
|```min```         |valor mínimo na série         |
|```value_counts```|conta repetições de cada valor|
|```describe```    |resumo de estatísticas básicas|

Veja alguns exemplos abaixo.


In [40]:
valores = [1, 1, 2, 3, 5, 8, 13]
fibonacci = pd.Series(valores)

In [41]:
fibonacci.sum()

33

In [42]:
fibonacci[fibonacci > 4].sum()

26

In [47]:
fibonacci.mean()

4.714285714285714

In [57]:
fibonacci.describe()

count     7.000000
mean      4.714286
std       4.423961
min       1.000000
25%       1.500000
50%       3.000000
75%       6.500000
max      13.000000
dtype: float64

In [52]:
valores = ['A', 'B', 'A', 'A', 'C', 'B', 'A', 'A', 'B']
serie = pd.Series(valores)

In [53]:
serie.value_counts()

A    5
B    3
C    1
Name: count, dtype: int64

In [54]:
type(serie.value_counts())

pandas.core.series.Series

In [56]:
serie.value_counts(True)

A    0.555556
B    0.333333
C    0.111111
Name: proportion, dtype: float64

Quando as séries são compostas por elementos do tipo "string" (`str`, no Python), o pandas entenderá seu `dtype` como sendo `object`.

Nestes casos, a série tem um atributo `str`, que permite que façamos operações próprias de strings ao longo dos lementos da série.

In [58]:
pronomes = pd.Series(['eu', 'tu', 'ele/ela', 'nós', 'vós', 'eles/elas'])
pronomes

0           eu
1           tu
2      ele/ela
3          nós
4          vós
5    eles/elas
dtype: object

In [59]:
pronomes.str

<pandas.core.strings.accessor.StringMethods at 0x18393f5fd10>

In [60]:
pronomes.str.upper()

0           EU
1           TU
2      ELE/ELA
3          NÓS
4          VÓS
5    ELES/ELAS
dtype: object

Se tentássemos usar o método `upper` diretamente com a série, veríamos o erro abaixo.

In [61]:
pronomes.upper()

AttributeError: 'Series' object has no attribute 'upper'