# Aprendendo a biblioteca Python PANDAS 

Referência: [Python for Data Analysis](https://wesmckinney.com/book/)

In [1]:
import numpy as np
import pandas as pd

## Estrutura de dados Series

A estrutura de dados Series é um objeto Python contendo uma sequência (array) de valores do mesmo tipo associada a uma outra sequência (array) de rótulos para cada elemento do array de valores.


## Instanciamento de um objeto Series e seus atributos fundamentais: index, array, dtype

In [2]:
obj = pd.Series([4, 7, -5, 3])
type(obj)

pandas.core.series.Series

Para instanciar uma series especificando o array de rótulos, basta definir o atributo index como uma lista como mostrado abaixo:

In [3]:
obj2 = pd.Series([4,7, -5, 3], index = ['d', 'b', 'a', 'c'])
type(obj2)

pandas.core.series.Series

Ou seja, como dito na definição, uma Series pode ser entendida como um par de arrays associados por um esquema chave-valor como uma hashmap. Isto sugere a possibilidade de se instanciar uma Series a partir de um dicionário como mostrado abaixo:


In [14]:
series_dict = {'d': 4, 'b': 7, 'a': -5, 'c': 3}

obj_nel = pd.Series(series_dict)
type(obj_nel)

pandas.core.series.Series

## Representações de um objeto Series

Um objeto Series apresenta duas principais representações:

1. representação string, e
2. representação array.


Para mostrar a representação string de um objeto series, basta invocar o próprio objeto como mostrado abaixo ou, como previsto na especificação de linguagem Python, chamar a função print sobre o objeto que se deseja ver a representação string. 

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [15]:
print(obj2)

d    4
b    7
a   -5
c    3
dtype: int64


A representação string dos objetos Series apresenta o atributo dtype que é o tipo de dado comum aos elementos do array de valores do objeto Series.  Este atributo pode ser visualizado diretamente como mostrado abaixo.

In [16]:
obj_nel.dtype

dtype('int64')

No caso da Series obj, como não foi especificada sequência de rótulos, ela foi criada automaticamente pelo pandas como uma sequência numérica iniciando pelo índice zero.

Para ver o array de rótulos de uma Series, basta invocar o atributo index como mostrado abaixo.


In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Já para mostrar a representação array da series, é preciso invocar o atributo array como mostrado abaixo:

In [6]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [11]:
obj2.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

## Operações e métodos fundamentais dos objetos Series

### Selecionando elementos do array de Series

Os elementos do array de Series podem ser selecionados usando uma notação que entende cada índice como um atributo do objeto Python Panda Series ou uma notação que entende os índices como chaves de um dicionário, porém elementos de objetos Series sem a definição de seu array de índices (rótulos) só podem selecionados invocando os índices como as chaves criadas automaticamente no dicionário. Vejamos dois exemplos:

In [18]:
# Seleção de elementos do array de valores com a notação de objetos

obj.0

SyntaxError: invalid syntax (1015507738.py, line 3)

In [19]:
# Selecionando com a notação do array de rótulos
obj[0]

4

In [20]:
obj2.a

-5

In [21]:
obj2['a']

-5

A seleção pelo array de índices (rótulos) permite ainda o emprego de condicionais como mostrado abaixo. 

In [23]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

In [24]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [25]:
obj2*2

d     8
b    14
a   -10
c     6
dtype: int64

In [26]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Usando a notação de dicionário, pode-se ainda realizar os seguintes tipos de testes e seleção.

In [27]:
'b' in obj2

True

In [28]:
'e' in obj2

False

In [29]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}

In [30]:
obj3 = pd.Series(sdata)

In [31]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

## Conversão de Series para dictionary

In [32]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

## Alterando a ordem dos elementos do array de uma series: método to_dict()

In [33]:
## Alterando a ordem dos elementos do array de uma Series

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = states)

In [34]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

## Encontrando valores ausentes na Series

Use as funções Pandas isna() e notna().

In [35]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [36]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Os objetos Series também possuem métodos Series.isna() e Series.notna().  Veja seu uso.

In [37]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [38]:
obj4.notna()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

## Operações vetorizadas

In [39]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Estas operações podem ser vistas como se fossem join em bancos de dados.

## O atributo name

Tanto os objetos Series quanto o atributo index (que é ele mesmo um objeto) possuem o atributo name.  Veja o exemplo.

In [41]:
obj4.name = 'population'

In [42]:
obj4.index.name = 'state'

In [43]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

## Alterando uma Series

In [44]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [45]:
obj.index = ['Bob','Steve','Jeff','Ryan']

In [46]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64