## Pandas - Series

In [3]:
import pandas as pd
import numpy as np

### Pandas Series

Começaremos analizando "The Group of Seven". Trata-se de um grupo político formado por Canadá, França, Alemanha, Itália, Japão, o Reino Unido e os Estados Unidos.

Iremos começar analizando a população e, para isso, iremos utilizar o objeto `pandas.Series`.

In [4]:
# In millions
g7_pop = pd.Series([35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523])

In [5]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
dtype: float64

Olhando dessa maneira, alguém pode não perceber que estamos representando uma população em milhões de habitantes. Por isso, Series pode receber um `name`, a fim de elucidar o seu propósito:

In [6]:
g7_pop.name = 'G7 Population in Millions'

In [7]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
Name: G7 Population in Millions, dtype: float64

As Series são muito similares aos arrays do Numpy.

In [8]:
g7_pop.values

array([ 35.467,  63.951,  80.94 ,  60.665, 127.061,  64.511, 318.523])

Na verdade, elas são construídas em cima de Numpy arrays:

In [9]:
type(g7_pop.values)

numpy.ndarray

Dessa forma, uma `Series` se assemelha a _Python lists_ ou Numpy Arrays. Contudo, elas são muito mais similares a Python `dict`s.

Uma `Series` tem um `index`, que é muito semelhante ao processo de indexação automática atribuída as Python lists.

In [10]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
Name: G7 Population in Millions, dtype: float64

In [11]:
g7_pop[0]

35.467

In [12]:
g7_pop[1]

63.951

In [13]:
g7_pop.index

RangeIndex(start=0, stop=7, step=1)

No entanto, em contraste com as listas, podemos explicitamente definir os índices:

In [14]:
g7_pop.index = [
    'Canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States',
]

In [15]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in Millions, dtype: float64

Olhando desse modo, podemos dizer que as `Series` se assemelham a "_dicionários ordenados_". Com efeito, podemos criar uma `Series` com base em um dicionário:

In [16]:
pd.Series({
    'Canada': 35.467,
    'France': 63.951,
    'Germany': 80.94,
    'Italy': 60.665,
    'Japan': 127.061,
    'United Kingdom': 64.511,
    'United States': 318.523
}, name='G7 Population in millions')

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

In [17]:
pd.Series(
    [35.467, 63.951, 80.94, 60.665, 127.061, 64.511, 318.523],
    index=['Canada', 'France', 'Germany', 'Italy', 'Japan', 'United Kingdom',
       'United States'],
    name='G7 Population in millions')

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Population in millions, dtype: float64

Também conseguimos criar uma `Series`a partir de outras `Series`, especificando os indexes:

In [18]:
pd.Series(g7_pop, index=['France', 'Germany', 'Italy', 'Spain'])

France     63.951
Germany    80.940
Italy      60.665
Spain         NaN
Name: G7 Population in Millions, dtype: float64

### Indexing:

A indexação ocorre de forma similar às listas e dicionários, você simplesmente usa o valor do **index** do elemento que você está procurando: