## Introdução à Séries

Vamos dar uma olhada na seguinte 'tabela' que contém uma lista de Empresas de Tecnologia de ponta e suas receitas (em milhões de dólares):




<center>
<div class="figure" >
  <img src="img/companies-revenue-seires.png"
       width="300"> 
  <p>Figura 1 - Empresas.</p>
</div>
<center/>



Uma série pandas nos ajudará a representar esses dados. A sintaxe para criar uma série é:


`import pandas as pd`

`pd.Series(data, index, name="A name")`

In [1]:
import pandas as pd

In [None]:

Os principais componentes de uma Série são:

+ dados: estes são os dados que queremos representar, e obviamente, poderíamos dizer o componente "mais importante" da série. No nosso exemplo, os dados são as receitas das empresas.

+ índice: o índice indica as "etiquetas" dos dados que estamos armazenando. Usaremos o índice para "referenciar" os dados posteriormente. Os índices não são obrigatórios; o pandas atribuirá um índice sequencial padrão se não fornecermos um.

+ nome: uma série pode conter um "nome"; isso fará mais sentido quando começarmos a usar DataFrames. Por agora, pense nele como uma "documentação" adicional; mais clareza ao trabalhar com seu código. Os nomes são opcionais."



Vamos representá-las usando uma Série da seguinte forma:

In [2]:
empresas =[ 
    'Apple', 'Samsung', 'Alphabet', 'Foxconn',
    'Microsoft',  'Huawei', 'Dell Technologies',
    'Meta', 'Sony', 'Hitachi', 'Intel',
    'IBM', 'Tencent', 'Panasonic'
]

In [3]:
s = pd.Series([
    274515, 200734, 182527, 181945, 143015,
    129184, 92224, 85965, 84893, 82345,
    77867, 73620, 69864, 63191],
    index=empresas,
    name="Principais Empresas de Tecnologia por Receita")

In [4]:
s

Apple                274515
Samsung              200734
Alphabet             182527
Foxconn              181945
Microsoft            143015
Huawei               129184
Dell Technologies     92224
Meta                  85965
Sony                  84893
Hitachi               82345
Intel                 77867
IBM                   73620
Tencent               69864
Panasonic             63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

### Construindo Séries
Criamos uma série chamada minha_serie que contém três elementos: `9,11 e -5` . O índice da série é definido como sendo ['a','b', 'c'] e o nome como "Minha primeira série" 

In [5]:
minha_serie = pd.Series([
    9,11,-5], 
    index = ['a','b','c'],
    name = "Minha primeira série")
minha_serie

a     9
b    11
c    -5
Name: Minha primeira série, dtype: int64

##  Seleção básica e localização

### Seleção por índice

Utilizamos o índice da Série para fazer referência e localizar os dados associados a um determinado label.

Por exemplo, para obter a receita da Apple, podemos fazer: s["Apple"]. Isso funciona, como você pode ver no notebook. Mas você também verá que usamos o atributo .loc, tornando-o: s.loc["Apple"]. Este é o método preferido para fazer referência aos valores. 

In [6]:
s['Apple']

274515

In [7]:
s.loc['Apple']

274515

### Seleção por posição

Também podemos selecionar elementos pela sua 'ordem'. Afinal, como mencionamos na seção anterior, as Séries são estruturas de dados ordenadas. Portanto, podemos selecionar um elemento pela sua posição: por exemplo, o 'primeiro', 'último', 'terceiro' ou '253º' elemento. 
Para selecionar um elemento pela sua posição, utilizamos o atributo .iloc. A beleza do .iloc é que, assim como a seleção em listas do Python, ele aceita números negativos para fazer referência a elementos a partir do final da série. Isso significa que .iloc[-1] retorna o ÚLTIMO elemento na série.

In [8]:
# Primeiro elemento da série
s.iloc[0]

274515

In [9]:
# Último elemento da série
s.iloc[-1]

63191

### Erros na seleção
Se você tentar retornar um elemento que não existe, isso causará um erro. Isso funciona de maneira bastante semelhante aos dicionários e listas do Python. A seleção pelo índice (.loc) resulta em um KeyError (como em dicionários) e a seleção pela posição resulta em um IndexError, assim como acontece com as listas.

Na maioria das vezes, você pode evitar esses erros usando o operador de associação 'in', que verifica se um elemento dado faz parte do índice.

In [15]:
# Esse código vai falhar
s.loc["Empresa que não existe"]

KeyError: 'Empresa que não existe'

In [16]:
# Este código também irá falhar , 132 está fora dos limites da série.
# (não existem tantos elementos na série)
s.iloc[132]

IndexError: single positional indexer is out-of-bounds

Poderíamos evitar esses erros usando a verificação de associação `in`:

In [17]:
"Apple" in s

True

In [18]:
"Snapchat" in s

False

### Multipla Seleção:

Até agora, as Séries parecem ser dicionários aprimorados. No entanto, este único recurso as diferencia.

Tanto na seleção pelo índice quanto na seleção pela posição, você pode passar vários elementos para serem retornados. Isso é extremamente conveniente.

Preste atenção ao valor retornado: outra Série, poderíamos dizer uma 'sub-série', apenas com os valores solicitados. No Pandas, a seleção de Séries retorna outras séries, a seleção de DataFrames retorna outros DataFrames ou outras Séries, etc.

Vamos ver isso em ação. Para selecionar vários elementos (pelo índice/label), nós simplesmente passamos uma lista dos labels:

s.loc[["Apple", "Intel", "Sony"]]
Para selecionar múltiplos valores pela posição, também passamos uma lista com as posições:

s.iloc[[0, 5, -1]]"

In [10]:
# Por índice
s[['Apple','Intel','Sony']]

Apple    274515
Intel     77867
Sony      84893
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [11]:
# Por posição:
s.iloc[[0, 5, -1]]

Apple        274515
Huawei       129184
Panasonic     63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

### Exercitando

### Localizando por índice

In [22]:
# Selecionando o receita da Intel e armazenando em uma variável 
receita_intel = s.loc['Intel']
receita_intel

77867

### Localizando por posição:

In [23]:
# Selecionando a receita do "segundo a partir do último" elemento em nossa série 
# e armazenando em uma variável chamada segundo_a_partir_do_ultimo:
segundo_a_partir_do_ultimo = s.iloc[-2]


### Seleção Múltipla
Usando a seleção de vários labels para retornar as receitas das empresas:
+ Samsung
+ Dell Technologies
+ Panasonic
+ Microsoft

In [8]:
sub_series = s.loc[["Samsung","Dell Technologies", "Panasonic", "Microsoft"]]

## Atributos de Séries e Métodos



As Séries contêm muitos atributos e métodos úteis para interagir com elas. Provavelmente, os dois mais comuns que você verá o tempo todo são `.head()` e `.tail()`. Isso retorna apenas 5 elementos do início da série (`.head()`) ou do final dela (`.tail()`). Isso é útil quando você está trabalhando com dados reais (possivelmente MILHÕES de valores). Você também pode passar um número de elementos a serem retornados: `.head(3)` e `.tail(2)`.

Uma vez que uma série é construída (de alguma forma), podemos acessar todos os atributos separadamente. São eles:

+ Os dados da série: usando o atributo `.values`
+ O índice: usando `.index`
+ O nome: usando `.name`
+ O tipo atribuído: usando `.dtype`
+ O número de elementos: usando `.size`

In [15]:
s.head()

Apple        274515
Samsung      200734
Alphabet     182527
Foxconn      181945
Microsoft    143015
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [16]:
s.tail()

Hitachi      82345
Intel        77867
IBM          73620
Tencent      69864
Panasonic    63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [18]:
# Os dados subjacentes:
s.values

array([274515, 200734, 182527, 181945, 143015, 129184,  92224,  85965,
        84893,  82345,  77867,  73620,  69864,  63191], dtype=int64)

In [19]:
# os indice
s.index

Index(['Apple', 'Samsung', 'Alphabet', 'Foxconn', 'Microsoft', 'Huawei',
       'Dell Technologies', 'Meta', 'Sony', 'Hitachi', 'Intel', 'IBM',
       'Tencent', 'Panasonic'],
      dtype='object')

In [21]:
# o nome da série (se houver)
s.name

'Principais Empresas de Tecnologia por Receita'

In [22]:
# O tipo associado aos valores:
s.dtype

dtype('int64')

In [25]:
# O tamanho da série:
s.size

# ou 

len(s)

14

### Métodos Estatísticos

Usamos o Pandas para processamento de dados. E um componente significativo do processamento de dados é entender suas implicações estatísticas.

O método `.describe()` fornece um resumo rápido das estatísticas da sua série.

Também existem métodos individuais para cada um dos valores retornados por `.describe()`: `.max()`, `.min()`, `.mean()`, `.median()`, etc.

Existe também um método `.quantile()` para verificar quantis específicos (ou percentis). Por exemplo, para obter o percentil 75, você pode usar: `s.quantile(.75)`.

In [26]:
s.describe()

count        14.000000
mean     124420.642857
std       63686.481231
min       63191.000000
25%       78986.500000
50%       89094.500000
75%      172212.500000
max      274515.000000
Name: Principais Empresas de Tecnologia por Receita, dtype: float64

In [27]:
s.mean()

124420.64285714286

In [30]:
s.median()

89094.5

In [31]:
s.std()

63686.48123135607

In [32]:
s.min()

63191

In [33]:
s.max()

274515

In [29]:
s.quantile(.75)

172212.5

### Exercitando

In [44]:
empresas_americanas = s[[
    'Meta', 'IBM', 'Microsoft',
    'Dell Technologies', 'Apple', 'Intel', 'Alphabet'
]]
empresas_americanas

Meta                  85965
IBM                   73620
Microsoft            143015
Dell Technologies     92224
Apple                274515
Intel                 77867
Alphabet             182527
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [14]:
# A receita média das empresas americanas:
empresas_americanas.mean()

132819.0

In [34]:
# A mediana da receita das empresas americanas
empresas_americanas.median()

92224.0

## Ordenando Séries

Podemos ordenar por ambos os atributos: Valores, índices usando os métodos .sort_values() e .sort_index().

 Para ordenar os valores da série (ou seja, a receita), usamos o método `.sort_values()`. Para ordenar a série pelo seu índice (neste caso, lexicograficamente pelo nome da empresa), usamos o método `.sort_index()`. O método de ordenação padrão é em ordem "crescente". Para ordenar em ordem "decrescente", você deve passar o parâmetro `ascending=False` (para ambos os métodos).

### Ordenando por valor ou indice

In [35]:
# Sorteando por valores (modo ascendente)
s.sort_values()

Panasonic             63191
Tencent               69864
IBM                   73620
Intel                 77867
Hitachi               82345
Sony                  84893
Meta                  85965
Dell Technologies     92224
Huawei               129184
Microsoft            143015
Foxconn              181945
Alphabet             182527
Samsung              200734
Apple                274515
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [36]:
# Sorteando por valores (modo descendente)
s.sort_values(ascending=False).head()

Apple        274515
Samsung      200734
Alphabet     182527
Foxconn      181945
Microsoft    143015
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [37]:
# Sorteando por indices (modo ascendente)
s.sort_index()

Alphabet             182527
Apple                274515
Dell Technologies     92224
Foxconn              181945
Hitachi               82345
Huawei               129184
IBM                   73620
Intel                 77867
Meta                  85965
Microsoft            143015
Panasonic             63191
Samsung              200734
Sony                  84893
Tencent               69864
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [38]:
# Sorteando por indices (modo descendente)
s.sort_index(ascending=False).head()

Tencent       69864
Sony          84893
Samsung      200734
Panasonic     63191
Microsoft    143015
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

### Exercitando

In [40]:
# Empresa com a maior receita
s.sort_values(ascending=False).head(1)

Apple    274515
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [42]:
# Ordenando a primeira empresa  lexicograficamente.
s.sort_index().head(1)

Alphabet    182527
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

## Imutabilidade



O segundo conceito importante é a imutabilidade, e isso não se aplica apenas a Series; é um conceito amplamente utilizado no pandas e na Ciência de Dados em geral. Quando "classificamos uma série", na verdade não estamos ordenando a série em si. Uma NOVA série é retornada. A série subjacente NÃO mudou; ela NÃO foi modificada.

Não queremos alterar/mutar coisas, pois é mais difícil acompanhar essas mudanças.

Se por acaso você DESEJA realmente mutar sua série, neste caso, você deseja classificá-la e alterar a série subjacente (em s neste caso), você deve passar o atributo `inplace=True`. Ao fazer isso, você verá que desta vez o método não retorna nada, mas a série subjacente (em `s´`) foi alterada para conter os dados na ordem necessária.

### Exercitando

In [46]:
# Ordenando Empresas Americanas por valor de receita
empresas_americanas_desc = empresas_americanas.sort_values(ascending=False)
empresas_americanas_desc

Apple                274515
Alphabet             182527
Microsoft            143015
Dell Technologies     92224
Meta                  85965
Intel                 77867
IBM                   73620
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [50]:
# Ordene e Modifique empresas internacionais
empresas_internacionais = s[[
    "Sony", "Tencent","Panasonic",
    "Samsung","Hitachi","Foxconn", "Huawei"
]]

empresas_internacionais.sort_values(ascending=False, inplace=True)

empresas_internacionais

Samsung      200734
Foxconn      181945
Huawei       129184
Sony          84893
Hitachi       82345
Tencent       69864
Panasonic     63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

## Modificando Séries

Modificar séries é algo que geralmente evitamos fazer.
No entanto, ainda é possível modificar séries alterando valores, adicionando ou removendo elementos.

Por exemplo, para modificar um valor existente, podemos simplesmente "sobrescrevê-lo", digamos que queremos definir a receita da IBM para $0. Podemos fazer simplesmente:

`s['IBM'] = 0`

Para adicionar elementos (ou alterar o valor de um elemento), você pode usar o índice do novo elemento: `s['Tesla'] = 21450`.

Para remover um elemento, usamos a palavra-chave del e o índice: del `s["Apple"]`.

Essas são as mesmas maneiras que usamos para adicionar/remover elementos de dicionários.

In [51]:
# Alterando valores: 
s['IBM'] = 0

In [52]:
s.sort_values().head()

IBM              0
Panasonic    63191
Tencent      69864
Intel        77867
Hitachi      82345
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [64]:
# Adicionando Elementos: 
s['Tesla'] = 21450
s['Amazon'] = 469822.0
s.sort_values()#.head()

IBM                       0.0
Tesla                 21450.0
Panasonic             63191.0
Tencent               69864.0
Intel                 77867.0
Hitachi               82345.0
Sony                  84893.0
Meta                  85965.0
Dell Technologies     92224.0
Huawei               129184.0
Microsoft            143015.0
Foxconn              181945.0
Alphabet             182527.0
Samsung              200734.0
Apple                274515.0
Amazon               469822.0
Name: Principais Empresas de Tecnologia por Receita, dtype: float64

In [65]:
# Removendo elementos: 

del s['Tesla']
del s['Amazon']

s.sort_values().head()

IBM              0.0
Panasonic    63191.0
Tencent      69864.0
Intel        77867.0
Hitachi      82345.0
Name: Principais Empresas de Tecnologia por Receita, dtype: float64

## Concatenando Séries

Por fim, se você deseja "concatenar" duas séries, pode usar o método `concat()` como mostrado no exemplo no caderno. Nesse caso, o método retorna uma nova série ou quadro de dados com os valores das duas séries ou quadros de dados concatenados.

Podemos anexar séries a outras séries usando o método `.concat()`:

In [67]:
outra_serie = pd.Series(
    [21_450, 4_120],index=['Tesla', 'Snapchat']
    )

outra_serie

Tesla       21450
Snapchat     4120
dtype: int64

In [68]:
nova_outra_serie = pd.concat([s, outra_serie])

In [69]:
s

Apple                274515.0
Samsung              200734.0
Alphabet             182527.0
Foxconn              181945.0
Microsoft            143015.0
Huawei               129184.0
Dell Technologies     92224.0
Meta                  85965.0
Sony                  84893.0
Hitachi               82345.0
Intel                 77867.0
IBM                       0.0
Tencent               69864.0
Panasonic             63191.0
Name: Principais Empresas de Tecnologia por Receita, dtype: float64

In [70]:
nova_outra_serie

Apple                274515.0
Samsung              200734.0
Alphabet             182527.0
Foxconn              181945.0
Microsoft            143015.0
Huawei               129184.0
Dell Technologies     92224.0
Meta                  85965.0
Sony                  84893.0
Hitachi               82345.0
Intel                 77867.0
IBM                       0.0
Tencent               69864.0
Panasonic             63191.0
Tesla                 21450.0
Snapchat               4120.0
dtype: float64