In [4]:
import pandas as pd

# Introdução à Séries 
Olhe para  seguinte lista de empresas: 

<center>
<div class="figure" >
  <img src="img/companies-revenue-seires.png"
       width="300"> 
  <p>Figura 1 - Empresas.</p>
</div>
<center/>



A sintaxe para criar uma série é:

`import pandas as pd`

`pd.Series(data, index, name="A name")`

Os principais componentes de uma Série são:

+ dados: estes são os dados que queremos representar, e obviamente, poderíamos dizer o componente "mais importante" da série. No nosso exemplo, os dados são as receitas das empresas.

+ índice: o índice indica as "etiquetas" dos dados que estamos armazenando. Usaremos o índice para "referenciar" os dados posteriormente. Os índices não são obrigatórios; o pandas atribuirá um índice sequencial padrão se não fornecermos um.

+ nome: uma série pode conter um "nome"; isso fará mais sentido quando começarmos a usar DataFrames. Por agora, pense nele como uma "documentação" adicional; mais clareza ao trabalhar com seu código. Os nomes são opcionais."



Vamos representá-las usando uma Série da seguinte forma:

In [5]:
empresas =[ 
    'Apple', 'Samsung', 'Alphabet', 'Foxconn',
    'Microsoft',  'Huawei', 'Dell Technologies',
    'Meta', 'Sony', 'Hitachi', 'Intel',
    'IBM', 'Tencent', 'Panasonic'
]

In [6]:
s = pd.Series([
    274515, 200734, 182527, 181945, 143015,
    129184, 92224, 85965, 84893, 82345,
    77867, 73620, 69864, 63191],
    index=empresas,
    name="Principais Empresas de Tecnologia por Receita")

In [7]:
s

Apple                274515
Samsung              200734
Alphabet             182527
Foxconn              181945
Microsoft            143015
Huawei               129184
Dell Technologies     92224
Meta                  85965
Sony                  84893
Hitachi               82345
Intel                 77867
IBM                   73620
Tencent               69864
Panasonic             63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

# 1 Construindo Séries
Criamos uma série chamada minha_serie que contém tres elementos: 9,11 e -5. O índice da série é definido como sendo ['a','b', 'c'] e o nome como "Minha primeira série" 

In [8]:
minha_serie = pd.Series([
    9,11,-5], 
    index = ['a','b','c'],
    name = "Minha primeira série")
minha_serie

a     9
b    11
c    -5
Name: Minha primeira série, dtype: int64

## Seleção básica e localização

### Seleção por índice

Utilizamos o índice da Série para fazer referência e localizar os dados associados a um determinado label.

Por exemplo, para obter a receita da Apple, podemos fazer: s["Apple"]. Isso funciona, como você pode ver no notebook. Mas você também verá que usamos o atributo .loc, tornando-o: s.loc["Apple"]. Este é o método preferido para fazer referência aos valores. 

In [9]:
s['Apple']

274515

In [10]:
s.loc['Apple']

274515

### Seleção por posição

Também podemos selecionar elementos pela sua 'ordem'. Afinal, como mencionamos na seção anterior, as Séries são estruturas de dados ordenadas. Portanto, podemos selecionar um elemento pela sua posição: por exemplo, o 'primeiro', 'último', 'terceiro' ou '253º' elemento. 
Para selecionar um elemento pela sua posição, utilizamos o atributo .iloc. A beleza do .iloc é que, assim como a seleção em listas do Python, ele aceita números negativos para fazer referência a elementos a partir do final da série. Isso significa que .iloc[-1] retorna o ÚLTIMO elemento na série.

In [12]:
# Primeiro elemento da série
s.iloc[0]

274515

In [13]:
# Último elemento da série
s.iloc[-1]

63191

### Erros na seleção
Se você tentar retornar um elemento que não existe, isso causará um erro. Isso funciona de maneira bastante semelhante aos dicionários e listas do Python. A seleção pelo índice (.loc) resulta em um KeyError (como em dicionários) e a seleção pela posição resulta em um IndexError, assim como acontece com as listas.

Na maioria das vezes, você pode evitar esses erros usando o operador de associação 'in', que verifica se um elemento dado faz parte do índice.

In [15]:
# Esse código vai falhar
s.loc["Empresa que não existe"]

KeyError: 'Empresa que não existe'

In [16]:
# Este código também irá falhar , 132 está fora dos limites da série.
# (não existem tantos elementos na série)
s.iloc[132]

IndexError: single positional indexer is out-of-bounds

Poderíamos evitar esses erros usando a verificação de associação `in`:

In [17]:
"Apple" in s

True

In [18]:
"Snapchat" in s

False

### Multipla Seleção:

Até agora, as Séries parecem ser dicionários aprimorados. No entanto, este único recurso as diferencia.

Tanto na seleção pelo índice quanto na seleção pela posição, você pode passar vários elementos para serem retornados. Isso é extremamente conveniente.

Preste atenção ao valor retornado: outra Série, poderíamos dizer uma 'sub-série', apenas com os valores solicitados. No Pandas, a seleção de Séries retorna outras séries, a seleção de DataFrames retorna outros DataFrames ou outras Séries, etc.

Vamos ver isso em ação. Para selecionar vários elementos (pelo índice/label), nós simplesmente passamos uma lista dos labels:

s.loc[["Apple", "Intel", "Sony"]]
Para selecionar múltiplos valores pela posição, também passamos uma lista com as posições:

s.iloc[[0, 5, -1]]"

In [19]:
# Por índice
s[['Apple','Intel','Sony']]

Apple    274515
Intel     77867
Sony      84893
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [20]:
# Por posição:
s.iloc[[0, 5, -1]]

Apple        274515
Huawei       129184
Panasonic     63191
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

## Exercitando

### Localizando por índice

In [22]:
# Selecionando o receita da Intel e armazenando em uma variável 
receita_intel = s.loc['Intel']
receita_intel

77867

### Localizando por posição:

In [23]:
# Selecionando a receita do "segundo a partir do último" elemento em nossa série 
# e armazenando em uma variável chamada segundo_a_partir_do_ultimo:
segundo_a_partir_do_ultimo = s.iloc[-2]


### Seleção Múltipla
Usando a seleção de vários labels para retornar as receitas das empresas:
+ Samsung
+ Dell Technologies
+ Panasonic
+ Microsoft

In [8]:
sub_series = s.loc[["Samsung","Dell Technologies", "Panasonic", "Microsoft"]]

### Atributos de Séries e Métodos

As Séries contêm muitos atributos e métodos úteis para interagir com elas. Provavelmente, os dois mais comuns que você verá o tempo todo são `.head()` e `.tail()`. Isso retorna apenas 5 elementos do início da série (`.head()`) ou do final dela (`.tail()`). Isso é útil quando você está trabalhando com dados reais (possivelmente MILHÕES de valores). Você também pode passar um número de elementos a serem retornados: `.head(3)` e `.tail(2)`.

Uma vez que uma série é construída (de alguma forma), podemos acessar todos os atributos separadamente. São eles:

+ Os dados da série: usando o atributo `.values`
+ O índice: usando `.index`
+ O nome: usando `.name`
+ O tipo atribuído: usando `.dtype`
+ O número de elementos: usando `.size`

### Métodos Estatísticos

Usamos o Pandas para processamento de dados. E um componente significativo do processamento de dados é entender suas implicações estatísticas.

O método `.describe()` fornece um resumo rápido das estatísticas da sua série.

Também existem métodos individuais para cada um dos valores retornados por `.describe()`: `.max()`, `.min()`, `.mean()`, `.median()`, etc.

Existe também um método `.quantile()` para verificar quantis específicos (ou percentis). Por exemplo, para obter o percentil 75, você pode usar: `s.quantile(.75)`.

In [9]:
empresas_americanas = s[[
    'Meta', 'IBM', 'Microsoft',
    'Dell Technologies', 'Apple', 'Intel', 'Alphabet'
]]
empresas_americanas

Meta                  85965
IBM                   73620
Microsoft            143015
Dell Technologies     92224
Apple                274515
Intel                 77867
Alphabet             182527
Name: Principais Empresas de Tecnologia por Receita, dtype: int64

In [10]:
# A receita média das empresas americanas:
empresas_americanas.mean()

132819.0

In [11]:
# A mediana da receita das empresas americanas
empresas_americanas.median()

92224.0