# Séries

## DataFrames e Séries

DataFrames são a estrutura de dados mais amplamente utilizada. Eles são uma tabela, onde cada linha representa uma "coisa" e cada coluna representa uma característica dessa coisa. 

![tabela](https://gonehybrid.com/content/images/2017/02/table.png)

Antes de aprendermos a manipular DataFrames, é útil aprendermos a manipular _uma coluna_ de um DataFrame. Uma coluna de um DataFrame é uma Série.

Hoje, vamos falar sobre séries.

## Importando o pandas

Em Python, para trabalharmos com séries e dataframes, precisamos importar um pacote chamado `pandas`:

![pandas](http://www.cutenessoverflow.com/wp-content/uploads/2016/08/Pandas-Eyes.jpg)

In [1]:
import pandas as pd

Existem várias formas de se criar uma série. Quase sempre, nós estaremos trabalhando com um DataFrame, não com uma série. Por isso, para fins didáticos, vamos criar uma série manualmente: o número de bilhetes vendidos para o campeonato de quadribol em cada dia da semana.

![quadribol](https://www.nme.com/wp-content/uploads/2016/11/HarryPotterQuidditch.png)


| Dia da semana | Ingressos vendidos |
|---------------|--------------------|
| Segunda       | 132                |
| Terça         | 94                 |
| Quarta        | 112                |
| Quinta        | 84                 |
| Sexta         | 254                |
| Sábado        | 322                |
| Domingo       | 472                |

In [2]:
ingressos = pd.Series([132, 94, 112, 84, 254, 322, 472])
ingressos

0    132
1     94
2    112
3     84
4    254
5    322
6    472
dtype: int64

## Índices

Uma característica fundamental de séries, é que séries têm índices.

> Um índice é um conjunto de valores que identificam cada linha

Se você não especificar nenhum índice, o `pandas` vai criar um índice para você, mas você ganha mais escolhendo um índice que faça sentido para você:

In [3]:
ingressos = pd.Series([132, 94, 112, 84, 254, 322, 472],
                     index=['Segunda','Terça','Quarta','Quinta','Sexta','Sábado','Domingo'])
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Podemos acessar os índices de uma série usando o método `.index`:

In [4]:
ingressos.index

Index(['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'], dtype='object')

Índices são propriedades das linhas. Eles ficam com as linhas, mesmo que a ordem das linhas mudem:

In [5]:
ingressos.sort_values()

Quinta      84
Terça       94
Quarta     112
Segunda    132
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Veja o que aconteceria, se eu não especificasse meus índices, e deixasse o `pandas` escolher um índice _default_ por mim:

In [6]:
outra_serie = pd.Series([10,15,9,12, 3,18,7])
outra_serie

0    10
1    15
2     9
3    12
4     3
5    18
6     7
dtype: int64

In [7]:
outra_serie.sort_values()

4     3
6     7
2     9
0    10
3    12
1    15
5    18
dtype: int64

## Filtrando uma série

Extrair um subconjunto de elementos de uma série é uma tarefa extremamente importante, especialmente quando trabalhamos com conjuntos de dados maiores (que estão no coração da ciência de dados). Esse processo — seja aplicado a uma Série ou a um DataFrame — é frequentemente referido como "tomar um subconjunto", ou "filtrar". Se há uma habilidade que você precisa dominar o mais rápido possível, é esta.

Em `pandas`, existem três maneiras de filtrar uma Série: 
* usando a **posição** das linhas que se deseja;
* usando **índices**;  
* usando uma **condição**.  

Eu costumo usar este último método mais, mas todos os três são úteis.

Antes de seguir, vamos lembrar da nossa série:

In [8]:
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

### Filtrando usando a posição das linhas

Usa-se o método `.iloc` (que significa _integer location_, já que posições sempre são números inteiros)

In [9]:
ingressos.iloc[1]

94

In [10]:
ingressos.iloc[2:5]

Quarta    112
Quinta     84
Sexta     254
dtype: int64

In [12]:
ingressos.iloc[3:]

Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

### Filtrando usando índices

Usa-se o método `.loc`

In [13]:
ingressos.loc['Domingo']

472

In [14]:
ingressos.loc['Segunda':'Quarta']

Segunda    132
Terça       94
Quarta     112
dtype: int64

Note que "Quarta" está incluído, ao contrário do que vínhamos observando com listas, tuplas ou quando filtramos com base na posição da linha.

### Filtrando usando uma condição

Aqui também se usa o método `.loc`

In [17]:
#Dias com muita venda de ingressos (mais de 100)
ingressos.loc[ingressos > 100]

Segunda    132
Quarta     112
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Condições podem ser mais sofisticadas:

In [18]:
#Entre 100 e 200
ingressos.loc[(ingressos > 100) & (ingressos < 200)] # E

Segunda    132
Quarta     112
dtype: int64

In [19]:
#Mais que 200 ou menos que 100
ingressos.loc[(ingressos > 200) | (ingressos < 100)] # OU

Terça       94
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

### Mais um jeito de filtrar séries..

Existe ainda um quarto jeito de se filtrar séries: usando apenas colchetes (`[]`), sem `.iloc` nem `.loc`.  Nesse caso, o `pandas` "advinha" o que você quer fazer e faz.

In [21]:
#passando números, ele entende que é a posição de uma linha, e se comporta como se fosse .iloc
ingressos[0:3]

Segunda    132
Terça       94
Quarta     112
dtype: int64

In [22]:
#passando strings, ele entende que é um índice, e se comporta como se fosse .loc
ingressos['Sexta':'Domingo']

Sexta      254
Sábado     322
Domingo    472
dtype: int64

In [23]:
#passando uma condição, ele entende que é uma condição, e se comporta como se fosse .loc
ingressos[ingressos > 100]

Segunda    132
Quarta     112
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Só tome cuidado que, quando seus índices são números inteiros, esse método entende que o número que você está passando é um índice, não o número da linha. Por exemplo:

In [24]:
ingressos_2 = pd.Series([132, 94, 112, 84, 254, 322, 474], index=[2,3,4,5,6, 7, 1])
ingressos_2

2    132
3     94
4    112
5     84
6    254
7    322
1    474
dtype: int64

In [26]:
#Pegar a segunda linha -- vai dar ruim!
ingressos_2[1]

474

In [27]:
#Se você usar .iloc, funciona!
ingressos_2.iloc[1]

94

In [28]:
#Pegue o primeiro elemento da série -- vai dar ruim de novo!
ingressos_2[0]

KeyError: 0

In [30]:
#Se usar .iloc, funciona
ingressos_2.iloc[0]

132

Se você não quiser incorrer nesse tipo de problema, você pode _sempre_ usar `.iloc` e `.loc`.  
Esses aí nunca dão problema.  

## Modificando uma série

In [31]:
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Ih, rapaz! Desculpa! A venda de Sábado não foi 322! Foi 32! Espero que o chefe não repare...

In [32]:
ingressos.loc['Sábado'] = 32
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado      32
Domingo    472
dtype: int64

## Tipos de Séries

![hogwarts-houses](https://ladygeekgirl.files.wordpress.com/2015/11/hogwarts-houses.jpg)

Antes de mergulharmos nas manipulações de Séries, é importante falar sobre tipos de dados. Cada Série, como veremos, tem um `dtype` (abreviação de _data type_). O `dtype` de uma série é importante de entender por que o `dtype` da Série determina quais manipulações você pode aplicar a essa série.

Existem dois tipos de Séries:

* Séries **numéricas** (`float64`, `int64`,...)
* Séries de **objeto** (`O`)

In [33]:
ingressos.dtype

dtype('int64')

In [34]:
alunos = pd.Series(['Harry Potter','Hermione','Ron'])
alunos.dtype

dtype('O')

É possível converter uma série de um tipo em outro:

In [35]:
notas_dos_alunos = pd.Series(['10.5', '10', '3'])
notas_dos_alunos

0    10.5
1      10
2       3
dtype: object

In [36]:
notas_dos_alunos = notas_dos_alunos.astype('float64')
notas_dos_alunos

0    10.5
1    10.0
2     3.0
dtype: float64

In [37]:
notas_dos_alunos = notas_dos_alunos.astype('int64')
notas_dos_alunos

0    10
1    10
2     3
dtype: int64

Algumas séries não podem ser convertidas:

In [38]:
alunos.astype('float64')

ValueError: could not convert string to float: 'Harry Potter'

## Matemática com Séries

Vamos lembrar nossa série original, do número de ingressos vendidos em cada dia da semana:

In [39]:
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado      32
Domingo    472
dtype: int64

Se cada ingresso custa $15, qual a receita auferida em cada dia?

In [40]:
receita = ingressos * 15
receita

Segunda    1980
Terça      1410
Quarta     1680
Quinta     1260
Sexta      3810
Sábado      480
Domingo    7080
dtype: int64

Receita total da semana?

In [41]:
receita.sum()

17700

Receita média diária?

In [42]:
receita.mean()

2528.5714285714284

Maior e menor receita diária:

In [43]:
receita.max()

7080

In [44]:
receita.min()

480

Resumão estatístico:

In [45]:
receita.describe()

count       7.000000
mean     2528.571429
std      2252.246498
min       480.000000
25%      1335.000000
50%      1680.000000
75%      2895.000000
max      7080.000000
dtype: float64

Quantas vezes cada valor aparece:

In [46]:
receita.value_counts()

3810    1
480     1
1260    1
7080    1
1980    1
1410    1
1680    1
dtype: int64

In [47]:
#Outro exemplo
colega_favorito = pd.Series(['Harry Potter', 'Harry Potter', 'Hermione','Harry Potter', 'Harry Potter', 'Hermione','Malfoy'])
colega_favorito.value_counts()

Harry Potter    4
Hermione        2
Malfoy          1
dtype: int64

In [48]:
colega_favorito.value_counts(normalize=True)

Harry Potter    0.571429
Hermione        0.285714
Malfoy          0.142857
dtype: float64

Essas são apenas alguns dos métodos que podemos aplicar a Séries. Para uma lista completa, veja a seção _methods_, na [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

## Fim! :)
![fim](https://i.ytimg.com/vi/QMMr_T4YXvU/maxresdefault.jpg)