# Séries

## DataFrames e Séries

DataFrames são a estrutura de dados mais amplamente utilizada. Eles são uma tabela, onde cada linha representa uma "coisa" e cada coluna representa uma característica dessa coisa. 

![tabela](https://gonehybrid.com/content/images/2017/02/table.png)

Antes de aprendermos a manipular DataFrames, é útil aprendermos a manipular _uma coluna_ de um DataFrame. Uma coluna de um DataFrame é uma Série.

Hoje, vamos falar sobre séries.

## Importando o pandas

Em Python, para trabalharmos com séries e dataframes, precisamos importar um pacote chamado `pandas`:

![pandas](http://www.cutenessoverflow.com/wp-content/uploads/2016/08/Pandas-Eyes.jpg)

In [2]:
import pandas as pd

Existem várias formas de se criar uma série. Quase sempre, nós estaremos trabalhando com um DataFrame, não com uma série. Por isso, para fins didáticos, vamos criar uma série manualmente: o número de bilhetes vendidos para o campeonato de quadribol em cada dia da semana.

![quadribol](https://www.nme.com/wp-content/uploads/2016/11/HarryPotterQuidditch.png)


| Dia da semana | Ingressos vendidos |
|---------------|--------------------|
| Segunda       | 132                |
| Terça         | 94                 |
| Quarta        | 112                |
| Quinta        | 84                 |
| Sexta         | 254                |
| Sábado        | 322                |
| Domingo       | 472                |

In [3]:
ingressos = pd.Series([132, 94, 112, 84, 254, 322, 472])
ingressos

0    132
1     94
2    112
3     84
4    254
5    322
6    472
dtype: int64

## Índices

Uma característica fundamental de séries, é que séries têm índices.

> Um índice é um conjunto de valores que identificam cada linha

Se você não especificar nenhum índice, o `pandas` vai criar um índice para você, mas você ganha mais escolhendo um índice que faça sentido para você:

In [4]:
ingressos = pd.Series([132, 94, 112, 84, 254, 322, 472],
                     index=['Segunda','Terça','Quarta','Quinta','Sexta','Sábado','Domingo'])
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Podemos acessar os índices de uma série usando o método `.index`:

In [5]:
ingressos.index

Index(['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'], dtype='object')

Índices são propriedades das linhas. Eles ficam com as linhas, mesmo que a ordem das linhas mudem:

In [6]:
ingressos.sort_values()

Quinta      84
Terça       94
Quarta     112
Segunda    132
Sexta      254
Sábado     322
Domingo    472
dtype: int64

Veja o que aconteceria, se eu não especificasse meus índices, e deixasse o `pandas` escolher um índice _default_ por mim:

In [7]:
outra_serie = pd.Series([10,15,9,12, 3,18,7])
outra_serie

0    10
1    15
2     9
3    12
4     3
5    18
6     7
dtype: int64

In [8]:
outra_serie.sort_values()

4     3
6     7
2     9
0    10
3    12
1    15
5    18
dtype: int64

## Filtrando uma série

Extrair um subconjunto de elementos de uma série é uma tarefa extremamente importante, especialmente quando trabalhamos com conjuntos de dados maiores (que estão no coração da ciência de dados). Esse processo — seja aplicado a uma Série ou a um DataFrame — é frequentemente referido como "tomar um subconjunto", ou "filtrar". Se há uma habilidade que você precisa dominar o mais rápido possível, é esta.

Em `pandas`, existem três maneiras de filtrar uma Série: 
* usando a **posição** das linhas que se deseja;
* usando **índices**;  
* usando uma **condição**.  

Eu costumo usar este último método mais, mas todos os três são úteis.

Antes de seguir, vamos lembrar da nossa série:

In [9]:
ingressos

Segunda    132
Terça       94
Quarta     112
Quinta      84
Sexta      254
Sábado     322
Domingo    472
dtype: int64

### Filtrando usando a posição das linhas

Usa-se o método `.iloc` (que significa _integer location_, já que posições sempre são números inteiros)

In [10]:
ingressos.iloc[1]

94

In [11]:
ingressos.iloc[2:5]

Quarta    112
Quinta     84
Sexta     254
dtype: int64

In [None]:
ingressos.iloc[:3]

### Filtrando usando índices

Usa-se o método `.loc`

In [None]:
ingressos.loc['Domingo']

In [None]:
ingressos.loc['Segunda':'Quarta']

Note que "Quarta" está incluído, ao contrário do que vínhamos observando com listas, tuplas ou quando filtramos com base na posição da linha.

### Filtrando usando uma condição

Aqui também se usa o método `.loc`

In [None]:
#Dias com muita venda de ingressos (mais de 100)
ingressos.loc[ingressos > 100]

Condições podem ser mais sofisticadas:

In [None]:
#Entre 100 e 200
ingressos.loc[(ingressos > 100) & (ingressos < 200)] # E

In [None]:
#Mais que 200 ou menos que 100
ingressos.loc[(ingressos > 200) | (ingressos < 100)] # OU

### Mais um jeito de filtrar séries..

Existe ainda um quarto jeito de se filtrar séries: usando apenas colchetes (`[]`), sem `.iloc` nem `.loc`.  Nesse caso, o `pandas` "advinha" o que você quer fazer e faz.

In [None]:
#passando números, ele entende que é a posição de uma linha, e se comporta como se fosse .iloc
ingressos[0:3]

In [None]:
#passando strings, ele entende que é um índice, e se comporta como se fosse .loc
ingressos['Sexta':'Domingo']

In [None]:
#passando uma condição, ele entende que é uma condição, e se comporta como se fosse .loc
ingressos[ingressos > 100]

Só tome cuidado que, quando seus índices são números inteiros, esse método entende que o número que você está passando é um índice, não o número da linha. Por exemplo:

In [None]:
ingressos_2 = pd.Series([132, 94, 112, 84, 254, 322, 474], index=[2,3,4,5,6, 7, 1])
ingressos_2

In [None]:
#Pegar a segunda linha -- vai dar ruim!
ingressos_2[1]

In [None]:
#Se você usar .iloc, funciona!
ingressos_2.iloc[1]

In [None]:
#Pegue o primeiro elemento da série -- vai dar ruim de novo!
ingressos_2[0]

In [None]:
#Se usar .iloc, funciona
ingressos_dia_de_semana.iloc[0]

Se você não quiser incorrer nesse tipo de problema, você pode _sempre_ usar `.iloc` e `.loc`.  
Esses aí nunca dão problema.  

## Modificando uma série

In [None]:
ingressos

Ih, rapaz! Desculpa! A venda de Sábado não foi 322! Foi 32! Espero que o chefe não repare...

In [None]:
ingressos.loc['Sábado'] = 32
ingressos

## Tipos de Séries

![hogwarts-houses](https://ladygeekgirl.files.wordpress.com/2015/11/hogwarts-houses.jpg)

Antes de mergulharmos nas manipulações de Séries, é importante falar sobre tipos de dados. Cada Série, como veremos, tem um `dtype` (abreviação de _data type_). O `dtype` de uma série é importante de entender por que o `dtype` da Série determina quais manipulações você pode aplicar a essa série.

Existem dois tipos de Séries:

* Séries **numéricas** (`float64`, `int64`,...)
* Séries de **objeto** (`O`)

In [None]:
ingressos.dtype

In [None]:
alunos = pd.Series(['Harry Potter','Hermione','Ron'])
alunos.dtype

É possível converter uma série de um tipo em outro:

In [None]:
notas_dos_alunos = pd.Series(['10.5', '10', '3'])
notas_dos_alunos

In [None]:
notas_dos_alunos = notas_dos_alunos.astype('float64')
notas_dos_alunos

In [None]:
notas_dos_alunos = notas_dos_alunos.astype('int64')
notas_dos_alunos

Algumas séries não podem ser convertidas:

In [None]:
alunos.astype('float64')

## Matemática com Séries

Vamos lembrar nossa série original, do número de ingressos vendidos em cada dia da semana:

In [None]:
ingressos

Se cada ingresso custa $15, qual a receita auferida em cada dia?

In [None]:
receita = ingressos * 15
receita

Receita total da semana?

In [None]:
receita.sum()

Receita média diária?

In [None]:
receita.mean()

Maior e menor receita diária:

In [None]:
receita.max()

In [None]:
receita.min()

Resumão estatístico:

In [None]:
receita.describe()

Quantas vezes cada valor aparece:

In [None]:
receita.value_counts()

In [None]:
#Outro exemplo
colega_favorito = pd.Series(['Harry Potter', 'Harry Potter', 'Hermione','Harry Potter', 'Harry Potter', 'Hermione','Malfoy'])
colega_favorito.value_counts()

In [None]:
colega_favorito.value_counts(normalize=True)

Essas são apenas alguns dos métodos que podemos aplicar a Séries. Para uma lista completa, veja a seção _methods_, na [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

## Fim! :)
![fim](https://i.ytimg.com/vi/QMMr_T4YXvU/maxresdefault.jpg)