<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : Pandas - Séries.

## Series

<a id="section_intro"></a> 
###  Intro

Uma [série](https://pandas.pydata.org/pandas-docs/stable/reference/series.html) é um objeto semelhante a um vetor **unidimensional**.

Ele contém um [**arranjo de valores**](https://towardsdatascience.com/a-practical-introduction-to-pandas-series-9915521cdc69) (que neste caso são Cachorro, Urso, Girafa, ...) e uma [**arranjo de rótulos**](https://towardsdatascience.com/pandas-series-dataframe-explained-a178f9748d46) associada a esses valores, denominado **índice**, que neste caso são numéricos: $0, 1, 2, \dots$.

Quando não especificamos um índice para os dados, um índice que consiste em valores inteiros de $0$ a $N - 1$ é atribuído por padrão, onde $N$ é o número de valores na série.

Os valores da [série](https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1) podem ser de qualquer tipo de dados, mas ** todos os valores de uma série devem corresponder ao seu tipo**.

Os [rótulos](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html), além de numéricos, também podem ser do tipo sequência de caracteres.

Uma [série](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) também pode ser considerada um **dicionário de tamanho fixo** com suas chaves numéricas (Índice) ordenadas.

Como os arranjos `NumPy`, eles permitem que você passe uma ** lista de elementos (índices) para selecionar um subconjunto ** de valores.


<img src='img/Matriz.png' align='center' width=40%/>

Então, qual é a diferênça entre uma série de pandas e uma instância unidimensional de arranjo numpy?

In [1]:
import numpy as np
import pandas as pd

<a id="section_series"></a> 
## Objetos `Series` en Pandas

- Pode ser considerado um arranjo unidimensional indexado.
- Pode ser criado a partir de uma lista:

In [2]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Os valores da série são obtidos com:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

O índice da série é obtido com:

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Podemos acessar os valores dos elementos de uma série usando o índice associado a esses elementos, de forma semelhante aos arranjos `Numpy`: com o `[]`

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

<a id="section_series_array_numpy"></a> 
### `Series` como generalização de um arranjo de NumPy 

- A diferença essencial com um arranjo `Numpy` é que o arranjo tem um índice inteiro **definido implicitamente**, enquanto um objeto `Series` no Pandas tem um índice associado aos valores **que é explicitamente definido**.

- O índice explícito não precisa ser do tipo inteiro e **seus valores podem não ser únicos**, ou seja, deve haver repetições.

Vamos criar uma instância de `Series`:

In [7]:
valores =   [0.25, 0.5 , 0.75, 1.0]

etiquetas = ['a' , 'b' , 'c' , 'd']
etiquetas_num = [2, 5, 3, 1]

data1 = pd.Series(valores, index = etiquetas)
data2 = pd.Series(valores, index = etiquetas_num)

print(data1)
print(data2)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
2    0.25
5    0.50
3    0.75
1    1.00
dtype: float64


Vejamos o valor do segundo elemento usando seu rótulo:

In [8]:
print(data1['b'])
print(data2[5])

0.5
0.5


E repitimos usando sua posição:

In [9]:
print(data1[1])
print(data2[1])

0.5
1.0


- Esperábamos que `print(data2[1])`devolviera `0.50` que es el segundo elementos de data2
- Esperávamos que `print (data2 [1])` retornasse `0,50`, que é o segundo elemento de `data2`
- O que aconteceu? O que fizemos de errado? Como esse problema é resolvido?

Vamos agora ver as propriedades `loc` e` iloc`

[`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) recebe a posição como parâmetro e [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) recebe o rótulo como parâmetro.

Como um auxílio à memória, vamos pensar em `iloc` como uma localização de inteiros, indexamos com inteiros que representam a posição.

Vamos ver então o que obtemos como o segundo elemento com estas propriedades:

In [10]:
print(data1.iloc[1])
print(data2.iloc[1])

0.5
0.5


In [11]:
print(data1.loc['b'])
print(data2.loc[5])

0.5
0.5


<a id="section_series_dict"></a> 
### `Series` como um `dict` especializado

Os [dicionários](https://docs.python.org/3/tutorial/datastructures.html#dictionaries) às vezes são encontrados em outras línguas como “memórias associativas” ou “matrizes associativas”. Ao contrário das sequências, que são indexadas por um intervalo de números, os dicionários são indexados por chaves, que podem ser de qualquer tipo imutável; strings e números sempre podem ser chaves.

Um `dict` é uma [estrutura de dados](https://realpython.com/python-dicts/) que mapeia um conjunto de chaves arbitrárias para um conjunto de valores. A analogia entre uma instância de `Series` e uma de` dict` é imediata. Uma instância de `Series` pode ser criada a partir de um` dict` onde as chaves do dicionário serão o índice da instância de Series.

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135
                  }

population = pd.Series(population_dict)

print('instancia de diccionario: ')
print(population_dict)
print('---')
print('instancia de series: ')
print(population)

instancia de diccionario: 
{'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}
---
instancia de series: 
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


Vejamos o valor da população na Califórnia com a mesma sintaxe para `Series` e` dict`:

In [13]:
print(population['California'])
print(population_dict['California'])

38332521
38332521


- Ao contrário de um `dict`, uma instância da` Series` suporta algumas operações no estilo arranjo `Numpy`, como o fatiamento (slicing).

- Lembra-se do que ocorre com os limites do fatiamento em arranjos?

- Vejamos um exemplo de fatiamento em uma instância de Series (observe que, neste caso, o `endpoint` é inclusivo):    

In [14]:
population['California' : 'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

Se usarmos o índice implícito, o `endpoint` **não** é incluído no corte:

In [15]:
population[0 : 3]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

Outro exemplo:

In [16]:
states_list = ['Illinois', 
               'Texas', 
               'New York', 
               'Florida', 
               'California'
              ]

states_pop = [12882135, 
              26448193, 
              19651127, 
              19552860, 
              38332521
             ]

states = pd.Series(states_pop, 
                   index = states_list
                  )

states['Illinois' : 'New York']

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

<a id="section_constructor"></a> 
## Construtor


As [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) em pandas são arranjos unidimensionais com rótulos de eixo (incluindo séries temporais). Os rótulos não precisam ser exclusivos, mas devem ser do tipo [hashable](https://www.pythonforthelab.com/blog/what-are-hashable-objects/). O objeto suporta indexação baseada em inteiros e rótulos e fornece uma série de métodos para executar operações envolvendo o índice.

Podemos construir instâncias de `Series` a partir de:

1) Um [arranjo](https://www.geeksforgeeks.org/creating-a-pandas-series-from-lists/) de `Numpy`:

In [17]:
pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

2) Um [escalar](https://www.geeksforgeeks.org/creating-a-pandas-series/) repetido ao longo de um índice:

In [18]:
pd.Series(5, index = [100, 200, 300]) 

100    5
200    5
300    5
dtype: int64

3) un [dicionário](https://www.geeksforgeeks.org/creating-a-pandas-series-from-dictionary/):

In [19]:
pd.Series({2 : 'a', 1 : 'b', 3 : 'c'}) 

2    a
1    b
3    c
dtype: object

E em todos os casos, um índice definido explicitamente pode ser usado:

In [20]:
pd.Series([2, 4, 6], index = [3, 2, 2])

3    2
2    4
2    6
dtype: int64

In [21]:
tmp = pd.Series({2 : 'a', 1 : 'b', 3 : 'c'},  index = [3, 2, 2, 1]) 

Quantos itens eu recebo se indexar este objeto com o índice 2?

In [22]:
pd.Series({2 : 'a', 1 : 'b', 3 : 'c'}, index = [3, 2, 2, 2, 2, 3, 1]) 

3    c
2    a
2    a
2    a
2    a
3    c
1    b
dtype: object

<a id="section_selection"></a> 
## Seleção de dados em série

Vamos ver agora diferentes maneiras de selecionar elementos em instâncias de `Series`

Vamos começar criando o objeto `data`:

In [23]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index = ['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### `Series` como dicionários

Se pensarmos nas instâncias de `Series` como dicionários, podemos usar expressões semelhantes às usadas em `dicts` para examinar chaves e valores:

In [24]:
'b' in data

True

**`'b' in data`** é equivalente à **`'b' in data.keys()`**:

In [25]:
'b' in data.keys()

True

In [26]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

**`data.keys()`** é equivalente a **`data.index`**:

In [27]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [28]:
data.keys() is data.index

True

In [29]:
data.keys() == data.index

array([ True,  True,  True,  True])

In [30]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Como em um dicionário, podemos estender uma instância de Series definindo uma nova chave e atribuindo a ela um novo valor:

In [31]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como arranjo de una dimensão

Uma instância de `Series` provê uma maneira de selecionar dados análoga a dos arranjos. Podemos usar `_slices_`, `_masking_` e `_fancy indexing_`.

#### Slicing explícito

Quando fazemos o fatiamento explícito (`data ['a': 'c']`), o índice final é incluído.

In [32]:
data['a' : 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

#### Slicing implícito por posição (inteiros)

Quando fazemos o fatiamento implícito (`dados [0 : 2]`), o índice final **NÃO** é incluído.

In [33]:
data[0 : 2]

a    0.25
b    0.50
dtype: float64

#### Boolean masking:

In [34]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

#### Fancy indexing:

In [35]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [36]:
data[['a', 'e', 'e', 'b']]

a    0.25
e    1.25
e    1.25
b    0.50
dtype: float64

<a id="section_reindexing"></a> 
##  Reindexing

Este [método](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.reindex.html) permite que você crie uma nova instância de `Series` com o índice e o método de "preenchimento" especificados como parâmetros.

In [37]:
data2 = data.reindex(['d', 'b', 'a', 'c','d', 'b', 'a', 'c', 'e', 'e']) 

print(data)

print(data2)

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
d    1.00
b    0.50
a    0.25
c    0.75
d    1.00
b    0.50
a    0.25
c    0.75
e    1.25
e    1.25
dtype: float64


`ffill` copia la última observación válida hasta que encuentra una nueva observación válida:

In [38]:
data3 = data.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], method = 'ffill') 

print(data)

print(data3)

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
f    1.25
g    1.25
dtype: float64


<a id="section_loc_iloc"></a> 
##  Indexers: loc e iloc

[`loc`](https://pandas.pydata.org/docs/reference/api/pandas.Series.loc.html) e [`iloc`](pandas.pydata.org/docs/reference/api/pandas.Series.iloc.html#pandas-series-iloc) são propriedades que nos permitem acessar os elementos de uma instância de `Series` por localização ou valor do índice:

### loc

[Acessamos](https://www.marsja.se/how-to-use-iloc-and-loc-for-indexing-and-slicing-pandas-dataframes/) um grupo de elementos por rótulo(s) ou arranjo de booleanos

In [39]:
data.loc['a']

0.25

In [40]:
data.loc['a' : 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [41]:
filtro = [True, False, False, True, False]
print(data)
print(data.loc[filtro])

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
a    0.25
d    1.00
dtype: float64


- O que acontece se o filtro tiver mais elementos do que o número de linhas de dados?
- O que acontecerá se o filtro tiver menos elementos do que o número de linhas de dados

### iloc

[Acessamos](https://towardsdatascience.com/how-to-use-loc-and-iloc-for-selecting-data-in-pandas-bd09cb4c3d79) um grupo de elementos apenas por posição (números inteiros).

In [42]:
data.iloc[1]

0.5

In [43]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

In [44]:
posiciones = [0, 2, 4]
data.iloc[posiciones]

a    0.25
c    0.75
e    1.25
dtype: float64