# Pandas Series - CRUD

Uma série Pandas suporta as quatro operações **CRUD**: **C**reate, **R**ead, **U**pdate e **D**elete. É importante lembrar que no geral, objetos Pandas tendem a se comportar de uma maneira imutável, ou seja, embora sejam mutáveis, você normalmente não **update/atualiza** uma série. Ao invés disso, você executa uma operação que retorna uma nova Serie.

## Create

#### Criando uma série à partir de uma lista python

In [2]:
import pandas as pd

george_dupe = pd.Series(data=[10, 7, 1, 22],
                        index=['1968', '1969', '1970', '1970'],
                        name='George Songs')
george_dupe

1968    10
1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

- **data**: valores da série
- **index**: índices ou chaves da série
- **name**: nome da série

A série criada possui indexes representados por strings. Index em Pandas podem ter valores repetidos

#### Criando uma série à partir de um dicionário python

In [3]:
g2 = pd.Series({'1969': 7, '1970': [1, 22]},
               index=['1969', '1970', '1970'])
g2

1969          7
1970    [1, 22]
1970    [1, 22]
dtype: object

**Obs**: se um dicionário é usado, uma sequência adicional contendo a ordem dos *indexes* é obrigatória. Isso é necessário pois um dicionário não é ordenado

## Reading

Para ler ou selecionar dados de uma Série, basta utilizar o operador de índice []:

In [4]:
george_dupe['1968']

10

Normalmente essa operação retorna um escalar. Porém, no caso em que o index possui valores repetidos, o resultado será uma série.

In [5]:
george_dupe['1970']

1970     1
1970    22
Name: George Songs, dtype: int64

Podemos iterar sobre os dados de uma série. Nesse caso, iteramos sobre os valores da série.

In [6]:
for item in george_dupe:
    print(item)

10
7
1
22


Embora a *iteration* (percorrer todos os valores via método **__iter__ **) ocorra sobre os valores das séries, *membership* (verificar se um valor pertence a uma série utilizando o método **__contains__**) é sobre os índexes. Lists ou Dicts python não se comportam dessa maneira. Se você quiser saber se o valor '22' pertence a george_dupe, não caia na tentação de utilizar métodos tradicionais, como no exemplo abaixo:

In [7]:
22 in george_dupe

False

Para verificar se um elemento existe na série, converta a série para um Set. Ex:

In [8]:
22 in set(george_dupe)

True

Isso pode ser um problema, lembrar que a iteração é sobre os valores e *membership* é sobre os indexes da série:

In [9]:
'1970' in george_dupe  # verificando se a key '1970' existe

True

In [10]:
22 in george_dupe.values  # verificando se o valor 22 existe nos valores da série

True

Para iterar sobre tuplas contendo ambos o índice e o valor, utilizamos o método iteritems() conforme exemplo abaixo:

In [11]:
for key, value in george_dupe.iteritems():
    print(key, value)

1968 10
1969 7
1970 1
1970 22


### .iloc e .loc

- **iloc**: permite indexação baseada na posição
- **loc**: permite indexação baseada no label

**iloc** funciona de forma semelhante ao indexador **[]** do python e retorna um *IndexError* caso a posição não seja encontrada.

In [12]:
george_dupe.iloc[0]  # retorna elemento na posição 0

10

In [13]:
george_dupe.iloc[-1]  # retorna o elemento da última posição

22

É possível utilizar slices com iloc. Ex:

In [14]:
george_dupe.iloc[0:3]  # retorna os três primeiros items da Série

1968    10
1969     7
1970     1
Name: George Songs, dtype: int64

É possível também passar um lista contendo as posições desejadas. Ex:

In [15]:
george_dupe.iloc[[0,1]]  # retorna uma Série contendo os items das posições 0 e 1

1968    10
1969     7
Name: George Songs, dtype: int64

**loc** baseia-se nos indexes da Série e não em suas posições. É semelhante ao dicionário Python, porém, possui funcionalidades adicionais, tais como: boolean arrays, slices e lista de indexes/labels. Ex:

In [16]:
george_dupe.loc['1968']

10

Utilizando slices. Ex:

In [17]:
george_dupe.loc['1969':]  # retorna todos os ítems à partir do index '1969'

1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

Utilizando listas. Ex:

In [18]:
george_dupe.loc[['1968', '1970']]  # retorna uma Série contendo os valores dos indexes

1968    10
1970     1
1970    22
Name: George Songs, dtype: int64

### .iat e .at

Funcionam de forma semelhante a **iloc** e **loc**, porém, em caso de retornarem mais de um valor, retornam um Numpy array ao invés de uma Série Panda. Ex:

In [19]:
george_dupe.iat[0]

10

In [20]:
george_dupe.at['1970']

array([ 1, 22], dtype=int64)

### Utilizando getters

Os getters para Séries são listados abaixo:
- **get(label, [default])**: retorna um escalar ou série para label. Se não encontrar, retorna default.
- **get_value(label)**: retorna um escalar ou série para label.

In [21]:
george_dupe.get('2000', 0)  # retorna 0 caso o valor não esteja na série

0

In [22]:
george_dupe.get_value('1968')

10

### Dotted Attribute

Pandas possui outra forma de acessar um label, que é utilizando um nome de index como atributo de uma Série. O nome dessa propriedade em inglês é **dotted attribute**. Ex: 

In [23]:
songs_69 = pd.Series([18, 22, 7, 5],
                    index=['John', 'Paul', 'George', 'Ringo'],
                    name='Counts')

songs_69.John  # obs: só funciona com index do tipo string

18

## Update



Atualizar valores em uma série pode ser complicado. O operador de *atribuição/assign* **[]** é utilizado e a atulização ocorre *in-place*, ou seja, a série é alterada e a operação retorna **None**.

In [24]:
george_dupe

1968    10
1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

In [25]:
george_dupe['1969'] = 6
george_dupe

1968    10
1969     6
1970     1
1970    22
Name: George Songs, dtype: int64

O operador de *atribuição/assignment* também é utilizado para se inserir um novo registro na série.

In [26]:
george_dupe['1973'] = 11
george_dupe

1968    10
1969     6
1970     1
1970    22
1973    11
Name: George Songs, dtype: int64

Deve-se tomar cuidado ao atualizar ou inserir um novo registro, uma vez que perdemos os valores anteriores após uma atualização. Veja no exemplo abaixo o que acontece quando tentamos atualizar um index com valor duplicado.

In [27]:
george_dupe

1968    10
1969     6
1970     1
1970    22
1973    11
Name: George Songs, dtype: int64

In [28]:
george_dupe['1970'] = 2
george_dupe

1968    10
1969     6
1970     2
1970     2
1973    11
Name: George Songs, dtype: int64

Ambas as chaves com valores de '1970' foram atulizadas. Para resolver esse problema seria necessário utilizar multi-index ou atualizar o valor pela posição, utilizando a função iloc[pos]. Ex:

In [29]:
george_dupe.iloc[3] = 22
george_dupe

1968    10
1969     6
1970     2
1970    22
1973    11
Name: George Songs, dtype: int64

**Obs**: existe um método *append* na classe *Series*, mas o mesmo não se comporta como o método *append* de uma lista Python. Esse método da classe Pandas recebe uma Serie como parâmetro e funciona de forma semelhante ao método *extend* de uma lista Python. Ex:

In [30]:
george_dupe.append(pd.Series({'1974': 9}))

1968    10
1969     6
1970     2
1970    22
1973    11
1974     9
dtype: int64

Esse método mantém a série original intacta e retorna uma nova série. A nova série não recebe o nome da série original.

O método **set_value(index, value)** atualiza o valor de uma série e retorna a mesma, ou seja, a atualização é realizada *in place*. Ex:

In [31]:
george_dupe.set_value('1974', 9)

1968    10
1969     6
1970     2
1970    22
1973    11
1974     9
Name: George Songs, dtype: int64

**Obs**: O método **set_value** atualiza todos os valores em caso de index repetido. Se você quer atualizar somente um valor, é necessário utilizar métodos que indexam por posição, como o **iloc**.

## Delete

A operação de *delete* não é comum em Pandas. O mais correto é utilizar filtros ou máscaras para criar uma nova série que contenham somente os items que você quer. Entretanto, caso se desejar apagar valores de uma série, podemos fazer utilizando o operador de *index*.

In [32]:
del george_dupe['1973']
george_dupe

1968    10
1969     6
1970     2
1970    22
1974     9
Name: George Songs, dtype: int64

A forma mais correta de se remover valores de uma série é utilizando filtros. O exemplo abaixo mostra um filtro básico que retorna todos os valores <= 2. O exemplo abaixo usa um *boolean array inlined* no operador de index. Essa é uma operação comum em *Numpy* que não existe em Python puro.

In [33]:
george_dupe[george_dupe <= 2]

1970    2
Name: George Songs, dtype: int64

# Indexando Séries

Como ilustrado nos exemplos anteriores, um index não precisa ser um número. No exemplo abaixo utilizamos strings como indexes:

In [34]:
george = pd.Series([10,7],
                  index=['1968', '1969'],
                  name='George Songs')
george

1968    10
1969     7
Name: George Songs, dtype: int64

A propriedade *index* informa o tipo de valor dos indexes de uma série e seus valores. No caso de strings, Pandas informa que o index é do tipo *object*.

In [35]:
george.index

Index(['1968', '1969'], dtype='object')

Indexes não precisam ser únicos. Para determinar se um index é repetido, utilize a propriedade *is_unique* na propriedade *index*. Ex:

In [36]:
dupe = pd.Series([10, 2, 7],
                index=['1968', '1968', '1969'],
                name='George Songs')

dupe.index.is_unique

False

In [37]:
george.index.is_unique

True

As regras de indexação no Pandas são confusas. Se uma série possui strings como indexes, então é possível acessar a série tanto pelo index quando  pelo operador de indexação do Python utlizando todas as suas propriedades. Ex:

In [38]:
george

1968    10
1969     7
Name: George Songs, dtype: int64

In [39]:
george[0]    # retorna valor na posição 0

10

In [40]:
george[-1]   # retorna o último valor de george

7

In [41]:
george['1968']   # retorna valor cujo index é '1968'

10

**Obs**: Caso o index de uma série seja um *int*, não será possível utilizar o operador de indexação do Python e uma excessão será gerada. Ex:

In [42]:
george_i = pd.Series([10, 7],
                    index=[1968, 1969],
                    name='George songs')
george_i[-1]

KeyError: -1

### Boolean arrays

Um slice que utiliza o resultado de uma operação booleana é chamado de *boolean array*. Abaixo um *boolean array* é atribuido a variável mask

In [43]:
mask = george_dupe > 7
mask

1968     True
1969    False
1970    False
1970     True
1974     True
Name: George Songs, dtype: bool

Pegar uma série e aplicar uma operação para cada valor da mesma é conhecido como *broadcasting*. A operação de maior (>) é aplicada para cada entrada da Série e o resultado é uma nova série com o resultado dessa operação. Como o operador > retorna um booleano para cada valor da Série, o resultado final é uma Série com os mesmos indexes da série original, mas com os valores sendo *True* ou *False*. 

## Métodos de Séries

No geral, métodos de séries retornam uma nova Série e a maioria desses métodos possuem um parâmetro ** *inplace* ** ou ** *copy* **. Isso porque Pandas preza pela imutabilidade dos dados e esses parâmetro permitem realizar a operação no próprio conjunto de dados ou copiar os mesmos. Os valores padrão são: *inplace=False* e *copy=True*.

In [44]:
# conjunto de dados utilizado nos próximos exemplos
songs_66 = pd.Series([3, None, 11, 9],
                    index=['George', 'Ringo', 'John', 'Paul'],
                    name='Counts')

songs_69 = pd.Series([18, 22, 7, 5],
                    index=['John', 'Paul', 'George', 'Ringo'],
                    name='Counts')

### Sobracarga de Operadores

As operações abaixo sempre retornam uma Série e podem ser utilizadas tanto com valores escalares como com outras Séries.
- +: soma 
- -: subtração
- /: divisão
- //: *floor*
- %: resto da divisão
- *: multiplicação
- ==, !=: igualdade
- \>, <, >=, <=: maior\menor\maior ou igual\menor ou igual
- ^: XOR
- |: OR
- &: AND

In [45]:
# Exemplo de soma com escalar. Sintaxe é a mesma para outros operadores
songs_66 + 2

George     5.0
Ringo      NaN
John      13.0
Paul      11.0
Name: Counts, dtype: float64

In [46]:
# Exemplo de soma de Séries. Sintaxe é a mesma para outros operadores
songs_66 + songs_69

George    10.0
John      29.0
Paul      31.0
Ringo      NaN
Name: Counts, dtype: float64

**OBS**: O resultado da soma acima pode ser problemático pois o mesmo deve ser conhecido. É preciso trocar os valores NaN por valores numéricos para que a operação retorne um valor útil. Para isso utiliza-se a função ** *fillna(valor)* **. Ex:

In [47]:
songs_66.fillna(0) + songs_69.fillna(0)

George    10.0
John      29.0
Paul      31.0
Ringo      5.0
Name: Counts, dtype: float64

### Resetando Index

O método **reset_index()** resetará os indexes para uma sequência de valores inteiros iniciando em zero. Esse método retorna um DataFrame por padrão (não uma série) e move os valores originais de index para uma coluna chamada index. Ex:

In [48]:
songs_66.reset_index()

Unnamed: 0,index,Counts
0,George,3.0
1,Ringo,
2,John,11.0
3,Paul,9.0


Para retornar uma série e não criar a coluna index, utilizamos o parâmetro ** *drop=True* **. Ex:

In [49]:
songs_66.reset_index(drop=True)

0     3.0
1     NaN
2    11.0
3     9.0
Name: Counts, dtype: float64

Se uma ordenação específica para os indexes é desejada, utiliza-se o método **reindex**. A nova série respeitará essa nova ordem e novos valores de indexes receberão o valor do parâmetro opcional ** *fill_value* **, cujo valor padrão é NaN. Ex:

In [50]:
songs_66.reindex(['Billy', 'Eric', 'George', 'Yoko'])

Billy     NaN
Eric      NaN
George    3.0
Yoko      NaN
Name: Counts, dtype: float64

In [51]:
songs_66.reindex(['Billy', 'Eric', 'George', 'Yoko'], fill_value=0)

Billy     0.0
Eric      0.0
George    3.0
Yoko      0.0
Name: Counts, dtype: float64

É possível atualizar valores de index utilizando a função **rename**. Essa função aceita tanto um dicionário quanto uma função que receba um label e retorne outro. Ex:

In [52]:
songs_66.rename({'Ringo': 'Richard'})

George      3.0
Richard     NaN
John       11.0
Paul        9.0
Name: Counts, dtype: float64

In [53]:
songs_66.rename(lambda x: x.upper())

GEORGE     3.0
RINGO      NaN
JOHN      11.0
PAUL       9.0
Name: Counts, dtype: float64

### Counts

Nessa seção as séries utlizadas para os exemplos serão as seguintes:

In [54]:
songs_66 = pd.Series([3, None, 11, 9],
                    index=['George', 'Ringo', 'John', 'Paul'],
                    name='Counts')
songs_66

George     3.0
Ringo      NaN
John      11.0
Paul       9.0
Name: Counts, dtype: float64

In [55]:
scores2 = pd.Series([67.3, 100, 96.7, None, 100],
                    index=['Ringo', 'Paul', 'George', 'Peter', 'Billy'],
                    name='test2')
scores2

Ringo      67.3
Paul      100.0
George     96.7
Peter       NaN
Billy     100.0
Name: test2, dtype: float64

**count()**: retorna o total de valores não nulos

In [56]:
scores2.count()

4

**value_counts()**: histograma dos valores não nulos.

In [57]:
scores2.value_counts()

100.0    2
96.7     1
67.3     1
Name: test2, dtype: int64

**unique()**: retorna série com todos os valores, sem cópia. (considera Nan como valor)

In [58]:
scores2.unique()

array([  67.3,  100. ,   96.7,    nan])

**nunique()**: retorna a quantidade de valores não repetidos. (não considera Nan como valor).

In [59]:
scores2.nunique()

3

**drop_duplicates()**: retorna a série sem valores duplicados

In [60]:
scores2.drop_duplicates()  ## Paul e Billy tem o mesmo valor. Somente Paul retornou

Ringo      67.3
Paul      100.0
George     96.7
Peter       NaN
Name: test2, dtype: float64

**duplicated**: retorna ** *boolean mask* ** informando se o valor é repetido

In [61]:
scores2.duplicated()

Ringo     False
Paul      False
George    False
Peter     False
Billy      True
Name: test2, dtype: bool

## Estatística

In [62]:
songs_66  # essa será a série utilizada para os exemplos dessa seção

George     3.0
Ringo      NaN
John      11.0
Paul       9.0
Name: Counts, dtype: float64

In [63]:
songs_66.sum()  # retorna a soma de todos os valores da série

23.0

**Obs**: Os métodos *mean()* e *median()* ignoram valores NaN, a menos que a *flag* skipna seja falso.

In [64]:
songs_66.mean()  # Calcula a media da série, ignorando NaN's

7.666666666666667

In [65]:
songs_66.median()  # Calcula a mediana da série, ignorando NaN's

9.0

Medidas de quartis (quantile) podem ser usadas para prever 50% do valor (default) ou qualquer nivel desejado, tais como 10% e 90%. O cálculo padrão do quartil deve ser muito similar ao da mediana. Ex:

In [66]:
songs_66.quantile()

9.0

In [67]:
songs_66.quantile(0.1)

4.2

In [68]:
songs_66.quantile(0.9)

10.6

O método ** *describe* ** fornece informações gerais sobre a série. Ex:

In [69]:
songs_66.describe()

count     3.000000
mean      7.666667
std       4.163332
min       3.000000
25%       6.000000
50%       9.000000
75%      10.000000
max      11.000000
Name: Counts, dtype: float64

**min()**: retorna o valor mínimo da série

In [70]:
songs_66.min()

3.0

**max()**: retorna o valor máximo da série

In [71]:
songs_66.max()

11.0

**idxmin()**: retorna o index do valor mínimo da série

In [72]:
songs_66.idxmin()

'George'

**idxmax()**: retorna o index do valor máximo da série

In [73]:
songs_66.idxmax()

'John'

**var()**: retorna a variância

In [74]:
songs_66.var()

17.333333333333336

**std()**: retorna do desvio padrão

In [75]:
songs_66.std()

4.163331998932266

**mad()**: Retorna o desvio médio absoluto (mean absolute deviation)

In [76]:
songs_66.mad()

3.1111111111111107

**skew()**: Mede a assimetria de uma amostra. Uma distribuição normal deve possuir um valor de *skewness/assímetria* próximo de zero. Skew negativo indica que a cauda esquerda é mais longa, enquanto que um valor positivo de skew indica que a cauda direita é maior. Ex:

In [77]:
songs_66.skew()

-1.293342780733397

**kurt()**: A kurtosis/curtose caracteriza o achatamento da curva. Valores de curtose igual a zero indicam um achatamento similar ao da distribuição normal. Quanto maior for o valor da Curtose, mais estreita será a curva, enquanto que valores menores do que zero indicam que a curva é mais achatada. Ex:

In [78]:
songs_66.kurt()  # retorna NaN se a quantidade de valores for menor do que 4

nan

**Covariancia** quanto duas variáveis variam juntas. Se elas tendem a crescer juntos, então o valor de covariância será positivo. Se um tende a crescer enquanto outra tende a diminuir, então o valor será negativo. Ex:

In [79]:
songs_66.cov(songs_69)

28.333333333333332

Quando a covariancia é normalizada (dividindo pelo desvio padrão das duas séries), temos o **Coeficiente de Correlação**. O método **.corr** fornece o *Coeficiente de Correlação de Pearson*. Quanto mais positivo for o valor, maior é a correlação. Quanto mais negativo for o número, maior é a correlação inversa. Um valor zero indica correlação nenhuma. Ex:

In [80]:
songs_66.corr(songs_69)

0.87614899364978049

A **autocorrelação** descreve a correlação da série com ela mesma, deslocada uma posição, 1 indica correlação perfeita e -1 indica anti-correlação. O método *autocorr* não ignora NaN por padrão. Ex:

In [81]:
songs_69.autocorr()

0.36256050013307589

#### Métodos Cumulativos
- cumsum(): soma cumulativa
- cumprod(): multiplicação cumulativa
- cummin(): mínimo cumulativo

In [82]:
songs_66.cumsum()

George     3.0
Ringo      NaN
John      14.0
Paul      23.0
Name: Counts, dtype: float64

In [83]:
songs_66.cumprod()

George      3.0
Ringo       NaN
John       33.0
Paul      297.0
Name: Counts, dtype: float64

In [84]:
songs_66.cummin()

George    3.0
Ringo     NaN
John      3.0
Paul      3.0
Name: Counts, dtype: float64

### Conversão de Tipos

In [85]:
scores2

Ringo      67.3
Paul      100.0
George     96.7
Peter       NaN
Billy     100.0
Name: test2, dtype: float64

In [86]:
scores2.round()  # arredonda números para o float mais próximo

Ringo      67.0
Paul      100.0
George     97.0
Peter       NaN
Billy     100.0
Name: test2, dtype: float64

In [91]:
scores2.clip(lower=80, upper=90)  # define o limite inferior como lower e o superior como upper

Ringo     80.0
Paul      90.0
George    90.0
Peter      NaN
Billy     90.0
Name: test2, dtype: float64

In [92]:
scores2.astype(str)  # converte os dados da série para o tipo desejado. OBS: verficar dtype da série de saída

Ringo      67.3
Paul      100.0
George     96.7
Peter       nan
Billy     100.0
Name: test2, dtype: object

Alguns tipos de conversões:
    - .astype(str): converte para String
    - pd.to_numeric(serie): converte para o tipo *numeric*
    - .astype(int): converte para *int*
    - pd.to_numeric(serie): converte para datetime

**OBS**: por padrão, funções do tipo *to_...* lançam uma exceção caso não consigam realizar a conversão