# Pandas Series - CRUD

Uma série Pandas suporta as quatro operações **CRUD**: **C**reate, **R**ead, **U**pdate e **D**elete. É importante lembrar que no geral, objetos Pandas tendem a se comportar de uma maneira imutável, ou seja, embora sejam mutáveis, você normalmente não **update/atualiza** uma série. Ao invés disso, você executa uma operação que retorna uma nova Serie.

## Create

#### Criando uma série à partir de uma python list

In [4]:
import pandas as pd

george_dupe = pd.Series(data=[10, 7, 1, 22],
                        index=['1968', '1969', '1970', '1970'],
                        name='George Songs')
george_dupe

1968    10
1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

- **data**: valores da série
- **index**: índices ou chaves da série
- **name**: nome da série

A série criada possui indexes representados por strings. Index em Pandas podem ter valores repetidos

#### Criando uma série à partir de um python dictionary

In [5]:
g2 = pd.Series({'1969': 7, '1970': [1, 22]},
               index=['1969', '1970', '1970'])
g2

1969          7
1970    [1, 22]
1970    [1, 22]
dtype: object

**Obs**: se um *dictionary* é usado, uma sequência adicional contendo a ordem dos *indexes* é obrigatória. Isso é necessário pois um *dictionary* não é ordenado

## Reading

Para ler ou selecionar dados de uma Série, basta utilizar o operador de índice []:

In [6]:
george_dupe['1968']

10

Normalmente essa operação retorna um escalar. Porém, no caso em que o index possui valores repetidos, o resultado será uma série.

In [7]:
george_dupe['1970']

1970     1
1970    22
Name: George Songs, dtype: int64

Podemos iterar sobre os dados de uma série. Nesse caso, iteramos sobre os valores da série.

In [8]:
for item in george_dupe:
    print(item)

10
7
1
22


Embora a *iteration* (percorrer todos os valores via método **__iter__ **) ocorra sobre os valores das séries, *membership* (verificar se um valor pertence a uma série utilizando o método **__contains__**) é sobre os índexes. Lists ou Dicts python não se comportam dessa maneira. Se você quiser saber se o valor '22' pertence a george_dupe, não caia na tentação de utilizar métodos tradicionais, como no exemplo abaixo:

In [9]:
22 in george_dupe

False

Para verificar se um elemento existe na série, converta a série para um Set. Ex:

In [10]:
22 in set(george_dupe)

True

Isso pode ser um problema, lembrar que a iteração é sobre os valores e *membership* é sobre os indexes da série:

In [11]:
'1970' in george_dupe  # verificando se a key '1970' existe

True

In [12]:
22 in george_dupe.values  # verificando se o valor 22 existe nos valores da série

True

Para iterar sobre tuplas contendo ambos o índice e o valor, utilizamos o método iteritems() conforme exemplo abaixo:

In [15]:
for key, value in george_dupe.iteritems():
    print(key, value)

1968 10
1969 7
1970 1
1970 22


### .iloc e .loc

- **iloc**: permite indexação baseada na posição
- **loc**: permite indexação baseada no label

**iloc** funciona de forma semelhante ao indexador **[]** do python e retorna um *IndexError* caso a posição não seja encontrada.

In [17]:
george_dupe.iloc[0]  # retorna elemento na posição 0

10

In [18]:
george_dupe.iloc[-1]  # retorna o elemento da última posição

22

É possível utilizar slices com iloc. Ex:

In [19]:
george_dupe.iloc[0:3]  # retorna os três primeiros items da Série

1968    10
1969     7
1970     1
Name: George Songs, dtype: int64

É possível também passar um lista contendo as posições desejadas. Ex:

In [20]:
george_dupe.iloc[[0,1]]  # retorna uma Série contendo os items das posições 0 e 1

1968    10
1969     7
Name: George Songs, dtype: int64

**loc** baseia-se nos indexes da Série e não em suas posições. É semelhante ao dicionário Python, porém, possui funcionalidades adicionais, tais como: boolean arrays, slices e lista de indexes/labels. Ex:

In [21]:
george_dupe.loc['1968']

10

Utilizando slices. Ex:

In [22]:
george_dupe.loc['1968':]  # retorna todos os ítems à partir do index '1968'

1968    10
1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

Utilizando listas. Ex:

In [24]:
george.loc[['1968', '1970']]  # retorna uma Série contendo os valores dos indexes 

1968    10
1970     1
1970    22
Name: George Songs, dtype: int64

### .iat e .at

Funcionam de forma semelhante a **iloc** e **loc**, porém, em caso de retornarem mais de um valor, retornam um Numpy array ao invés de uma Série Panda. Ex:

In [27]:
george_dupe.at['1970']

array([ 1, 22])

### Utilizando getters

Os getters para Séries são listados abaixo:
- **get(label, [default])**: retorna um escalar ou série para label. Se não encontrar, retorna default.
- **get_value(label)**: retorna um escalar ou série para label.

In [34]:
george_dupe.get('2000', 0)  # retorna 0 caso o valor não esteja na série

0

In [35]:
george_dupe.get_value('1968')

10

### Dotted Attribute

Pandas possui outra forma de acessar um label, que é utilizando um nome de index como atributo de uma Série. O nome dessa propriedade em inglês é **dotted attribute**. Ex: 

In [38]:
songs_69 = pd.Series([18, 22, 7, 5],
                    index=['John', 'Paul', 'George', 'Ringo'],
                    name='Counts')

songs_69.John  #obs: só funciona com index do tipo string

18

## Update



Atualizar valores em uma série pode ser complicado. O operador de *atribuição/assign* **[]** é utilizado e a atulização ocorre *in-place*, ou seja, a série é alterada e a operação retorna **None**.

In [26]:
george_dupe

1968    10
1969     7
1970     1
1970    22
Name: George Songs, dtype: int64

In [None]:
george_dupe['1969'] = 6
george_dupe

O operador de *atribuição/assignment* também é utilizado para se inserir um novo registro na série.

In [None]:
george_dupe['1973'] = 11
george_dupe

Deve-se tomar cuidado ao atualizar ou inserir um novo registro, uma vez que perdemos os valores anteriores após uma atualização. Veja no exemplo abaixo o que acontece quando tentamos atualizar um index com valor duplicado.

In [None]:
george_dupe

In [None]:
george_dupe['1970'] = 2
george_dupe

Ambas as chaves com valores de '1970' foram atulizadas. Para resolver esse problema seria necessário utilizar multi-index ou atualizar o valor pela posição, utilizando a função iloc[pos]. Ex:

In [None]:
george_dupe.iloc[3] = 22
george_dupe

**Obs**: existe um método *append* na classe *Series*, mas o mesmo não se comporta como o método *append* de uma lista Python. Esse método da classe Pandas recebe uma Serie como parâmetro. Funciona de forma semelhante ao método *extend* de uma lista Python. Ex:

In [None]:
george_dupe.append(pd.Series({'1974': 9}))

Esse método mantém a série original intacta e retorna uma nova série. A nova série não recebe o nome da série original.

O método **set_value(index, value)** atualiza o valor de uma série e retorna a mesma, ou seja, a atualização é realizada *in place*. Ex:

In [39]:
george_dupe.set_value('1974', 9)

1968    10
1969     7
1970     1
1970    22
1974     9
Name: George Songs, dtype: int64

**Obs**: O método **set_value** atualiza todos os valores em caso de index repetido. Se você quer atualizar somente um valor, é necessário utilizar métodos que indexam por posição, como o **iloc**.

## Delete

A operação de *delete* não é comum em Pandas. O mais correto é utilizar filtros ou máscaras para criar uma nova série que contenham somente os items que você quer. Entretanto, caso se desejar apagar valores de uma série, podemos fazer utilizando o operador de *index*.

In [None]:
del george_dupe['1973']
george_dupe

A forma mais correta de se remover valores de uma série é utilizando filtros. O exemplo abaixo mostra um filtro básico que retorna todos os valores <= 2. O exemplo abaixo usa um *boolean array inlined* no operador de index. Essa é uma operação comum em *Numpy* que não existe em Python puro.

In [None]:
george_dupe[george_dupe <= 2]

# Indexando Séries

Como ilustrado nos exemplos anteriores, um index não precisa ser um número. No exemplo abaixo utilizamos strings como indexes:

In [None]:
george = pd.Series([10,7],
                  index=['1968', '1969'],
                  name='George Songs')
george

A propriedade *index* informa o tipo de valor dos indexes de uma série e seus valores. No caso de strings, Pandas informa que o index é do tipo *object*.

In [None]:
george.index

Indexes não precisam ser únicos. Para determinar se um index é repetido, utilize a propriedade *is_unique* na propriedade *index*. Ex:

In [None]:
dupe = pd.Series([10, 2, 7],
                index=['1968', '1968', '1969'],
                name='George Songs')

dupe.index.is_unique

In [None]:
george.index.is_unique

As regras de indexação no Pandas são confusas. Se uma série possui strings como indexes, então é possível acessar a série tanto pelo index quando  pelo operador de indexação do Python utlizando todas as suas propriedades. Ex:

In [None]:
george

In [None]:
george[0]    # retorna valor na posição 0

In [None]:
george[-1]   # retorna o último valor de george

In [None]:
george['1968']   # retorna valor cujo index é '1968'

**Obs**: Caso o index de uma série seja um *int*, não será possível utilizar o operador de indexação do Python e uma excessão será gerada. Ex:

In [None]:
george_i = pd.Series([10, 7],
                    index=[1968, 1969],
                    name='George songs')
george_i[-1]

### Boolean arrays

Um slice que utiliza o resultado de uma operação booleana é chamado de *boolean array*. Abaixo um *boolean array* é atribuido a variável mask

In [None]:
mask = george_dupe > 7
mask

Pegar uma série e aplicar uma operação para cada valor da mesma é conhecido como *broadcasting*. A operação de maior (>) é aplicada para cada entrada da Série e o resultado é uma nova série com o resultado dessa operação. Como o operador > retorna um booleano para cada valor da Série, o resultado final é uma Série com os mesmos indexes da série original, mas com os valores sendo *True* ou *False*. 

## Métodos de Séries

No geral, métodos de séries retornam uma nova Série e a maioria desses métodos possuem um parâmetro ** *inplace* ** ou ** *copy* **. Isso porque Pandas preza pela imutabilidade dos dados e esses parâmetro permitem realizar a operação no próprio conjunto de dados ou copiar os mesmos. Os valores padrão são: *inline=False* e *copy=True*.

In [None]:
# conjunto de dados utilizado nos próximos exemplos
songs_66 = pd.Series([3, None, 11, 9],
                    index=['George', 'Ringo', 'John', 'Paul'],
                    name='Counts')

songs_69 = pd.Series([18, 22, 7, 5],
                    index=['John', 'Paul', 'George', 'Ringo'],
                    name='Counts')

### Sobracarga de Operadores

As operações abaixo sempre retornam uma Série e podem ser utilizadas tanto com valores escalares como com outras Séries.
- +: soma 
- -: subtração
- /: divisão
- //: *floor*
- %: resto da divisão
- *: multiplicação
- ==, !=: igualdade
- \>, <, >=, <=: maior\menor\maior ou igual\menor ou igual
- ^: XOR
- |: OR
- &: AND

In [None]:
# Exemplo de soma com escalar. Sintaxe é a mesma para outros operadores
songs_66 + 2

In [None]:
# Exemplo de soma de Séries. Sintaxe é a mesma para outros operadores
songs_66 + songs_69

**OBS**: O resultado da soma acima pode ser problemático pois o mesmo deve ser conhecido. É preciso trocar os valores NaN por valores numéricos para que a operação retorne um valor útil. Para isso utiliza-se a finção ** *fillna(valor)* **. Ex:

In [None]:
songs_66.fillna(0) + songs_69.fillna(0)

### Resetando Index

O método **reset_index()** resetará os indexes para uma sequência de valores inteiros iniciando em zero. Esse método retorna um Data Frame por padrão (não uma série) e move os valores originais de index para uma coluna chamada index. Ex:

In [None]:
songs_66.reset_index()

Para retornar uma série e não criar a coluna index, utilizamos o parâmetro ** *drop=True* **. Ex:

In [None]:
songs_66.reset_index(drop=True)

Se uma ordenação específica para os indexes é desejada, utiliza-se o método **reindex**. A nova série respeitará essa nova ordem e novos valores de indexes receberão o valor do parâmetro opcional ** *fill_value* **, cujo valor padrão é NaN. Ex:

In [None]:
songs_66.reindex(['Billy', 'Eric', 'George', 'Yoko'])

In [None]:
songs_66.reindex(['Billy', 'Eric', 'George', 'Yoko'], fill_value=0)

É possível atualizar valores de index utilizando a função **rename**. Essa função aceita tanto um dicionário quanto uma função que receba um label e retorne outro. Ex:

In [None]:
songs_66.rename({'Ringo': 'Richard'})

In [None]:
songs_66.rename(lambda x: x.upper())

### Counts

Nessa seção as séries utlizadas para os exemplos serão as seguintes:

In [None]:
songs_66 = pd.Series([3, None, 11, 9],
                    index=['George', 'Ringo', 'John', 'Paul'],
                    name='Counts')
songs_66

In [None]:
scores2 = pd.Series([67.3, 100, 96.7, None, 100],
                    index=['Ringo', 'Paul', 'George', 'Peter', 'Billy'],
                    name='test2')
scores2

**count()**: retorna o total de valores não nulos

In [None]:
scores2.count()

**value_counts()**: histograma dos valores não nulos.

In [None]:
scores2.value_counts()

**unique()**: retorna série com todos os valores, sem cópia. (considera Nan como valor)

In [None]:
scores2.unique()

**nunique()**: retorna a quantidade de valores não repetidos. (não considera Nan como valor).

In [None]:
scores2.nunique()

**drop_duplicates()**: retorna a série sem valores duplicados

In [None]:
scores2.drop_duplicates()  ## Paul e Billy tem o mesmo valor. Somente Paul retornou

**duplicated**: retorna ** *boolean mask* ** informando se o valor é repetido

In [None]:
scores2.duplicated()

## Estatística

In [None]:
songs_66  # essa será a série utilizada para os exemplos dessa seção

In [None]:
songs_66.sum()  # retorna a soma de todos os valores da série

**Obs**: Os métodos *mean()* e *median()* ignoram valores NaN, a menos que a *flag* skipna seja falso.

In [None]:
songs_66.mean()  # Calcula a media da série, ignorando NaN's

In [None]:
songs_66.median()  # Calcula a mediana da série, ignorando NaN's

Medidas de quartis (quantile) podem ser usadas para prever 50% do valor (default) ou qualquer nivel desejado, tais como 10% e 90%. O cálculo padrão do quartil deve ser muito similar ao da mediana. Ex:

In [None]:
songs_66.quantile()

In [None]:
songs_66.quantile(0.1)

In [None]:
songs_66.quantile(0.9)

O método ** *describe* ** fornece informações gerais sobre a série. Ex:

In [None]:
songs_66.describe()

**min()**: retorna o valor mínimo da série

In [None]:
songs_66.min()

**max()**: retorna o valor máximo da série

In [None]:
songs_66.max()

**idxmin()**: retorna o index do valor mínimo da série

In [None]:
songs_66.idxmin()

**idxmax()**: retorna o index do valor máximo da série

In [None]:
songs_66.idxmax()

**var()**: retorna a variância

In [None]:
songs_66.var()

**std()**: retorna do desvio padrão

In [None]:
songs_66.std()

**mad()**: Retorna o desvio médio absoluto (mean absolute deviation)

In [None]:
songs_66.mad()  # 