# NumPy & Pandas

## Parte 4

Até aqui apenas consultamos valores de `Series` e `DataFrames`. Agora veremos como alterá-los.

In [1]:
import numpy as np
import pandas as pd

Como a essa altura você já deve estar com sede (eu estou!), vamos recuperar o noss `DataFrame` com cervejas:

In [2]:
cervejas = pd.DataFrame([["Vedett", "IPA", "Bélgica", 0.33, 5.5],
                         ["Eisenbahn", "Strong Golden Ale", "Brasil", 0.355, 8.0],
                         ["Belhaven", "Rich Scottish Ale", "Escócia", 0.33, 7.4],
                         ["Robinsons", "Premium Britisch Beer", "Inglaterra", 0.5, 4.7],
                         ["Brewdog", "IPA", "Escócia", 0.33, 5.6],
                         ["Fuller's", "Superior Strong Ale", "Inglaterra", 0.5, 8.5],
                         ["Goose", "Session IPA", "Brasil", 0.355, 4.1]],
                        index=["Vedett IPA", "Eisenbahn", "90 Wee Heavy", "Trooper", "Punk IPA", "Golden Pride", "Midway"],
                        columns=["Fabricante", "Tipo", "País", "Volume", "Graduação Alcoólica"])

Embora me seja suficiente saber o país de origem das cervejas importadas, no caso das nacionais quero informar também o Estado de fabricação.

Para começar, adicionaremos uma nova coluna ao `DataFrame`. Veja como é simples:

In [3]:
cervejas['Local'] = '?'

Observe que atribuimos um único valor (a _string_ `'?'`) a toda uma coluna do `DataFrame`... Coluna esta que sequer existia até a execução do comando!

In [4]:
cervejas.head()

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,0.33,5.5,?
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,0.355,8.0,?
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,0.33,7.4,?
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,0.5,4.7,?
Punk IPA,Brewdog,IPA,Escócia,0.33,5.6,?


Como eu disse, para as importadas o Local não me interessa, então preencheremos com 'Exterior'. Mas, antes de mais nada, vamos testar o nosso filtro:

In [5]:
cervejas[cervejas['País'] != 'Brasil']

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,0.33,5.5,?
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,0.33,7.4,?
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,0.5,4.7,?
Punk IPA,Brewdog,IPA,Escócia,0.33,5.6,?
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,0.5,8.5,?


Filtro correto! Agora, você deve estar pensando que basta atribuir o valor como na linha comentada abaixo... Eu pensava assim até tentar executá-la!

Pois bem, remova o comentário e veja por si mesmo:

In [6]:
# retire o comentário da linha abaixo e execute-a
# cervejas[cervejas['País'] != 'Brasil']['Local'] = 'Exterior'

O que o `Python` te diz quando você tenta executar este código é que provavelmente não é isso que você queria: `cervejas[cervejas['País'] != 'Brasil']['Local'] ` retorna uma __cópia__ dos dados do `DataFrame` e não uma referência para ele; assim, qualquer alteração que fizermos será feita sobre essa __cópia__ e os dados originais não serão afetados!

A forma correta, como a própria mensagem de alerta do `Python` nos diz, é usando `.loc`:

In [7]:
cervejas.loc[cervejas['País'] != 'Brasil', 'Local'] = 'Exterior'
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,0.33,5.5,Exterior
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,0.355,8.0,?
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,0.33,7.4,Exterior
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,0.5,4.7,Exterior
Punk IPA,Brewdog,IPA,Escócia,0.33,5.6,Exterior
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,0.5,8.5,Exterior
Midway,Goose,Session IPA,Brasil,0.355,4.1,?


Agora temos apenas que indicar o local de produção das duas cervejas brasileiras da lista:

In [8]:
cervejas.loc['Eisenbahn', 'Local'] = 'Blumenau'
cervejas.loc['Midway', 'Local'] = 'São Paulo'
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,0.33,5.5,Exterior
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,0.355,8.0,Blumenau
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,0.33,7.4,Exterior
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,0.5,4.7,Exterior
Punk IPA,Brewdog,IPA,Escócia,0.33,5.6,Exterior
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,0.5,8.5,Exterior
Midway,Goose,Session IPA,Brasil,0.355,4.1,São Paulo


Agora vamos alterar o volume, que está em litros, para mililitros. Para isso, basta multiplicar a coluna por 1000 e todos seus valores serão multiplicados:

In [9]:
cervejas['Volume'] = cervejas['Volume'] * 1000
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5,Exterior
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0,Blumenau
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4,Exterior
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,500.0,4.7,Exterior
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6,Exterior
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5,Exterior
Midway,Goose,Session IPA,Brasil,355.0,4.1,São Paulo


Também podemos excluir colunas ou linhas usando `drop`:

In [10]:
cervejas.drop('Local', axis='columns')

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,500.0,4.7
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5
Midway,Goose,Session IPA,Brasil,355.0,4.1


`drop`, entretanto, retorna uma __cópia__ alterada do `DataFrame`, sem alterar o `DataFrame` de verdade:

In [11]:
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5,Exterior
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0,Blumenau
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4,Exterior
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,500.0,4.7,Exterior
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6,Exterior
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5,Exterior
Midway,Goose,Session IPA,Brasil,355.0,4.1,São Paulo


Caso se deseje alterar o `DataFrame` original, basta passar o parâmetro `inplace=True`.

Para excluir linhas:

In [12]:
# retorna uma cópia do DataFrame sem a linha cujo índice é Trooper
# como não foi informado inplace=True, o DataFrame original não será afetado
cervejas.drop('Trooper', axis='index')

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5,Exterior
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0,Blumenau
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4,Exterior
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6,Exterior
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5,Exterior
Midway,Goose,Session IPA,Brasil,355.0,4.1,São Paulo


Agora, vamos classificar as cervejas quanto ao seu teor alcoólico em `light` (até 5%), `ok` (até 8%) e `strong` (acima de 8%).

Para começar, vamos definir uma função que _"decide"_ qual a classificação de uma cerveja:

In [13]:
def get_classificacao(cerveja):
    """
        Retorna qual a Classificação de uma Cerveja
        em função de sua graduação alcoólica.
        
        O parâmetro <cerveja> deve ser uma linha do
        DataFrame, contendo pelo menos a coluna 
        'Graduação Alcoólica'
    """
    alcool = cerveja['Graduação Alcoólica']
    if alcool <= 5.0:
        return 'light'
    
    elif alcool <= 8.0:
        return 'ok'
    
    return 'strong'

Agora, vamos criar uma nova coluna para conter nossa classificação e vamos preenchê-la com o resultado da função `get_classificacao` que acabamos de criar:

In [14]:
cervejas['Classificação Alcoólica'] = cervejas.apply(get_classificacao, axis='columns')
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local,Classificação Alcoólica
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5,Exterior,ok
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0,Blumenau,ok
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4,Exterior,ok
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,500.0,4.7,Exterior,light
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6,Exterior,ok
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5,Exterior,strong
Midway,Goose,Session IPA,Brasil,355.0,4.1,São Paulo,light


Observe que o que foi passado para o método `apply` foi a __função__! O que o método `apply` fez foi, para cada linha do `DataFrame`, chamar a função e passar como parâmetro para ela a própria linha, e depois atribuir seu resultado à célula correspondente à linha e coluna.

Para entender como isso é poderoso, imagine que agora nos decidimos por uma outra regra de classificação. Basta definir uma outra função e chamar o mesmo método `apply` passando como parâmetro essa nova função:

In [15]:
def get_outra_classificacao(cerveja):
    """
        Retorna qual a Classificação de uma Cerveja
        em função de sua graduação alcoólica.
        
        O parâmetro <cerveja> deve ser uma linha do
        DataFrame, contendo pelo menos as colunas 
        'Graduação Alcoólica' e 'Volume', que serão
        considerados na definição da classificação.
    """
    volume_alcool = cerveja['Graduação Alcoólica'] * cerveja['Volume']
    if (volume_alcool <= 2000):
        return 'Nível 1'
    if (volume_alcool <= 3000):
        return 'Nível 2'
    if (volume_alcool <= 4000):
        return 'Nível 3'
    return 'Nível 4'

In [16]:
cervejas['Classificação Alcoólica'] = cervejas.apply(get_outra_classificacao, axis='columns')
cervejas

Unnamed: 0,Fabricante,Tipo,País,Volume,Graduação Alcoólica,Local,Classificação Alcoólica
Vedett IPA,Vedett,IPA,Bélgica,330.0,5.5,Exterior,Nível 1
Eisenbahn,Eisenbahn,Strong Golden Ale,Brasil,355.0,8.0,Blumenau,Nível 2
90 Wee Heavy,Belhaven,Rich Scottish Ale,Escócia,330.0,7.4,Exterior,Nível 2
Trooper,Robinsons,Premium Britisch Beer,Inglaterra,500.0,4.7,Exterior,Nível 2
Punk IPA,Brewdog,IPA,Escócia,330.0,5.6,Exterior,Nível 1
Golden Pride,Fuller's,Superior Strong Ale,Inglaterra,500.0,8.5,Exterior,Nível 4
Midway,Goose,Session IPA,Brasil,355.0,4.1,São Paulo,Nível 1
