# Módulo de Programação Python

# Trilha Python - Aula 9: Utilizando Pandas - Introdução

<img align="center" style="padding-right:10px;" src="Figuras/aula-14_fig_01.png">

__Objetivo__:   Trabalhar com pacotes e módulos disponíveis em __Python__: __Pandas__: Discutir a importância de obter, carregar e organizar grandes volumes de dados. Apresentar Pandas e suas funcionalidades e características básicas. 

## Contextualização

Até aqui discutimos sobre a importância de trabalhar com estruturas de dados eficientes para armazenar grandes volumes de dados. Nas aulas anteriores foram apresentados os arrays de tipo fixo implementados na forma de _ndarrays_ da __NumPy__. 

Ainda que muito eficientes para armazenar e processar dados numéricos, os _ndarrays_ apresentam limitações para análise da dados não numéricos. 

Imaginem, no exemplo  que construímos na aula anterior, que queremos adicionar uma etiqueta ou rótulo a cada aluno com o nome ou o e-mail. 

O Pandas, e em particular seus objetos ``Series`` e ``DataFrame``, baseia-se no uso de _ndarrays_ de __NumPy__ e fornece acesso eficiente a esses tipos de tarefas de "gestão de dados" que ocupam muito do tempo de um cientista de dados.

Vamos abordar então em como utilizar  ``Series``, ``DataFrame`` e estruturas relacionadas de forma eficaz.

No ambiente virtual que utilizamos até qui temos os pacotes e módulos para rodar o _jupyter notebook_ e __NumPY__. Vamos começar então por instalar __Pandas__

In [None]:
#pip list
#pip freeze > requirements.txt
#cat requirements.txt
#pip install pandas

In [1]:
import numpy as np
import pandas as pd
print("Numpy version: ", np.__version__)
print("Pandas version: ", pd.__version__)

Numpy version:  1.26.2
Pandas version:  2.1.4


Os objetos Pandas podem ser considerados versões aprimoradas de matrizes _ndarrays_ de __NumPy__ nas quais as linhas e colunas são identificadas com rótulos em vez de simples índices inteiros. 

Da mesma forma que __NumPy__, __Pandas__ fornece, além das estruturas de dados, uma série de ferramentas, métodos e funcionalidades úteis .

Vamos começar aprestando as estruturas básicas de __Pandas__.

In [2]:
from random import uniform
lista = [uniform(4, 10) for _ in range(5)]
for val in lista:
    print(f"{val:.2f}", end=" ")

4.20 4.61 5.46 5.38 4.12 

### __Pandas__ ``Series``

Uma ``Series`` __Pandas__ é uma matriz unidimensional de dados indexados. 

De forma simples um objeto da classe ``Series`` pode ser criado a partir de uma lista ou de um _ndarray_.

In [3]:
dSerie = pd.Series(lista)
dSerie

0    4.200014
1    4.610223
2    5.455911
3    5.382884
4    4.122478
dtype: float64

In [4]:
npArray = np.array(lista)
dSerie = pd.Series(npArray)
dSerie

0    4.200014
1    4.610223
2    5.455911
3    5.382884
4    4.122478
dtype: float64

Reparem que um objeto ``Series`` consiste em uma sequência de valores e sua correspondente sequência de índices, que podemos acessar com os atributos  ``values`` e ``index``.

In [5]:
print(dSerie.values)
print(type(dSerie.values))

[4.2000142  4.61022267 5.45591097 5.38288379 4.12247847]
<class 'numpy.ndarray'>


Já o tributo ``index`` é um objeto semelhante a um _ndarray_, de tipo ``pd.Index``.

In [6]:
print(dSerie.index)
print(type(dSerie.index))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


Os elementos de ``dSerie`` podem ser acessado via indexação.

In [7]:
dSerie[0]

4.200014204700148

In [8]:
dSerie[1:3]

1    4.610223
2    5.455911
dtype: float64

Pode parecer que um objeto da classe ``Sreies`` é semelhante a um _ndarrays_, podendo usar um o outro. Mas ...

In [9]:
print(dSerie.values[-1])
try:
    print(dSerie[-1])
except Exception as e:
    print(e)

4.122478472540854
-1


Entretanto, enquanto o _ndarray_ de __NumPy__ possui um índice inteiro, definido implicitamente, usado para acessar os valores, os objetos ``Series`` de __Pandas__ possuem um índice definido explicitamente, associado ao conjunto de valores.

Essa definição explícita de índice fornece recursos adicionais como, por exemplo, o fato de que o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. 

Por exemplo, se desejarmos, podemos usar strings como índice:

In [10]:
dSerie = pd.Series(lista, index=['alpha', 'beta', 'gamma', 'delta', 'epsilon'])
dSerie

alpha      4.200014
beta       4.610223
gamma      5.455911
delta      5.382884
epsilon    4.122478
dtype: float64

In [11]:
print(dSerie.values[-1])
print(dSerie['epsilon'])

4.122478472540854
4.122478472540854


Podemos inclusive usar índices inteiros não contíguos ou não sequenciais.

In [12]:
dSerie = pd.Series(lista, index=[99, 87, 65, 43, 21])
dSerie

99    4.200014
87    4.610223
65    5.455911
43    5.382884
21    4.122478
dtype: float64

In [13]:
print(dSerie.values[-1])
print(dSerie[21])

4.122478472540854
4.122478472540854


In [14]:
dSerie = pd.Series(lista, index=[0.1, 0.01, 0.001, 0.0001, 0.00001])
dSerie

0.10000    4.200014
0.01000    4.610223
0.00100    5.455911
0.00010    5.382884
0.00001    4.122478
dtype: float64

Podemos então pensar as ``Sreies`` __Pandas__ como uma forma particular e específica de dicionário __Python__. 

* Um dicionário __Python__ é uma estrutura que mapeia chaves arbitrárias para um conjunto de valores arbitrários
* Um objeto ``Series`` é uma estrutura que mapeia chaves de tipo fixo para um conjunto de valores de tipo fixo. 

O fato de tratar de chaves e valores tipados é importante: assim como o código compilado, específico de cada tipo, por trás de um _ndarray_ __NumPy__, o torna mais eficiente do que uma lista __Python__ para determinadas operações, as informações de tipo de um ``Series`` __Pandas__ o tornam muito mais eficiente do que os dicionários __Python__ para determinadas operações.

A analogia da série como dicionário pode ficar ainda mais evidente quando constatamos que podemos construir um objeto ``Series`` diretamente de um dicionário __Python__:

In [15]:
popPorEstadoDic = { 'São Paulo': 44411238, 'Minas Gerais':20538718, 'Rio de Janeiro':16054524,	
                'Bahia':14141626, 'Paraná':11444380, 'Rio Grande do Sul':10882965, 
                'Pernambuco':9058931, 'Ceará':8794957}
popPorEstadoSer = pd.Series(popPorEstadoDic)
popPorEstadoSer

São Paulo            44411238
Minas Gerais         20538718
Rio de Janeiro       16054524
Bahia                14141626
Paraná               11444380
Rio Grande do Sul    10882965
Pernambuco            9058931
Ceará                 8794957
dtype: int64

Nesta construção é criada um objeto ``Series`` onde o índice é extraído das chaves do dicionário.

Uma vez criado o acesso aos elementos repete a sintaxes típica dos dicionário __Python__.

In [16]:
print("A população da Bahia, segundo o IBGE, é de", popPorEstadoSer['Bahia'], "habitantes")

A população da Bahia, segundo o IBGE, é de 14141626 habitantes


Por outro lado, diferente de um dicionário, ``Series`` também suportam operações no estilo array, como _slicing_.

In [20]:
print(popPorEstadoSer['Bahia':'Pernambuco'])
#popPorEstadoSer.values[3:6]

Bahia                14141626
Paraná               11444380
Rio Grande do Sul    10882965
Pernambuco            9058931
dtype: int64


Vamos explorar então as formas de ciar ``Series``. Já vimos que podemos passar um conjunto de dados, na forma de uma lista ou de um _ndarray_. Neste caso os índices são criados como de forma sequencial como inteiros que correspondem aos índices do _ndarray_. 

In [21]:
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]
brasileirão = pd.Series(títulos)
brasileirão

0     12
1      8
2      8
3      7
4      6
5      4
6      4
7      4
8      3
9      3
10     2
11     2
12     2
13     1
14     1
15     1
16     1
dtype: int64

Mas podemos acrescentar os índices na forma de uma lista.

In [22]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
brasileirão = pd.Series(títulos, index=campBrasileiros)
print(brasileirão)

Palmeiras        12
Santos            8
Flamengo          8
Corinthians       7
São Paulo         6
Cruzeiro          4
Fluminense        4
Vasco             4
Internacional     3
Atlético-MG       3
Bahia             2
Botafogo          2
Grêmio            2
Athletico-PR      1
Coritiba          1
Guarani           1
Sport             1
dtype: int64


Quando a lista de índices é fornecida o valor pode ser apenas um escalar. Neste caso o valor é repetido para cada índice.

In [24]:
brasileirão = pd.Series(0, index=campBrasileiros)
brasileirão

Palmeiras        0
Santos           0
Flamengo         0
Corinthians      0
São Paulo        0
Cruzeiro         0
Fluminense       0
Vasco            0
Internacional    0
Atlético-MG      0
Bahia            0
Botafogo         0
Grêmio           0
Athletico-PR     0
Coritiba         0
Guarani          0
Sport            0
dtype: int64

Como já vimos, os dados podem ser fornecidos na forma de um dicionário __Python__.

In [25]:
dicBrasileirao = {2:'Santos', 4:'Corinthians', 3:'Flamengo',  1:'Palmeiras'}
brasileirão = pd.Series(dicBrasileirao)
print(brasileirão)
print(type(brasileirão.values))

2         Santos
4    Corinthians
3       Flamengo
1      Palmeiras
dtype: object
<class 'numpy.ndarray'>


Mesmo quando fornecido um dicionário podemos escolher apenas um subconjunto dos elementos especificando uma lista de iíndices. 

In [26]:
brasileirão = pd.Series(dicBrasileirao, index=[2,3,4])
print(brasileirão)


2         Santos
3       Flamengo
4    Corinthians
dtype: object


In [48]:
lCampBrasileiros = [('Palmeiras', 12, [1960, 1967, 1967, 1969, 1972, 1973, 1993, 1994, 2016, 2018, 2022, 2023]),
 ('Santos', 8, [1961, 1962, 1963, 1964, 1965, 1968, 2002, 2004]),
 ('Flamengo',	8, [1980, 1982, 1983, 1987, 1992, 2009, 2019, 2020]),
 ('Corinthians', 7, [1990, 1998, 1999, 2005, 2011, 2015, 2017]),
 ('São Paulo', 6,	[1977, 1986, 1991, 2006, 2007, 2008]),
 ('Cruzeiro',	4, [1993, 1996, 2000, 2003, 2017, 2018]),
 ('Fluminense', 4, [1970, 1984, 2010, 2012]),
 ('Vasco', 4, [1974, 1989, 1997, 2000]),
 ('Internacional', 3,	[1975, 1976, 1979]),
 ('Atlético-MG', 3,	[1937, 1971, 2021]),
 ('Bahia', 2, [1959, 1988]),
 ('Botafogo', 2, [1968, 1995]),
 ('Grêmio',	2, [1981, 1996]),
 ('Athletico-PR', 1, [2001]),
 ('Coritiba', 1, [1985]),
 ('Guarani', 1,	[1978]),
 ('Sport', 1, [1987])]

### __Pandas__ ``DataFrame``

Da mesma forma que os objetos ``Series``, o ``DataFrame`` pode ser pensado como uma generalização de um _ndarray_ __NumPy__ ou como uma especialização de um dicionário __Python__.

Se um objeto ``Series`` é análogo a uma matriz unidimensional com índices flexíveis, ``um DataFrame`` pode ser visto como uma estrutura análoga a uma matriz bidimensional com índices de linha e nomes de colunas flexíveis. Você pode pensar em um ``DataFrame`` como uma sequência de objetos ``Series`` alinhados. Aqui, por “alinhado” queremos dizer que eles compartilham o mesmo índice.

In [27]:
torcidas= {'Flamengo':46953599, 'Corinthians':30444799, 'Palmeiras':20225600, 'Santos':6646400}
torcidaSer = pd.Series(torcidas)
torcidaSer 

Flamengo       46953599
Corinthians    30444799
Palmeiras      20225600
Santos          6646400
dtype: int64

In [28]:
dicBrasileirao = {'Santos':8, 'Corinthians':7, 'Flamengo':8,  'Palmeiras':12}
brasileirão = pd.Series(dicBrasileirao)
brasileirão

Santos          8
Corinthians     7
Flamengo        8
Palmeiras      12
dtype: int64

In [29]:
times = pd.DataFrame({'Títulos':brasileirão, 'Torcida':torcidaSer})
times

Unnamed: 0,Títulos,Torcida
Corinthians,7,30444799
Flamengo,8,46953599
Palmeiras,12,20225600
Santos,8,6646400


Assim como o objeto ``Series``, o ``DataFrame`` possui um atributo de índice que dá acesso aos rótulos das linhas.

In [30]:
times.index

Index(['Corinthians', 'Flamengo', 'Palmeiras', 'Santos'], dtype='object')

Além disso, o ``DataFrame`` possui um atributo ``columns``, que é um objeto Index que contém os rótulos das colunas.

In [31]:
times.columns

Index(['Títulos', 'Torcida'], dtype='object')

In [32]:
times.values

array([[       7, 30444799],
       [       8, 46953599],
       [      12, 20225600],
       [       8,  6646400]])

In [33]:
type(times.values)

numpy.ndarray

Desta forma, o ``DataFrame`` pode ser pensado como uma generalização de um _ndarray_ __NumPy__ bidimensional, onde tanto as linhas quanto as colunas possuem um índice generalizado para acessar os dados.

O primeiro exemplo mostrou como criar um ``DataFrame`` a partir de duas ``Series``. Também podemos construir um ``DataFrame`` a partir de uma lista de dicionários.



In [36]:
dicBrasileirao = {'Santos':8, 'Corinthians':7, 'Flamengo':8,  'Palmeiras':12}
torcidas= {'Flamengo':46953599, 'Corinthians':30444799, 'Palmeiras':20225600, 'Santos':6646400}

times = pd.DataFrame([torcidas, dicBrasileirao], index=['Torcida', 'Títulos'])
#times = pd.DataFrame([torcidas, dicBrasileirao], columns=['Torcida', 'Títulos'])
times

Unnamed: 0,Flamengo,Corinthians,Palmeiras,Santos
Torcida,46953599,30444799,20225600,6646400
Títulos,8,7,12,8


No caso de faltarem algumas chaves nos dicionários, o __Pandas__ irá preenchê-las com valores __NaN__.

In [37]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco da Gama', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]

for time, titulo in zip(campBrasileiros, títulos):
    dicBrasileirao[time] = titulo

times = ['Flamengo', 'Corinthians', 'São Paulo', 'Palmeiras', 'Vasco da Gama', 'Cruzeiro', 
         'Grêmio', 'Atlético-MG', 'Bahia', 'Internacional', 'Fluminense', 'Santos', 'Botafogo', 'Sport']

torcida = [46953599, 30444799, 22225800, 20225600, 13292800, 13078400, 9862400, 9219199, 
           7718400, 7504000, 7289600, 6646400, 4288000, 4073600]

for time, torc in zip(times, torcida):
    torcidas[time] = torc

times = pd.DataFrame([torcidas, dicBrasileirao], index=['Torcida', 'Títulos'])
times

Unnamed: 0,Flamengo,Corinthians,Palmeiras,Santos,São Paulo,Vasco da Gama,Cruzeiro,Grêmio,Atlético-MG,Bahia,Internacional,Fluminense,Botafogo,Sport,Athletico-PR,Coritiba,Guarani
Torcida,46953599,30444799,20225600,6646400,22225800,13292800,13078400,9862400,9219199,7718400,7504000,7289600,4288000,4073600,,,
Títulos,8,7,12,8,6,4,4,2,3,2,3,4,2,1,1.0,1.0,1.0


Podemos utilizar também dicionários de ``Series``.

In [38]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco da Gama', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]

for time, titulo in zip(campBrasileiros, títulos):
    dicBrasileirao[time] = titulo

timTitulos = pd.Series(dicBrasileirao)

times = ['Flamengo', 'Corinthians', 'São Paulo', 'Palmeiras', 'Vasco da Gama', 'Cruzeiro', 
         'Grêmio', 'Atlético-MG', 'Bahia', 'Internacional', 'Fluminense', 'Santos', 'Botafogo', 'Sport']

torcida = [46953599, 30444799, 22225800, 20225600, 13292800, 13078400, 9862400, 9219199, 
           7718400, 7504000, 7289600, 6646400, 4288000, 4073600]

for time, torc in zip(times, torcida):
    torcidas[time] = torc

timTorcida = pd.Series(torcidas)

times = pd.DataFrame({'Títulos':timTitulos, 'Torcida':timTorcida})
times

Unnamed: 0,Títulos,Torcida
Athletico-PR,1,
Atlético-MG,3,9219199.0
Bahia,2,7718400.0
Botafogo,2,4288000.0
Corinthians,7,30444799.0
Coritiba,1,
Cruzeiro,4,13078400.0
Flamengo,8,46953599.0
Fluminense,4,7289600.0
Grêmio,2,9862400.0


E, pensando num ``DataFrame`` como um generalização de um _ndarray_ __NumPy__ bidimensional, podemos construir um ``DataFrame`` usando uma _ndarray_.

In [39]:
títulos = [12, 8, 8, 7]
torcida = [20225600, 6646400, 46953599, 30444799]
tittor = np.array([títulos, torcida])
print(tittor.T)
tittor = pd.DataFrame(tittor.T, columns=['Títulos', 'Torcida'], 
                      index=['Palmeiras', 'Santos', 'Flamengo', 'Corinthians'])

print(tittor)

[[      12 20225600]
 [       8  6646400]
 [       8 46953599]
 [       7 30444799]]
             Títulos   Torcida
Palmeiras         12  20225600
Santos             8   6646400
Flamengo           8  46953599
Corinthians        7  30444799


Podemos ainda utilizar um _ndarray_ estruturado, como o que vimos na aula anterior para construir um ``DataFRame``

In [41]:
alunos = ['nomeAluno01', 'nomeAluno02', 'nomeAluno03', 'nomeAluno04']
matrícula = np.random.randint(0, 1000, 4)
prova_1 = np.random.uniform(0, 10, 4)

data = np.zeros(4, dtype={'names':('nome', 'nMatricula', 'prova_1'),
                          'formats':('U50', 'i4', 'f4')})

data['nome'] = alunos
data['nMatricula'] = matrícula
data['prova_1'] = prova_1
print(data)

[('nomeAluno01', 942, 2.204203 ) ('nomeAluno02', 873, 5.3311543)
 ('nomeAluno03', 565, 0.6541272) ('nomeAluno04', 286, 6.7093115)]


In [42]:
dataDF = pd.DataFrame(data)
print(dataDF)

          nome  nMatricula   prova_1
0  nomeAluno01         942  2.204203
1  nomeAluno02         873  5.331154
2  nomeAluno03         565  0.654127
3  nomeAluno04         286  6.709311


## __Pandas__ ``Index``

Vimos aqui que ambos os objetos ``Series`` e ``DataFrame`` contêm um __índice__ explícito que permite referenciar e modificar dados.
Trata-se de um objeto ``Index`` que pode ser pensado como um _matriz imutável_ ou como um _conjunto ordenado_.
Vamos entender algumas das operações que podem ser feitas com objetos da classe ``Index``.

Vamos começar criando um ``Index`` mais clássico. 

In [43]:
índice = pd.Index([i for i in range(5)])
índice

Index([0, 1, 2, 3, 4], dtype='int64')

O ``Index`` funciona em, alguns contextos, como um array. Por exemplo, podemos usar a notação de indexação padrão do __Python__ para recuperar valores ou _slicings_.

In [44]:
print(índice[0])
print(índice[-1])
print(índice[1:3])

0
4
Index([1, 2], dtype='int64')


Os objetos da classe ``Index`` também tem muitos dos atributos presentes nos _ndarrays_ __NumPy__.

In [45]:
print(índice.size, índice.shape, índice.ndim, índice.dtype)

5 (5,) 1 int64


Entretanto os objetos ``Index`` são imutáveis, ou seja, eles não podem ser modificados pelos meios normais.

In [46]:
try:
    índice[0] = 1
except Exception as e:
    print(e)

Index does not support mutable operations


## Indexando objetos __Pandas__

Já abordamos os principais objetos deo __Pandas__ e suas principais características. Eles guardam uma relação estreita com os _ndarrays_ de __NumPy__ dos quais vimos as diversas formas de acessar e modificar. 

Seja utilizando indexação direta, _slicing_, mascaramento ou alguma combinação das opções anteriores, os _ndarrays_ podem ser manipulados de forma muito eficiente. 

Mas como acessar os objetos __Pandas__? Os padrões utilizados no __Pandas__ parecerão muito familiares para quem domina os objetos __NumPy__, ainda que existam algumas peculiaridades a serem observadas.

### Acessando ``Series``

Como já vimos, o objeto ``Series``, da mesma forma que um dicionário, fornece um mapeamento de uma coleção de chaves para uma coleção de valores.

In [49]:
print(lCampBrasileiros)
dCampBrasileiros = {}
for time, títulos, anos in lCampBrasileiros:
   for ano in anos:
       dCampBrasileiros[str(ano)] = time
print(dCampBrasileiros)
sCampBrasileiros = pd.Series(dCampBrasileiros)
print(sCampBrasileiros)

[('Palmeiras', 12, [1960, 1967, 1967, 1969, 1972, 1973, 1993, 1994, 2016, 2018, 2022, 2023]), ('Santos', 8, [1961, 1962, 1963, 1964, 1965, 1968, 2002, 2004]), ('Flamengo', 8, [1980, 1982, 1983, 1987, 1992, 2009, 2019, 2020]), ('Corinthians', 7, [1990, 1998, 1999, 2005, 2011, 2015, 2017]), ('São Paulo', 6, [1977, 1986, 1991, 2006, 2007, 2008]), ('Cruzeiro', 4, [1993, 1996, 2000, 2003, 2017, 2018]), ('Fluminense', 4, [1970, 1984, 2010, 2012]), ('Vasco', 4, [1974, 1989, 1997, 2000]), ('Internacional', 3, [1975, 1976, 1979]), ('Atlético-MG', 3, [1937, 1971, 2021]), ('Bahia', 2, [1959, 1988]), ('Botafogo', 2, [1968, 1995]), ('Grêmio', 2, [1981, 1996]), ('Athletico-PR', 1, [2001]), ('Coritiba', 1, [1985]), ('Guarani', 1, [1978]), ('Sport', 1, [1987])]
{'1960': 'Palmeiras', '1967': 'Palmeiras', '1969': 'Palmeiras', '1972': 'Palmeiras', '1973': 'Palmeiras', '1993': 'Cruzeiro', '1994': 'Palmeiras', '2016': 'Palmeiras', '2018': 'Cruzeiro', '2022': 'Palmeiras', '2023': 'Palmeiras', '1961': 'Santo

Podemos acessar então utilizando as chaves.

In [50]:
print("O campeão de 1987 foi o", sCampBrasileiros['1987'])

O campeão de 1987 foi o Sport


Podemos pesquisar por uma chave para saber se ela faz parte do objeto.

In [52]:
'2019' in sCampBrasileiros  
2019 in sCampBrasileiros

False

Temos então um índice de chaves.

In [53]:
sCampBrasileiros.keys().sort_values()

Index(['1937', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1967',
       '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976',
       '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985',
       '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994',
       '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003',
       '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012',
       '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023'],
      dtype='object')

In [54]:
list(sCampBrasileiros.items())

[('1960', 'Palmeiras'),
 ('1967', 'Palmeiras'),
 ('1969', 'Palmeiras'),
 ('1972', 'Palmeiras'),
 ('1973', 'Palmeiras'),
 ('1993', 'Cruzeiro'),
 ('1994', 'Palmeiras'),
 ('2016', 'Palmeiras'),
 ('2018', 'Cruzeiro'),
 ('2022', 'Palmeiras'),
 ('2023', 'Palmeiras'),
 ('1961', 'Santos'),
 ('1962', 'Santos'),
 ('1963', 'Santos'),
 ('1964', 'Santos'),
 ('1965', 'Santos'),
 ('1968', 'Botafogo'),
 ('2002', 'Santos'),
 ('2004', 'Santos'),
 ('1980', 'Flamengo'),
 ('1982', 'Flamengo'),
 ('1983', 'Flamengo'),
 ('1987', 'Sport'),
 ('1992', 'Flamengo'),
 ('2009', 'Flamengo'),
 ('2019', 'Flamengo'),
 ('2020', 'Flamengo'),
 ('1990', 'Corinthians'),
 ('1998', 'Corinthians'),
 ('1999', 'Corinthians'),
 ('2005', 'Corinthians'),
 ('2011', 'Corinthians'),
 ('2015', 'Corinthians'),
 ('2017', 'Cruzeiro'),
 ('1977', 'São Paulo'),
 ('1986', 'São Paulo'),
 ('1991', 'São Paulo'),
 ('2006', 'São Paulo'),
 ('2007', 'São Paulo'),
 ('2008', 'São Paulo'),
 ('1996', 'Grêmio'),
 ('2000', 'Vasco'),
 ('2003', 'Cruzeiro'),


Podemos então modificar os itens acessando via chave. Mais ainda, objetos ``Series`` podem ser incrementados da mesma forma que um dicionário: atribuindo uma nova chave com um valor.

In [55]:
sCampBrasileiros['2024'] = 'Vasco da Gama'
print(sCampBrasileiros[-5:])

1981           Grêmio
2001     Athletico-PR
1985         Coritiba
1978          Guarani
2024    Vasco da Gama
dtype: object


A classe ``Series`` utiliza então uma interface semelhante à de um dicionário. Entretanto ela fornece também a possibilidade de selecionar itens no estilo array, por meio dos mesmos mecanismos básicos dos _ndarrays_ __NumPy__.

In [56]:
print(sCampBrasileiros[:'1972']) # Dúvida aqui...

1960    Palmeiras
1967    Palmeiras
1969    Palmeiras
1972    Palmeiras
dtype: object


Ainda que tenhamos definidos os índices explicitamente como uma lista de strings, os objetos ``Series``possuem um índice implícito inteiro.

In [57]:
print(sCampBrasileiros[:3])

1960    Palmeiras
1967    Palmeiras
1969    Palmeiras
dtype: object


Podemos também utilizar máscaras.

In [58]:
sCampBrasileiros[(sCampBrasileiros != 'Flamengo') & 
                  (sCampBrasileiros!= 'Corinthians') &
                  (sCampBrasileiros != 'Palmeiras') &
                  (sCampBrasileiros != 'Santos')]

1993         Cruzeiro
2018         Cruzeiro
1968         Botafogo
1987            Sport
2017         Cruzeiro
1977        São Paulo
1986        São Paulo
1991        São Paulo
2006        São Paulo
2007        São Paulo
2008        São Paulo
1996           Grêmio
2000            Vasco
2003         Cruzeiro
1970       Fluminense
1984       Fluminense
2010       Fluminense
2012       Fluminense
1974            Vasco
1989            Vasco
1997            Vasco
1975    Internacional
1976    Internacional
1979    Internacional
1937      Atlético-MG
1971      Atlético-MG
2021      Atlético-MG
1959            Bahia
1988            Bahia
1995         Botafogo
1981           Grêmio
2001     Athletico-PR
1985         Coritiba
1978          Guarani
2024    Vasco da Gama
dtype: object

In [59]:
sCampBrasileiros[['2020', '2021', '2022', '2023', '2024']]

2020         Flamengo
2021      Atlético-MG
2022        Palmeiras
2023        Palmeiras
2024    Vasco da Gama
dtype: object

Repare que, no _slicing_ com o índice explícito o índice final é incluído na fatia, enquanto ao fatiar com um índice implícito o índice final é excluído da fatia, como esperado.

Reparem que, apesar dos anos serem números inteiros, a lista de índices foi criada com uma lista de strings. 

O problema é que, se sua ``Series`` tiver um índice inteiro explícito, uma operação de indexação como ``sCampBrasileiros[1960]`` usará os índices explícitos, enquanto uma operação de _slicing_ como ``sCampBrasileiros[:1960]`` usará o índice implícito no estilo __Python__.

In [60]:
alunos = pd.Series(['nomeAluno01', 'nomeAluno02', 'nomeAluno03', 'nomeAluno04'],
                   index=[1, 2, 3, 4])

print(alunos)

1    nomeAluno01
2    nomeAluno02
3    nomeAluno03
4    nomeAluno04
dtype: object


In [61]:
print(alunos[2])

nomeAluno02


In [62]:
print(alunos.loc[:2])

1    nomeAluno01
2    nomeAluno02
dtype: object


Devido a essa confusão potencial no caso de índices inteiros, o __Pandas__ fornece alguns atributos especiais que expõem o esquemas de indexação.

Primeiro, o atributo ``loc`` permite indexação e _slicing_ que sempre faz referência ao índice explícito.

In [63]:
alunos.loc[2]

'nomeAluno02'

In [64]:
alunos.loc[:2]

1    nomeAluno01
2    nomeAluno02
dtype: object

O atributo ``iloc`` permite indexação e _slicing_ que sempre faz referência ao índice implícito no estilo __Python__:

In [65]:
alunos.iloc[2]

'nomeAluno03'

In [66]:
alunos.iloc[:2]

1    nomeAluno01
2    nomeAluno02
dtype: object

Um princípio orientador do código __Python__ é que “explícito é melhor que implícito”.
A natureza explícita de ``loc`` e ``iloc`` os torna muito úteis na manutenção de código limpo e legível, especialmente no caso de índices inteiros.

In [67]:
import this 

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


## Acessando ``DataFrame``

Como vimoa anteriormente, um ``DataFrame`` pode ser tratado de muitas maneiras: como um array bidimensional ou estruturado, e de outras maneiras como um dicionário de estruturas ``Series`` compartilhando o mesmo índice.

A primeira analogia que consideraremos é o DataFrame como um dicionário de objetos ``Series``.

In [68]:
times

Unnamed: 0,Títulos,Torcida
Athletico-PR,1,
Atlético-MG,3,9219199.0
Bahia,2,7718400.0
Botafogo,2,4288000.0
Corinthians,7,30444799.0
Coritiba,1,
Cruzeiro,4,13078400.0
Flamengo,8,46953599.0
Fluminense,4,7289600.0
Grêmio,2,9862400.0


As ``Series`` individuais que compõem as colunas do ``DataFrame`` podem ser acessadas por meio de indexação no estilo de dicionário.

In [69]:
times['Títulos']

Athletico-PR      1
Atlético-MG       3
Bahia             2
Botafogo          2
Corinthians       7
Coritiba          1
Cruzeiro          4
Flamengo          8
Fluminense        4
Grêmio            2
Guarani           1
Internacional     3
Palmeiras        12
Santos            8
Sport             1
São Paulo         6
Vasco da Gama     4
Name: Títulos, dtype: int64

De forma análoga, podemos usar acesso no estilo de atributo com o nome das coluna.

In [70]:
times.Torcida

Athletico-PR            NaN
Atlético-MG       9219199.0
Bahia             7718400.0
Botafogo          4288000.0
Corinthians      30444799.0
Coritiba                NaN
Cruzeiro         13078400.0
Flamengo         46953599.0
Fluminense        7289600.0
Grêmio            9862400.0
Guarani                 NaN
Internacional     7504000.0
Palmeiras        20225600.0
Santos            6646400.0
Sport             4073600.0
São Paulo        22225800.0
Vasco da Gama    13292800.0
Name: Torcida, dtype: float64

In [71]:
times.Torcida is times['Torcida']

True

Tal como acontece com os ``Series`` a sintaxe estilo dicionário também pode ser usada para modificar o ``DataFrame`` ou adicionar uma nova coluna.

In [72]:
times['TitulosPorTorcedor'] = times.Títulos / times.Torcida
times

Unnamed: 0,Títulos,Torcida,TitulosPorTorcedor
Athletico-PR,1,,
Atlético-MG,3,9219199.0,3.254079e-07
Bahia,2,7718400.0,2.591211e-07
Botafogo,2,4288000.0,4.664179e-07
Corinthians,7,30444799.0,2.299243e-07
Coritiba,1,,
Cruzeiro,4,13078400.0,3.058478e-07
Flamengo,8,46953599.0,1.70381e-07
Fluminense,4,7289600.0,5.48727e-07
Grêmio,2,9862400.0,2.027904e-07


O ``DataFrame``  também pode sere tratado como um array bidimensional aprimorado.

In [73]:
times.values

array([[1.00000000e+00,            nan,            nan],
       [3.00000000e+00, 9.21919900e+06, 3.25407880e-07],
       [2.00000000e+00, 7.71840000e+06, 2.59121061e-07],
       [2.00000000e+00, 4.28800000e+06, 4.66417910e-07],
       [7.00000000e+00, 3.04447990e+07, 2.29924330e-07],
       [1.00000000e+00,            nan,            nan],
       [4.00000000e+00, 1.30784000e+07, 3.05847810e-07],
       [8.00000000e+00, 4.69535990e+07, 1.70380975e-07],
       [4.00000000e+00, 7.28960000e+06, 5.48726953e-07],
       [2.00000000e+00, 9.86240000e+06, 2.02790396e-07],
       [1.00000000e+00,            nan,            nan],
       [3.00000000e+00, 7.50400000e+06, 3.99786780e-07],
       [1.20000000e+01, 2.02256000e+07, 5.93307491e-07],
       [8.00000000e+00, 6.64640000e+06, 1.20365912e-06],
       [1.00000000e+00, 4.07360000e+06, 2.45483111e-07],
       [6.00000000e+00, 2.22258000e+07, 2.69956537e-07],
       [4.00000000e+00, 1.32928000e+07, 3.00914781e-07]])

Pensando o ``DataFrame``como uma matriz bidimensional, podemos aplicar diversas formas de manipular o _ndarray_ ao ``DataFrame``.

In [74]:
times.T

Unnamed: 0,Athletico-PR,Atlético-MG,Bahia,Botafogo,Corinthians,Coritiba,Cruzeiro,Flamengo,Fluminense,Grêmio,Guarani,Internacional,Palmeiras,Santos,Sport,São Paulo,Vasco da Gama
Títulos,1.0,3.0,2.0,2.0,7.0,1.0,4.0,8.0,4.0,2.0,1.0,3.0,12.0,8.0,1.0,6.0,4.0
Torcida,,9219199.0,7718400.0,4288000.0,30444800.0,,13078400.0,46953600.0,7289600.0,9862400.0,,7504000.0,20225600.0,6646400.0,4073600.0,22225800.0,13292800.0
TitulosPorTorcedor,,3.254079e-07,2.591211e-07,4.664179e-07,2.299243e-07,,3.058478e-07,1.70381e-07,5.48727e-07,2.027904e-07,,3.997868e-07,5.933075e-07,1.203659e-06,2.454831e-07,2.699565e-07,3.009148e-07


Quando se trata de indexação de objetos ``DataFrame``, entretanto, fica claro que a indexação de colunas no estilo de dicionário impede nossa capacidade de simplesmente tratá-la como uma matriz __NumPy__.

In [75]:
times.values[7]

array([8.00000000e+00, 4.69535990e+07, 1.70380975e-07])

Na realidade, quando passamos um único índice, estamos nos referindo a uma coluna.

In [78]:
times['Títulos']

Athletico-PR      1
Atlético-MG       3
Bahia             2
Botafogo          2
Corinthians       7
Coritiba          1
Cruzeiro          4
Flamengo          8
Fluminense        4
Grêmio            2
Guarani           1
Internacional     3
Palmeiras        12
Santos            8
Sport             1
São Paulo         6
Vasco da Gama     4
Name: Títulos, dtype: int64

Portanto, para indexação em estilo array, precisamos utilizar outros recursos: os indexadores ``loc`` e ``iloc``. 

Usando o indexador ``iloc``, podemos indexar o array subjacente como se fosse um array NumPy simples (usando o índice implícito no estilo Python), mas o índice ``DataFrame`` e os rótulos das colunas são mantidos no resultado.

In [79]:
times.iloc[7]

Títulos               8.000000e+00
Torcida               4.695360e+07
TitulosPorTorcedor    1.703810e-07
Name: Flamengo, dtype: float64

Da mesma forma, usando o indexador ``loc``, podemos indexar os dados subjacentes em um estilo semelhante a um array, mas usando o índice explícito e os nomes das colunas.

In [80]:
times.loc[:'Bahia', :'Torcida']

Unnamed: 0,Títulos,Torcida
Athletico-PR,1,
Atlético-MG,3,9219199.0
Bahia,2,7718400.0


## Operando com dados em __Pandas__

Uma das peças essenciais do __NumPy__ é a capacidade de realizar operações rápidas entre elementos, tanto com aritmética básica (adição, subtração, multiplicação, etc.) quanto com operações mais sofisticadas (funções trigonométricas, funções exponenciais e logarítmicas, etc.). 

O __Pandas__ herda grande parte dessa funcionalidade do __NumPy__. No entanto, o __Pandas__ inclui algumas alterações úteis: 

* Para operações unárias como negação e funções trigonométricas as _ufuncs_ preservarão rótulos de índice e coluna na saída. 
* Para operações binárias como adição e multiplicação, o Pandas alinhará automaticamente os índices ao passar os objetos para o _ufunc_. 

Vamos tentar entender como isto melhora o processamento em relação a os _ndarrays_ de __NumPy__. 

Como o __Pandas__ foi projetado para funcionar com __NumPy__, qualquer _ufunc_ __NumPy__ funcionará em objetos __Pandas__, sejam  ``Series`` ou ``DataFrame``. 

In [81]:
pSerie = pd.Series(np.random.uniform(0, np.pi, 10))
pSerie

0    2.708868
1    0.218431
2    2.335902
3    1.560924
4    2.270484
5    1.057771
6    0.800147
7    2.196231
8    0.635348
9    1.251486
dtype: float64

In [82]:
pDataFrame = pd.DataFrame(np.random.randint(0, 256, (5, 5)),
                  columns=['alpha', 'beta', 'gamma', 'delta', 'gamma'])
pDataFrame

Unnamed: 0,alpha,beta,gamma,delta,gamma.1
0,152,73,181,218,233
1,130,251,209,124,172
2,2,124,116,121,8
3,217,203,94,124,100
4,98,7,80,184,173


Se aplicarmos uma __NumPy__ _ufunc_ em qualquer um desses objetos, o resultado será outro objeto __Pandas__ com os mesmos índices.

In [83]:
np.log1p(pDataFrame)

Unnamed: 0,alpha,beta,gamma,delta,gamma.1
0,5.030438,4.304065,5.204007,5.389072,5.455321
1,4.875197,5.529429,5.347108,4.828314,5.153292
2,1.098612,4.828314,4.762174,4.804021,2.197225
3,5.384495,5.31812,4.553877,4.828314,4.615121
4,4.59512,2.079442,4.394449,5.220356,5.159055


In [84]:
np.sin(pSerie)

0    0.419346
1    0.216699
2    0.721309
3    0.999951
4    0.765043
5    0.871264
6    0.717459
7    0.810709
8    0.593457
9    0.949452
dtype: float64

### UFuncs: alinhamento do índice

Para operações binárias em dois objetos ``Series`` ou ``DataFrame``, o __Pandas__ alinhará os índices no processo de execução da operação.

Imaginemos que temos acesso a um conjunto de dados simples contendo a altura em polegadas e o peso em libras de 25.000 humanos diferentes de 18 anos de idade. Este conjunto de dados pode ser usado, por exemplo, para construir um modelo que pode prever as alturas ou pesos de um ser humano. 

Os dados utilizados neste exemplo estão disponíveis na plataforma [Kaggle](https://www.kaggle.com/datasets/burnoutminer/heights-and-weights-dataset?resource=download). Inicialmente vamos trabalhar um pequeno subconjunto destes dados. 

In [85]:
dados = [(65.78331,112.9925), (71.51521,136.4873), (69.39874,153.0269), (68.2166,142.3354), (67.78781,144.2971),
 (68.69784,123.3024), (69.80204,141.4947), (70.01472,136.4623), (67.90265,112.3723), (66.78236,120.6672)]

dataSet = pd.DataFrame(dados, columns=['altura', 'peso'])   
dataSet

Unnamed: 0,altura,peso
0,65.78331,112.9925
1,71.51521,136.4873
2,69.39874,153.0269
3,68.2166,142.3354
4,67.78781,144.2971
5,68.69784,123.3024
6,69.80204,141.4947
7,70.01472,136.4623
8,67.90265,112.3723
9,66.78236,120.6672


Com este ``DataFrame`` podemos calcular a relação peso altura de cada um dos indivíduos cadastrados. 

In [86]:
dataSet["altura/peso"] = dataSet.altura / dataSet.peso
dataSet

Unnamed: 0,altura,peso,altura/peso
0,65.78331,112.9925,0.582192
1,71.51521,136.4873,0.52397
2,69.39874,153.0269,0.453507
3,68.2166,142.3354,0.479267
4,67.78781,144.2971,0.469779
5,68.69784,123.3024,0.557149
6,69.80204,141.4947,0.493319
7,70.01472,136.4623,0.51307
8,67.90265,112.3723,0.604265
9,66.78236,120.6672,0.553443


Entretanto, se o mesmo conjunto de dados estivesse incompleto.

In [87]:
#dados = [(65.78331,112.9925), (71.51521,136.4873), (69.39874,153.0269), (68.2166,142.3354), (67.78781,144.2971),
# (68.69784,123.3024), (69.80204,141.4947), (70.01472,136.4623), (67.90265,112.3723), (66.78236,120.6672)]

pesoSer = pd.Series([112.9925, 153.0269, 142.3354, 123.3024, 141.4947, 112.3723, 120.6672],
                    index = ["p01", "p03", "p04", "p06", "p07", "p09", "p10"])
alturaSer = pd.Series([65.78331, 71.51521, 68.2166, 67.78781,
                       68.69784, 69.80204, 70.01472,66.78236],
                        index = ["p01", "p02", "p04", "p05", "p06", "p07", "p08", "p10"])
print(pesoSer)
print(alturaSer)

p01    112.9925
p03    153.0269
p04    142.3354
p06    123.3024
p07    141.4947
p09    112.3723
p10    120.6672
dtype: float64
p01    65.78331
p02    71.51521
p04    68.21660
p05    67.78781
p06    68.69784
p07    69.80204
p08    70.01472
p10    66.78236
dtype: float64


In [88]:
dataSet = pd.DataFrame({"peso":pesoSer, "altura":alturaSer})
dataSet

Unnamed: 0,peso,altura
p01,112.9925,65.78331
p02,,71.51521
p03,153.0269,
p04,142.3354,68.2166
p05,,67.78781
p06,123.3024,68.69784
p07,141.4947,69.80204
p08,,70.01472
p09,112.3723,
p10,120.6672,66.78236


Tanto conseguimos calcular a relação entre altura e peso a partir dos objetos ``Series`` ...

In [90]:
#alturaPesoSer = dataSet.altura / dataSet.peso
alturaPesoSer = alturaSer / pesoSer
alturaPesoSer

p01    0.582192
p02         NaN
p03         NaN
p04    0.479267
p05         NaN
p06    0.557149
p07    0.493319
p08         NaN
p09         NaN
p10    0.553443
dtype: float64

quanto a partir das colunas do ``DataFrame``.

In [91]:
dataSet["altura/peso"] = dataSet.altura / dataSet.peso
dataSet

Unnamed: 0,peso,altura,altura/peso
p01,112.9925,65.78331,0.582192
p02,,71.51521,
p03,153.0269,,
p04,142.3354,68.2166,0.479267
p05,,67.78781,
p06,123.3024,68.69784,0.557149
p07,141.4947,69.80204,0.493319
p08,,70.01472,
p09,112.3723,,
p10,120.6672,66.78236,0.553443


Qualquer item para o qual um ou outro objeto não tenha uma entrada é marcado com ``NaN``, ou "Não é um número", que é como o __Pandas__ marca os dados ausentes. 

Esta correspondência de índice é implementada desta forma para qualquer uma das expressões aritméticas integradas do Python; quaisquer valores ausentes são preenchidos com NaN por padrão.

Veja outros exemplos.

In [95]:
img = np.random.randint(0, 256, (5, 5), dtype=np.uint8)
print(img)
print(img.sum())


[[199 147  67 201 156]
 [123  55  93  87  35]
 [108  69 150 154 173]
 [ 93 118 193 101 245]
 [ 64 175  28 224 134]]
3192


In [98]:
img = pd.DataFrame(img, columns=['C01', 'C02', 'C03', 'C04', 'C05'],
                   index=['L01', 'L02', 'L03', 'L04', 'L05'])
print(img)
print(img.sum(axis=0))

     C01  C02  C03  C04  C05
L01  199  147   67  201  156
L02  123   55   93   87   35
L03  108   69  150  154  173
L04   93  118  193  101  245
L05   64  175   28  224  134
C01    587
C02    564
C03    531
C04    767
C05    743
dtype: uint64


In [99]:
masc = np.ones((3, 3), dtype=np.uint8)
masc = pd.DataFrame(masc, columns=['C02', 'C03', 'C04'],
                   index=['L02', 'L03', 'L04'])

print(masc)

     C02  C03  C04
L02    1    1    1
L03    1    1    1
L04    1    1    1


In [100]:
imgMasc = img * masc
print(imgMasc)
print(imgMasc.sum().sum())

     C01    C02    C03    C04  C05
L01  NaN    NaN    NaN    NaN  NaN
L02  NaN   55.0   93.0   87.0  NaN
L03  NaN   69.0  150.0  154.0  NaN
L04  NaN  118.0  193.0  101.0  NaN
L05  NaN    NaN    NaN    NaN  NaN
1020.0


 Podemos usar ainda o método aritmético do objeto associado e passar o ``fill_value`` desejado para ser usado no lugar das entradas ausentes.

In [101]:
imgMasc = img.mul(masc, fill_value=0)
print(imgMasc)

     C01    C02    C03    C04  C05
L01  0.0    0.0    0.0    0.0  0.0
L02  0.0   55.0   93.0   87.0  0.0
L03  0.0   69.0  150.0  154.0  0.0
L04  0.0  118.0  193.0  101.0  0.0
L05  0.0    0.0    0.0    0.0  0.0


__Pandas__, da mesma forma que __NumPy__, fornece métodos específicos que implementam a sobrecarga dos operadores aritméticos tradicionais, expandindo suas possibilidades de uso. 

| Operador        | Método Pandas                         |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

Podemos utilizar estes operadores também para manipular objetos ``Series`` e ``DataFrame`` juntos. 

In [102]:
min = imgMasc['L02':'L04'].min()
min = min['C02':'C04'].min()
print(min)
min = pd.Series(min, index=['C02', 'C03', 'C04'])
print(min)

55.0
C02    55.0
C03    55.0
C04    55.0
dtype: float64


In [103]:
imgNorm = imgMasc - min
print(imgNorm)

     C01   C02    C03   C04  C05
L01  NaN -55.0  -55.0 -55.0  NaN
L02  NaN   0.0   38.0  32.0  NaN
L03  NaN  14.0   95.0  99.0  NaN
L04  NaN  63.0  138.0  46.0  NaN
L05  NaN -55.0  -55.0 -55.0  NaN


De acordo com as regras de _broadcasting_ do __NumPy__, que abordamos na aula anterior, a subtração entre uma matriz bidimensional e um array unidimensional é aplicada por linhas.

No Pandas, a convenção funciona de forma semelhante em linhas por padrão:

In [104]:
#npyImgNorm = imgMasc.values - min.values    # Numpy array
npyImgNorm = imgMasc.values[:,1:4] - min.values   # Numpy array
print(npyImgNorm)

[[-55. -55. -55.]
 [  0.  38.  32.]
 [ 14.  95.  99.]
 [ 63. 138.  46.]
 [-55. -55. -55.]]


Repare que neste como em outros exemplos que envolvam operações entre ``DataFrame`` e ``Series`` os índices são alinhados automaticamente.

Entretanto, ee preferir operar em colunas, você pode usar os métodos do objeto, mencionados anteriormente, especificando a palavra-chave ``axis``.

In [105]:

min = pd.Series(16, index=['L02', 'L03', 'L04'])
imgNorm = imgMasc.subtract(min, axis=0)
print(imgNorm)

      C01    C02    C03    C04   C05
L01   NaN    NaN    NaN    NaN   NaN
L02 -16.0   39.0   77.0   71.0 -16.0
L03 -16.0   53.0  134.0  138.0 -16.0
L04 -16.0  102.0  177.0   85.0 -16.0
L05   NaN    NaN    NaN    NaN   NaN
