# Manipulação de Dados em *Python*
## A biblioteca *pandas*

## Índices dos valores máximos ou mínimos

* Os métodos **idxmin()** e **idxmax()** retornam o *index* cuja entrada fornece o valor mínimo ou máximo da *Serie* ou *DataFrame*.

* Se houverem múltiplas ocorrências de mínimos ou máximos, o método retorna a primeira ocorrência.

In [70]:
import numpy as np
import pandas as pd
import datetime # para atualizar captura de dados do COVID

In [3]:
serie_Idade = pd.Series({'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22, 'Túlio': 20}, name="Idade")
serie_Peso = pd.Series({'Ana':55, 'João': 80, 'Maria': 62, 'Pedro': 67, 'Túlio': 73}, name="Peso")
serie_Altura = pd.Series({'Ana':162, 'João': 178, 'Maria': 162, 'Pedro': 165, 'Túlio': 171}, name="Altura")

In [4]:
dicionario_series_exemplo = {'Idade': serie_Idade, 'Peso': serie_Peso, 'Altura': serie_Altura}

In [5]:
df_dict_series = pd.DataFrame(dicionario_series_exemplo)

In [6]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


In [7]:
df_dict_series.idxmin()

Idade     João
Peso       Ana
Altura     Ana
dtype: object

In [8]:
df_dict_series.idxmax()

Idade     Pedro
Peso       João
Altura     João
dtype: object

Mais exemplos:

In [9]:
df_exemplo = pd.read_csv('06b-exemplo_data.csv', index_col=0);df_exemplo

Unnamed: 0,coluna_1,coluna_2
2020-01-01,-0.416092,1.810364
2020-01-02,-0.13797,2.57852
2020-01-03,0.575827,0.060866
2020-01-04,-0.017367,1.299587
2020-01-05,1.384279,-0.381732
2020-01-06,0.549706,-1.308789
2020-01-07,-0.282296,-1.688979
2020-01-08,-0.98973,-0.028121
2020-01-09,0.275582,-0.177659
2020-01-10,0.685132,0.502535


In [10]:
df_exemplo = pd.DataFrame(df_exemplo, columns=['coluna_1','coluna_2','coluna_3'])

In [11]:
df_exemplo['coluna_3'] = pd.Series([1,2,3,4,5,6,7,8,np.nan,np.nan],index=df_exemplo.index)

In [12]:
df_exemplo

Unnamed: 0,coluna_1,coluna_2,coluna_3
2020-01-01,-0.416092,1.810364,1.0
2020-01-02,-0.13797,2.57852,2.0
2020-01-03,0.575827,0.060866,3.0
2020-01-04,-0.017367,1.299587,4.0
2020-01-05,1.384279,-0.381732,5.0
2020-01-06,0.549706,-1.308789,6.0
2020-01-07,-0.282296,-1.688979,7.0
2020-01-08,-0.98973,-0.028121,8.0
2020-01-09,0.275582,-0.177659,
2020-01-10,0.685132,0.502535,


In [13]:
df_exemplo.idxmin()

coluna_1    2020-01-08
coluna_2    2020-01-07
coluna_3    2020-01-01
dtype: object

In [14]:
df_exemplo.idxmax()

coluna_1    2020-01-05
coluna_2    2020-01-02
coluna_3    2020-01-08
dtype: object

## Reindexar *DataFrames*

Em *pandas*, o método **reindex** faz o seguinte:

* Reordena o *DataFrame* de acordo com o conjunto de rótulos inserido como argumento;
* Insere valores faltantes caso um rótulo do novo *index* não tenha valor atribuído no conjunto de dados;
* Remove valores correspondentes a rótulos que não estão presentes no novo *index*.

Exemplos:

In [15]:
df_dict_series.reindex(index=['Victor', 'Túlio', 'Pedro', 'João'], columns=['Altura','Peso','IMC'])

Unnamed: 0,Altura,Peso,IMC
Victor,,,
Túlio,171.0,73.0,
Pedro,165.0,67.0,
João,178.0,80.0,


## Removendo linhas ou colunas de um *DataFrame*

* Para remover linhas ou colunas de um *DataFrame* do *pandas* podemos utilizar o método **drop**.

* *axis=0*, que é o padrão, indica a remoção de linhas, *axis=1*, indica que estamos removendo a coluna.

Exemplos:

In [16]:
df_dict_series.drop(['Ana','Maria'], axis=0)

Unnamed: 0,Idade,Peso,Altura
João,19,80,178
Pedro,22,67,165
Túlio,20,73,171


In [17]:
df_dict_series.drop(['Idade'], axis=1)

Unnamed: 0,Peso,Altura
Ana,55,162
João,80,178
Maria,62,162
Pedro,67,165
Túlio,73,171


## Renomear *index* e *columns*

O método **rename** retorna uma cópida na qual o *index* (no caso de *Series* e *DataFrames*) e *columns* (no caso de *DataFrames*) foram renomeados.

O método aceita como entrada um dicionário, uma *Serie* do *pandas* ou uma função.

Exemplo:

In [18]:
serie_exemplo = pd.Series([1,2,3], index=['a','b','c'])

In [19]:
serie_exemplo

a    1
b    2
c    3
dtype: int64

In [20]:
serie_exemplo.rename({'a':'abacaxi', 'b':'banana', 'c': 'cebola'})

abacaxi    1
banana     2
cebola     3
dtype: int64

In [21]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


In [22]:
df_dict_series.rename(index = {'Ana':'a', 'João':'j', 'Maria':'m', 'Pedro':'p','Túlio':'t'},
                     columns = {'Idade':'I', 'Peso':'P','Altura':'A'})

Unnamed: 0,I,P,A
a,20,55,162
j,19,80,178
m,21,62,162
p,22,67,165
t,20,73,171


In [23]:
indice_novo = pd.Series({'Ana':'a', 'João':'j', 'Maria':'m', 'Pedro':'p','Túlio':'t'})

In [24]:
df_dict_series.rename(index = indice_novo) # Aqui utilizando uma serie para renomear

Unnamed: 0,Idade,Peso,Altura
a,20,55,162
j,19,80,178
m,21,62,162
p,22,67,165
t,20,73,171


In [25]:
df_dict_series.rename(columns=str.upper) # Aqui utilizando uma função para renomear

Unnamed: 0,IDADE,PESO,ALTURA
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


## Ordenando *Series* e *DataFrames*

É possível ordenar pelos rótulos do *index* (para tanto é necessário que eles sejam ordenáveis) ou por valores nas colunas.

* O método *sort_index* ordena a *Serie* ou o *DataFrame* pelo *index*;
* O método *sort_values* ordena a *Serie* ou o *DataFrame* pelos valores (escolhendo uma coluna ou mais colunas no caso de *DataFrames*). No caso do *DataFrame* precisa de um argumento *by* indicando qual(is) coluna(s) a ser(em) utilizada(s).


Exemplos:

In [26]:
serie_desordenada = pd.Series({'Maria': 21, 'Pedro': 22, 'Túlio': 20, 'João': 19, 'Ana':20});serie_desordenada

Maria    21
Pedro    22
Túlio    20
João     19
Ana      20
dtype: int64

In [27]:
serie_desordenada.sort_index()

Ana      20
João     19
Maria    21
Pedro    22
Túlio    20
dtype: int64

Mais exemplos:

In [28]:
df_desordenado = df_dict_series.reindex(index=['Pedro','Maria','Ana','Túlio','João'])

In [29]:
df_desordenado

Unnamed: 0,Idade,Peso,Altura
Pedro,22,67,165
Maria,21,62,162
Ana,20,55,162
Túlio,20,73,171
João,19,80,178


In [30]:
df_desordenado.sort_index()

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


Mais exemplos:

In [31]:
serie_desordenada.sort_values()

João     19
Túlio    20
Ana      20
Maria    21
Pedro    22
dtype: int64

In [32]:
df_desordenado.sort_values(by=['Altura'])

Unnamed: 0,Idade,Peso,Altura
Maria,21,62,162
Ana,20,55,162
Pedro,22,67,165
Túlio,20,73,171
João,19,80,178


*  No caso de empate, podemos ultilizar outra coluna para desempatar

In [33]:
df_desordenado.sort_values(by=['Altura','Peso']) # Utilizando a coluna *'Peso'* para desempatar

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171
João,19,80,178


* Os métodos *sort_index* e *sort_values* admitem o argumento opcional *ascending*, que permite inverter a ordenação:

In [34]:
df_desordenado.sort_index(ascending=False)

Unnamed: 0,Idade,Peso,Altura
Túlio,20,73,171
Pedro,22,67,165
Maria,21,62,162
João,19,80,178
Ana,20,55,162


In [35]:
df_desordenado.sort_values(by=['Idade'], ascending=False)

Unnamed: 0,Idade,Peso,Altura
Pedro,22,67,165
Maria,21,62,162
Ana,20,55,162
Túlio,20,73,171
João,19,80,178


## Comparando *Series* e *DataFrames*

*Series* e *DataFrames* possuem os métodos de comparações lógicas *eq* (igual), *ne* (diferente), *lt* (menor do que), *gt* (maior do que), *le* (menor ou igual), *ge* (maior ou igual), que permitem a utilização dos operadores binários *==*, *!=*, *<*, *>*, *<=*, *>=*, respectivamente.

As comparações são realizadas em cada entrada da *Serie* ou do *DataFrame*.

**Observação**: Para que esses métodos sejam aplicados todos os objetos presentes nas colunas do *DataFrame* devem possuir este métodos comparáveis com o que está sendo pedido. Por exemplo se um *DataFrame* possui algumas colunas numéricas e outras colunas com strings, ao realizar uma comparação do tipo *> 1*, teremos um erro, pois o *pandas* tentará realizar comparações entre objetos do tipo *int* e *str*.

Exemplos:

In [36]:
serie_exemplo

a    1
b    2
c    3
dtype: int64

In [37]:
serie_exemplo == 2

a    False
b     True
c    False
dtype: bool

In [38]:
serie_exemplo > 1

a    False
b     True
c     True
dtype: bool

In [39]:
df_exemplo > 1

Unnamed: 0,coluna_1,coluna_2,coluna_3
2020-01-01,False,True,False
2020-01-02,False,True,True
2020-01-03,False,False,True
2020-01-04,False,True,True
2020-01-05,True,False,True
2020-01-06,False,False,True
2020-01-07,False,False,True
2020-01-08,False,False,True
2020-01-09,False,False,False
2020-01-10,False,False,False


**Importante:** Ao comparar *np.nan*, o resultado tipicamente é falso:

In [40]:
np.nan == np.nan

False

In [41]:
np.nan > np.nan

False

In [42]:
np.nan >= np.nan

False

Só é verdadeiro para indicar que é diferente:

In [43]:
np.nan != np.nan

True

* Nesse sentido podemos ter tabelas iguais sem que a comparação usual funcione:

In [44]:
df_exemplo_2 = df_exemplo.copy() # Este método, como o nome sugere, fornece uma cópia do DataFrame

In [45]:
(df_exemplo == df_exemplo_2).all().all()

False

* O motivo da saída *False* ainda que *df_exemplo_2* seja uma cópia exata do *df_exemplo* é a presença do *np.nan*.

* Para comparar neste caso devemos utilizar o método **equals**:

In [46]:
df_exemplo.equals(df_exemplo_2)

True

## Os métodos *any*, *all* e a propriedade *empty*

* O método **any** é aplicado a entradas booleanas (verdadeiras ou falsas) e retorna verdadeiro se existir alguma entrada verdadeira e falsa se todas forem falsas;
* O método **all** é aplicado a entradas booleanas e retorna verdadeiro se todas as entradas forem verdadeiras e falso se houver pelo menos uma entrada falsa.
* A propriedade **empty** retorna verdadeiro se a *Serie* ou o *DataFrame* estiver vazio e falso caso contrário.

Exemplos:

In [47]:
serie_exemplo

a    1
b    2
c    3
dtype: int64

In [48]:
(serie_exemplo > 1).any()

True

In [49]:
(serie_exemplo > 1).all()

False

In [50]:
serie_exemplo.empty

False

Mais exemplos:

In [51]:
(df_exemplo == df_exemplo_2).any()

coluna_1    True
coluna_2    True
coluna_3    True
dtype: bool

In [52]:
df_exemplo.empty

False

In [53]:
df_vazio = pd.DataFrame()

In [54]:
df_vazio.empty

True

## Como selecionar colunas de um *DataFrame*

* Para selecionar colunas de um *DataFrame*, basta aplicar o *colchete* a uma lista contendo os nomes das colunas de interesse.

* No exemplo abaixo, temos um *DataFrame* contendo as colunas *Idade*, *Peso* e *Altura*. Iremos selecionar *Peso* e *Altura*:

In [55]:
df_dict_series[['Peso','Altura']]

Unnamed: 0,Peso,Altura
Ana,55,162
João,80,178
Maria,62,162
Pedro,67,165
Túlio,73,171


* Se quisermos selecionar apenas uma coluna, não há a necessidade de inserir uma lista. Basta utilizar o nome da coluna:

In [56]:
df_dict_series['Peso']

Ana      55
João     80
Maria    62
Pedro    67
Túlio    73
Name: Peso, dtype: int64

* Se quisermos remover algumas colunas, podemos utilizar o método **drop**.

In [57]:
df_dict_series.drop(['Peso','Altura'], axis=1)

Unnamed: 0,Idade
Ana,20
João,19
Maria,21
Pedro,22
Túlio,20


## Criando novas colunas a partir das colunas já existentes

* Um método eficiente para criarmos novas colunas a partir de colunas já existentes é o **eval**.
* Neste método podemos utilizar como argumento uma *string* contendo uma expressão matemática envolvendo nomes de colunas do *DataFrame*.

Como exemplo, vamos ver como calcular o IMC no *DataFrame* anterior:

In [58]:
df_dict_series.eval('Peso/(Altura/100)**2')

Ana      20.957171
João     25.249337
Maria    23.624447
Pedro    24.609734
Túlio    24.964946
dtype: float64

* Se quisermos obter um *DataFrame* contendo o IMC como uma nova coluna, podemos utilizar o método **assign** (sem modificar o *DataFrame* original):

In [59]:
df_dict_series.assign(IMC=round(df_dict_series.eval('Peso/(Altura/100)**2'),2))

Unnamed: 0,Idade,Peso,Altura,IMC
Ana,20,55,162,20.96
João,19,80,178,25.25
Maria,21,62,162,23.62
Pedro,22,67,165,24.61
Túlio,20,73,171,24.96


* Se quisermos modificar o *DataFrame* para incluir a coluna IMC fazemos:

In [60]:
df_dict_series['IMC']=round(df_dict_series.eval('Peso/(Altura/100)**2'),2)

In [61]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura,IMC
Ana,20,55,162,20.96
João,19,80,178,25.25
Maria,21,62,162,23.62
Pedro,22,67,165,24.61
Túlio,20,73,171,24.96


## Selecionando linhas de um *DataFrame*:

* Podemos selecionar linhas de um *DataFrame* de diversas formas diferentes. Veremos agora algumas dessas formas.

* Diferentemente da forma de selecionar colunas, para selecionar diretamente linhas de um *DataFrame* devemos utilizar o método **loc** (fornecendo o *index*, isto é, o rótulo da linha) ou o **iloc** (fornecendo a posição da linha):

In [94]:
dados_covid_PB = pd.read_csv('https://superset.plataformatarget.com.br/superset/explore_json/?form_data=%7B%22slice_id%22%3A1550%7D&csv=true', 
                             sep=',', index_col=0)

ontem = (datetime.date.today() - datetime.timedelta(days=1)).strftime('%Y-%m-%d') # data de ontem

In [95]:
dados_covid_PB.head(1)

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-02-02,193465,867,234366,149242,4082,14,0.0211


* Podemos ver as informações de um único dia como argumento (excluindo a coluna letalidade e convertendo para inteiro):

In [96]:
dados_covid_PB.loc[ontem].drop('Letalidade').astype('int')
#Aqui para vermos as informações do dia 10 de Julho de 2020
#Excluímos a coluna letalidade

casosAcumulados     193465
casosNovos             867
descartados         234366
recuperados         149242
obitosAcumulados      4082
obitosNovos             14
Name: 2021-02-02, dtype: int64

* Podemos colocar um intervalo de datas como argumento (excluindo a coluna letalidade):

In [97]:
dados_covid_PB.index = pd.to_datetime(dados_covid_PB.index) # Convertendo o index de string para data
dados_covid_PB.loc[pd.date_range('2020-06-01',periods=5,freq="D")].drop('Letalidade',axis=1) 
                #função pd.date_range é muito útil para criar índices a partir de datas.

Unnamed: 0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos
2020-06-01,13695,533,12068,2637,370,10
2020-06-02,14859,1164,13270,2920,379,9
2020-06-03,16018,1159,16043,3175,414,35
2020-06-04,17579,1561,17516,3633,438,24
2020-06-05,18579,1000,18730,3945,451,13


* Podemos colocar uma lista como argumento:

In [98]:
dados_covid_PB.loc[pd.to_datetime(['2020-06-01','2020-07-01'])]

Unnamed: 0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
2020-06-01,13695,533,12068,2637,370,10,0.027
2020-07-01,48175,1218,45395,15359,1002,25,0.0208


* Vamos agora olhar os dados da posição 100 (novamente excluindo a coluna letalidade e convertendo para inteiro):

In [99]:
dados_covid_PB.iloc[100].drop('Letalidade').astype('int') 
#Excluímos a linha letalidade (da Serie) e convertemos para inteiro para melhor apresentação

casosAcumulados     130781
casosNovos             123
descartados         181054
recuperados         107920
obitosAcumulados      3054
obitosNovos              7
Name: 2020-10-25 00:00:00, dtype: int64

* Podemos colocar um intervalo como argumento:

In [100]:
dados_covid_PB.iloc[97:100].drop('Letalidade', axis=1).astype('int') 

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-10-28,131979,544,183224,107933,3076,6
2020-10-27,131435,519,182415,107930,3070,8
2020-10-26,130916,135,181143,107925,3062,8


## Selecionando colunas pelos métodos *loc* e *iloc*

* Podemos selecionar colunas utilizando os métodos **loc** e **iloc**:

In [101]:
dados_covid_PB.loc[:,['casosNovos','obitosNovos']]

Unnamed: 0_level_0,casosNovos,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-02-02,867,14
2021-02-01,1014,12
2021-01-31,1104,8
2021-01-30,1065,12
2021-01-29,1125,11
...,...,...
2020-03-20,0,0
2020-03-19,0,0
2020-03-18,0,0
2020-03-17,0,0


In [102]:
dados_covid_PB.iloc[:,4:6]

Unnamed: 0_level_0,obitosAcumulados,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-02-02,4082,14
2021-02-01,4068,12
2021-01-31,4056,8
2021-01-30,4048,12
2021-01-29,4036,11
...,...,...
2020-03-20,0,0
2020-03-19,0,0
2020-03-18,0,0
2020-03-17,0,0


## Selecionando linhas e colunas específicas pelos métodos *loc* e *iloc*:

In [103]:
dados_covid_PB.iloc[95:100,4:6]

Unnamed: 0_level_0,obitosAcumulados,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-10-30,3091,8
2020-10-29,3083,7
2020-10-28,3076,6
2020-10-27,3070,8
2020-10-26,3062,8


In [104]:
dados_covid_PB.loc[pd.date_range('2020-04-06','2020-04-10'),['casosNovos','obitosNovos']].sort_index(ascending=False)

Unnamed: 0,casosNovos,obitosNovos
2020-04-10,6,0
2020-04-09,24,4
2020-04-08,14,3
2020-04-07,5,0
2020-04-06,1,0


* Para alterar uma entrada específica é simples. Suponha que o peso de Ana foi medido errado e é, na realidade, 65, então, fazemos:

In [105]:
df_dict_series.loc['Ana','Peso'] = 65

df_dict_series = df_dict_series.assign(IMC=round(df_dict_series.eval('Peso/(Altura/100)**2'),2)) # O IMC mudou

In [106]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura,IMC
Ana,20,65,162,24.77
João,19,80,178,25.25
Maria,21,62,162,23.62
Pedro,22,67,165,24.61
Túlio,20,73,171,24.96


### Selecionando linha através de critérios lógicos ou funções:

Vamos selecionar quais os dias em que houve mais de 30 mortes registradas:

In [107]:
dados_covid_PB.loc[dados_covid_PB['obitosNovos']>30]

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-08-04,85760,1549,106500,38554,1901,31,0.0222
2020-07-24,74550,1446,85903,29628,1653,35,0.0222
2020-07-23,73104,2132,84047,28566,1618,37,0.0221
2020-07-21,68844,1164,78605,25028,1558,41,0.0226
2020-07-20,67680,298,76190,24486,1517,31,0.0224
2020-07-18,66971,624,76176,24437,1477,31,0.0221
2020-07-16,65423,1484,75757,24253,1418,35,0.0217
2020-07-15,63939,1477,74399,23695,1383,41,0.0216
2020-07-14,62462,1354,73028,23027,1342,40,0.0215
2020-07-12,60784,363,71257,22292,1284,34,0.0211


Selecionando os dias com mais de 25 óbitos e mais de 1500 casos novos:

In [108]:
dados_covid_PB.loc[(dados_covid_PB.obitosNovos >25) & (dados_covid_PB.casosNovos>1500)]

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-08-04,85760,1549,106500,38554,1901,31,0.0222
2020-07-31,82794,1686,96753,35971,1811,26,0.0219
2020-07-23,73104,2132,84047,28566,1618,37,0.0221
2020-07-10,59118,1504,69567,21481,1229,33,0.0208
2020-07-08,56344,1542,67549,19999,1171,26,0.0208
2020-07-07,54802,1651,64933,19373,1145,27,0.0209
2020-06-30,46957,1900,43070,14930,977,46,0.0208
2020-06-09,22452,1501,20650,4671,534,27,0.0238


**Obs**.: Note que podemos utilizar o nome da coluna como um atributo.

Vamos inserir uma coluna sobrenome no *df_dict_series*:

In [109]:
df_dict_series['Sobrenome'] = ['Silva', 'PraDo', 'Sales', 'MachadO', 'Coutinho']
df_dict_series

Unnamed: 0,Idade,Peso,Altura,IMC,Sobrenome
Ana,20,65,162,24.77,Silva
João,19,80,178,25.25,PraDo
Maria,21,62,162,23.62,Sales
Pedro,22,67,165,24.61,MachadO
Túlio,20,73,171,24.96,Coutinho


Vamos encontrar as linhas cujo sobrenome termina em "do". Para tanto, note que a função abaixo retorna *True* se o final é "do" e *False* caso contrário.
```python
def verifica_final_do(palavra):
    return palavra.lower()[-2:] == 'do'
```
**Obs**.: Note que convertemos tudo para minúsculo.

Agora vamos utilizar essa função para alcançar nosso objetivo:

In [110]:
df_dict_series['Sobrenome'].map(lambda palavra: palavra.lower()[-2:]=='do') 
        # A função map aplica a função lambda a cada elemento de uma *Serie*

Ana      False
João      True
Maria    False
Pedro     True
Túlio    False
Name: Sobrenome, dtype: bool

In [111]:
df_dict_series.loc[df_dict_series['Sobrenome'].map(lambda palavra: palavra.lower()[-2:]=='do')]

Unnamed: 0,Idade,Peso,Altura,IMC,Sobrenome
João,19,80,178,25.25,PraDo
Pedro,22,67,165,24.61,MachadO


Vamos selecionar as linhas do mês 4 (Abril):

In [112]:
dados_covid_PB.loc[dados_covid_PB.index.month==4].head()

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-04-30,926,112,1695,156,67,5,0.0724
2020-04-29,814,115,1616,152,62,4,0.0762
2020-04-28,699,66,1531,149,58,5,0.083
2020-04-27,633,90,1482,119,53,3,0.0837
2020-04-26,543,44,1421,119,50,1,0.0921


## Selecionando linhas com o método *query*

* Na mesma linha do método **eval**, ao utilizarmos o método **query** podemos criar expressões lógicas a partir de nomes das colunas do *DataFrame*.

Assim, podemos reescrever o código

```python
dados_covid_PB.loc[(dados_covid_PB.obitosNovos>25) & 
                   (dados_covid_PB.casosNovos>1500)]
```
como

In [113]:
dados_covid_PB.query('obitosNovos>25 and casosNovos>1500')

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-08-04,85760,1549,106500,38554,1901,31,0.0222
2020-07-31,82794,1686,96753,35971,1811,26,0.0219
2020-07-23,73104,2132,84047,28566,1618,37,0.0221
2020-07-10,59118,1504,69567,21481,1229,33,0.0208
2020-07-08,56344,1542,67549,19999,1171,26,0.0208
2020-07-07,54802,1651,64933,19373,1145,27,0.0209
2020-06-30,46957,1900,43070,14930,977,46,0.0208
2020-06-09,22452,1501,20650,4671,534,27,0.0238


## Agregando informações de linhas ou colunas

* Para agregar informações (por exemplo somar, tomar médias, etc) de linhas ou colunas podemos utilizar alguns métodos específicos já existentes em *DataFrames* e *Series*, como **sum**, **mean**, **cumsum**, etc, como  também podemos utilizar o método **aggregate** ou equivalentemente **agg**:

In [114]:
dados_covid_PB.agg(lambda vetor: np.sum(vetor))[['casosNovos','obitosNovos']].astype('int')

casosNovos     193465
obitosNovos      4082
dtype: int64

In [115]:
dados_covid_PB.head()

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-02-02,193465,867,234366,149242,4082,14,0.0211
2021-02-01,192598,1014,234215,149235,4068,12,0.0211
2021-01-31,191584,1104,234198,148856,4056,8,0.0212
2021-01-30,190480,1065,233698,148722,4048,12,0.0213
2021-01-29,189415,1125,233135,138950,4036,11,0.0213


* Isto também pode ser obtido utilizando o método *sum* de *DataFrames* e *Series*:

In [116]:
dados_covid_PB[['casosNovos','obitosNovos']].sum()

casosNovos     193465
obitosNovos      4082
dtype: int64

* Podemos recriar a coluna obitosAcumulados com o método *cumsum*:

In [117]:
dados_covid_PB.obitosNovos.sort_index().cumsum()

data
2020-03-16       0
2020-03-17       0
2020-03-18       0
2020-03-19       0
2020-03-20       0
              ... 
2021-01-29    4036
2021-01-30    4048
2021-01-31    4056
2021-02-01    4068
2021-02-02    4082
Name: obitosNovos, Length: 324, dtype: int64

## Selecionando entradas distintas

* Para selecionar entradas distintas utilizamos o método **drop_duplicate**. Aqui, para exemplificar, vamos utilizar o banco de dados oficial de covid do Brasil:

In [123]:
covid_BR = pd.read_excel('06b-HIST_PAINEL_COVIDBR_18jul2020.xlsx')

In [124]:
covid_BR.tail(3)

Unnamed: 0.1,Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
629803,629803,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-16,29,3015268,77621,2242,1037,36,,,1.0
629804,629804,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-17,29,3015268,79400,1779,1060,23,,,1.0
629805,629805,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-07-18,29,3015268,81163,1763,1075,15,,,1.0


In [125]:
covid_BR.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629806 entries, 0 to 629805
Data columns (total 18 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Unnamed: 0              629806 non-null  int64  
 1   regiao                  629806 non-null  object 
 2   estado                  629661 non-null  object 
 3   municipio               623352 non-null  object 
 4   coduf                   629806 non-null  int64  
 5   codmun                  625746 non-null  float64
 6   codRegiaoSaude          623352 non-null  float64
 7   nomeRegiaoSaude         623352 non-null  object 
 8   data                    629806 non-null  object 
 9   semanaEpi               629806 non-null  int64  
 10  populacaoTCU2019        627412 non-null  object 
 11  casosAcumulado          629806 non-null  int64  
 12  casosNovos              629806 non-null  int64  
 13  obitosAcumulado         629806 non-null  int64  
 14  obitosNovos         

In [126]:
covid_BR.estado.drop_duplicates().array

<PandasArray>
[ nan, 'RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN', 'PB',
 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC', 'RS', 'MS', 'MT',
 'GO', 'DF']
Length: 28, dtype: object

In [127]:
covid_BR.estado.drop_duplicates().dropna().sort_values().array

<PandasArray>
['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG', 'MS', 'MT',
 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP',
 'TO']
Length: 27, dtype: object

## Agrupando dados por valores em colunas e agregando os resultados

* Vamos determinar uma coluna para agrupar. No caso, iremos considerar o *DataFrame* **covid_BR**, vamos selecionar os estados *PB*, *PE*, *RJ*, *SP* e vamos realizar análises, agrupando os resultados por estados.

In [128]:
covid_BR.query('estado in ["PB", "PE", "RJ", "SP"]')

Unnamed: 0.1,Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
1740,1740,Nordeste,PB,,25,,,,2020-02-25,9,4018127,0,0,0,0,,,
1741,1741,Nordeste,PB,,25,,,,2020-02-26,9,4018127,0,0,0,0,,,
1742,1742,Nordeste,PB,,25,,,,2020-02-27,9,4018127,0,0,0,0,,,
1743,1743,Nordeste,PB,,25,,,,2020-02-28,9,4018127,0,0,0,0,,,
1744,1744,Nordeste,PB,,25,,,,2020-02-29,9,4018127,0,0,0,0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
448655,448655,Sudeste,SP,Estiva Gerbi,35,355730.0,35141.0,BAIXA MOGIANA,2020-07-14,29,11304,62,6,3,1,,,0.0
448656,448656,Sudeste,SP,Estiva Gerbi,35,355730.0,35141.0,BAIXA MOGIANA,2020-07-15,29,11304,65,3,3,0,,,0.0
448657,448657,Sudeste,SP,Estiva Gerbi,35,355730.0,35141.0,BAIXA MOGIANA,2020-07-16,29,11304,70,5,3,0,,,0.0
448658,448658,Sudeste,SP,Estiva Gerbi,35,355730.0,35141.0,BAIXA MOGIANA,2020-07-17,29,11304,75,5,4,1,,,0.0


* Dando uma inspecionada no conjunto de dados, observamos que os dados para o estado são apresentados com o valor *NaN* para **codmun** e quando **codmun** possui um valor diferente de *NaN*, o resultado é apenas para o município do código em questão.

* Como estamos interessados nos valores por estado, vamos selecionar apenas os dados com **codmun** *NaN*:

In [129]:
covid_estados = covid_BR.query('estado in ["PB", "PE", "RJ", "SP"]')
covid_apenas_estados = covid_estados.loc[covid_estados['codmun'].isna()]

* Vamos agora apenas selecionar as colunas de interesse. Para tanto, vejamos os nomes das colunas:

In [130]:
covid_apenas_estados.columns

Index(['Unnamed: 0', 'regiao', 'estado', 'municipio', 'coduf', 'codmun',
       'codRegiaoSaude', 'nomeRegiaoSaude', 'data', 'semanaEpi',
       'populacaoTCU2019', 'casosAcumulado', 'casosNovos', 'obitosAcumulado',
       'obitosNovos', 'Recuperadosnovos', 'emAcompanhamentoNovos',
       'interior/metropolitana'],
      dtype='object')

In [131]:
covid_apenas_estados = covid_apenas_estados[['estado', 'data', 'casosNovos', 'obitosNovos']]

A data parece ser o *index* natural, já que o *index* atual não representa nada. Observe que termos *index* repetidos, pois teremos as mesmas datas em estados diferentes.

In [132]:
covid_apenas_estados

Unnamed: 0,estado,data,casosNovos,obitosNovos
1740,PB,2020-02-25,0,0
1741,PB,2020-02-26,0,0
1742,PB,2020-02-27,0,0
1743,PB,2020-02-28,0,0
1744,PB,2020-02-29,0,0
...,...,...,...,...
3040,SP,2020-07-14,12000,417
3041,SP,2020-07-15,6569,316
3042,SP,2020-07-16,8872,398
3043,SP,2020-07-17,5367,339


In [133]:
covid_apenas_estados = covid_apenas_estados.set_index('data')

In [134]:
covid_apenas_estados

Unnamed: 0_level_0,estado,casosNovos,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-02-25,PB,0,0
2020-02-26,PB,0,0
2020-02-27,PB,0,0
2020-02-28,PB,0,0
2020-02-29,PB,0,0
...,...,...,...
2020-07-14,SP,12000,417
2020-07-15,SP,6569,316
2020-07-16,SP,8872,398
2020-07-17,SP,5367,339


## Agrupando com o método *groupby*

Podemos escolher uma (ou mais colunas, incluindo o índice) para agrupar os dados. Ao agruparmos os dados, receberemos um objeto do tipo DataFrameGroupBy. Para vermos os resultados, devemos agregar os valores:

In [135]:
covid_estados_agrupado = covid_apenas_estados.groupby('estado')

In [136]:
covid_estados_agrupado.sum().rename({'casosNovos':'Casos Totais', 'obitosNovos':'Obitos Totais'},axis=1)

Unnamed: 0_level_0,Casos Totais,Obitos Totais
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
PB,66971,1477
PE,78509,5928
RJ,135230,11919
SP,412027,19647


Podemos agrupar por mais de uma coluna. Vamos fazer dois grupos. *grupo_1* formado por PB e PE e *grupo_2* formado por RJ e SP. Em seguida, vamos agrupar por grupo e por data:

In [137]:
covid_estados_grupos = covid_apenas_estados.copy()
col_grupos = covid_estados_grupos.estado.map(lambda estado: 'grupo_1' if estado in ['PB','PE']
                                                  else 'grupo_2')
covid_estados_grupos['grupo'] = col_grupos

In [138]:
covid_estados_grupos

Unnamed: 0_level_0,estado,casosNovos,obitosNovos,grupo
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-02-25,PB,0,0,grupo_1
2020-02-26,PB,0,0,grupo_1
2020-02-27,PB,0,0,grupo_1
2020-02-28,PB,0,0,grupo_1
2020-02-29,PB,0,0,grupo_1
...,...,...,...,...
2020-07-14,SP,12000,417,grupo_2
2020-07-15,SP,6569,316,grupo_2
2020-07-16,SP,8872,398,grupo_2
2020-07-17,SP,5367,339,grupo_2


Agora vamos agrupar e agregar:

In [139]:
covid_grupo_agrupado = covid_estados_grupos.groupby(['grupo','data'])

In [140]:
covid_grupo_agrupado.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
grupo,data,Unnamed: 2_level_1,Unnamed: 3_level_1
grupo_1,2020-02-25,0,0
grupo_1,2020-02-26,0,0
grupo_1,2020-02-27,0,0
grupo_1,2020-02-28,0,0
grupo_1,2020-02-29,0,0
...,...,...,...
grupo_2,2020-07-14,12778,567
grupo_2,2020-07-15,8196,449
grupo_2,2020-07-16,8996,490
grupo_2,2020-07-17,6024,409


## Mesclando *DataFrames* 

* Vamos agora ver algumas formas de juntar dois ou mais *DataFrames* com *index* ou colunas em comum para formar um novo *DataFrame*.


### Mesclando *DataFrames* através de concatenações

* Concatenar nada mais é do que "colar" dois ou mais *DataFrames*. Podemos concatenar por linhas ou por colunas.

* A função que realiza a concatenação é **concat**. Os dois argumentos mais utilizados são a lista de *DataFrames* a serem concatenados e **axis**, onde *axis = 0* indica concatenação por linha (um *DataFrame* "embaixo" do outro) e *axis=1* indica concatenação por coluna (um *DataFrame* ao lado do outro).

Relembre do *DataFrame* *df_dict_series*:

In [141]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura,IMC,Sobrenome
Ana,20,65,162,24.77,Silva
João,19,80,178,25.25,PraDo
Maria,21,62,162,23.62,Sales
Pedro,22,67,165,24.61,MachadO
Túlio,20,73,171,24.96,Coutinho


Vamos criar um novo, com novas pessoas:

In [142]:
serie_Idade_nova = pd.Series({'Augusto':13, 'André': 17, 'Alexandre': 45}, name="Idade")
serie_Peso_novo = pd.Series({'Augusto':95, 'André': 65, 'Alexandre': 83}, name="Peso")
serie_Altura_nova = pd.Series({'Augusto':192, 'André': 175, 'Alexandre': 177}, name="Altura")
serie_sobrenome = pd.Series({'Augusto':'Castro', 'André':'Castro', 'Alexandre':'Castro'}, name='Sobrenome')
dicionario_novo = {'Sobrenome':serie_sobrenome, 'Peso': serie_Peso_novo, 
                   'Idade': serie_Idade_nova, 'Altura': serie_Altura_nova}
df_novo = pd.DataFrame(dicionario_novo)
df_novo = df_novo.assign(IMC=round(df_novo.eval('Peso/(Altura/100)**2'),2))

In [143]:
df_novo

Unnamed: 0,Sobrenome,Peso,Idade,Altura,IMC
Augusto,Castro,95,13,192,25.77
André,Castro,65,17,175,21.22
Alexandre,Castro,83,45,177,26.49


Agora vamos concatená-los:

In [144]:
pd.concat([df_dict_series,df_novo]) 

Unnamed: 0,Idade,Peso,Altura,IMC,Sobrenome
Ana,20,65,162,24.77,Silva
João,19,80,178,25.25,PraDo
Maria,21,62,162,23.62,Sales
Pedro,22,67,165,24.61,MachadO
Túlio,20,73,171,24.96,Coutinho
Augusto,13,95,192,25.77,Castro
André,17,65,175,21.22,Castro
Alexandre,45,83,177,26.49,Castro


### Concatenando por coluna

Para exemplificar vamos considerar os dados de COVID da Paraíba, selecionando casos novos e óbitos novos, e vamos obter dos dados do Brasil apenas os casos e óbitos diários do país, e vamos concatená-los por coluna.

In [145]:
covid_PB_casos_obitos = dados_covid_PB[['casosNovos','obitosNovos']]

Vamos tratar os dados do Brasil:

In [146]:
covid_BR_casos_obitos = covid_BR.query('regiao=="Brasil"')
covid_BR_casos_obitos = covid_BR_casos_obitos.set_index('data')
covid_BR_casos_obitos = covid_BR_casos_obitos[['casosNovos','obitosNovos']].rename({
    'casosNovos':'casosBR', 'obitosNovos':'obitosBR'
}, axis=1)

In [147]:
covid_PB_casos_obitos

Unnamed: 0_level_0,casosNovos,obitosNovos
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-02-02,867,14
2021-02-01,1014,12
2021-01-31,1104,8
2021-01-30,1065,12
2021-01-29,1125,11
...,...,...
2020-03-20,0,0
2020-03-19,0,0
2020-03-18,0,0
2020-03-17,0,0


In [148]:
covid_BR_casos_obitos

Unnamed: 0_level_0,casosBR,obitosBR
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-02-25,0,0
2020-02-26,1,0
2020-02-27,0,0
2020-02-28,0,0
2020-02-29,1,0
...,...,...
2020-07-14,41857,1300
2020-07-15,39924,1233
2020-07-16,45403,1322
2020-07-17,34177,1163


Vamos agora concatená-los por coluna:

In [149]:
pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)

Unnamed: 0_level_0,casosNovos,obitosNovos,casosBR,obitosBR
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-02-25,,,,
2020-02-26,,,,
2020-02-27,,,,
2020-02-28,,,,
2020-02-29,,,,
...,...,...,...,...
2021-01-29,1125.0,11.0,,
2021-01-30,1065.0,12.0,,
2021-01-31,1104.0,8.0,,
2021-02-01,1014.0,12.0,,


Para um polimento final, vamos substituir os valores *NaN* que ocorreram antes do dia 13 de julho por 0. Para tanto, a forma ideal é utilizando o método **map**:

In [150]:
dados_PB_BR = pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)
dados_PB_BR['casosNovos'] = dados_PB_BR.casosNovos.map(lambda caso: 0 if np.isnan(caso) else caso).astype('int')
dados_PB_BR['obitosNovos'] = dados_PB_BR.obitosNovos.map(lambda obito: 0 if np.isnan(obito) else obito).astype('int')
dados_PB_BR

Unnamed: 0_level_0,casosNovos,obitosNovos,casosBR,obitosBR
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-02-25,0,0,,
2020-02-26,0,0,,
2020-02-27,0,0,,
2020-02-28,0,0,,
2020-02-29,0,0,,
...,...,...,...,...
2021-01-29,1125,11,,
2021-01-30,1065,12,,
2021-01-31,1104,8,,
2021-02-01,1014,12,,


## Mesclando *DataFrames* através de *joins*

* Para realizar *joins* iremos utilizar a função **merge** do *pandas*. 

* *joins* tomam duas tabelas, uma tabela à esquerda e uma à direita e retornam uma terceira tabela contendo a união das colunas das duas tabelas.

Existem 4 tipos de *joins*:

* *left join*: Apenas irão aparecer os *index* (da linha) que existem na tabela à esquerda;
* *right join*: Apenas irão aparecer os *index* (da linha) que existem na tabela à direita;
* *inner join*: Apenas irão aparecer os *index* que existem nas duas tabelas;
* *full join* ou *outer join*: irão aparecer todos os *index* das duas tabelas.

Para exemplificar vamos considerar dois *DataFrames* (aqui teremos menos linhas e nomes e dados fictícios). O primeiro *DataFrame* consistirá de Nomes de alunos, CPF e matrícula da UFPB e recebe o nome de *nome_cpf_mat*. O segundo *DataFrame* consistirá de Nome, CPF e e-mail e recebe o nome de *nome_cpf_email*.

Nosso objetivo é criar um novo *DataFrame* contendo Nome, CPF, matrícula e e-mail.

Temos ainda a seguinte situação:

No *DataFrame* *nome_cpf_mat* existem alunos que não estão presentes no *nome_cpf_email*, pois não enviaram esta informação.

No *DataFrame* *nome_cpf_email* existem alunos que não estão presentes no *nome_cpf_mat* pois estes não são alunos da UFPB.

In [152]:
nome_cpf_mat = pd.read_csv('06b-nome_cpf_mat.csv')
nome_cpf_email = pd.read_csv('06b-nome_cpf_email.csv')

Vamos agora dar uma examinada nos *DataFrames*. Como são bem simples, basta realizar *prints* deles.

In [153]:
nome_cpf_mat

Unnamed: 0,Nome,CPF,Matricula
0,João Paulo,326.475.190-99,8848484
1,Ana Silva,073.101.240-22,8451212
2,Antonio Carlos,830.060.930-03,5151213
3,Debora Santos,472.006.460-40,51848484
4,Rodrigo Gomes,566.712.550-16,1415816
5,Edson Jardim,308.226.400-07,9592303


In [154]:
nome_cpf_email

Unnamed: 0,Nome,CPF,e-mail
0,João Paulo,326.475.190-99,joao@inventado.com.br
1,Ana Silva,073.101.240-22,ana@inventado.com.br
2,Antonio Carlos,830.060.930-03,antonio@inventado.com.br
3,Saulo Santos,370.981.810-99,saulo@inventado.com.br
4,Paulo Cardoso,250.078.710-95,paulo@inventado.com.br
5,Edson Jardim,308.226.400-07,edson@inventado.com.br
6,Ana Silva,344.246.630-00,anasilva@inventado.com.br


Tipicamente é bom possuir *index* únicos. Neste sentido, vamos definir o CPF como *index*:

In [155]:
nome_cpf_mat = nome_cpf_mat.set_index('CPF')
nome_cpf_email = nome_cpf_email.set_index('CPF')

Vamos agora realizar um **left** join com o *DataFrame* **nome_cpf_mat** ficando à esquerda (neste caso, apenas alunos com matrícula irão aparecer):

In [156]:
pd.merge(nome_cpf_mat, nome_cpf_email, how = 'left', on = ['Nome','CPF'])

Unnamed: 0_level_0,Nome,Matricula,e-mail
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
326.475.190-99,João Paulo,8848484,joao@inventado.com.br
073.101.240-22,Ana Silva,8451212,ana@inventado.com.br
830.060.930-03,Antonio Carlos,5151213,antonio@inventado.com.br
472.006.460-40,Debora Santos,51848484,
566.712.550-16,Rodrigo Gomes,1415816,
308.226.400-07,Edson Jardim,9592303,edson@inventado.com.br


Na opção *how* dizemos qual o tipo de *join* que queremos realizar. 

Na opção *on* dizemos quais as colunas que existem em comum nos *DataFrames*.

Veja o que aconteceria se informássemos apenas que o *CPF* está presente nos dois *DataFrames*:

In [157]:
pd.merge(nome_cpf_mat, nome_cpf_email, how = 'left', on = 'CPF')

Unnamed: 0_level_0,Nome_x,Matricula,Nome_y,e-mail
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
326.475.190-99,João Paulo,8848484,João Paulo,joao@inventado.com.br
073.101.240-22,Ana Silva,8451212,Ana Silva,ana@inventado.com.br
830.060.930-03,Antonio Carlos,5151213,Antonio Carlos,antonio@inventado.com.br
472.006.460-40,Debora Santos,51848484,,
566.712.550-16,Rodrigo Gomes,1415816,,
308.226.400-07,Edson Jardim,9592303,Edson Jardim,edson@inventado.com.br


Observe que os nomes dos alunos que estão na segunda tabela ficam indeterminados na coluna *Nome_y*.

Vamos agora realizar um **right** join com o *DataFrame* **nome_cpf_mat** ficando à esquerda (neste caso, apenas alunos **com e-mail** irão aparecer):

In [158]:
pd.merge(nome_cpf_mat, nome_cpf_email, how = 'right', on = ['Nome','CPF'])

Unnamed: 0_level_0,Nome,Matricula,e-mail
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
326.475.190-99,João Paulo,8848484.0,joao@inventado.com.br
073.101.240-22,Ana Silva,8451212.0,ana@inventado.com.br
830.060.930-03,Antonio Carlos,5151213.0,antonio@inventado.com.br
308.226.400-07,Edson Jardim,9592303.0,edson@inventado.com.br
370.981.810-99,Saulo Santos,,saulo@inventado.com.br
250.078.710-95,Paulo Cardoso,,paulo@inventado.com.br
344.246.630-00,Ana Silva,,anasilva@inventado.com.br


Vamos agora realizar um **inner** join com o *DataFrame* **nome_cpf_mat** ficando à esquerda (neste caso, apenas alunos **com matrícula e com e-mail** irão aparecer):

In [159]:
pd.merge(nome_cpf_mat, nome_cpf_email, how = 'inner', on = ['Nome','CPF'])

Unnamed: 0_level_0,Nome,Matricula,e-mail
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
326.475.190-99,João Paulo,8848484,joao@inventado.com.br
073.101.240-22,Ana Silva,8451212,ana@inventado.com.br
830.060.930-03,Antonio Carlos,5151213,antonio@inventado.com.br
308.226.400-07,Edson Jardim,9592303,edson@inventado.com.br


Por fim, vamos agora realizar um **outer** ou **full** join com o *DataFrame* **nome_cpf_mat** ficando à esquerda (neste caso, **todos** os alunos irão aparecer):

In [160]:
pd.merge(nome_cpf_mat, nome_cpf_email, how = 'outer', on = ['Nome','CPF'])

Unnamed: 0_level_0,Nome,Matricula,e-mail
CPF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
326.475.190-99,João Paulo,8848484.0,joao@inventado.com.br
073.101.240-22,Ana Silva,8451212.0,ana@inventado.com.br
830.060.930-03,Antonio Carlos,5151213.0,antonio@inventado.com.br
472.006.460-40,Debora Santos,51848484.0,
566.712.550-16,Rodrigo Gomes,1415816.0,
308.226.400-07,Edson Jardim,9592303.0,edson@inventado.com.br
370.981.810-99,Saulo Santos,,saulo@inventado.com.br
250.078.710-95,Paulo Cardoso,,paulo@inventado.com.br
344.246.630-00,Ana Silva,,anasilva@inventado.com.br


## Os métodos *apply*, *map* e *applymap*

A ideia é relativamente simples. Os três métodos são vetorizados e aplicam uma função ou uma substituição via dicionário de tal forma que:
* *apply* é realizado via linha ou coluna em um *DataFrame*;
* *map* é aplicado a cada elemento de uma *Serie*;
* *applymap* é aplicado a cada elemento de um *DataFrame*.

Já vimos diversos exemplos de uso do map. Vejamos exemplos de *applymap* e *apply*.

* Neste exemplo vamos retomar a concatenação entre os dados da Paraíba e do Brasil, porém iremos substituir *todos* os valores de *NaN* por zero, usando o métodp **applymap**.

In [161]:
dados_PB_BR = pd.concat([covid_PB_casos_obitos, covid_BR_casos_obitos], axis=1)
dados_PB_BR.applymap(lambda valor: 0 if np.isnan(valor) else valor)

Unnamed: 0_level_0,casosNovos,obitosNovos,casosBR,obitosBR
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-02-25,0.0,0.0,0,0
2020-02-26,0.0,0.0,0,0
2020-02-27,0.0,0.0,0,0
2020-02-28,0.0,0.0,0,0
2020-02-29,0.0,0.0,0,0
...,...,...,...,...
2021-01-29,1125.0,11.0,0,0
2021-01-30,1065.0,12.0,0,0
2021-01-31,1104.0,8.0,0,0
2021-02-01,1014.0,12.0,0,0


* Vamos utilizar o *apply* para realizar a soma de casos e óbitos de mais uma forma diferente:

In [162]:
dados_PB_BR.apply(lambda x: np.sum(x)).astype('int')

casosNovos     193465
obitosNovos      4082
casosBR             0
obitosBR            0
dtype: int64

* Se quisermos realizar a operação por linhas, basta utilizar o argumento *axis=1*:

In [163]:
dados_PB_BR.apply(lambda x: (x>0).all(), axis=1)

data
2020-02-25    False
2020-02-26    False
2020-02-27    False
2020-02-28    False
2020-02-29    False
              ...  
2021-01-29    False
2021-01-30    False
2021-01-31    False
2021-02-01    False
2021-02-02    False
Freq: D, Length: 344, dtype: bool