# FGV EPGE - Escola de Pós-Graduação em Economia
---
## Mestrado Profissional em Economia
### Decisões Baseadas em Dados I - 2025-4
---
#### Professor: Rafael Martins de Souza (rafael.souza@fgv.br)
##### Doutor em Economia (EPGE, 2009), Mestre (UFRJ, 2003) e Bacharel em Estatística (ENCE, 2000).
---
##### Monitora:

# Aula 04


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Pandas DataFrame

Até a aula passada nós tratamos de  Pandas ``Series``, a partir de hoje trataremos de Pandas ``DataFrame``. Um ``DataFrame`` em Pandas é um objeto *bidimensional* com linhas e colunas.

Criando um dataframe a partir de um dicionário de séries.


In [None]:
age_dict = {'Max': 26,
            'Andy': 25,
            'Ben': 28,
            'Sarah': 26,
            'Anne': 21}

age = pd.Series(age_dict)
print(age_dict)
print(age)

{'Max': 26, 'Andy': 25, 'Ben': 28, 'Sarah': 26, 'Anne': 21}
Max      26
Andy     25
Ben      28
Sarah    26
Anne     21
dtype: int64


In [None]:
height_dict = {'Max': 170,
               'Andy': 164,
               'Ben': 175,
               'Sarah': 165,
               'Anne': 160}

height = pd.Series(height_dict)
print(height_dict)
print(height)

{'Max': 170, 'Andy': 164, 'Ben': 175, 'Sarah': 165, 'Anne': 160}
Max      170
Andy     164
Ben      175
Sarah    165
Anne     160
dtype: int64


In [None]:
people = pd.DataFrame({'age': age,
                       'height': height})

In [None]:
people

Unnamed: 0,age,height
Max,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
type(people)

pandas.core.frame.DataFrame

Com Value_counts é possível obter a frequência (absoluta por default, podendo ser relativa mudando o argumento 'normalize') para uma coluna específica ou para um conjunto de colunas.

In [None]:
print(people['age'])
print(people['height'])

Max      26
Andy     25
Ben      28
Sarah    26
Anne     21
Name: age, dtype: int64
Max      170
Andy     164
Ben      175
Sarah    165
Anne     160
Name: height, dtype: int64


Distribuição absoluta

In [None]:
people['age'].value_counts()

26    2
21    1
28    1
25    1
Name: age, dtype: int64

Distribuição relativa

In [None]:
people['age'].value_counts(normalize = True)

26    0.4
21    0.2
28    0.2
25    0.2
Name: age, dtype: float64

Distribuição relativa (em valores percentuais)

In [None]:
100*people['age'].value_counts(normalize = True)

26    40.0
21    20.0
28    20.0
25    20.0
Name: age, dtype: float64

Padronizado a apresentação dos valores:

In [None]:
tabela = 100*people['age'].value_counts(normalize = True)
tabela.astype(str).str.replace('.',',') + '%'

26    40,0%
21    20,0%
28    20,0%
25    20,0%
Name: age, dtype: object

Describe retorna estatísticas descritivas

In [None]:
people.describe()

Unnamed: 0,age,height
count,5.0,5.0
mean,25.2,166.8
std,2.588436,5.80517
min,21.0,160.0
25%,25.0,164.0
50%,26.0,165.0
75%,26.0,170.0
max,28.0,175.0


O método values retorna um np.array com s valores da coluna (ou da série)

In [None]:
print(type(people['age']))
print(type(people['age'].values))

<class 'pandas.core.series.Series'>
<class 'numpy.ndarray'>


Modificando os nomes ``labels``(linhas) e as ``columns``

In [None]:
people

Unnamed: 0,age,height
Max,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
# Renomeando index
people = people.rename(index = {'Max':'Maximilian'})
people

Unnamed: 0,age,height
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people.index[0]

'Maximilian'

In [None]:
people = people.rename(index = {people.index[0]:'Maximilian'})
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people = people.rename(index = {'Max':'Maximilian'})
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


Só o rename retorna o dataframe, mas não o modifica.

Ou atribuímos de novo ou usamos o 'inplace = True'

In [None]:
# Renomeando coluna
people.rename(columns = {'height':'altura','age':'idade'})

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


Veja que o método rename não modificou objeto, ou seja, quando eu chamo people eu continuo observando os mesmos nomes para as colunas.

In [None]:
people

Unnamed: 0,age,height
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


O código abaixo e o comentário são equivalentes.



In [None]:
#people = people.rename(columns = {'height':'altura','age':'idade'})
people.rename(columns = {'height':'altura','age':'idade'}, inplace = True)

In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


Agora eu tenho o resultado desejado:



In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people =  people.rename(columns = {people.columns[1]:'alt','idade':'ida'})

In [None]:
people

Unnamed: 0,ida,alt
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people.rename(columns = {'alt':'altura','ida':'idade'}, inplace = True)

In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people =  people.rename(columns = {people.columns[1]:'alt',people.columns[0]:'ida'})

In [None]:
people

Unnamed: 0,ida,alt
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people =  people.rename(columns = {people.columns[1]:'altura',people.columns[0]:'idade'})

In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


**Indexando usando loc e iloc**

iloc: indexação (linha, coluna) por posição

In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people.iloc[0:2,1]

Maximilian    170
Andy          164
Name: altura, dtype: int64

loc: indexação (linha, coluna) por label

O elemento retornado é o objeto na par row,column

In [None]:
people.iloc[1,1]

164

In [None]:
type(people.iloc[1,1])

numpy.int64

Entrega uma série

In [None]:
people.iloc[1:2,1]

Andy    164
Name: altura, dtype: int64

In [None]:
type(people.iloc[1:2,1])

pandas.core.series.Series

In [None]:
people.loc['Andy']

idade      25
altura    164
Name: Andy, dtype: int64

In [None]:
people.loc['Andy','altura']
#print(people.loc['Andy','altura'])

164

Transformando o index em coluna

Muitas vezes queremos transformar o index em uma variável. Isto é feito por meio do comando reset_index. O agrumento inplace = True irá garantir que o objeto manipulado seja modificado.

In [None]:
people

Unnamed: 0,idade,altura
Maximilian,26,170
Andy,25,164
Ben,28,175
Sarah,26,165
Anne,21,160


In [None]:
people.reset_index(inplace = True)

Como podemos ver, agora há uma variável chamada index que contém o nome de cada umas pessoas que estão listadas nesta base de dados.

In [None]:
people

Unnamed: 0,index,idade,altura
0,Maximilian,26,170
1,Andy,25,164
2,Ben,28,175
3,Sarah,26,165
4,Anne,21,160


In [None]:
people['index']

0    Maximilian
1          Andy
2           Ben
3         Sarah
4          Anne
Name: index, dtype: object

In [None]:
set(people.index)

{0, 1, 2, 3, 4}

In [None]:
type(people['index'])

pandas.core.series.Series

In [None]:
type(people['altura'])

pandas.core.series.Series

In [None]:
type(people['idade'])

pandas.core.series.Series

1ª forma de criar uma coluna) - Operações em cima de colunas inteiras

Criando a coluna com a primeira letra de cada nome (antigo index)

In [None]:
people['primeira letra do nome'] = people['index'].str[0]

In [None]:
people

Unnamed: 0,index,idade,altura,primeira letra do nome
0,Maximilian,26,170,M
1,Andy,25,164,A
2,Ben,28,175,B
3,Sarah,26,165,S
4,Anne,21,160,A


2ª forma) Loc + condição


Criando uma coluna a partir de uma condição

In [None]:
people.loc[people.altura>=170, 'descrição'] = 'alto'

In [None]:
people

Unnamed: 0,index,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,
2,Ben,28,175,B,alto
3,Sarah,26,165,S,
4,Anne,21,160,A,


In [None]:
people.loc[(people.altura>=165)&(people.altura<170), 'descrição'] = 'médio'

In [None]:
people

Unnamed: 0,index,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,


In [None]:
people['descrição'] = people['descrição'].fillna('baixo')

In [None]:
people

Unnamed: 0,index,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,baixo
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,baixo


**Observação**: É possível preencher NA usando métodos

- backfill: Preenche com o próximo valor válido
- ffill: Preenche com último valor válido

In [None]:
exemplo_na = pd.DataFrame(data = ['verde','vermelho','verde','azul', np.nan, 'amarelo'],  columns = ['Cor'])

Observação 4 é preenchida de duas formas diferentes

In [None]:
exemplo_na

Unnamed: 0,Cor
0,verde
1,vermelho
2,verde
3,azul
4,
5,amarelo


In [None]:
exemplo_na.fillna(method = 'ffill')

Unnamed: 0,Cor
0,verde
1,vermelho
2,verde
3,azul
4,azul
5,amarelo


In [None]:
exemplo_na.fillna(method = 'bfill')

Unnamed: 0,Cor
0,verde
1,vermelho
2,verde
3,azul
4,amarelo
5,amarelo


In [None]:
exemplo_na

Unnamed: 0,Cor
0,verde
1,vermelho
2,verde
3,azul
4,
5,amarelo


Voltando para o dataframe do começo da aula

In [None]:
people

Unnamed: 0,index,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,baixo
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,baixo


In [None]:
people.rename(columns = {'index':'nome'}, inplace = True)

In [None]:
people

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,baixo
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,baixo


set_index faz o inverso que o reset_index, ou seja, transforma uma coluna em index

In [None]:
people.set_index('nome', inplace = True)

In [None]:
people

Unnamed: 0_level_0,idade,altura,primeira letra do nome,descrição
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Maximilian,26,170,M,alto
Andy,25,164,A,baixo
Ben,28,175,B,alto
Sarah,26,165,S,médio
Anne,21,160,A,baixo


Operações com colunas

In [None]:
people['altura']/100

nome
Maximilian    1.70
Andy          1.64
Ben           1.75
Sarah         1.65
Anne          1.60
Name: altura, dtype: float64

In [None]:
people['altura'].max()

175

In [None]:
people['altura'].min()

160

In [None]:
people['altura'].mean()

166.8

In [None]:
people2 = pd.DataFrame(data = [90,67.5,70,45,78], index = ['Maximilian', 'Andy',  'Sarah','Ben', 'Anne'], columns = ['weight'])
people2

Unnamed: 0,weight
Maximilian,90.0
Andy,67.5
Sarah,70.0
Ben,45.0
Anne,78.0


Tamanho das listas precisam ser iguais

In [None]:
#Maneira errada de fazer
#people3 = pd.DataFrame(data = [90,67.5,70,45,78], index = ['Maximilian', 'Andy',  'Sarah','Ben', 'Anne','Tom'], columns = ['weight'])

É possível atribuir um nome para o index.

In [None]:
people2.index.name='nome'

In [None]:
people2

Unnamed: 0_level_0,weight
nome,Unnamed: 1_level_1
Maximilian,90.0
Andy,67.5
Sarah,70.0
Ben,45.0
Anne,78.0


In [None]:
people

Unnamed: 0_level_0,idade,altura,primeira letra do nome,descrição
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Maximilian,26,170,M,alto
Andy,25,164,A,baixo
Ben,28,175,B,alto
Sarah,26,165,S,médio
Anne,21,160,A,baixo


## Concatenando dataframes

### pd.concat

Em inúmeros casos é comum que informações provenientes bancos de dados sejam reunidas em uma única tabela. O comando concat é bastante útil nestes casos.

pd.concat usando o index como identificador

- axis = 1: concatena colunas
- axis = 0: concatena linhas

**Obs: pd.concat pode juntar mais de 2 dataframes**

In [None]:
df_exercicio_3 = pd.concat([people, people2], axis = 1)

In [None]:
df_exercicio_3

Unnamed: 0,idade,altura,primeira letra do nome,descrição,weight
Maximilian,26,170,M,alto,90.0
Andy,25,164,A,baixo,67.5
Ben,28,175,B,alto,45.0
Sarah,26,165,S,médio,70.0
Anne,21,160,A,baixo,78.0


In [None]:
people

Unnamed: 0_level_0,idade,altura,primeira letra do nome,descrição
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Maximilian,26,170,M,alto
Andy,25,164,A,baixo
Ben,28,175,B,alto
Sarah,26,165,S,médio
Anne,21,160,A,baixo


In [None]:
people2

Unnamed: 0_level_0,weight
nome,Unnamed: 1_level_1
Maximilian,90.0
Andy,67.5
Sarah,70.0
Ben,45.0
Anne,78.0


In [None]:
pd.concat([people, people2], axis = 0, ignore_index = True)

Unnamed: 0,idade,altura,primeira letra do nome,descrição,weight
0,26.0,170.0,M,alto,
1,25.0,164.0,A,baixo,
2,28.0,175.0,B,alto,
3,26.0,165.0,S,médio,
4,21.0,160.0,A,baixo,
5,,,,,90.0
6,,,,,67.5
7,,,,,70.0
8,,,,,45.0
9,,,,,78.0


In [None]:
pd.concat([people, people2], axis = 0)

Unnamed: 0_level_0,idade,altura,primeira letra do nome,descrição,weight
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maximilian,26.0,170.0,M,alto,
Andy,25.0,164.0,A,baixo,
Ben,28.0,175.0,B,alto,
Sarah,26.0,165.0,S,médio,
Anne,21.0,160.0,A,baixo,
Maximilian,,,,,90.0
Andy,,,,,67.5
Sarah,,,,,70.0
Ben,,,,,45.0
Anne,,,,,78.0


### pd.merge

Mescla dataframes a partir de uma **coluna** em comum

In [None]:
people3 = pd.DataFrame(data = [['Maximilian','Arquiteto'],['Anne','Economista']],
                       columns = ['nome', 'profissão'])

In [None]:
people3

Unnamed: 0,nome,profissão
0,Maximilian,Arquiteto
1,Anne,Economista


In [None]:
people

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,baixo
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,baixo


Nesse caso, precisamos que o index seja uma coluna

In [None]:
people.reset_index(inplace = True)

In [None]:
people

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição
0,Maximilian,26,170,M,alto
1,Andy,25,164,A,baixo
2,Ben,28,175,B,alto
3,Sarah,26,165,S,médio
4,Anne,21,160,A,baixo


how = 'left' usa as chaves do dataframe da esquerda. O mesmo raciocínio para 'right'


In [None]:
pd.merge(people, people3, on = 'nome', how = 'left')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Andy,25,164,A,baixo,
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,
4,Anne,21,160,A,baixo,Economista


In [None]:
pd.merge(people3, people, on = 'nome', how = 'left')

Unnamed: 0,nome,profissão,idade,altura,primeira letra do nome,descrição
0,Maximilian,Arquiteto,26,170,M,alto
1,Anne,Economista,21,160,A,baixo


In [None]:
pd.merge(people, people3, on = 'nome', how = 'right')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Anne,21,160,A,baixo,Economista


In [None]:
df_final = pd.merge(people, people3, on = 'nome', how = 'outer')

In [None]:
df_final

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Andy,25,164,A,baixo,
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,
4,Anne,21,160,A,baixo,Economista


In [None]:
pd.merge(people, people3, on = 'nome', how = 'inner')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Anne,21,160,A,baixo,Economista


In [None]:
people4 = pd.DataFrame(data = [['Maximilian','Arquiteto'],['Anne','Economista'], ['Joe','Estatístico']],
                       columns = ['nome', 'profissão'])

In [None]:
pd.merge(people, people4, on = 'nome', how = 'outer')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26.0,170.0,M,alto,Arquiteto
1,Andy,25.0,164.0,A,baixo,
2,Ben,28.0,175.0,B,alto,
3,Sarah,26.0,165.0,S,médio,
4,Anne,21.0,160.0,A,baixo,Economista
5,Joe,,,,,Estatístico


In [None]:
pd.merge(people, people4, on = 'nome', how = 'inner')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Anne,21,160,A,baixo,Economista


In [None]:
pd.merge(people, people4, on = 'nome', how = 'left')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Andy,25,164,A,baixo,
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,
4,Anne,21,160,A,baixo,Economista


In [None]:
pd.merge(people, people4, on = 'nome', how = 'right')

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26.0,170.0,M,alto,Arquiteto
1,Anne,21.0,160.0,A,baixo,Economista
2,Joe,,,,,Estatístico


In [None]:
df_final.to_dict()

{'altura': {0: 170, 1: 164, 2: 175, 3: 165, 4: 160},
 'descrição': {0: 'alto', 1: 'baixo', 2: 'alto', 3: 'médio', 4: 'baixo'},
 'idade': {0: 26, 1: 25, 2: 28, 3: 26, 4: 21},
 'nome': {0: 'Maximilian', 1: 'Andy', 2: 'Ben', 3: 'Sarah', 4: 'Anne'},
 'primeira letra do nome': {0: 'M', 1: 'A', 2: 'B', 3: 'S', 4: 'A'},
 'profissão': {0: 'Arquiteto', 1: nan, 2: nan, 3: nan, 4: 'Economista'}}

In [None]:
prof = pd.DataFrame(data = [], index = ['Fabiano', 'Hélio', 'Sófocles'], columns = ['Profissão', 'Altura'])

In [None]:
prof

Unnamed: 0,Profissão,Altura
Fabiano,,
Hélio,,
Sófocles,,


In [None]:
prof1 = prof.fillna('Advogado')
prof1

Unnamed: 0,Profissão,Altura
Fabiano,Advogado,Advogado
Hélio,Advogado,Advogado
Sófocles,Advogado,Advogado


## Problema do Sandro

In [None]:
pibdosestados = pd.DataFrame(data = [['1980',1, 2],['1981',1.1, 2.1], ['1982',1.12,2.2]],
                       columns = ['ano', 'RJ', 'SP'])

In [None]:
pibdosestados

Unnamed: 0,ano,RJ,SP
0,1980,1.0,2.0
1,1981,1.1,2.1
2,1982,1.12,2.2


In [None]:
pibrj = pibdosestados.iloc[:,0:2]

In [None]:
pibrj

Unnamed: 0,ano,RJ
0,1980,1.0
1,1981,1.1
2,1982,1.12


In [None]:
pibsp = pibdosestados.iloc[:,[0,2]]

In [None]:
pibsp

Unnamed: 0,ano,SP
0,1980,2.0
1,1981,2.1
2,1982,2.2


In [None]:
pibrj['uf'] = 'RJ'

In [None]:
pibrj

Unnamed: 0,ano,RJ,uf
0,1980,1.0,RJ
1,1981,1.1,RJ
2,1982,1.12,RJ


In [None]:
pibrj.rename(columns = {pibrj.columns[1] : 'PIB'}, inplace = True)
pibrj = pibrj.rename(columns = {pibrj.columns[1] : 'PIB'})

In [None]:
pibrj

Unnamed: 0,ano,PIB,uf
0,1980,1.0,RJ
1,1981,1.1,RJ
2,1982,1.12,RJ


In [None]:
pibsp = pibdosestados.iloc[:,[0,2]]
pibsp['uf'] = 'SP'
pibsp.rename(columns = {pibsp.columns[1] : 'PIB'}, inplace = True)
#pibsp = pibsp.rename(columns = {pibsp.columns[1] : 'PIB'})

In [None]:
pibsp

Unnamed: 0,ano,PIB,uf
0,1980,2.0,SP
1,1981,2.1,SP
2,1982,2.2,SP


In [None]:
pd.concat([pibrj, pibsp], axis = 0)

Unnamed: 0,ano,PIB,uf
0,1980,1.0,RJ
1,1981,1.1,RJ
2,1982,1.12,RJ
0,1980,2.0,SP
1,1981,2.1,SP
2,1982,2.2,SP


In [None]:
pibdosestados = pd.DataFrame(data = [], index = [], columns = ['ano', 'PIB', 'uf'])

In [None]:
pibdosestados

Unnamed: 0,ano,PIB,uf


Exercício

1) Criar um dataframe somente com as pessoas que têm profissão desconhecida.

2) Criar um dataframe só com pessoas altas

3) Substituir os valores faltantes de 'profissão' por 'Advogado'

In [None]:
#1)

df_q1 = df_final[df_final['profissão'].isna()].copy()

In [None]:
df_q1

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
1,Andy,25,164,A,baixo,
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,


In [None]:
df_q1 = df_final[df_final['profissão'].isna()].copy()

In [None]:
df_final[df_final['profissão'] == 'Economista']

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
4,Anne,21,160,A,baixo,Economista


In [None]:
df_final[df_final['idade'] > 25]

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,


In [None]:
df_final[(df_final['descrição'] == 'alto') & (df_final['idade']>25)]

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,


In [None]:
df_final[(df_final['descrição'] == 'alto')|(df_final['idade']>25)]

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,


'NaN' != np.nan

In [None]:
# 2)

df_q2 = df_final[df_final['descrição'] == 'alto'].copy()

In [None]:
df_q2

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,


In [None]:
df_final[df_final['descrição'] != 'baixo']

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,


In [None]:
df_final[df_final['descrição'].isin(['alto','médio'])]

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,


In [None]:
prof = pd.DataFrame(data = [], index = ['Fabiano', 'Hélio', 'Sófocles'], columns = ['Profissão', 'Altura'])

In [None]:
prof

Unnamed: 0,Profissão,Altura
Fabiano,,
Hélio,,
Sófocles,,


In [None]:
# 3)

prof1 = prof.fillna('Advogado')
prof1

Unnamed: 0,Profissão,Altura
Fabiano,Advogado,Advogado
Hélio,Advogado,Advogado
Sófocles,Advogado,Advogado


In [None]:
prof['Profissão'] = prof['Profissão'].fillna('Advogado')

In [None]:
prof

Unnamed: 0,Profissão,Altura
Fabiano,Advogado,
Hélio,Advogado,
Sófocles,Advogado,


In [None]:
df_final

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Andy,25,164,A,baixo,
2,Ben,28,175,B,alto,
3,Sarah,26,165,S,médio,
4,Anne,21,160,A,baixo,Economista


In [None]:
df_final['profissão'] = df_final['profissão'].fillna('Advogado')
df_final

Unnamed: 0,nome,idade,altura,primeira letra do nome,descrição,profissão
0,Maximilian,26,170,M,alto,Arquiteto
1,Andy,25,164,A,baixo,Advogado
2,Ben,28,175,B,alto,Advogado
3,Sarah,26,165,S,médio,Advogado
4,Anne,21,160,A,baixo,Economista


## Referências para trabalhar com várias bases de dados


https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

