In [1]:
import pandas as pd

In [2]:
# Importar o arquivo csv da aula anterior

url = "https://raw.githubusercontent.com/cecinv/imersao_dados_alura_2026/main/data/dados_tratados_aula01.csv"
df = pd.read_csv(url)


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   ano              133339 non-null  float64
 1   senioridade      133349 non-null  object 
 2   contrato         133349 non-null  object 
 3   cargo            133349 non-null  object 
 4   salario          133349 non-null  int64  
 5   moeda            133349 non-null  object 
 6   salario_usd      133349 non-null  int64  
 7   residencia       133349 non-null  object 
 8   remoto           133349 non-null  object 
 9   localizacao      133349 non-null  object 
 10  tamanho_empresa  133349 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 11.2+ MB


### Aula 02 – Imersão Alura

Notebook desenvolvido durante a Imersão em Ciência de Dados da Alura.
Preparação e Limpeza dos dados.

In [4]:
df.isnull()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,salario_usd,residencia,remoto,localizacao,tamanho_empresa
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
133344,False,False,False,False,False,False,False,False,False,False,False
133345,False,False,False,False,False,False,False,False,False,False,False
133346,False,False,False,False,False,False,False,False,False,False,False
133347,False,False,False,False,False,False,False,False,False,False,False


In [5]:
df.isnull().sum()

Unnamed: 0,0
ano,10
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
salario_usd,0
residencia,0
remoto,0
localizacao,0


In [6]:
# Mostra que existem 10 registros nulos no campo "ano"

In [7]:
df['ano'].unique()

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

In [8]:
df[df.isnull().any(axis=1)]

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,salario_usd,residencia,remoto,localizacao,tamanho_empresa
5588,,Sênior,Tempo Integral,Product Manager,184500,USD,184500,US,Presencial,US,Médio
59692,,Pleno,Tempo Integral,Engineer,110000,USD,110000,DE,Presencial,DE,Médio
59710,,Júnior,Tempo Integral,Data Scientist,208800,USD,208800,US,Presencial,US,Médio
59759,,Sênior,Tempo Integral,Software Engineer,135000,USD,135000,US,Presencial,US,Médio
59789,,Sênior,Tempo Integral,Engineer,112000,USD,112000,US,Presencial,US,Médio
131000,,Sênior,Tempo Integral,Machine Learning Engineer,163800,USD,163800,US,Presencial,US,Médio
131006,,Sênior,Tempo Integral,Data Analytics Manager,204500,USD,204500,US,Presencial,US,Médio
133054,,Júnior,Tempo Integral,Data Scientist,40000,USD,40000,JP,Remoto,MY,Grande
133281,,Pleno,Tempo Integral,Machine Learning Engineer,180000,PLN,46597,PL,Remoto,PL,Grande
133317,,Pleno,Tempo Integral,Data Scientist,130000,USD,130000,US,Híbrido,US,Grande


In [9]:
# Como tratar valores nulos?
## 3 possibilidades:
## - Criar informações a partir dos valores nulos
## - Excluir registros com valores nulos
## - Imputar valores ausentes


In [10]:
import numpy as np

In [21]:
# Criação de dataframe de teste
df_salarios = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Daniele', 'Val'],
    'salario': [4000, np.nan, 5000, np.nan, 100000]
})

# Calcula a média salarial e substitui os nulos pela média e arredonda os valores
df_salarios['salario_media'] = df_salarios['salario'].fillna(df_salarios['salario'].mean().round(2))

In [22]:
df_salarios

Unnamed: 0,nome,salario,salario_media
0,Ana,4000.0,4000.0
1,Bruno,,36333.33
2,Carlos,5000.0,5000.0
3,Daniele,,36333.33
4,Val,100000.0,100000.0


In [23]:
# Diferença importante entre média e mediana, quando existem outliers

In [24]:
# Caclcula mediana e substitui os nulos pela mediana
df_salarios['salario_mediana'] = df_salarios['salario'].fillna(df_salarios['salario'].median())

df_salarios

Unnamed: 0,nome,salario,salario_media,salario_mediana
0,Ana,4000.0,4000.0,4000.0
1,Bruno,,36333.33,5000.0
2,Carlos,5000.0,5000.0,5000.0
3,Daniele,,36333.33,5000.0
4,Val,100000.0,100000.0,100000.0


In [26]:
# Criação de dataframe de teste
df_temperaturas = pd.DataFrame({
    'dia_semana': ['seg', 'ter', 'qua', 'qui', 'sex'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

# Preenchendo com ffill (forward fill)
df_temperaturas['preenchido_ffill'] = df_temperaturas['temperatura'].ffill()
df_temperaturas

Unnamed: 0,dia_semana,temperatura,preenchido_ffill
0,seg,30.0,30.0
1,ter,,30.0
2,qua,,30.0
3,qui,28.0,28.0
4,sex,27.0,27.0


In [27]:
# Preenchendo com bfill (backfilling)
df_temperaturas['preenchido_bfill'] = df_temperaturas['temperatura'].bfill()
df_temperaturas

Unnamed: 0,dia_semana,temperatura,preenchido_ffill,preenchido_bfill
0,seg,30.0,30.0,30.0
1,ter,,30.0,28.0
2,qua,,30.0,28.0
3,qui,28.0,28.0,28.0
4,sex,27.0,27.0,27.0


In [28]:
# Criação de dataframe de teste
df_cidades = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Daniele', 'Val'],
    'cidade': ['São Paulo', np.nan, 'Curitiba', np.nan, 'Belém']
})

df_cidades['cidade_preenchida'] = df_cidades['cidade'].fillna("Não informado")
df_cidades

Unnamed: 0,nome,cidade,cidade_preenchida
0,Ana,São Paulo,São Paulo
1,Bruno,,Não informado
2,Carlos,Curitiba,Curitiba
3,Daniele,,Não informado
4,Val,Belém,Belém


In [29]:
# No dataframe de salários a melhor opção para o tratamento dos valores ausentes é a de excluir os registros,
# uma vez que são poucas ocorrências e a base é bem robusta

In [30]:
df_limpo = df.dropna()

In [31]:
df_limpo.isnull().sum()

Unnamed: 0,0
ano,0
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
salario_usd,0
residencia,0
remoto,0
localizacao,0


In [32]:
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   ano              133339 non-null  float64
 1   senioridade      133339 non-null  object 
 2   contrato         133339 non-null  object 
 3   cargo            133339 non-null  object 
 4   salario          133339 non-null  int64  
 5   moeda            133339 non-null  object 
 6   salario_usd      133339 non-null  int64  
 7   residencia       133339 non-null  object 
 8   remoto           133339 non-null  object 
 9   localizacao      133339 non-null  object 
 10  tamanho_empresa  133339 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.2+ MB


In [33]:
# Nota-se que o ano está como float, sendo que devia ser inteiro

In [35]:
df_limpo = df_limpo.assign(ano = df_limpo['ano'].astype('int64'))

In [37]:
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ano              133339 non-null  int64 
 1   senioridade      133339 non-null  object
 2   contrato         133339 non-null  object
 3   cargo            133339 non-null  object
 4   salario          133339 non-null  int64 
 5   moeda            133339 non-null  object
 6   salario_usd      133339 non-null  int64 
 7   residencia       133339 non-null  object
 8   remoto           133339 non-null  object
 9   localizacao      133339 non-null  object
 10  tamanho_empresa  133339 non-null  object
dtypes: int64(3), object(8)
memory usage: 12.2+ MB


In [38]:
# Salvar arquivo para utilizar no notebook da próxima aula
import os

os.makedirs("data", exist_ok=True)

df_limpo.to_csv("data/dados_limpos_aula02.csv", index=False)