<a href="https://colab.research.google.com/github/cicerohenjr/alura-imersao-dados-python/blob/main/aula02_tratamento_dados/aula02_tratamento_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import pandas as pd
import numpy as np # Importando o numpy para lidar com números nulos

# Carregando a base novamente
url = "https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv"
df = pd.read_csv(url)

# Renomeando as colunas (igual fizemos na Aula 1)
df.rename(columns={
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa_loc',
    'company_size': 'tamanho_empresa'
}, inplace=True)

# Visualizando para garantir
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa_loc,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [4]:
# Verificando quantos valores nulos (ausentes) existem em cada coluna
df.isnull().sum()

Unnamed: 0,0
ano,10
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa_loc,0


In [5]:
# Criando um pequeno DataFrame fictício para testes
# Note que a 'Val' ganha 100 mil, o que é um "outlier" (valor fora da curva)
df_salarios = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Daniele', 'Val'],
    'salario': [4000, np.nan, 5000, np.nan, 100000]
})

# Visualizando
df_salarios

Unnamed: 0,nome,salario
0,Ana,4000.0
1,Bruno,
2,Carlos,5000.0
3,Daniele,
4,Val,100000.0


In [6]:
# Preenchendo os vazios com a MÉDIA
# (A média vai ser puxada para cima pelo salário da Val)
df_salarios['media'] = df_salarios['salario'].fillna(df_salarios['salario'].mean())

# Preenchendo os vazios com a MEDIANA
# (A mediana pega o valor central, ignorando os extremos)
df_salarios['mediana'] = df_salarios['salario'].fillna(df_salarios['salario'].median())

# Visualizando a comparação
df_salarios

Unnamed: 0,nome,salario,media,mediana
0,Ana,4000.0,4000.0,4000.0
1,Bruno,,36333.333333,5000.0
2,Carlos,5000.0,5000.0,5000.0
3,Daniele,,36333.333333,5000.0
4,Val,100000.0,100000.0,100000.0


In [7]:
# --- Exemplo Fictício: Temperaturas (Série Temporal) ---
# Imagine que perdemos as medições de Terça e Quarta
df_temps = pd.DataFrame({
    'dia': ['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta'],
    'temperatura': [30, np.nan, np.nan, 28, 27]
})

# ffill (Forward Fill): Copia o valor ANTERIOR para frente (Segunda preenche Terça)
df_temps['ffill_anterior'] = df_temps['temperatura'].ffill()

# bfill (Backward Fill): Copia o valor POSTERIOR para trás (Quinta preenche Quarta)
df_temps['bfill_posterior'] = df_temps['temperatura'].bfill()

# Visualizando
df_temps

Unnamed: 0,dia,temperatura,ffill_anterior,bfill_posterior
0,Segunda,30.0,30.0,30.0
1,Terça,,30.0,28.0
2,Quarta,,30.0,28.0
3,Quinta,28.0,28.0,28.0
4,Sexta,27.0,27.0,27.0


In [8]:
# --- Exemplo Fictício: Cidades (Categorias) ---
df_cidades = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos', 'Daniele'],
    'cidade': ['São Paulo', np.nan, 'Curitiba', np.nan]
})

# Preenchendo com um valor fixo (Texto)
df_cidades['cidade_corrigida'] = df_cidades['cidade'].fillna('Não informado')

# Visualizando
df_cidades

Unnamed: 0,nome,cidade,cidade_corrigida
0,Ana,São Paulo,São Paulo
1,Bruno,,Não informado
2,Carlos,Curitiba,Curitiba
3,Daniele,,Não informado


In [9]:
# Criando um novo DataFrame apenas com as linhas preenchidas (dropna)
df_limpo = df.dropna()

# Verificando se sobrou algum nulo (deve dar ZERO em tudo)
df_limpo.isnull().sum()

Unnamed: 0,0
ano,0
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa_loc,0


In [10]:
# Convertendo o 'ano' de float (decimal) para int (inteiro)
df_limpo['ano'] = df_limpo['ano'].astype('int64')

# Conferindo o resultado final (veja o Dtype da coluna ano)
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ano              133339 non-null  int64 
 1   senioridade      133339 non-null  object
 2   contrato         133339 non-null  object
 3   cargo            133339 non-null  object
 4   salario          133339 non-null  int64 
 5   moeda            133339 non-null  object
 6   usd              133339 non-null  int64 
 7   residencia       133339 non-null  object
 8   remoto           133339 non-null  int64 
 9   empresa_loc      133339 non-null  object
 10  tamanho_empresa  133339 non-null  object
dtypes: int64(4), object(7)
memory usage: 12.2+ MB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpo['ano'] = df_limpo['ano'].astype('int64')
