Aula 1 - Análise de Dados com Pandas

In [None]:
# Importa a biblioteca pandas, usada para leitura, manipulação e análise de dados
import pandas as pd

In [None]:
# Lê o arquivo CSV e carrega os dados em um DataFrame chamado df
df = pd.read_csv("../data/salaries.csv")

In [None]:
# Mostra as 10 primeiras linhas do DataFrame
# Útil para ter uma visão inicial dos dados
df.head(10) 

In [None]:
# Exibe informações gerais do DataFrame:
# - nomes das colunas
# - tipos de dados
# - quantidade de valores não nulos
df.info()

In [None]:
# Gera estatísticas descritivas das colunas numéricas
# Ex: média, desvio padrão, mínimo, máximo, quartis
df.describe()

In [None]:
# Retorna uma tupla com (quantidade de linhas, quantidade de colunas)
df.shape

In [None]:
# Separa o número de linhas e colunas em variáveis
linhas, colunas = df.shape[0], df.shape[1]
# Exibe a quantidade de linhas e colunas
print("Linhas: ", linhas )
print(" Colunas: ", colunas)

In [None]:
# Retorna uma lista com os nomes das colunas do DataFrame
df.columns

In [None]:
# Dicionário para renomear as colunas para português
novos_nomes = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}
# Renomeia as colunas do DataFrame usando o dicionário
# inplace=True altera o DataFrame original
df.rename(columns=novos_nomes, inplace=True)
# Confirma os novos nomes das colunas
df.columns

In [None]:
# Conta a quantidade de registros por nível de senioridade
df["senioridade"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de contrato
df["contrato"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de trabalho remoto
df["remoto"].value_counts()

In [None]:
# Conta a quantidade de registros por tamanho da empresa
df["tamanho_empresa"].value_counts()

In [None]:
# Dicionário para traduzir os níveis de senioridade
senioridade = {
    'EN': 'Junior',
    'MI': 'Pleno',
    'SE': 'Sênior',
    'EX': 'Executivo'
}

# Substitui os valores da coluna senioridade pelos nomes completos
df['senioridade'] = df['senioridade'].replace(senioridade)
# Verifica o resultado da substituição
df['senioridade'].value_counts()

In [None]:
#  Dicionário para traduzir os tipos de contrato
contrato = {
    'FT': 'Tempo Integral',
    'PT': 'Tempo Parcial',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}
# Substitui os valores da coluna contrato
df['contrato'] = df['contrato'].replace(contrato)
# Confere os valores atualizados
df['contrato'].value_counts()

In [None]:
# Dicionário para traduzir o tamanho da empresa
tamanho = {
    'S': 'Pequena',
    'M': 'Média',
    'L': 'Grande'
}
#  Substitui os valores da coluna tamanho_empresa
df['tamanho_empresa'] = df['tamanho_empresa'].replace(tamanho)
# Confere os valores atualizados
df['tamanho_empresa'].value_counts()

In [None]:
# Dicionário para traduzir o tipo de trabalho remoto
remoto = {
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}
# Substitui os valores numéricos por texto
df['remoto'] = df['remoto'].replace(remoto)
# Confere os valores atualizados
df['remoto'].value_counts()

In [None]:
# Exibe novamente as primeiras linhas após as transformações
df.head()

In [None]:
# Gera estatísticas descritivas apenas para colunas do tipo texto (object)
df.describe(include=object)

In [None]:
# Gera estatísticas descritivas das colunas numéricas novamente
df.describe()

Aula 2 - Preparação e limpeza dos Dados

In [None]:
df.isnull()

In [None]:
df.head()

In [None]:
df.isnull().sum()

In [None]:
df["ano"].unique()

In [None]:
df[df.isnull().any(axis=1)]

In [None]:
import numpy as np
df_salarios = pd.DataFrame({
    "nome": ["Jõao", "Ana", "Paulo", "Augusto", "Val"],
    "salario": [4000, np.nan, 5000, np.nan, 100000]
})
df_salarios["salario_media"] = df_salarios["salario"].fillna(df_salarios["salario"].mean().round(2))
df_salarios["salario_mediana"] = df_salarios["salario"].fillna(df_salarios["salario"].median())
df_salarios

In [None]:
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30,  np.nan, np.nan, 28, 27]
})
df_temperaturas["prenchido_ffill"] = df_temperaturas["Temperatura"].ffill()
df_temperaturas

In [None]:
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30,  np.nan, np.nan, 28, 27]
})
df_temperaturas["prenchido_bfill"] = df_temperaturas["Temperatura"].bfill()
df_temperaturas

In [None]:
df_cidades = pd.DataFrame({
    "nome": ["Jõao", "Ana", "Paulo", "Augusto", "Val"],
    "cidade": ["São Paulo", np.nan, "Curitiba", np.nan, "Belém"]
})

df_cidades["cidade_preenchida"] = df_cidades["cidade"].fillna("Não informado")
df_cidades

In [None]:
df_limpo = df.dropna()

In [47]:
df_limpo.isnull().sum()

ano                0
senioridade        0
contrato           0
cargo              0
salario            0
moeda              0
usd                0
residencia         0
remoto             0
empresa            0
tamanho_empresa    0
dtype: int64

In [52]:
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025,Sênior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025,Sênior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025,Junior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [51]:
df_limpo.info()

<class 'pandas.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ano              133339 non-null  int64 
 1   senioridade      133339 non-null  str   
 2   contrato         133339 non-null  str   
 3   cargo            133339 non-null  str   
 4   salario          133339 non-null  int64 
 5   moeda            133339 non-null  str   
 6   usd              133339 non-null  int64 
 7   residencia       133339 non-null  str   
 8   remoto           133339 non-null  object
 9   empresa          133339 non-null  str   
 10  tamanho_empresa  133339 non-null  str   
dtypes: int64(3), object(1), str(7)
memory usage: 12.2+ MB


In [50]:
df_limpo = df_limpo.assign(ano = df_limpo['ano'].astype("int64"))