Aula 1 - Análise de Dados com Pandas

In [None]:
# Importa a biblioteca pandas, usada para leitura, manipulação e análise de dados
import pandas as pd

In [None]:
# Lê o arquivo CSV e carrega os dados em um DataFrame chamado df
df = pd.read_csv("../data/salaries.csv")

In [None]:
# Mostra as 10 primeiras linhas do DataFrame
# Útil para ter uma visão inicial dos dados
df.head(10) 

In [None]:
# Exibe informações gerais do DataFrame:
# - nomes das colunas
# - tipos de dados
# - quantidade de valores não nulos
df.info()

In [None]:
# Gera estatísticas descritivas das colunas numéricas
# Ex: média, desvio padrão, mínimo, máximo, quartis
df.describe()

In [None]:
# Retorna uma tupla com (quantidade de linhas, quantidade de colunas)
df.shape

In [None]:
# Separa o número de linhas e colunas em variáveis
linhas, colunas = df.shape[0], df.shape[1]
# Exibe a quantidade de linhas e colunas
print("Linhas: ", linhas )
print(" Colunas: ", colunas)

In [None]:
# Retorna uma lista com os nomes das colunas do DataFrame
df.columns

In [None]:
# Dicionário para renomear as colunas para português
novos_nomes = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}
# Renomeia as colunas do DataFrame usando o dicionário
# inplace=True altera o DataFrame original
df.rename(columns=novos_nomes, inplace=True)
# Confirma os novos nomes das colunas
df.columns

In [None]:
# Conta a quantidade de registros por nível de senioridade
df["senioridade"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de contrato
df["contrato"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de trabalho remoto
df["remoto"].value_counts()

In [None]:
# Conta a quantidade de registros por tamanho da empresa
df["tamanho_empresa"].value_counts()

In [None]:
# Dicionário para traduzir os níveis de senioridade
senioridade = {
    'EN': 'Junior',
    'MI': 'Pleno',
    'SE': 'Sênior',
    'EX': 'Executivo'
}

# Substitui os valores da coluna senioridade pelos nomes completos
df['senioridade'] = df['senioridade'].replace(senioridade)
# Verifica o resultado da substituição
df['senioridade'].value_counts()

In [None]:
#  Dicionário para traduzir os tipos de contrato
contrato = {
    'FT': 'Tempo Integral',
    'PT': 'Tempo Parcial',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}
# Substitui os valores da coluna contrato
df['contrato'] = df['contrato'].replace(contrato)
# Confere os valores atualizados
df['contrato'].value_counts()

In [None]:
# Dicionário para traduzir o tamanho da empresa
tamanho = {
    'S': 'Pequena',
    'M': 'Média',
    'L': 'Grande'
}
#  Substitui os valores da coluna tamanho_empresa
df['tamanho_empresa'] = df['tamanho_empresa'].replace(tamanho)
# Confere os valores atualizados
df['tamanho_empresa'].value_counts()

In [None]:
# Dicionário para traduzir o tipo de trabalho remoto
remoto = {
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}
# Substitui os valores numéricos por texto
df['remoto'] = df['remoto'].replace(remoto)
# Confere os valores atualizados
df['remoto'].value_counts()

In [None]:
# Exibe novamente as primeiras linhas após as transformações
df.head()

In [None]:
# Gera estatísticas descritivas apenas para colunas do tipo texto (object)
df.describe(include=object)

In [None]:
# Gera estatísticas descritivas das colunas numéricas novamente
df.describe()

Aula 2 - Preparação e limpeza dos Dados

In [None]:
# Verifica a presença de valores nulos no DataFrame
# Retorna True onde há NaN e False onde há valores válidos
df.isnull()

In [None]:
# Exibe as primeiras linhas do DataFrame
# Útil para conferir rapidamente a estrutura após análises iniciais
df.head()

In [None]:
# Soma a quantidade de valores nulos por coluna
# Ajuda a identificar quais colunas precisam de tratamento
df.isnull().sum()

In [None]:
# Exibe todos os valores únicos da coluna 'ano'
# Útil para validar se os dados estão consistentes
df["ano"].unique()

In [None]:
# Filtra e exibe apenas as linhas que possuem pelo menos um valor nulo
# Permite analisar quais registros estão incompletos
df[df.isnull().any(axis=1)]

In [None]:
# Importa a biblioteca NumPy para trabalhar com valores NaN
import numpy as np

# Cria um DataFrame de exemplo para demonstrar preenchimento de valores ausentes
df_salarios = pd.DataFrame({
    "nome": ["João", "Ana", "Paulo", "Augusto", "Val"],
    "salario": [4000, np.nan, 5000, np.nan, 100000]
})

# Preenche os valores nulos da coluna salário com a média
# A média é arredondada para duas casas decimais
df_salarios["salario_media"] = df_salarios["salario"].fillna(
    df_salarios["salario"].mean().round(2)
)

# Preenche os valores nulos com a mediana
# Estratégia mais robusta em casos de outliers
df_salarios["salario_mediana"] = df_salarios["salario"].fillna(
    df_salarios["salario"].median()
)

df_salarios


In [None]:
# Cria um DataFrame de exemplo com dados temporais
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30, np.nan, np.nan, 28, 27]
})

# Preenche valores nulos usando o último valor válido anterior (forward fill)
# Muito utilizado em séries temporais
df_temperaturas["preenchido_ffill"] = df_temperaturas["Temperatura"].ffill()

df_temperaturas

In [None]:
# Recria o DataFrame para demonstrar outra estratégia
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30, np.nan, np.nan, 28, 27]
})

# Preenche valores nulos usando o próximo valor válido (backward fill)
df_temperaturas["preenchido_bfill"] = df_temperaturas["Temperatura"].bfill()

df_temperaturas

In [None]:
# Cria um DataFrame com valores categóricos nulos
df_cidades = pd.DataFrame({
    "nome": ["João", "Ana", "Paulo", "Augusto", "Val"],
    "cidade": ["São Paulo", np.nan, "Curitiba", np.nan, "Belém"]
})

# Preenche valores nulos com uma string padrão
# Abordagem recomendada para dados categóricos
df_cidades["cidade_preenchida"] = df_cidades["cidade"].fillna("Não informado")

df_cidades

In [None]:
# Remove todas as linhas que possuem pelo menos um valor nulo
# Estratégia aplicada quando a quantidade de dados ausentes é pequena
df_limpo = df.dropna()

In [53]:
# Confirma que não há mais valores nulos após a limpeza
df_limpo.isnull().sum()

ano                0
senioridade        0
contrato           0
cargo              0
salario            0
moeda              0
usd                0
residencia         0
remoto             0
empresa            0
tamanho_empresa    0
dtype: int64

In [None]:
# Exibe as primeiras linhas do DataFrame limpo
df_limpo.head()

In [None]:
# Exibe informações gerais do DataFrame após a limpeza
# Permite validar tipos de dados e quantidade de registros
df_limpo.info()

In [None]:
# Converte a coluna 'ano' para o tipo inteiro (int64)
# Importante para análises estatísticas e agrupamentos corretos
df_limpo = df_limpo.assign(
    ano = df_limpo['ano'].astype("int64")
)