Aula 1 - Análise de Dados com Pandas

In [None]:
# Importa a biblioteca pandas, usada para leitura, manipulação e análise de dados
import pandas as pd

In [None]:
# Lê o arquivo CSV e carrega os dados em um DataFrame chamado df
df = pd.read_csv("../data/salaries.csv")

In [None]:
# Mostra as 10 primeiras linhas do DataFrame
# Útil para ter uma visão inicial dos dados
df.head(10) 

In [None]:
# Exibe informações gerais do DataFrame:
# - nomes das colunas
# - tipos de dados
# - quantidade de valores não nulos
df.info()

In [None]:
# Gera estatísticas descritivas das colunas numéricas
# Ex: média, desvio padrão, mínimo, máximo, quartis
df.describe()

In [None]:
# Retorna uma tupla com (quantidade de linhas, quantidade de colunas)
df.shape

In [None]:
# Separa o número de linhas e colunas em variáveis
linhas, colunas = df.shape[0], df.shape[1]
# Exibe a quantidade de linhas e colunas
print("Linhas: ", linhas )
print(" Colunas: ", colunas)

In [None]:
# Retorna uma lista com os nomes das colunas do DataFrame
df.columns

In [None]:
# Dicionário para renomear as colunas para português
novos_nomes = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}
# Renomeia as colunas do DataFrame usando o dicionário
# inplace=True altera o DataFrame original
df.rename(columns=novos_nomes, inplace=True)
# Confirma os novos nomes das colunas
df.columns

In [None]:
# Conta a quantidade de registros por nível de senioridade
df["senioridade"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de contrato
df["contrato"].value_counts()

In [None]:
# Conta a quantidade de registros por tipo de trabalho remoto
df["remoto"].value_counts()

In [None]:
# Conta a quantidade de registros por tamanho da empresa
df["tamanho_empresa"].value_counts()

In [None]:
# Dicionário para traduzir os níveis de senioridade
senioridade = {
    'EN': 'Junior',
    'MI': 'Pleno',
    'SE': 'Sênior',
    'EX': 'Executivo'
}

# Substitui os valores da coluna senioridade pelos nomes completos
df['senioridade'] = df['senioridade'].replace(senioridade)
# Verifica o resultado da substituição
df['senioridade'].value_counts()

In [None]:
#  Dicionário para traduzir os tipos de contrato
contrato = {
    'FT': 'Tempo Integral',
    'PT': 'Tempo Parcial',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}
# Substitui os valores da coluna contrato
df['contrato'] = df['contrato'].replace(contrato)
# Confere os valores atualizados
df['contrato'].value_counts()

In [None]:
# Dicionário para traduzir o tamanho da empresa
tamanho = {
    'S': 'Pequena',
    'M': 'Média',
    'L': 'Grande'
}
#  Substitui os valores da coluna tamanho_empresa
df['tamanho_empresa'] = df['tamanho_empresa'].replace(tamanho)
# Confere os valores atualizados
df['tamanho_empresa'].value_counts()

In [None]:
# Dicionário para traduzir o tipo de trabalho remoto
remoto = {
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}
# Substitui os valores numéricos por texto
df['remoto'] = df['remoto'].replace(remoto)
# Confere os valores atualizados
df['remoto'].value_counts()

In [None]:
# Exibe novamente as primeiras linhas após as transformações
df.head()

In [None]:
# Gera estatísticas descritivas apenas para colunas do tipo texto (object)
df.describe(include=object)

In [None]:
# Gera estatísticas descritivas das colunas numéricas novamente
df.describe()

Aula 2 - Preparação e limpeza dos Dados