# Aula 1 - Análise de Dados com Pandas

    Ensinar a carregar arquivos CSV no Google Colab, realizar leitura e visualização inicial de dados com Pandas. O aluno começará a manipular bases reais de dados com comandos simples de análise.

## Imports de bibliotecas

In [2]:
import pandas as pd

## Import de dados

In [3]:
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

df.head() # Por padrão mostra as 5 primeiras linhas da base de dados

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


### Mostra as informações da base de dados

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


### Mostra algumas estátisticas da base de dados

In [5]:
df.describe() # Para ver estatísticas descritivas de colunas numéricas

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


### Verificar a dimensão da base de dados

In [6]:
linhas, colunas = df.shape[0], df.shape[1]
print("Linhas:", linhas)
print("Colunas:", colunas)

Linhas: 133349
Colunas: 11


### Mostrar as colunas do dataframe

In [7]:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

### Renomear as colunas para portugues brasileiro

In [8]:
renomear_colunas = {
    'work_year': 'ano',
    'experience_level': 'nivel_experiencia',
    'employment_type': 'contrato_emprego',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda_do_salario',
    'salary_in_usd': 'salario_em_usd',
    'employee_residence': 'residencia_empregado',
    'remote_ratio': 'tipo_trabalho',
    'company_location': 'localizacao_empresa',
    'company_size': 'tamanho_empresa'
}

df.rename(columns=renomear_colunas, inplace=True)
df.columns

Index(['ano', 'nivel_experiencia', 'contrato_emprego', 'cargo', 'salario',
       'moeda_do_salario', 'salario_em_usd', 'residencia_empregado',
       'tipo_trabalho', 'localizacao_empresa', 'tamanho_empresa'],
      dtype='object')

### Renomear algumas categorias para melhor compreensão dos dados

In [9]:
renomear_nivel_experiencia = {
    'SE': 'Sênior',
    'MI': 'Pleno',
    'EN': 'Junior',
    'EX': 'Executivo'
}

df["nivel_experiencia"] = df["nivel_experiencia"].replace(renomear_nivel_experiencia)

renomear_contrato_emprego = {
    'FT': 'Tempo Integral',
    'PT': 'Meio Período',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}

df["contrato_emprego"] = df["contrato_emprego"].replace(renomear_contrato_emprego)

renomear_tipo_trabalho = {
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}

df["tipo_trabalho"] = df["tipo_trabalho"].replace(renomear_tipo_trabalho)

renomear_tamanho_empresa = {
    'S': 'Pequena',
    'M': 'Média',
    'L': 'Grande'
}
df["tamanho_empresa"] = df["tamanho_empresa"].replace(renomear_tamanho_empresa)


### Verificar a frequencia de cada categoria dentro da coluna nivel_experiencia

In [10]:
df["nivel_experiencia"].value_counts() 

# O método value_counts() do Pandas retorna a contagem de ocorrências de cada valor único em uma coluna de um DataFrame. Ou seja, ele mostra quantas vezes cada
# categoria aparece naquela coluna, ordenando do mais frequente para o menos frequente.

nivel_experiencia
Sênior       77241
Pleno        40465
Junior       12443
Executivo     3200
Name: count, dtype: int64

### Verificar a frequencia de cada categoria dentro da coluna contrato_emprego

In [11]:
df["contrato_emprego"].value_counts() 

contrato_emprego
Tempo Integral    132563
Contrato             394
Meio Período         376
Freelancer            16
Name: count, dtype: int64

### Verificar a frequencia de cada categoria dentro da coluna tipo_trabalho

In [12]:
df["tipo_trabalho"].value_counts() 

tipo_trabalho
Presencial    105312
Remoto         27718
Híbrido          319
Name: count, dtype: int64

### Verificar a frequencia de cada categoria dentro da coluna tamanho_empresa

In [13]:
df["tamanho_empresa"].value_counts() 

tamanho_empresa
Média      129561
Grande       3574
Pequena       214
Name: count, dtype: int64

### Verificar o dataframe após as alterações feitas

In [14]:
df.head()

Unnamed: 0,ano,nivel_experiencia,contrato_emprego,cargo,salario,moeda_do_salario,salario_em_usd,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
0,2025.0,Sênior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025.0,Sênior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025.0,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025.0,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025.0,Junior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [15]:
df.describe(include='object') # Para ver estatísticas descritivas de colunas categóricas

Unnamed: 0,nivel_experiencia,contrato_emprego,cargo,moeda_do_salario,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Sênior,Tempo Integral,Data Scientist,USD,US,Presencial,US,Média
freq,77241,132563,17314,126140,119579,105312,119641,129561


In [16]:
df.describe()

Unnamed: 0,ano,salario,salario_em_usd
count,133339.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098
std,0.680627,217386.0,74288.363097
min,2020.0,14000.0,15000.0
25%,2024.0,106020.0,106000.0
50%,2024.0,147000.0,146206.0
75%,2025.0,199000.0,198000.0
max,2025.0,30400000.0,800000.0


    Palavra chave da primeira aula é: Pandas    

# Aula 2 - Preparação e limpeza de dados

    Nesta aula, você vai aprender a tratar dados de forma mais estruturada, preparando a base para análises mais assertivas. O foco está em identificar e lidar com dados faltantes, organizar colunas, aplicar filtros e gerar estatísticas descritivas que ajudam a entender melhor os dados e extrair insights relevantes.

### Verificar se existem valores nulos na base de dados

In [None]:
df.isnull() # Retorna um DataFrame booleano indicando se cada valor é nulo (True) ou não (False).

Unnamed: 0,ano,nivel_experiencia,contrato_emprego,cargo,salario,moeda_do_salario,salario_em_usd,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
133344,False,False,False,False,False,False,False,False,False,False,False
133345,False,False,False,False,False,False,False,False,False,False,False
133346,False,False,False,False,False,False,False,False,False,False,False
133347,False,False,False,False,False,False,False,False,False,False,False


### Verificar onde estão os dados nulos

In [18]:
df.isnull().sum() # Verificando valores nulos

ano                     10
nivel_experiencia        0
contrato_emprego         0
cargo                    0
salario                  0
moeda_do_salario         0
salario_em_usd           0
residencia_empregado     0
tipo_trabalho            0
localizacao_empresa      0
tamanho_empresa          0
dtype: int64

### Mostrar quais os valores únicos da coluna 'ano'

In [19]:
df['ano'].unique() # Verificando os anos únicos na coluna 'ano'

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

### Exibe as linhas onde os valores nulos são encontrados

In [20]:
df[df.isnull().any(axis=1)] # Exibindo linhas com valores nulos

Unnamed: 0,ano,nivel_experiencia,contrato_emprego,cargo,salario,moeda_do_salario,salario_em_usd,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
5588,,Sênior,Tempo Integral,Product Manager,184500,USD,184500,US,Presencial,US,Média
59692,,Pleno,Tempo Integral,Engineer,110000,USD,110000,DE,Presencial,DE,Média
59710,,Junior,Tempo Integral,Data Scientist,208800,USD,208800,US,Presencial,US,Média
59759,,Sênior,Tempo Integral,Software Engineer,135000,USD,135000,US,Presencial,US,Média
59789,,Sênior,Tempo Integral,Engineer,112000,USD,112000,US,Presencial,US,Média
131000,,Sênior,Tempo Integral,Machine Learning Engineer,163800,USD,163800,US,Presencial,US,Média
131006,,Sênior,Tempo Integral,Data Analytics Manager,204500,USD,204500,US,Presencial,US,Média
133054,,Junior,Tempo Integral,Data Scientist,40000,USD,40000,JP,Remoto,MY,Grande
133281,,Pleno,Tempo Integral,Machine Learning Engineer,180000,PLN,46597,PL,Remoto,PL,Grande
133317,,Pleno,Tempo Integral,Data Scientist,130000,USD,130000,US,Híbrido,US,Grande


## Criando um dataframe para exemplo

In [26]:
import numpy as np

df_salarios = pd.DataFrame({
    'nome': ['João', 'Maria', 'Pedro', 'Ana', 'Luíza'],
    'salario': [5000, np.nan, 7000, np.nan, 100000],
})

# Calculando a média dos salários e cria uma nova coluna
# substituindo os valores nulos pela média
df_salarios['salario_media'] = df_salarios['salario'].fillna(df_salarios['salario'].mean().round(2))

# Calculando a mediana dos salários e cria uma nova coluna
# substituindo os valores nulos pela mediana
df_salarios['salario_mediana'] = df_salarios['salario'].fillna(df_salarios['salario'].median())

df_salarios

Unnamed: 0,nome,salario,salario_media,salario_mediana
0,João,5000.0,5000.0,5000.0
1,Maria,,37333.33,7000.0
2,Pedro,7000.0,7000.0,7000.0
3,Ana,,37333.33,7000.0
4,Luíza,100000.0,100000.0,100000.0


### Exemplo com temperaturas e Foward Fill

In [27]:
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30, np.nan, np.nan, 28, 27],
})

df_temperaturas["Preenchido_ffill"] = df_temperaturas["Temperatura"].ffill()

df_temperaturas

Unnamed: 0,Dia,Temperatura,Preenchido_ffill
0,Segunda,30.0,30.0
1,Terça,,30.0
2,Quarta,,30.0
3,Quinta,28.0,28.0
4,Sexta,27.0,27.0


### Exemplo com temperaturas e Back Fill

In [28]:
df_temperaturas = pd.DataFrame({
    "Dia": ["Segunda", "Terça", "Quarta", "Quinta", "Sexta"],
    "Temperatura": [30, np.nan, np.nan, 28, 27],
})

df_temperaturas["Preenchido_bfill"] = df_temperaturas["Temperatura"].bfill()

df_temperaturas

Unnamed: 0,Dia,Temperatura,Preenchido_bfill
0,Segunda,30.0,30.0
1,Terça,,28.0
2,Quarta,,28.0
3,Quinta,28.0,28.0
4,Sexta,27.0,27.0


### Exemplo de preenchimento com valor fixo

In [30]:
df_cidades = pd.DataFrame({
    "Nome": ["João", "Maria", "Pedro", "Ana", "Luíza"],
    "Cidade": ["São Paulo", np.nan, "Belo Horizonte", np.nan, "Curitiba"]
})

df_cidades["cidade_preenchida"] = df_cidades["Cidade"].fillna("Não Informada")

display(df_cidades)

Unnamed: 0,Nome,Cidade,cidade_preenchida
0,João,São Paulo,São Paulo
1,Maria,,Não Informada
2,Pedro,Belo Horizonte,Belo Horizonte
3,Ana,,Não Informada
4,Luíza,Curitiba,Curitiba


### Retomando ao dataframe original para remover as linhas em que o ano estava nulo

In [36]:
df_limpo = df.dropna() # O método dropna() do Pandas é usado para remover linhas ou colunas que contêm valores nulos (NaN) de um DataFrame. 
# Por padrão, ele remove todas as linhas que contêm pelo menos um valor nulo, mas você pode especificar parâmetros adicionais para personalizar o comportamento.

df_limpo.isnull().sum()  # Verificando se ainda há valores nulos após a remoção

ano                     0
nivel_experiencia       0
contrato_emprego        0
cargo                   0
salario                 0
moeda_do_salario        0
salario_em_usd          0
residencia_empregado    0
tipo_trabalho           0
localizacao_empresa     0
tamanho_empresa         0
dtype: int64

In [37]:
df_limpo.head()  # Exibindo as primeiras linhas do DataFrame limpo

Unnamed: 0,ano,nivel_experiencia,contrato_emprego,cargo,salario,moeda_do_salario,salario_em_usd,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
0,2025.0,Sênior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025.0,Sênior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025.0,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025.0,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025.0,Junior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [38]:
df_limpo.info()  # Verificando as informações do DataFrame limpo

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   ano                   133339 non-null  float64
 1   nivel_experiencia     133339 non-null  object 
 2   contrato_emprego      133339 non-null  object 
 3   cargo                 133339 non-null  object 
 4   salario               133339 non-null  int64  
 5   moeda_do_salario      133339 non-null  object 
 6   salario_em_usd        133339 non-null  int64  
 7   residencia_empregado  133339 non-null  object 
 8   tipo_trabalho         133339 non-null  object 
 9   localizacao_empresa   133339 non-null  object 
 10  tamanho_empresa       133339 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.2+ MB


###  Alterando o tipo de dado da coluna 'ano' para int64

In [39]:
df_limpo = df_limpo.assign(ano = df_limpo['ano'].astype('int64'))

df_limpo.head()

Unnamed: 0,ano,nivel_experiencia,contrato_emprego,cargo,salario,moeda_do_salario,salario_em_usd,residencia_empregado,tipo_trabalho,localizacao_empresa,tamanho_empresa
0,2025,Sênior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025,Sênior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025,Junior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [40]:
df_limpo.info()  # Verificando as informações do DataFrame limpo após a alteração do tipo de dado

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   ano                   133339 non-null  int64 
 1   nivel_experiencia     133339 non-null  object
 2   contrato_emprego      133339 non-null  object
 3   cargo                 133339 non-null  object
 4   salario               133339 non-null  int64 
 5   moeda_do_salario      133339 non-null  object
 6   salario_em_usd        133339 non-null  int64 
 7   residencia_empregado  133339 non-null  object
 8   tipo_trabalho         133339 non-null  object
 9   localizacao_empresa   133339 non-null  object
 10  tamanho_empresa       133339 non-null  object
dtypes: int64(3), object(8)
memory usage: 12.2+ MB


    Palavra chave da segunda aula: Print