# Aula 1 - Análise de Dados com Pandas


In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

In [3]:
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [5]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [6]:
df.shape

(133349, 11)

In [7]:
linhas, colunas = df.shape[0], df.shape[1]
print('Linhas:', linhas)
print('Colunas:', colunas)

Linhas: 133349
Colunas: 11


In [8]:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

### Renomeando as colunas do DataFrame

In [9]:
# Dicionário de renomeação
novos_nomes = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'tamanho_empresa'
}

# Aplicando renomeação
df.rename(columns=novos_nomes, inplace=True)

# Verificando resultado
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


### Analisando quais sãos as categorias das colunas categóricas

#### Nível de senioridade

In [10]:
# O método .value_counts() serve para contar quantas vezes cada valor único aparece em uma coluna.
df['senioridade'].value_counts()

Unnamed: 0_level_0,count
senioridade,Unnamed: 1_level_1
SE,77241
MI,40465
EN,12443
EX,3200


| Sigla | Significado | Descrição                                 |
|-------|-------------|--------------------------------------------|
| SE    | Senior      | Profissional experiente (nível sênior)     |
| MI    | Mid         | Nível intermediário                        |
| EN    | Entry       | Iniciante ou júnior (entry-level)          |
| EX    | Executive   | Executivo, liderança sênior (C-Level)      |


#### Tipo de contrato

In [11]:
df['contrato'].value_counts()

Unnamed: 0_level_0,count
contrato,Unnamed: 1_level_1
FT,132563
CT,394
PT,376
FL,16


| Sigla | Significado  | Descrição                                                           |
|-------|--------------|----------------------------------------------------------------------|
| FT    | Full-time    | Tempo integral – trabalho padrão de 40h/semana ou período completo   |
| PT    | Part-time    | Meio período – carga horária reduzida                                |
| CT    | Contract     | Contrato temporário ou por projeto – geralmente por prazo determinado|
| FL    | Freelance    | Freelancer – trabalho autônomo ou por demanda, sem vínculo formal    |


#### Regime de trabalho

In [12]:
df['remoto'].value_counts()

Unnamed: 0_level_0,count
remoto,Unnamed: 1_level_1
0,105312
100,27718
50,319


O modelo remoto permite trabalhar de qualquer lugar sem precisar ir à empresa. O modelo presencial exige ir até o escritório todos os dias. O híbrido mistura os dois modelos. O modelo 'everywhere' é mais raro e permite trabalhar de qualquer lugar do mundo sem restrição de país ou cidade.

| Sigla | Significado |
|-------|-------------|
| 0     | Presencial  |
| 100   | Remoto      |
| 50    | Híbrido     |

#### Tamanho da empresa

In [13]:
df['tamanho_empresa'].value_counts()

Unnamed: 0_level_0,count
tamanho_empresa,Unnamed: 1_level_1
M,129561
L,3574
S,214


| Sigla | Significado  | Descrição                                                           |
|-------|--------------|----------------------------------------------------------------------|
| M   | Medium    | Empresa de tamanho médio|
| L    | Large    | Empresa de tamanho grande                                |
| S    | Small    | Empresa de tamanho pequeno|


### Modificando o nome das categorias:

In [14]:
senioridade = {
    'SE': 'senior',
    'MI': 'pleno',
    'EN': 'junior',
    'EX': 'executivo'
}
df['senioridade'] = df['senioridade'].replace(senioridade)
df['senioridade'].value_counts()

Unnamed: 0_level_0,count
senioridade,Unnamed: 1_level_1
senior,77241
pleno,40465
junior,12443
executivo,3200


In [15]:
contrato = {
    'FT': 'integral',
    'PT': 'parcial',
    'CT': 'contrato',
    'FL': 'freelancer'
}
df['contrato'] = df['contrato'].replace(contrato)
df['contrato'].value_counts()

Unnamed: 0_level_0,count
contrato,Unnamed: 1_level_1
integral,132563
contrato,394
parcial,376
freelancer,16


In [16]:
tamanho_empresa = {
    'L': 'grande',
    'S': 'pequena',
    'M':	'media'

}
df['tamanho_empresa'] = df['tamanho_empresa'].replace(tamanho_empresa)
df['tamanho_empresa'].value_counts()

Unnamed: 0_level_0,count
tamanho_empresa,Unnamed: 1_level_1
media,129561
grande,3574
pequena,214


In [17]:
mapa_trabalho = {
    0: 'presencial',
    100: 'remoto',
    50: 'hibrido'
}

df['remoto'] = df['remoto'].replace(mapa_trabalho)
df['remoto'].value_counts()

Unnamed: 0_level_0,count
remoto,Unnamed: 1_level_1
presencial,105312
remoto,27718
hibrido,319


In [18]:
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,senior,integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025.0,senior,integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025.0,pleno,integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025.0,pleno,integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025.0,junior,integral,Data Engineer,90000,USD,90000,US,presencial,US,media


Podemos também resumir as informações categóricas com o método `describe()`, exibindo a quantidade de categorias únicas, qual é categoria mais frequente e sua respectiva frequência:

In [19]:
df.describe(include='object')

Unnamed: 0,senioridade,contrato,cargo,moeda,residencia,remoto,empresa,tamanho_empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,senior,integral,Data Scientist,USD,US,presencial,US,media
freq,77241,132563,17314,126140,119579,105312,119641,129561


Com isso já conseguimos responder algumas perguntas, como:

* Qual o nível de experiência mais comum na base de dados?
* Qual é o tipo de contrato mais frequente?
* Qual o cargo mais frequente na amostra?
* De qual país são a maioria dos profissionais da base?
* Qual é o país onde mais empresas da amostra estão sediadas?
* Qual o regime de trabalho mais comum?
* Qual é o tamanho mais comum das empresas na amostra?

**O código é um passo a passo para entender, limpar e preparar a base de dados para análises mais profundas, facilitando a visualização de padrões e tendências no mercado de trabalho em ciência de dados.**

# Aula 2 - Preparação e limpeza dos Dados

O código a seguir verifica a existência de valores nulos (ausentes) em cada célula do DataFrame df. O resultado é um DataFrame booleano de mesma forma que o original, onde True indica a presença de um valor nulo e False indica a ausência.

In [20]:
df.isnull()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
133344,False,False,False,False,False,False,False,False,False,False,False
133345,False,False,False,False,False,False,False,False,False,False,False
133346,False,False,False,False,False,False,False,False,False,False,False
133347,False,False,False,False,False,False,False,False,False,False,False


Este comando exibe as primeiras 5 linhas do DataFrame df após as operações de limpeza e preparação realizadas anteriormente. É útil para verificar o estado atual do DataFrame.

In [21]:
df.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,senior,integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025.0,senior,integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025.0,pleno,integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025.0,pleno,integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025.0,junior,integral,Data Engineer,90000,USD,90000,US,presencial,US,media


Este código calcula a quantidade de valores nulos em cada coluna do DataFrame df. O resultado é uma série, onde o índice é o nome da coluna e o valor é a contagem de nulos naquela coluna. Isso nos mostra quais colunas têm dados faltando e em qual quantidade.

In [22]:
df.isnull().sum()

Unnamed: 0,0
ano,10
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa,0


Este código retorna todos os valores únicos presentes na coluna 'ano' do DataFrame df. Isso é útil para entender a distribuição dos anos na base de dados e identificar possíveis inconsistências ou a presença de valores nulos (nan).

In [23]:
df["ano"].unique()

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

Este código filtra o DataFrame df para exibir apenas as linhas que contêm pelo menos um valor nulo em qualquer coluna. O isnull() retorna um DataFrame booleano, any(axis=1) verifica se há algum True em cada linha (axis=1), e o resultado é usado para indexar o DataFrame original. Isso ajuda a inspecionar as linhas que precisam de tratamento de valores ausentes.

In [24]:
df[df.isnull().any(axis=1)]

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
5588,,senior,integral,Product Manager,184500,USD,184500,US,presencial,US,media
59692,,pleno,integral,Engineer,110000,USD,110000,DE,presencial,DE,media
59710,,junior,integral,Data Scientist,208800,USD,208800,US,presencial,US,media
59759,,senior,integral,Software Engineer,135000,USD,135000,US,presencial,US,media
59789,,senior,integral,Engineer,112000,USD,112000,US,presencial,US,media
131000,,senior,integral,Machine Learning Engineer,163800,USD,163800,US,presencial,US,media
131006,,senior,integral,Data Analytics Manager,204500,USD,204500,US,presencial,US,media
133054,,junior,integral,Data Scientist,40000,USD,40000,JP,remoto,MY,grande
133281,,pleno,integral,Machine Learning Engineer,180000,PLN,46597,PL,remoto,PL,grande
133317,,pleno,integral,Data Scientist,130000,USD,130000,US,hibrido,US,grande


Este código cria um DataFrame de exemplo chamado df_salarios com uma coluna 'nome' e uma coluna 'salario' contendo alguns valores nulos (np.nan). Em seguida, demonstra duas formas de preencher os valores nulos da coluna 'salario':

1. fillna(df_salarios['salario'].mean().round(2)): Preenche os valores nulos com a média da coluna 'salario', arredondada para duas casas decimais.

2. fillna(df_salarios['salario'].median()): Preenche os valores nulos com a mediana da coluna 'salario'. O resultado mostra o DataFrame original e as duas novas colunas com os valores nulos preenchidos.

In [29]:
import numpy as np

# Criação de um dataframe de teste para usar de exemplo
df_salarios = pd.DataFrame({
    'nome':["Eloise", "Enoque", "Carlos", "Victor","Edvaldo"],
    'salario':[4000, np.nan, 5000, np.nan, 100000]
})

# calcula a média salarial e substitui os nulos pela média e arredonda os valores
df_salarios['salario_media'] = df_salarios['salario'].fillna(df_salarios['salario'].mean().round(2))

# Calcula a mediana e substitui os nulos pela mediana
df_salarios['salario_mediana'] = df_salarios['salario'].fillna(df_salarios['salario'].median())

df_salarios

Unnamed: 0,nome,salario,salario_media,salario_mediana
0,Eloise,4000.0,4000.0,4000.0
1,Enoque,,36333.33,5000.0
2,Carlos,5000.0,5000.0,5000.0
3,Victor,,36333.33,5000.0
4,Edvaldo,100000.0,100000.0,100000.0


Este código cria um DataFrame de exemplo chamado df_temperaturas com uma coluna 'Dia' e uma coluna 'Temperatura' contendo alguns valores nulos. Em seguida, demonstra o uso do método ffill() (forward fill) para preencher os valores nulos. O ffill() preenche os valores nulos com o último valor válido anterior na mesma coluna. O resultado mostra o DataFrame original e a nova coluna com os valores nulos preenchidos usando o método ffill.

In [30]:
df_temperaturas = pd.DataFrame({
    'Dia':['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'],
    'Temperatura':[30, np.nan, np.nan, 28, 27, 32, 36]
})

df_temperaturas['Preenchido_ffill'] = df_temperaturas['Temperatura'].ffill()

df_temperaturas

Unnamed: 0,Dia,Temperatura,Preenchido_ffill
0,Segunda,30.0,30.0
1,Terça,,30.0
2,Quarta,,30.0
3,Quinta,28.0,28.0
4,Sexta,27.0,27.0
5,Sábado,32.0,32.0
6,Domingo,36.0,36.0


Este código cria um DataFrame de exemplo chamado df_temperaturas com uma coluna 'Dia' e uma coluna 'Temperatura' contendo alguns valores nulos. Em seguida, demonstra o uso do método bfill() (backward fill) para preencher os valores nulos. O bfill() preenche os valores nulos com o próximo valor válido posterior na mesma coluna. O resultado mostra o DataFrame original e a nova coluna com os valores nulos preenchidos usando o método bfill.

In [31]:
df_temperaturas = pd.DataFrame({
    'Dia':['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'],
    'Temperatura':[30, np.nan, np.nan, 28, 27, 32, 36]
})

df_temperaturas['Preenchido_bfill'] = df_temperaturas['Temperatura'].bfill()

df_temperaturas

Unnamed: 0,Dia,Temperatura,Preenchido_bfill
0,Segunda,30.0,30.0
1,Terça,,28.0
2,Quarta,,28.0
3,Quinta,28.0,28.0
4,Sexta,27.0,27.0
5,Sábado,32.0,32.0
6,Domingo,36.0,36.0


Este código cria um DataFrame de exemplo chamado df_cidades com uma coluna 'nome' e uma coluna 'Cidade' contendo alguns valores nulos. Em seguida, demonstra o uso do método fillna() para preencher os valores nulos com uma string específica: 'Não informado'. O resultado mostra o DataFrame original e a nova coluna com os valores nulos preenchidos com a string.

In [35]:
df_cidades = pd.DataFrame({
    'nome':["Eloise", "Enoque", "Carlos", "Victor","Edvaldo"],
    'Cidade':['São Paulo', np.nan, 'Belém', np.nan, 'Rio Grande do Norte']

})

df_cidades['Cidade_preenchida'] = df_cidades['Cidade'].fillna('Não informado')
df_cidades

Unnamed: 0,nome,Cidade,Cidade_preenchida
0,Eloise,São Paulo,São Paulo
1,Enoque,,Não informado
2,Carlos,Belém,Belém
3,Victor,,Não informado
4,Edvaldo,Rio Grande do Norte,Rio Grande do Norte


Este código cria um novo DataFrame chamado df_limpo removendo todas as linhas do DataFrame original df que contêm pelo menos um valor nulo. O método dropna() é utilizado para realizar essa operação. O resultado é um DataFrame sem valores ausentes.

In [36]:
df_limpo = df.dropna()

Este código verifica a quantidade de valores nulos em cada coluna do novo DataFrame df_limpo. Após a aplicação do método dropna(), a contagem de valores nulos em todas as colunas deve ser zero, confirmando que as linhas com valores ausentes foram removidas.

In [37]:
df_limpo.isnull().sum()

Unnamed: 0,0
ano,0
senioridade,0
contrato,0
cargo,0
salario,0
moeda,0
usd,0
residencia,0
remoto,0
empresa,0


Este comando exibe as primeiras 5 linhas do DataFrame df_limpo. É útil para visualizar o DataFrame após a remoção das linhas com valores nulos.

In [38]:
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025.0,senior,integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025.0,senior,integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025.0,pleno,integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025.0,pleno,integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025.0,junior,integral,Data Engineer,90000,USD,90000,US,presencial,US,media


Este comando exibe informações sobre o DataFrame df_limpo, incluindo o número de linhas, o número de colunas, o tipo de dado de cada coluna e a quantidade de valores não nulos em cada coluna. Isso confirma que as linhas com valores nulos foram removidas e mostra os tipos de dados das colunas restantes.

In [40]:
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   ano              133339 non-null  float64
 1   senioridade      133339 non-null  object 
 2   contrato         133339 non-null  object 
 3   cargo            133339 non-null  object 
 4   salario          133339 non-null  int64  
 5   moeda            133339 non-null  object 
 6   usd              133339 non-null  int64  
 7   residencia       133339 non-null  object 
 8   remoto           133339 non-null  object 
 9   empresa          133339 non-null  object 
 10  tamanho_empresa  133339 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.2+ MB


Este código converte o tipo de dado da coluna 'ano' no DataFrame df_limpo de ponto flutuante (float64) para inteiro de 64 bits (int64). O método assign() é usado para criar uma nova coluna 'ano' com os valores convertidos, substituindo a coluna original.

In [41]:
df_limpo = df_limpo.assign(ano = df_limpo['ano'].astype('int64'))

Este comando exibe as primeiras 5 linhas do DataFrame df_limpo após a conversão do tipo de dado da coluna 'ano'. É útil para verificar se a conversão foi bem-sucedida e se a coluna 'ano' agora exibe valores inteiros.

In [42]:
df_limpo.head()

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,tamanho_empresa
0,2025,senior,integral,Solutions Engineer,214000,USD,214000,US,remoto,US,media
1,2025,senior,integral,Solutions Engineer,136000,USD,136000,US,remoto,US,media
2,2025,pleno,integral,Data Engineer,158800,USD,158800,AU,presencial,AU,media
3,2025,pleno,integral,Data Engineer,139200,USD,139200,AU,presencial,AU,media
4,2025,junior,integral,Data Engineer,90000,USD,90000,US,presencial,US,media


Este comando exibe informações sobre o DataFrame df_limpo após a conversão do tipo de dado da coluna 'ano'. Isso confirma que o tipo de dado da coluna 'ano' agora é int64, como esperado.

In [43]:
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   ano              133339 non-null  int64 
 1   senioridade      133339 non-null  object
 2   contrato         133339 non-null  object
 3   cargo            133339 non-null  object
 4   salario          133339 non-null  int64 
 5   moeda            133339 non-null  object
 6   usd              133339 non-null  int64 
 7   residencia       133339 non-null  object
 8   remoto           133339 non-null  object
 9   empresa          133339 non-null  object
 10  tamanho_empresa  133339 non-null  object
dtypes: int64(3), object(8)
memory usage: 12.2+ MB


## Resumo da Aula 2 - Preparação e Limpeza dos Dados

Nesta aula, focamos na preparação e limpeza dos dados para garantir sua qualidade e usabilidade em análises futuras.

1.  **Verificação de Valores Nulos:** Identificamos a presença de valores nulos no DataFrame utilizando `df.isnull()` e `df.isnull().sum()`. Verificamos que a coluna 'ano' possuía 10 valores nulos.
2.  **Identificação dos Anos:** Verificamos os valores únicos na coluna 'ano', confirmando a presença de `nan`.
3.  **Visualização de Linhas com Nulos:** Filtramos e exibimos as linhas que continham valores nulos para inspecionar os dados ausentes.
4.  **Demonstração de Métodos de Preenchimento:** Apresentamos diferentes métodos para tratar valores nulos em DataFrames de exemplo:
    *   Preenchimento com a média ou mediana (`fillna()`).
    *   Preenchimento com o último valor válido anterior (`ffill()`).
    *   Preenchimento com o próximo valor válido posterior (`bfill()`).
    *   Preenchimento com um valor específico ('Não informado').
5.  **Remoção de Linhas com Nulos:** Criamos um novo DataFrame (`df_limpo`) removendo as linhas que continham valores nulos na coluna 'ano' utilizando `df.dropna()`.
6.  **Verificação da Limpeza:** Confirmamos que não há mais valores nulos no `df_limpo` verificando `df_limpo.isnull().sum()`.
7.  **Verificação do DataFrame Limpo:** Visualizamos as primeiras linhas e as informações do `df_limpo` para confirmar a remoção das linhas e os tipos de dados.
8.  **Conversão de Tipo de Dado:** Convertemos o tipo de dado da coluna 'ano' de float para inteiro (`int64`) no `df_limpo` para representar os anos de forma mais adequada.
9.  **Verificação da Conversão:** Visualizamos as primeiras linhas e as informações do `df_limpo` novamente para confirmar a conversão do tipo de dado da coluna 'ano'.

Com essas etapas, os dados foram limpos e preparados, removendo os valores ausentes na coluna 'ano' e ajustando seu tipo de dado para uma análise mais consistente.