###  ================ IMERSÃO DE DADOS COM PYTHON 2025 - ALURA ===============
### 📘 Aula 2 - Preparação e Limpeza da Base de Dados                                     
### Autor: Alfredo Cezar Benedetti                              
### Data: 06/08/2025  
### Descrição: Este notebook realiza o Tratamento da Base de Dados, este projeto é a segunda parte do Projeto da Imersão da Alura. Na primeira aula fiz as primeiras análises, analisando se na Base de Dados tinha valores nulos, algumas Traduções de Colunas e Valores. Nesta segunda aula, irei fazer o tratamento dos Dados.
### =================================================================

In [1]:
# --- Importando a Biblioteca Pandas ----

import pandas as pd

In [2]:
# Carregando a Base de Dados da Aula 01
BaseDados = pd.read_csv("BaseDados_Aula01.csv")

In [3]:
# Verificando os Valores Nulos

### O que faz:
### isnull() cria um DataFrame booleano, marcando True onde há valores nulos.
### sum() soma os True (que valem 1), mostrando quantos valores nulos existem em cada coluna.

BaseDados.isnull().sum()

Ano              10
Senioridade       0
Contrato          0
Cargo             0
Salário           0
Moeda             0
USD               0
Residência        0
Remoto            0
Empresa           0
Porte_Empresa     0
dtype: int64

In [4]:
# Exibindo a quantidade de Valores Únicos na coluna - ANO da Base de Dados:

### O que faz:
### .unique() - Retorna todos os Válores Únicos presentes na coluna - ANO.

BaseDados["Ano"].unique()

array([2025.,   nan, 2024., 2022., 2023., 2020., 2021.])

In [5]:
# Exibindo a quantidade de valores NULOS na Base de Dados - [NaN, Not A Number]

### O que faz:
### .isnull() - Cria um DataFrame booleano onde cada célula indica se o valor é nulo (True) ou não (False)
### .any(axis = 1) Verifica se alguma célula da linha é True (ou seja, nula). axis=1 significa que a verificação é feita por linha
BaseDados[BaseDados.isnull().any(axis=1)]

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salário,Moeda,USD,Residência,Remoto,Empresa,Porte_Empresa
5588,,Senior,Tempo Integral,Product Manager,184500,USD,184500,US,Presencial,US,Média
59692,,Pleno,Tempo Integral,Engineer,110000,USD,110000,DE,Presencial,DE,Média
59710,,Júnior,Tempo Integral,Data Scientist,208800,USD,208800,US,Presencial,US,Média
59759,,Senior,Tempo Integral,Software Engineer,135000,USD,135000,US,Presencial,US,Média
59789,,Senior,Tempo Integral,Engineer,112000,USD,112000,US,Presencial,US,Média
131000,,Senior,Tempo Integral,Machine Learning Engineer,163800,USD,163800,US,Presencial,US,Média
131006,,Senior,Tempo Integral,Data Analytics Manager,204500,USD,204500,US,Presencial,US,Média
133054,,Júnior,Tempo Integral,Data Scientist,40000,USD,40000,JP,Remoto,MY,Grande
133281,,Pleno,Tempo Integral,Machine Learning Engineer,180000,PLN,46597,PL,Remoto,PL,Grande
133317,,Pleno,Tempo Integral,Data Scientist,130000,USD,130000,US,Híbrido,US,Grande


In [6]:
# Aqui estarei criando uma nova Base de Dados já tratada, para não alterar a Base de Dados Original, para evitar a perda dos dados originais
# e garantir a integridade da Anáçise. Nesse passo a Nova Base de Dados será criada sem os Valores Nulos, permitindo uma Análise mais
# precisa.

### Explicação
### .dropna() - Remove todas as linhas que contêm pelo menos um Valor Nulo (NaN) no DataFrame BaseDados.
BaseDadosTratado = BaseDados.dropna()

# Exibindo a novamente a quantidade de Valores Nulos na nova Base de Dados Tratada
BaseDadosTratado.isnull().sum()

Ano              0
Senioridade      0
Contrato         0
Cargo            0
Salário          0
Moeda            0
USD              0
Residência       0
Remoto           0
Empresa          0
Porte_Empresa    0
dtype: int64

In [7]:
# Lendo as primeiras linhas da Base de Dados Tratado

BaseDadosTratado.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salário,Moeda,USD,Residência,Remoto,Empresa,Porte_Empresa
0,2025.0,Senior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025.0,Senior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025.0,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025.0,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025.0,Júnior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [8]:
# Como podemos verificar, a nova Base de Dados Tratada não contêm nenhum Valor Nulo, poêm notamos que o tipo da coluna está como FLOAT64, 
# o que pode causar problemas em algumas análises, então precisamos converter a coluna para o tipo INT64
BaseDadosTratado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Ano            133339 non-null  float64
 1   Senioridade    133339 non-null  object 
 2   Contrato       133339 non-null  object 
 3   Cargo          133339 non-null  object 
 4   Salário        133339 non-null  int64  
 5   Moeda          133339 non-null  object 
 6   USD            133339 non-null  int64  
 7   Residência     133339 non-null  object 
 8   Remoto         133339 non-null  object 
 9   Empresa        133339 non-null  object 
 10  Porte_Empresa  133339 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.2+ MB


In [9]:
# Neste momento estamos converterndo o tipo da coluna ANO de FLOAT64 para INT64
### .astype('int64'): Converte os valores dessa coluna para o tipo inteiro de 64 bits.
### .assign(Ano = ...): Cria uma nova versão do DataFrame com a coluna "Ano" atualizada com os valores convertidos.

BaseDadosTratado = BaseDadosTratado.assign(Ano = BaseDadosTratado['Ano'].astype('int64'))
# Exibindo as primeiras linha da Base de Dados Tratada, para confirmar a Alteração do Tipo da coluna ANO.
BaseDadosTratado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 133339 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   Ano            133339 non-null  int64 
 1   Senioridade    133339 non-null  object
 2   Contrato       133339 non-null  object
 3   Cargo          133339 non-null  object
 4   Salário        133339 non-null  int64 
 5   Moeda          133339 non-null  object
 6   USD            133339 non-null  int64 
 7   Residência     133339 non-null  object
 8   Remoto         133339 non-null  object
 9   Empresa        133339 non-null  object
 10  Porte_Empresa  133339 non-null  object
dtypes: int64(3), object(8)
memory usage: 12.2+ MB


In [10]:
# --- Exportando a Base de Dados criada até aqui, para ser usada na próxima aula, onde será trabalhada a visualização da Base de Dados

BaseDados.to_csv('BaseDados_Aula02.csv', index=False)