###  ================ IMERSÃO DE DADOS COM PYTHON 2025 - ALURA ===============
### 📘 Aula 1 - Análise Exploratória de Dados com Pandas                                     
### Autor: Alfredo Cezar Benedetti                              
### Data: 05/08/2025  
### Descrição: Este notebook realiza as primeiras análise na Base de Dados, este projeto possuí 3 partes onde em cada aula desenvolvo partes de uma análise de uma empresa multinacional, incluindo estatísticas descritivas, visualizações e tratamento de dados.
### =================================================================

In [1]:
# --- Importando a Biblioteca Pandas ----

import pandas as pd

In [2]:
# --- Carregando a base de dados a partir de um arquivo CSV ---

BaseDados = pd.read_csv("salaries.csv")

In [3]:
# --- Lendo as primeiras linhas da Base de Dados ---

BaseDados.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2025.0,SE,FT,Solutions Engineer,214000,USD,214000,US,100,US,M
1,2025.0,SE,FT,Solutions Engineer,136000,USD,136000,US,100,US,M
2,2025.0,MI,FT,Data Engineer,158800,USD,158800,AU,0,AU,M
3,2025.0,MI,FT,Data Engineer,139200,USD,139200,AU,0,AU,M
4,2025.0,EN,FT,Data Engineer,90000,USD,90000,US,0,US,M


In [4]:
# --- Verificando o tipo de dados e presença de valores nulos ---

BaseDados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133349 entries, 0 to 133348
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   work_year           133339 non-null  float64
 1   experience_level    133349 non-null  object 
 2   employment_type     133349 non-null  object 
 3   job_title           133349 non-null  object 
 4   salary              133349 non-null  int64  
 5   salary_currency     133349 non-null  object 
 6   salary_in_usd       133349 non-null  int64  
 7   employee_residence  133349 non-null  object 
 8   remote_ratio        133349 non-null  int64  
 9   company_location    133349 non-null  object 
 10  company_size        133349 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 11.2+ MB


In [5]:
# --- Exibindo as Estatísticas Descritivas da Base de Dados ---

### Objetivo: Gera estatísticas descritivas das variáveis numéricas do DataFrame.
###
### O que é exibido:
###  count: número de valores não nulos
###  mean: média
###  std: desvio padrão
###  min: valor mínimo
###  25%, 50%, 75%: quartis (percentis)
###  max: valor máximo

BaseDados.describe()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,133339.0,133349.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098,20.905669
std,0.680627,217386.0,74288.363097,40.590044
min,2020.0,14000.0,15000.0,0.0
25%,2024.0,106020.0,106000.0,0.0
50%,2024.0,147000.0,146206.0,0.0
75%,2025.0,199000.0,198000.0,0.0
max,2025.0,30400000.0,800000.0,100.0


In [6]:
# --- Exibindo a quantidade de LINHAS e COLUNAS da Base de Dados --- 

### Objetivo: Extrai a quantidade de linhas e colunas do DataFrame.
###
### .shape retorna uma tupla com dois valores:
### O primeiro é o número de linhas (registros)
### O segundo é o número de colunas (variáveis)

linhas, colunas = BaseDados.shape
print(f"A Base de Dados possui {linhas} linhas e {colunas} colunas.")

A Base de Dados possui 133349 linhas e 11 colunas.


In [7]:
# --- Exibindo os nomes das COLUNAS da Base de Dados ---

### Objetivo: Retorna um objeto Index contendo os nomes de todas as colunas do DataFrame
BaseDados.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [8]:
# --- Traduzindo todos os nomes das colunas para o português --- 

Traducao_Colunas = {
    'work_year': 'Ano',
    'experience_level': 'Senioridade',
    'employment_type': 'Contrato',
    'job_title': 'Cargo',
    'salary': 'Salário',
    'salary_currency': 'Moeda',
    'salary_in_usd': 'USD',
    'employee_residence': 'Residência',
    'remote_ratio': 'Remoto',
    'company_location': 'Empresa',
    'company_size': 'Porte_Empresa'
}

# --- Renomeando as colunas da Base de Dados com a TRADUÇÃO --- 

BaseDados = BaseDados.rename(columns=Traducao_Colunas)

# --- Exibindo os nomes das COLUNAS da Base de Dados após a TRADUÇÃO --- 
print(BaseDados.columns)

Index(['Ano', 'Senioridade', 'Contrato', 'Cargo', 'Salário', 'Moeda', 'USD',
       'Residência', 'Remoto', 'Empresa', 'Porte_Empresa'],
      dtype='object')


In [9]:
# --- Traduzindo os valores da coluna 'Senioridade' --- 

Traducao_Senioridade ={
    'SE': 'Senior',
    'MI': 'Pleno',
    'EN': 'Júnior',
    'EX': 'Executivo'
}

# --- Renomando os valores com as Novas Traduções ---

BaseDados = BaseDados.replace({'Senioridade': Traducao_Senioridade})

# --- Exibindo a contagem dos níveis de experiência - TRADUZIDO ---
BaseDados["Senioridade"].value_counts()

Senioridade
Senior       77241
Pleno        40465
Júnior       12443
Executivo     3200
Name: count, dtype: int64

In [10]:
# --- Traduzindo os valores da coluna 'Contrato' ---

Traducao_Contrato = {
    'FT': 'Tempo Integral',
    'PT': 'Meio Período',
    'CT': 'Contrato',
    'FL': 'Freelancer'
}

# --- Renomeando os valores com as Novas Traduções ---

BaseDados = BaseDados.replace({'Contrato': Traducao_Contrato})

# --- Exibindo a contagem dos tipos de emprego - TRADUZIDO ---

BaseDados["Contrato"].value_counts()

Contrato
Tempo Integral    132563
Contrato             394
Meio Período         376
Freelancer            16
Name: count, dtype: int64

In [11]:
# --- Traduzindo os valores da coluna 'Remoto' ---

Traducao_Remoto = {
    0: 'Presencial',
    50: 'Híbrido',
    100: 'Remoto'
}

# --- Renomeando os valores com as Novas Traduções ---

BaseDados = BaseDados.replace({'Remoto': Traducao_Remoto})

# --- Exibindo a contagem da proporção de trabalho remoto - TRZDUZIDO ---

BaseDados["Remoto"].value_counts()

Remoto
Presencial    105312
Remoto         27718
Híbrido          319
Name: count, dtype: int64

In [12]:
# --- Traduzindo os valores da coluna 'Porte_Empresa' ---

Traducao_Porte_Empresa = {
    'S': 'Pequena',
    'M': 'Média',
    'L': 'Grande'
}

# --- Renomeando os valores com as Novas Traduções ---

BaseDados = BaseDados.replace({'Porte_Empresa': Traducao_Porte_Empresa})

# --- Exibindo a contagem do porte das empresas ---

BaseDados["Porte_Empresa"].value_counts()

Porte_Empresa
Média      129561
Grande       3574
Pequena       214
Name: count, dtype: int64

In [13]:
# --- Exibindo as primeiras linhas da Base de Dados com as Traduções Aplicadas ---

BaseDados.head()

Unnamed: 0,Ano,Senioridade,Contrato,Cargo,Salário,Moeda,USD,Residência,Remoto,Empresa,Porte_Empresa
0,2025.0,Senior,Tempo Integral,Solutions Engineer,214000,USD,214000,US,Remoto,US,Média
1,2025.0,Senior,Tempo Integral,Solutions Engineer,136000,USD,136000,US,Remoto,US,Média
2,2025.0,Pleno,Tempo Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Média
3,2025.0,Pleno,Tempo Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Média
4,2025.0,Júnior,Tempo Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Média


In [14]:
### --- Exibindo as estatísticas descritivas da Base de Dados - Variaveis Categoricas ---
###
### 🔍 Explicação
###      describe() normalmente mostra estatísticas como contagem, valores únicos, valor mais frequente (top) e frequência (freq).
###
###      include='object' limita a análise às colunas categóricas (tipos object, geralmente usadas para texto ou categorias).
###

BaseDados.describe(include='object')

Unnamed: 0,Senioridade,Contrato,Cargo,Moeda,Residência,Remoto,Empresa,Porte_Empresa
count,133349,133349,133349,133349,133349,133349,133349,133349
unique,4,4,390,26,102,3,95,3
top,Senior,Tempo Integral,Data Scientist,USD,US,Presencial,US,Média
freq,77241,132563,17314,126140,119579,105312,119641,129561


In [15]:
# --- Exibindo as Estatísticas Descritivas da Base de Dados ---

### Objetivo: Gera estatísticas descritivas das variáveis numéricas do DataFrame.
###
### O que é exibido:
###  count: número de valores não nulos
###  mean: média
###  std: desvio padrão
###  min: valor mínimo
###  25%, 50%, 75%: quartis (percentis)
###  max: valor máximo

BaseDados.describe()

Unnamed: 0,Ano,Salário,USD
count,133339.0,133349.0,133349.0
mean,2024.35877,163283.3,157617.272098
std,0.680627,217386.0,74288.363097
min,2020.0,14000.0,15000.0
25%,2024.0,106020.0,106000.0
50%,2024.0,147000.0,146206.0
75%,2025.0,199000.0,198000.0
max,2025.0,30400000.0,800000.0


In [16]:
# --- Exportando a Base de Dados criada até aqui, para ser usada na próxima aula, onde será trabalhada a limpeza da Base de Dados

BaseDados.to_csv('BaseDados_Aula01.csv', index=False)
