# Tratabalho de Engenharia de Dados II

## Equipe
* José Freitas Alves Neto
* Lia Santos
* Lucas do Vale Pimentel

# Dataset: Análise de Salários em na área de Ciência de Dados
## Visão Geral
Este dataset apresenta uma compilação abrangente de dados sobre salários e condições de trabalho no campo da ciência de dados. Reunindo informações anônimas de diversas fontes confiáveis, incluindo pesquisas de mercado e anúncios de vagas, o conjunto de dados oferece uma perspectiva única sobre as tendências do mercado de trabalho neste setor.
## Principais Características

* **Abrangência Temporal:** Dados coletados ao longo de diferentes anos
* **Padronização Monetária:** Salários convertidos para dólares americanos
* **Diversidade Geográfica:** Informações de diferentes países e regiões
* **Modalidades de Trabalho:** Inclui dados sobre trabalho remoto e presencial
* **Perfis Profissionais:** Diversos níveis de experiência e cargos

## Relevância
O dataset permite análises cruciais para:

* Compreensão das tendências salariais globais
* Avaliação do impacto da experiência na remuneração
* Análise da influência do porte da empresa nos salários
* Estudo das diferenças regionais nas compensações
* Entendimento das políticas de trabalho remoto

Este conjunto de dados serve como uma ferramenta valiosa para profissionais, empresas e pesquisadores interessados em compreender e analisar o mercado de trabalho em ciência de dados.

In [None]:
from pyspark.sql import SparkSession
import plotly.express as px
from pyspark.sql import functions as F

!gdown 1tGyRG3vAEp4cz3ahV0XO80iFmBMZG4FD


spark = SparkSession.builder \
    .appName("Dataset salários") \
    .getOrCreate()


df = spark.read.csv('DataScience_salaries_2024.csv', header=True, inferSchema=True)
df.show()

Downloading...
From: https://drive.google.com/uc?id=1tGyRG3vAEp4cz3ahV0XO80iFmBMZG4FD
To: /content/DataScience_salaries_2024.csv
  0% 0.00/851k [00:00<?, ?B/s]100% 851k/851k [00:00<00:00, 120MB/s]
+---------+----------------+---------------+--------------------+--------+---------------+-------------+------------------+------------+----------------+------------+
|work_year|experience_level|employment_type|           job_title|  salary|salary_currency|salary_in_usd|employee_residence|remote_ratio|company_location|company_size|
+---------+----------------+---------------+--------------------+--------+---------------+-------------+------------------+------------+----------------+------------+
|     2021|              MI|             FT|      Data Scientist|30400000|            CLP|        40038|                CL|         100|              CL|           L|
|     2021|              MI|             FT|     BI Data Analyst|11000000|            HUF|        36259|                HU|          

# Analisando o dataset

## Analisando média salarial anual

### Análise geral

In [None]:
resultado = df.groupBy("company_location").mean('salary_in_usd')
resultado = resultado.select(["company_location","avg(salary_in_usd)"]).orderBy(F.desc("avg(salary_in_usd)"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['company_location','Salário médio']).show()

+----------------+-------------+
|company_location|Salário médio|
+----------------+-------------+
|              QA|     300000.0|
|              IL|     217332.0|
|              PR|     167500.0|
|              US|    157410.13|
|              NZ|    147681.67|
|              CA|    145174.99|
|              EG|    140869.23|
|              SA|    139999.33|
|              AU|    130126.47|
|              MX|     129240.6|
|              CH|    124646.89|
|              JP|    110821.63|
|              UA|     105600.0|
|              IE|    104694.92|
|              DZ|     100000.0|
|              CN|     100000.0|
|              IQ|     100000.0|
|              IR|     100000.0|
|              MU|     100000.0|
|              SE|     98791.33|
+----------------+-------------+
only showing top 20 rows



### Análise do salário médio do ano de 2024

In [None]:
df_filtered = df.filter(df["work_year"].startswith("2024"))
resultado = df_filtered.groupBy("company_location").mean('salary_in_usd')
resultado = resultado.select(["company_location","avg(salary_in_usd)"]).orderBy(F.desc("avg(salary_in_usd)"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['company_location','Salário médio']).show()

+----------------+-------------+
|company_location|Salário médio|
+----------------+-------------+
|              MX|     223774.5|
|              CH|     196401.0|
|              US|    157129.54|
|              EG|    150708.33|
|              SA|     150000.0|
|              CA|    147235.77|
|              NZ|     143729.0|
|              PL|    135444.25|
|              AU|    133389.57|
|              FR|    113459.36|
|              IE|      93611.0|
|              DE|      92852.6|
|              AR|      88500.0|
|              UA|      82000.0|
|              GB|     78993.84|
|              NL|      78091.0|
|              FI|      77777.0|
|              ES|     72184.67|
|              LB|      71750.0|
|              AE|      65000.0|
+----------------+-------------+
only showing top 20 rows



### Salário médio do Brasil anualmente

In [None]:
df_filtered = df.filter(df["company_location"].startswith("BR"))
resultado = df_filtered.groupBy("work_year").mean('salary_in_usd')
resultado = resultado.select(["work_year","avg(salary_in_usd)"]).orderBy(F.desc("work_year"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['work_year','Salário médio']).show()

+---------+-------------+
|work_year|Salário médio|
+---------+-------------+
|     2024|      46000.0|
|     2023|     63252.57|
|     2022|      63750.0|
|     2021|      21453.5|
+---------+-------------+



### Analisando a média salariu entre trabalho remoto, presencial e hibrido

In [None]:
resultado = df.groupBy("remote_ratio").mean('salary_in_usd')
resultado = resultado.select(["remote_ratio","avg(salary_in_usd)"]).orderBy(F.desc("remote_ratio"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['remote_ratio','Salário médio']).show()

+------------+-------------+
|remote_ratio|Salário médio|
+------------+-------------+
|         100|    145109.56|
|          50|     83056.98|
|           0|    153847.45|
+------------+-------------+



### Média salarial por título de trabalho

In [None]:
resultado = df.groupBy("job_title").mean('salary_in_usd')
resultado = resultado.select(["job_title","avg(salary_in_usd)"]).orderBy(F.desc("avg(salary_in_usd)"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['job_title','Salário médio']).show(truncate = False)

+------------------------------+-------------+
|job_title                     |Salário médio|
+------------------------------+-------------+
|Analytics Engineering Manager |399880.0     |
|Data Science Tech Lead        |375000.0     |
|Head of Machine Learning      |299758.43    |
|Managing Director Data Science|280000.0     |
|AWS Data Architect            |258000.0     |
|AI Architect                  |255142.36    |
|Cloud Data Architect          |250000.0     |
|Director of Data Science      |218775.33    |
|Head of Data                  |210013.71    |
|Data Infrastructure Engineer  |207332.81    |
|Prompt Engineer               |205093.59    |
|Data Analytics Lead           |198241.94    |
|ML Engineer                   |197496.71    |
|Robotics Software Engineer    |196625.0     |
|Research Scientist            |194217.12    |
|Principal Data Scientist      |194089.6     |
|Machine Learning Scientist    |192214.06    |
|Data Science Manager          |191612.11    |
|Deep Learnin

### Média salarial com base no grau de experiência

In [None]:
resultado = df.groupBy("experience_level").mean('salary_in_usd')
resultado = resultado.select(["experience_level","avg(salary_in_usd)"]).orderBy(F.desc("avg(salary_in_usd)"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))
df_rounded.select(['experience_level','Salário médio']).show(truncate = False)

+----------------+-------------+
|experience_level|Salário médio|
+----------------+-------------+
|EX              |194730.21    |
|SE              |163700.97    |
|MI              |125386.55    |
|EN              |91656.84     |
+----------------+-------------+



## Gerando gráficos
Puxando todos os dados para criar gráficos

In [None]:
df_pandas = df.toPandas()

### Criando histograma do salário anualizado

In [None]:
histograma = px.histogram(data_frame = df_pandas, x = 'salary_in_usd', facet_col='work_year', category_orders={'work_year': [2020,2021,2022,2023,2024]}, barmode='overlay', nbins=100, title='Salário anualizado',
                          labels = {'work_year':'Ano','count':'Frequência','salary_in_usd':'Salário dolarizado'})
histograma.update_layout(
    title_x=0.5,  # Centralizar o título
    bargap=0.2,  # Ajuste do espaço entre as barras para melhor visualização
    template='plotly_white'  # Tema branco para uma aparência mais limpa
)
histograma.show()

# Distribuição salarial por nível de experiência

In [None]:
box_plot = px.box(
    df_pandas,
    x='experience_level',
    y='salary_in_usd',
    title='Distribuição salarial por experiência',
    labels={'salary_in_usd': 'Salário Anual', 'experience_level': 'Grau de experiência'},
    height= 600,
    width= 600
)
box_plot.show()

## Média salarial ao longo dos anos

In [None]:
df_filtered = df.filter(df["company_location"].startswith("BR"))
resultado = df_filtered.groupBy("work_year").mean('salary_in_usd')
resultado = resultado.select(["work_year","avg(salary_in_usd)"]).orderBy(F.desc("work_year"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))

scatter = px.line(data_frame = df_rounded, x = 'work_year', y = 'Salário médio', width=500, height=500)
scatter.show()

## Paises com os maiores salários

In [None]:
resultado = df.groupBy("company_location").mean('salary_in_usd')
resultado = resultado.select(["company_location","avg(salary_in_usd)"]).orderBy(F.desc("avg(salary_in_usd)"))
df_rounded = resultado.withColumn("Salário médio", F.round("avg(salary_in_usd)", 2))


hist_ = px.bar(data_frame = df_rounded, x = 'company_location', y ='Salário médio', title ='Salário médio por país', labels = {'company_location':'País'})
hist_.show()

# Adicionando o Dataset padrão ao MongoDB

## Importando bibliotecas e fazendo a instalação

In [None]:
!pip install pymongo==3.10.0



In [None]:
import pymongo

In [None]:
!wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.15.tgz
!tar xfv /content/mongodb-linux-x86_64-3.0.15.tgz

--2024-10-27 13:25:49--  https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.15.tgz
Resolving fastdl.mongodb.org (fastdl.mongodb.org)... 3.167.99.33, 3.167.99.83, 3.167.99.110, ...
Connecting to fastdl.mongodb.org (fastdl.mongodb.org)|3.167.99.33|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 63276568 (60M) [application/x-gzip]
Saving to: ‘mongodb-linux-x86_64-3.0.15.tgz’


2024-10-27 13:25:50 (172 MB/s) - ‘mongodb-linux-x86_64-3.0.15.tgz’ saved [63276568/63276568]

mongodb-linux-x86_64-3.0.15/README
mongodb-linux-x86_64-3.0.15/THIRD-PARTY-NOTICES
mongodb-linux-x86_64-3.0.15/GNU-AGPL-3.0
mongodb-linux-x86_64-3.0.15/bin/mongodump
mongodb-linux-x86_64-3.0.15/bin/mongorestore
mongodb-linux-x86_64-3.0.15/bin/mongoexport
mongodb-linux-x86_64-3.0.15/bin/mongoimport
mongodb-linux-x86_64-3.0.15/bin/mongostat
mongodb-linux-x86_64-3.0.15/bin/mongotop
mongodb-linux-x86_64-3.0.15/bin/bsondump
mongodb-linux-x86_64-3.0.15/bin/mongofiles
mongodb-linux-x86_64-3.0.15/bi

In [None]:
!mkdir /data                                          # data folder creation
!mkdir /data/db

mkdir: cannot create directory ‘/data’: File exists
mkdir: cannot create directory ‘/data/db’: File exists


In [None]:
!nohup sudo /content/mongodb-linux-x86_64-3.0.15/bin/mongod --nojournal --dbpath /data/db >log1 &

nohup: redirecting stderr to stdout


In [None]:
!cat log1

2024-10-27T13:25:54.000+0000 I CONTROL  [initandlisten] MongoDB starting : pid=4543 port=27017 dbpath=/data/db 64-bit host=8bbf707053ca
2024-10-27T13:25:54.004+0000 I CONTROL  [initandlisten] db version v3.0.15
2024-10-27T13:25:54.005+0000 I CONTROL  [initandlisten] git version: b8ff507269c382bc100fc52f75f48d54cd42ec3b
2024-10-27T13:25:54.005+0000 I CONTROL  [initandlisten] build info: Linux ip-10-142-230-168 2.6.18-194.el5xen #1 SMP Tue Mar 16 22:01:26 EDT 2010 x86_64 BOOST_LIB_VERSION=1_49
2024-10-27T13:25:54.005+0000 I CONTROL  [initandlisten] allocator: tcmalloc
2024-10-27T13:25:54.005+0000 I CONTROL  [initandlisten] options: { storage: { dbPath: "/data/db", journal: { enabled: false } } }


In [None]:
!mongodb-linux-x86_64-3.0.15/bin/mongod

2024-10-27T13:25:54.270+0000 I CONTROL  [initandlisten] MongoDB starting : pid=4548 port=27017 dbpath=/data/db 64-bit host=8bbf707053ca
2024-10-27T13:25:54.270+0000 I CONTROL  [initandlisten] db version v3.0.15
2024-10-27T13:25:54.270+0000 I CONTROL  [initandlisten] git version: b8ff507269c382bc100fc52f75f48d54cd42ec3b
2024-10-27T13:25:54.270+0000 I CONTROL  [initandlisten] build info: Linux ip-10-142-230-168 2.6.18-194.el5xen #1 SMP Tue Mar 16 22:01:26 EDT 2010 x86_64 BOOST_LIB_VERSION=1_49
2024-10-27T13:25:54.274+0000 I CONTROL  [initandlisten] allocator: tcmalloc
2024-10-27T13:25:54.274+0000 I CONTROL  [initandlisten] options: {}
2024-10-27T13:25:54.280+0000 W -        [initandlisten] Detected unclean shutdown - /data/db/mongod.lock is not empty.
2024-10-27T13:25:54.305+0000 I STORAGE  [initandlisten] exception in initAndListen: 98 Unable to lock file: /data/db/mongod.lock errno:11 Resource temporarily unavailable. Is a mongod instance already running?, terminating
2024-10-27T13:25:

In [None]:
from pymongo import MongoClient
client = MongoClient('127.0.0.1', 27017)

db = client['Meus_Data_sets']
colecao = db['salario_cientistas_de_dados']

data = df_pandas.to_dict(orient='records')

colecao.insert_many(data)

print("DataFrame salvo no MongoDB com sucesso!")


DataFrame salvo no MongoDB com sucesso!


In [None]:
todos_documentos = colecao.find()
for documento in todos_documentos:
    print(documento)

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
{'_id': ObjectId('671e402d1c2b687bc66225fc'), 'work_year': 2022, 'experience_level': 'SE', 'employment_type': 'FT', 'job_title': 'Data Analyst', 'salary': 119000, 'salary_currency': 'USD', 'salary_in_usd': 119000, 'employee_residence': 'US', 'remote_ratio': 100, 'company_location': 'US', 'company_size': 'M'}
{'_id': ObjectId('671e402d1c2b687bc66225fd'), 'work_year': 2022, 'experience_level': 'SE', 'employment_type': 'FT', 'job_title': 'Data Analyst', 'salary': 119000, 'salary_currency': 'USD', 'salary_in_usd': 119000, 'employee_residence': 'US', 'remote_ratio': 0, 'company_location': 'US', 'company_size': 'M'}
{'_id': ObjectId('671e402d1c2b687bc66225fe'), 'work_year': 2022, 'experience_level': 'SE', 'employment_type': 'FT', 'job_title': 'Machine Learning Engineer', 'salary': 119000, 'salary_currency': 'USD', 'salary_in_usd': 119000, 'employee_residence': 'US', 'remote_ratio': 0, 'company_location': 'US', 'company_