<h2><b>Case Hype 2024_1</b></h2>
<h3><b>Introdução</b></h3>
<p> 
Os membros do grupo Hype estão sempre em busca de expandir seus horizontes. Cada integrante do grupo possui objetivos pessoais e profissionais únicos, mas todos compartilham o mesmo espírito de curiosidade e vontade de aprender.

Nas reuniões regulares do grupo, cada membro compartilha suas metas e aspirações. Alguns estão focados em aprimorar suas habilidades técnicas, mergulhando a fundo em linguagens de programação ou explorando novas tecnologias emergentes. Outros estão mais interessados em desenvolver suas habilidades de liderança e comunicação, buscando oportunidades para assumir projetos desafiadores e trabalhar em equipe.

Além dos objetivos individuais, os membros do grupo Hype também compartilham um objetivo comum: compreender melhor os dados relacionados aos salários dos profissionais de TI e as características que influenciam sua oscilação. Eles reconhecem a importância de entender como fatores como experiência profissional, modalidade de trabalho e tempo de empresa afetam os salários na indústria de tecnologia.

Eles estão determinados a explorar os dados em profundidade, identificar padrões significativos e desenvolver modelos preditivos que possam fornecer orientação e clareza em um mercado de trabalho em constante evolução. 
</p>

<h3><b>Sobre o conjunto de dados</b></h3>

<ol>
    <li><b>pais:</b> País residente</li>
    <li><b>continente:</b> Continente</li>
    <li><b>idade:</b> Idade atual</li>
    <li><b>faixa_idade:</b> Classificação de faixa etária</li>
    <li><b>modalidade_exercicio:</b> Modalidade de exercício das atividades de TI</li>
    <li><b>contrato_trabalho:</b> Contrato de trabalho, em relação ao período de trabalho</li>
    <li><b>sou_estudante:</b> Se atualmente é estudante ou não</li>
    <li><b>sou_aposentado:</b> Se está aposentado ou não</li>
    <li><b>sou_freelancer:</b> Se atual como freelancer ou não</li>
    <li><b>buscando_trabalho:</b> Se está buscando trabalho ou não</li>
    <li><b>nivel_educacao:</b> Nível de escolaridade</li>
    <li><b>intervalo_min_anos_exp_pessoal:</b> Intervalo mínimo de anos de contato/experiência total na área (não necessariamente profissional)</li>
    <li><b>intervalo_max_anos_exp_pessoal:</b> Intervalo máximo de anos de contato/experiência total na área (não necessariamente profissional)</li>
    <li><b>intervalo_min_anos_exp_profissional:</b> Intervalo mínimo de anos de experiência profissional total na área</li>
    <li><b>intervalo_max_anos_exp_profissional:</b> Intervalo máximo de anos de experiência profissional total na área</li>
    <li><b>anos_atividade_atual:</b> Anos de exerção da atividade atual (seja emprego, freelancer, etc.)</li>
    <li><b>categoria_salario:</b> O salário representado em categorias</li>
</ol>

<h3><b>Tarefas do Case</b></h3>

<p>No geral, as tarefas se concentram no estudo e na compreensão dos dados, seja por meio de uma análise descritiva dos dados e na modelagem de um classificador para ser capaz de prever uma categoria de salário dado as características.</p>

<p><b>As tarefas são dividas em 5 seções:</b></p>
<ul>
    <li><b>Descrição dos dados:</b> Responder algumas questões levantadas pelos membros do Hype. <b>(2,5)</b></li>
    <li><b>Visualização dos dados:</b> Representação visual de algumas variáveis para facilitar o entedimento. <b>(1,5)</b></li>
    <li><b>Processamento e transformação dos dados:</b> Algumas etapas que deverão preceder a etapa da modelagem. <b>(2,5)</b></li>
    <li><b>Preparação dos dados e treinamento de um modelo classificador:</b> Treinamento de um modelo pré-implementado que classifica a faixa salarial. <b>(2,0)</b></li>
    <li><b>Avaliação do modelo:</b> Calcular algumas métricas de avaliação no conjunto de teste. <b>(1,5)</b></li>
</ul>

<p><b>Editar somente onde estiver marcado como "TODO" na célula</b></p>

<h3>Bibliotecas</h3> 

<p>Importação de bibliotecas que possivelmente serão utilizados ao longo do case</p>

In [54]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.preprocessing import *
from sklearn.model_selection import *
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report

# =========== TODO (opcional) ===========
# insira outras bibliotecas caso seja necessário...

<h3>Leitura dos dados</h3>

In [55]:
df = pd.read_parquet('dataset/final_case.parquet')

In [56]:
df.sample(5)

Unnamed: 0,pais,continente,idade,faixa_idade,modalidade_exercicio,contrato_trabalho,sou_estudante,sou_aposentado,sou_freelancer,buscando_trabalho,nivel_educacao,intervalo_min_anos_exp_pessoal,intervalo_max_anos_exp_pessoal,intervalo_min_anos_exp_profissional,intervalo_max_anos_exp_profissional,anos_atividade_atual,categoria_salario
48059,USA,North America,46.0,Adults,Remote,Full-time,Nao,Nao,Nao,Nao,Masters,21.0,24.0,9.0,12.0,8.0,Very High
21116,Germany,Europe,26.0,Adults,Remote,Full-time,Nao,Nao,Nao,Nao,Associate,9.0,12.0,5.0,8.0,2.0,High
72012,Brazil,South America,34.0,Adults,In-person,Unemployed,Nao,Nao,Sim,Nao,Self-Study,13.0,16.0,5.0,8.0,5.0,Low
82824,USA,North America,27.0,Adults,Remote,Full-time,Nao,Nao,Nao,Nao,Self-Study,9.0,12.0,5.0,8.0,4.0,High
40295,Iran,Asia,34.0,Adults,In-person,Full-time,Nao,Nao,Nao,Nao,Bachelor,5.0,8.0,1.0,4.0,1.0,Low


<h3><b>Seção 1: Descrição dos dados (2,5)</b></h3>

<p><b>Materiais de apoio: </b></p> 
<li>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html</li>
<li>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html</li>
<li>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html</li>
<li>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html</li>
<li>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html</li>

<h4><b>Seção 1.1: Mostre o tipo de cada uma das colunas (0,5)</b></h4>

<p>É fundamental avaliar a corretude de tipagem das colunas de dados.</p>
<p><b>Por exemplo: </b> Avaliar se a coluna de 'pais' é uma string (texto) e a 'idade' é um int (número inteiro). </p>

In [57]:
# =========== TODO ===========



<h4><b>Seção 1.2: Mostre a dimensão dos dados (0,5)</b></h4>

<p>Mostrar a quantidade de linhas e colunas a base possui.</p>

In [58]:
# =========== TODO ===========



<h4><b>Seção 1.3: Análise descritiva das colunas numéricas (0,5)</b></h4>

<p>Mostre algumas métricas gerais das colunas como a média, valor mínimo/máximo, contagem... (livre escolha)</p>

In [59]:
# =========== TODO ===========



<h4><b>Seção 1.4: Quais são os países distintos da base e a sua contagem? (0,5)</b></h4>

<p>A equipe precisa avaliar como está a distribuição dos países da base.</p>

In [60]:
# =========== TODO ===========



<h4><b>Seção 1.5: Qual é a correlação entre a idade e o intervalo mínimo de anos de experiência profissional? (0,5)</b></h4>

<p>Colunas para analisar:</p>
<li>idade</li>
<li>intervalo_min_anos_exp_profissional</li>

In [61]:
# =========== TODO (Código) ===========



# =========== TODO (Preencher a resposta substituindo o 'None') ===========
correlacao = None 
print(f'A correlação entre idade e o intervalo_min_anos_exp_profissional é: {correlacao}')

A correlação entre idade e o intervalo_min_anos_exp_profissional é: None


<h3><b>Seção 2: Visualização dos dados (1,5)</b></h3>

<p><i>Observação: "pyplot" está importado como "plt"</i></p>

<p><b>Materiais de apoio: </b></p> 
<li>https://mode.com/example-gallery/python_histogram</li>
<li>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html</li>
<li>https://www.tutorialspoint.com/python-plot-a-pie-chart-for-pandas-dataframe-with-matplotlib</li>
<li>https://www.geeksforgeeks.org/ml-label-encoding-of-datasets-in-python/</li>

In [62]:
# EXEMPLO DE AGRUPAMENTO DA COLUNA, USANDO FAIXA DE IDADE
agrupado = df.groupby(by='faixa_idade').agg(contagem=('faixa_idade', 'count')).reset_index()
agrupado

Unnamed: 0,faixa_idade,contagem
0,Adults,40826
1,Seniors,2111
2,Youth,4970


<h4><b>Seção 2.1: Crie um gráfico de pizza da distribuição de nível de educação (0,75)</b></h4>

<p>A equipe julgou que uma representação visual do gráfico de pizza seria o mais adequado.</p>
<p><i>Sinta-se a vontade para personalizar da forma como preferir</i></p>

In [63]:
# =========== TODO (Agrupamento) ===========



In [64]:
# =========== TODO (Gráfico) ===========



<h4><b>Seção 2.2: Crie um histograma de idade (0,75)</b></h4>

<p>A equipe necessita de um histograma para analisar como a idade está distribuída. Se possível, divida em 13 bins.</p>
<p><i>Sinta-se a vontade para personalizar da forma como preferir</i></p>

In [65]:
# =========== TODO (Gráfico) ===========



<h3><b>Seção 3: Processamento e transformação dos dados (2,5)</b></h3>

<p><i>Observação: Normalmente os dados nulos são representados como NaN</i></p>

<p><b>Materiais de apoio: </b></p> 
<li>https://pandas.pydata.org/docs/dev/reference/api/pandas.DataFrame.isna.html</li>
<li>https://saturncloud.io/blog/how-to-count-nan-values-in-a-pandas-dataframe-column/</li>
<li>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html</li>
<li>https://www.datacamp.com/tutorial/python-select-columns</li>
<li>https://medium.com/codex/how-to-set-x-and-y-in-pandas-3f38584e9bed (abra na aba anônima)</li>
<li>https://www.alura.com.br/artigos/get-dummies-vs-onehotencoder-qual-metodo-escolher</li>
<li>https://www.c-sharpcorner.com/article/a-beginners-guide-to-one-hot-encoding-using-pandas-getdummies-method/</li>

<h4><b>Seção 3.1: Avalie integridade das colunas (0,5)</b></h4>

<p>Sempre há a necessidade de avaliar se a base de dados não possui dados nulos/vazios.</p>

In [66]:
# =========== TODO ===========



<h4><b>Seção 3.2: Drop (não considerar) das linhas onde contém células nulas (0,5)</b></h4>

<p>A equipe decidiu que não deveríamos treinar o modelo com linhas onde há dado(s) inválido(s).</p>
<p><i>Dica: Você pode executar a célula anterior para avaliar se o código está correto.</i></p>

In [67]:
# =========== TODO ===========



<h4><b>Seção 3.3: Faça uma separação das características e a variável que desejamos prever (0,5)</b></h4>

<p>A equipe precisa que você quebre os dados em 'X' e 'y'.</p>
<p>Armazene como 'y' a coluna que desejamos prever (categoria_salario) e como 'X' as demais colunas.</p>

In [68]:
# =========== TODO ===========

#X = ...
#y = ...

<h4><b>Seção 3.4: Aplique um label encoding da variável ('y') que desejamos prever (0,5)</b></h4>

<p>Transforme a coluna categórica em numérica, representando as diferentes classes (categorias de salário)</p>
<p><b>Exemplo:</b> 'Low' como 0, 'Mid' como 1...</p>

In [69]:
# =========== TODO ===========



<h4><b>Seção 3.5: Aplique um one-hot-encoding das características ('X') categóricas (0,5)</b></h4>

<p>Transforme as colunas categóricas em numérica por meio de one-hot-encoding.</p>

In [70]:
# =========== TODO ===========



<h3><b>Seção 4: Preparação dos dados e treinamento de um modelo classificador (2,0)</b></h3>

<p><b>Materiais de apoio: </b></p> 
<li>https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html</li>
<li>https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html</li>
<li>https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html</li>
<li>https://machinelearningmastery.com/train-test-split-for-evaluating-machine-learning-algorithms/</li>

In [71]:
# # EXECUTE ESSA CÉLULA CASO NÃO TENHA CONCLUÍDO A SEÇÃO 3, PARA OBTER O 'X' E 'y'
# X = pd.read_parquet('dataset/final_case_X.parquet')
# y = pd.read_parquet('dataset/final_case_y.parquet').categoria_salario

<h4><b>Seção 4.1: Faça a divisão dos dados de treinamento e teste (0,75)</b></h4>

<p>Queremos testar como o modelo performa com os dados desconhecidos, portanto vamos separar uma parte dos dados para o teste!</p>
<p>Depois de uma reunião, nós decidimos optar em dividir os dados para <b>80% de treinamento e 20% de teste.</b></p>

In [72]:
# =========== TODO ===========



<h4><b>Seção 4.2: Construa um classificador com os dados de treinamento (0,75)</b></h4>

<p>A equipe precisa de um modelo para utilizar como um baseline, mesmo que seja com os parâmetros padrões. Para isso, crie uma instância de modelo e faça inicie um treinamento com os dados de treino.</p>
<p><i>Fique à vontade para escolher o modelo que preferir, nós importamos o <b>RandomForestClassifier</b> e <b>DecisionTreeClassifier</b> como exemplos de uso.</i></p>

In [73]:
# =========== TODO ===========



<h4><b>Seção 4.3: Teste o modelo com os dados de teste (0,5)</b></h4>

<p>Utilize os dados de teste que foram separados na seção 4.1, nós precisamos avaliar com os dados que não foram utilizados na seção 4.2!</p>
<p>Armazene o retorno do modelo em uma variável.</p>

In [74]:
# =========== TODO ===========



<h4><b>Seção 4.1, 4.2 e 4.3: Faço o splitting dos dados, treine e teste um classificador (2,0)</b></h4>

<p><b>Não precisa realizar esse TODO caso tenha feito as seções 4.1, 4.2 e 4.3 (OPCIONAL). Será considerado apenas a pontuação de uma delas.</b></p>
<p>O time decidiu que você poderia desenvolver um modelo mais robusto, caso queira demonstrar suas habilidades!</p>
<p>Sinta-se à vontade para treinar outros classificadores, aplicar técnicas de validações cruzadas, realizar o tuning de hiperparâmetros e entre outros!</p> 

In [75]:
# =========== TODO ===========



<h3><b>Seção 5: Avaliação do modelo (1,5)</b></h3>

<p><b>Materiais de apoio: </b></p> 
<li>https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html</li>
<li>https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html</li>
<li>https://scikit-learn.org/stable/modules/model_evaluation.html</li>

In [76]:
# # EXECUTE ESSA CÉLULA CASO QUEIRA REALIZAR A SEÇÃO 5 MAS NÃO TENHA CONCLUÍDO A SEÇÃO 4, PARA OBTER UM EXEMPLO DE SAÍDA DA SEÇÃO 4.3
# y_test = np.load('dataset/exemplo_y_test.npy')      # labels do y_test (real)
# y_pred = np.load('dataset/exemplo_y_pred.npy')      # labels da saída do modelo (previsto)
# labels = [1, 2, 0, 3]
# target_names = ['Low', 'Mid', 'High', 'Very High']

<h4><b>Seção 5.1: Faça uma avaliação da saída do modelo com os dados de teste (1,5)</b></h4>

<p>Utilizem representações como matriz de confusão e principais métricas como acurácia, revocação, f1-score...</p>

In [77]:
# =========== TODO ===========

