# Semana Acadêmica de Administração - UnB
## 2024/2º  

Autor: Rafael Lima de Morais  
fonte: https://github.com/RafaelEstatistico/semana_universitaria_2024_2

### Oficina introdutória de classificação com Aprendizado de Máquina
Dataset: [Kagle: 70k+ Job Applicants Data (Human Resource)](https://www.kaggle.com/datasets/ayushtankha/70k-job-applicants-data-human-resource/data).  
Notebook referência: [rahulcris07: ProgrammerEmploymentPrediction(EDA+ML) 0.88 AUC](https://www.kaggle.com/code/rahulcris07/programmeremploymentprediction-eda-ml-0-88-auc)   

### 1. Entendendo os dados
**Introdução:**  
O conjunto de dados intitulado "Classificação de Empregabilidade de Mais de 70.000 Candidatos a Emprego" contém uma coleção abrangente de informações sobre candidatos a emprego e suas respectivas pontuações de empregabilidade. O conjunto de dados foi compilado para auxiliar organizações e recrutadores na avaliação da adequação dos candidatos para várias oportunidades de emprego. Utilizando técnicas de machine learning, este conjunto de dados visa fornecer insights valiosos sobre os fatores que influenciam a empregabilidade e aumentar a eficiência do processo de contratação.

Com base nos resultados da pesquisa, construímos um conjunto de dados com as seguintes colunas:

**Age:** idade do candidato, >35 anos ou <35 anos (categórico)   
**EdLevel:** nível educacional do candidato (Graduação, Mestrado, Doutorado, etc.) (categórico)   
**Gender:** gênero do candidato (Homem, Mulher ou Não Binário) (categórico)   
**MainBranch:** se o candidato é um desenvolvedor profissional (categórico)   
**YearsCode:** há quanto tempo o candidato programa (inteiro)   
**YearsCodePro:** há quanto tempo o candidato programa profissionalmente (inteiro)   
**PreviousSalary:** o salário anterior do candidato (float)   
**ComputerSkills:** número de habilidades computacionais conhecidas pelo candidato (inteiro)   
**Employed:** variável alvo, se o candidato foi contratado (categórico)  

*Coleta de Dados:* O conjunto de dados foi meticulosamente coletado de diversas fontes, incluindo portais de emprego, feiras de carreira e candidaturas online, durante um período especificado. As informações foram coletadas de maneira padronizada, garantindo consistência entre os vários pontos de dados. O conjunto de dados abrange uma ampla gama de indústrias, posições e qualificações, tornando-o adequado para analisar tendências de empregabilidade em diferentes setores.

*Estrutura dos Dados:* O conjunto de dados é composto por dados estruturados, organizados em várias colunas ou características. Cada linha representa um candidato individual a emprego, enquanto as colunas contêm vários atributos e características associadas aos candidatos. A seguir estão algumas das principais características incluídas no conjunto de dados:

Informações Pessoais:  
Nome: O nome completo do candidato   
Gênero: O gênero do candidato   
Idade: A idade do candidato  
Informações de Contato: Endereço de e-mail, número de telefone, etc.  

Formação Educacional:  
Grau: O maior grau obtido pelo candidato   
Universidade/Instituição: Nome da instituição educacional  
Área de Estudo: Área de especialização   
Ano de Graduação: O ano de graduação
  
Experiência de Trabalho:  
Experiência de Trabalho Anterior: Detalhes de posições de trabalho anteriores   
Anos de Experiência: Total de anos de experiência profissional
  
Habilidades e Certificações:  
Habilidades Técnicas: Habilidades técnicas específicas possuídas pelo candidato   
Certificações: Certificações profissionais obtidas
  
Pontuação de Empregabilidade:  
Classificação de Empregabilidade: Uma pontuação numérica ou categórica indicando o nível de empregabilidade ou adequação do candidato para uma determinada função. Esta pontuação é o resultado da aplicação de um algoritmo de classificação ao conjunto de dados.
  
Pré-processamento de Dados: Para garantir a qualidade e consistência dos dados, o conjunto de dados passou por etapas de pré-processamento, incluindo limpeza de dados, normalização e engenharia de características. Outliers e valores ausentes foram tratados adequadamente para garantir a confiabilidade e precisão do conjunto de dados. Qualquer informação de identificação pessoal foi anonimizada ou removida para preservar a privacidade e confidencialidade dos candidatos.

**Metadados**  
| Coluna             | Tipo        | Descrição                                                          |
|--------------------|-------------|--------------------------------------------------------------------|
| Age                | Categórico  | Idade do candidato (>35 anos ou <35 anos)                          |
| EdLevel            | Categórico  | Nível educacional do candidato (Graduação, Mestrado, Doutorado, etc.) |
| Gender             | Categórico  | Gênero do candidato (Homem, Mulher, Não Binário)                   |
| MainBranch         | Categórico  | Se o candidato é um desenvolvedor profissional                     |
| YearsCode          | Inteiro     | Há quanto tempo o candidato programa                               |
| YearsCodePro       | Inteiro     | Há quanto tempo o candidato programa profissionalmente             |
| PreviousSalary     | Float       | Salário anterior do candidato                                      |
| ComputerSkills     | Inteiro     | Número de habilidades computacionais conhecidas pelo candidato     |
| Employed           | Categórico  | Se o candidato foi contratado                                      |


#### Antes de executar
Baixar os dados e mover o arquivo descompactado `stackoverflow_full.csv` para a pasta raiz do diretório.  
Os dados podem ser encontrados na página do [dataset no Kagle](https://www.kaggle.com/datasets/ayushtankha/70k-job-applicants-data-human-resource/data) ou diretamente no [github do curso](https://github.com/RafaelEstatistico/semana_universitaria_2024_2).  

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd drive/MyDrive/Semana_Universitaria_2024_2/

/content/drive/MyDrive/Semana_Universitaria_2024_2


In [None]:
# Bibliotecas utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, roc_auc_score, roc_curve, auc
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score

In [None]:
df = pd.read_csv("stackoverflow_full.csv")

# Printa primeiras linhas dos dados
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Accessibility,EdLevel,Employment,Gender,MentalHealth,MainBranch,YearsCode,YearsCodePro,Country,PreviousSalary,HaveWorkedWith,ComputerSkills,Employed
0,0,<35,No,Master,1,Man,No,Dev,7,4,Sweden,51552.0,C++;Python;Git;PostgreSQL,4,0
1,1,<35,No,Undergraduate,1,Man,No,Dev,12,5,Spain,46482.0,Bash/Shell;HTML/CSS;JavaScript;Node.js;SQL;Typ...,12,1
2,2,<35,No,Master,1,Man,No,Dev,15,6,Germany,77290.0,C;C++;Java;Perl;Ruby;Git;Ruby on Rails,7,0
3,3,<35,No,Undergraduate,1,Man,No,Dev,9,6,Canada,46135.0,Bash/Shell;HTML/CSS;JavaScript;PHP;Ruby;SQL;Gi...,13,0
4,4,>35,No,PhD,0,Man,No,NotDev,40,30,Singapore,160932.0,C++;Python,2,0


In [None]:
# Dimensões dos dados: (nº de linhas, nº de colunas)
df.shape

(73462, 15)

In [None]:
# Informações do dataset com colunas e formatos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73462 entries, 0 to 73461
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      73462 non-null  int64  
 1   Age             73462 non-null  object 
 2   Accessibility   73462 non-null  object 
 3   EdLevel         73462 non-null  object 
 4   Employment      73462 non-null  int64  
 5   Gender          73462 non-null  object 
 6   MentalHealth    73462 non-null  object 
 7   MainBranch      73462 non-null  object 
 8   YearsCode       73462 non-null  int64  
 9   YearsCodePro    73462 non-null  int64  
 10  Country         73462 non-null  object 
 11  PreviousSalary  73462 non-null  float64
 12  HaveWorkedWith  73399 non-null  object 
 13  ComputerSkills  73462 non-null  int64  
 14  Employed        73462 non-null  int64  
dtypes: float64(1), int64(6), object(8)
memory usage: 8.4+ MB


In [None]:
# Trabalhar a coluna HaveWorkedWith para ver quais palavras aparecem mais


In [None]:
# Minha coluna HaveWorkedWith tem varias palavras separadas por ';'
# Transformar em uma coluna de array


In [None]:
# Trabalhar com ArrayHaveWorkedWith para termos frequencias


In [None]:
# Quais as frequencias de ArrayHaveWorkedWith


In [None]:
# Qual o tamanho de array para cada Unnamed: 0 de df?


In [None]:
# Quais os registros com maiores Num_HaveWorked?


In [None]:
# Gerar uma nuvem de palavras do campo ArrayHaveWorkedWith
# Aumentar a largura do gráfico para leitura dos campos


In [None]:
# Gerar word cloud do campo ArrayHaveWorkedWith


In [None]:
# Gerar word cloud do campo ArrayHaveWorkedWith

# Convert the elements of the series to strings before joining them


In [None]:
# a figura nao apareceu do wordcloud


In [None]:
# Listar os paises de df


In [None]:
# Criar uma nova coluna com os continentes dos paises


In [None]:
# Gerar um worldcloud de ArrayHaveWorkedWith para cada continente
