# Semana Acadêmica de Administração - UnB
## 2024/2º  

Autor: Rafael Lima de Morais  
fonte: https://github.com/RafaelEstatistico/semana_universitaria_2024_2

### Oficina introdutória de classificação com Aprendizado de Máquina
Dataset: [Kagle: 70k+ Job Applicants Data (Human Resource)](https://www.kaggle.com/datasets/ayushtankha/70k-job-applicants-data-human-resource/data).  
Notebook referência: [rahulcris07: ProgrammerEmploymentPrediction(EDA+ML) 0.88 AUC](https://www.kaggle.com/code/rahulcris07/programmeremploymentprediction-eda-ml-0-88-auc)   

### 1. Entendendo os dados
**Introdução:**  
O conjunto de dados intitulado "Classificação de Empregabilidade de Mais de 70.000 Candidatos a Emprego" contém uma coleção abrangente de informações sobre candidatos a emprego e suas respectivas pontuações de empregabilidade. O conjunto de dados foi compilado para auxiliar organizações e recrutadores na avaliação da adequação dos candidatos para várias oportunidades de emprego. Utilizando técnicas de machine learning, este conjunto de dados visa fornecer insights valiosos sobre os fatores que influenciam a empregabilidade e aumentar a eficiência do processo de contratação.

Com base nos resultados da pesquisa, construímos um conjunto de dados com as seguintes colunas:

**Age:** idade do candidato, >35 anos ou <35 anos (categórico)   
**EdLevel:** nível educacional do candidato (Graduação, Mestrado, Doutorado, etc.) (categórico)   
**Gender:** gênero do candidato (Homem, Mulher ou Não Binário) (categórico)   
**MainBranch:** se o candidato é um desenvolvedor profissional (categórico)   
**YearsCode:** há quanto tempo o candidato programa (inteiro)   
**YearsCodePro:** há quanto tempo o candidato programa profissionalmente (inteiro)   
**PreviousSalary:** o salário anterior do candidato (float)   
**ComputerSkills:** número de habilidades computacionais conhecidas pelo candidato (inteiro)   
**Employed:** variável alvo, se o candidato foi contratado (categórico)  

*Coleta de Dados:* O conjunto de dados foi meticulosamente coletado de diversas fontes, incluindo portais de emprego, feiras de carreira e candidaturas online, durante um período especificado. As informações foram coletadas de maneira padronizada, garantindo consistência entre os vários pontos de dados. O conjunto de dados abrange uma ampla gama de indústrias, posições e qualificações, tornando-o adequado para analisar tendências de empregabilidade em diferentes setores.

*Estrutura dos Dados:* O conjunto de dados é composto por dados estruturados, organizados em várias colunas ou características. Cada linha representa um candidato individual a emprego, enquanto as colunas contêm vários atributos e características associadas aos candidatos. A seguir estão algumas das principais características incluídas no conjunto de dados:

Informações Pessoais:  
Nome: O nome completo do candidato   
Gênero: O gênero do candidato   
Idade: A idade do candidato  
Informações de Contato: Endereço de e-mail, número de telefone, etc.  

Formação Educacional:  
Grau: O maior grau obtido pelo candidato   
Universidade/Instituição: Nome da instituição educacional  
Área de Estudo: Área de especialização   
Ano de Graduação: O ano de graduação
  
Experiência de Trabalho:  
Experiência de Trabalho Anterior: Detalhes de posições de trabalho anteriores   
Anos de Experiência: Total de anos de experiência profissional
  
Habilidades e Certificações:  
Habilidades Técnicas: Habilidades técnicas específicas possuídas pelo candidato   
Certificações: Certificações profissionais obtidas
  
Pontuação de Empregabilidade:  
Classificação de Empregabilidade: Uma pontuação numérica ou categórica indicando o nível de empregabilidade ou adequação do candidato para uma determinada função. Esta pontuação é o resultado da aplicação de um algoritmo de classificação ao conjunto de dados.
  
Pré-processamento de Dados: Para garantir a qualidade e consistência dos dados, o conjunto de dados passou por etapas de pré-processamento, incluindo limpeza de dados, normalização e engenharia de características. Outliers e valores ausentes foram tratados adequadamente para garantir a confiabilidade e precisão do conjunto de dados. Qualquer informação de identificação pessoal foi anonimizada ou removida para preservar a privacidade e confidencialidade dos candidatos.

**Metadados**  
| Coluna             | Tipo        | Descrição                                                          |
|--------------------|-------------|--------------------------------------------------------------------|
| Age                | Categórico  | Idade do candidato (>35 anos ou <35 anos)                          |
| EdLevel            | Categórico  | Nível educacional do candidato (Graduação, Mestrado, Doutorado, etc.) |
| Gender             | Categórico  | Gênero do candidato (Homem, Mulher, Não Binário)                   |
| MainBranch         | Categórico  | Se o candidato é um desenvolvedor profissional                     |
| YearsCode          | Inteiro     | Há quanto tempo o candidato programa                               |
| YearsCodePro       | Inteiro     | Há quanto tempo o candidato programa profissionalmente             |
| PreviousSalary     | Float       | Salário anterior do candidato                                      |
| ComputerSkills     | Inteiro     | Número de habilidades computacionais conhecidas pelo candidato     |
| Employed           | Categórico  | Se o candidato foi contratado                                      |


#### Antes de executar
Baixar os dados e mover o arquivo descompactado `stackoverflow_full.csv` para a pasta raiz do diretório.  
Os dados podem ser encontrados na página do [dataset no Kagle](https://www.kaggle.com/datasets/ayushtankha/70k-job-applicants-data-human-resource/data) ou diretamente no [github do curso](https://github.com/RafaelEstatistico/semana_universitaria_2024_2).  

In [None]:
# Bibliotecas utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, roc_auc_score, roc_curve, auc
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score

In [None]:
df = pd.read_csv("stackoverflow_full.csv")

# Printa primeiras linhas dos dados
df.head()

In [None]:
# Dimensões dos dados: (nº de linhas, nº de colunas)
df.shape

In [None]:
# Informações do dataset com colunas e formatos
df.info()

In [None]:
# Removendo coluna Unnamed: 0 column
df.drop(columns = 'Unnamed: 0', inplace=True)

In [None]:
# Verificação de valores nulos
missing_values = df.isna().sum()

# Apresenta a quantidade de linhas Nulas para cada coluna
print(missing_values)

In [None]:
# Remoção de observações com Nulos na coluna 'HaveWorkedWith'
df.drop(columns = 'HaveWorkedWith', inplace=True)

In [None]:
# Verificação de campo País
df.Country.value_counts()

In [None]:
# Lista de todos os 172 paises distintos
df.Country.unique()

In [None]:
# Define uma função para segmentar os paises em continentes
def segment_country(country):
    if country in ['United States of America', 'Canada', 'Mexico']:
        return 'NorthAmerica'
    elif country in ['United Kingdom of Great Britain and Northern Ireland', 'France', 'Germany', 'Spain', 'Italy', 'Portugal', 'Belgium', 'Netherlands', 'Austria', 'Switzerland', 'Denmark', 'Ireland', 'Norway', 'Sweden', 'Finland', 'Greece', 'Czech Republic', 'Slovakia', 'Hungary', 'Poland']:
        return 'Europe'
    elif country in ['Brazil', 'Argentina', 'Chile', 'Colombia', 'Peru', 'Venezuela, Bolivarian Republic of...', 'Bolivia']:
        return 'South America'
    elif country in ['China', 'Japan', 'South Korea', 'Viet Nam', 'India', 'Sri Lanka', 'Pakistan', 'Bangladesh', 'Indonesia', 'Malaysia', 'Philippines', 'Taiwan', 'Thailand', 'Cambodia', 'Myanmar', 'Laos', 'Singapore', 'Hong Kong (S.A.R.)']:
        return 'Asia'
    elif country in ['Australia', 'New Zealand', 'Fiji', 'Papua New Guinea', 'Solomon Islands', 'Vanuatu', 'Samoa', 'Tonga']:
        return 'Australia'
    else:
        return 'Others' 

# Cria a nova coluna'Continent'
df['Continent'] = df['Country'].apply(segment_country)

In [None]:
continent_counts = df['Continent'].value_counts()
continent_counts

In [None]:
df.Continent.unique()

In [None]:
# visualização em gráfico de pizza
plt.figure(figsize=(8, 8))
plt.pie(continent_counts, labels=continent_counts.index, autopct='%1.1f%%', startangle=140, colors=['skyblue', 'lightcoral', 'lightgreen', 'lightgray', 'lightpink', 'lightyellow'])
plt.title('Distribution of Countries by Continent')
plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

# Display the plot
plt.show()

In [None]:
# Verificando países classificados em 'Others'
df[df['Continent'] == 'Others'].Country.value_counts()

In [None]:
df["Age"].value_counts().plot.bar()
plt.xlabel('Grupo etário')
plt.ylabel('Quantidade')
plt.title('Distribuição de idades dos respondentes')
plt.xticks(rotation=45)
plt.show()

In [None]:
continent_counts = df['Continent'].value_counts()

# Create a bar plot
plt.figure(figsize=(10, 6))
plt.bar(continent_counts.index, continent_counts.values, color='skyblue')
plt.xlabel('Continent')
plt.ylabel('Count')
plt.title('Distribution of Countries by Continent')
plt.xticks(rotation=45)  # Rotate x-axis labels for better readability
plt.tight_layout()

plt.show()

In [None]:
# Calcula a matriz de correlação
correlation_matrix = df.select_dtypes(include='number').corr()

print(correlation_matrix)

In [None]:
labels = correlation_matrix.columns

fig, ax = plt.subplots(figsize=(10, 10))
ax.matshow(correlation_matrix)
plt.xticks(range(len(labels)), labels)
plt.yticks(range(len(labels)), labels)

In [None]:
df.boxplot(by = 'Age', column  = 'PreviousSalary')
plt.show() 

In [None]:
df.boxplot(by = 'Continent', column  = 'PreviousSalary')
plt.show() 

In [None]:
df.describe()

In [None]:
df.describe(include = 'object').transpose()

### 2. Preparação dos dados  
Tratamentos para que o modelo possa processar.

In [None]:
# Temos muitas categorias de paises, remover antes de dummies
df.drop(columns = 'Country', inplace=True)

In [None]:
cat_cols = df.select_dtypes(include='object').columns
cat_cols

In [None]:
# One-hot encoding
df_encoded = pd.get_dummies(df, columns=cat_cols)
df_encoded.tail()

In [None]:
df_encoded.info()

In [None]:
%%time
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Selecionar colunas de interesse
X = df_encoded.drop("Employed", axis=1)
y = df_encoded['Employed'] # Target

# Dividir o dataset em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar o modelo
modelo = RandomForestClassifier()
modelo.fit(X_train, y_train)

# Fazer previsões
y_pred_train = modelo.predict(X_train)
y_pred_test = modelo.predict(X_test)

# Avaliar o modelo
print(classification_report(y_test, y_pred_test))

In [None]:
acuracia_treino = accuracy_score(y_train, y_pred_train)
acuracia_teste = accuracy_score(y_test, y_pred_test)
print(f"Acurácia Treino: {acuracia_treino:.3f}, Acurácia Teste : {acuracia_teste:.3f}")

### Testando diferentes classificadores 
Métodos testados: `KNeighborsClassifier`, `SVC`, `LogisticRegression`, `GradientBoostingClassifier`, `GradientBoostingClassifier`.  
Outros métodos disponíveis em: [scikit-learn/supervised_learning](https://scikit-learn.org/1.5/supervised_learning.html)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

modelos = {
    "Random Forest": RandomForestClassifier(),
    "KNN": KNeighborsClassifier(),
    "Multi-Layer Perceptron": MLPClassifier(),
    "Gradient Boosting": GradientBoostingClassifier()
}

In [None]:
%%time
resultados = {}

for nome, modelo in modelos.items():
    print(f"Executando modelo: {nome}")
    modelo.fit(X_train, y_train)
    y_pred_train = modelo.predict(X_train)
    y_pred_test = modelo.predict(X_test)
    acuracia_treino = accuracy_score(y_train, y_pred_train)
    acuracia_teste = accuracy_score(y_test, y_pred_test)
    resultados[nome] = {"Acurácia Treino": acuracia_treino, "Acurácia Teste": acuracia_teste}

# Tabular resultados
resultados_df = pd.DataFrame(resultados).T
print(resultados_df)