# **Global Solutions – Modelagem Matemática e Computacional**
## **Recrutamento guiado por Álgebra Linear**
### **GRUPO: Lucas Ferrari Lima 563119 - Carlos Eduardo Pires Cervelli 563462 - Gabriel Jorge Coutinho 565441**

In [None]:
import pandas as pd
import numpy as np

# Carregar o arquivo local (já enviado no ambiente)
df = pd.read_csv("recruitment_data.csv")

df.head()


Unnamed: 0,Age,Gender,EducationLevel,ExperienceYears,PreviousCompanies,DistanceFromCompany,InterviewScore,SkillScore,PersonalityScore,RecruitmentStrategy,HiringDecision
0,26,1,2,0,3,26.783828,48,78,91,1,1
1,39,1,4,12,3,25.862694,35,68,80,2,1
2,48,0,2,3,2,9.920805,20,67,13,2,0
3,34,1,2,5,2,6.407751,36,27,70,3,0
4,30,0,1,6,1,43.105343,23,52,85,2,0


### **Separando X (features) e y (target)**


In [None]:

# Matriz de features (todas menos HiringDecision)
X = df.drop(columns=["HiringDecision"])

# Variável-alvo
y = df["HiringDecision"]

# Convertendo para numpy
X_np = X.to_numpy()
y_np = y.to_numpy()

X_np.shape, y_np.shape


((1500, 10), (1500,))

## 2 – Solução por mínimos quadrados (Least Squares)


In [31]:
w_lstsq, residuals, rank, s = np.linalg.lstsq(X, y, rcond=None)
w_lstsq


array([ 0.00083105, -0.00663095,  0.12444754,  0.01470206,  0.01535956,
       -0.0003909 ,  0.00275509,  0.00324649,  0.00277383, -0.30729471])

## 2.2 – Solução pela pseudoinversa


In [12]:
X_pinv = np.linalg.pinv(X)
w_pinv = X_pinv @ y
w_pinv

array([ 0.00083105, -0.00663095,  0.12444754,  0.01470206,  0.01535956,
       -0.0003909 ,  0.00275509,  0.00324649,  0.00277383, -0.30729471])

## 2.3 – Comparação dos dois métodos


In [14]:
df_pesos = pd.DataFrame({
    "Feature": df.drop(columns=["HiringDecision"]).columns,
    "w_lstsq": w_lstsq,
    "w_pinv": w_pinv
})

df_pesos


Unnamed: 0,Feature,w_lstsq,w_pinv
0,Age,0.000831,0.000831
1,Gender,-0.006631,-0.006631
2,EducationLevel,0.124448,0.124448
3,ExperienceYears,0.014702,0.014702
4,PreviousCompanies,0.01536,0.01536
5,DistanceFromCompany,-0.000391,-0.000391
6,InterviewScore,0.002755,0.002755
7,SkillScore,0.003246,0.003246
8,PersonalityScore,0.002774,0.002774
9,RecruitmentStrategy,-0.307295,-0.307295


### Respostas 

**• Resultados dos métodos:**  
Os vetores de pesos obtidos por np.linalg.lstsq e np.linalg.pinv são muito parecidos  
Isso ocorre porque ambos solucionam o mesmo problema de mínimos quadrados:

\[
w = (X^TX)^{-1}X^Ty
\]

A pseudoinversa apenas generaliza esse cálculo, sendo mais estável numericamente.

• Modelos de machine learning que resolve esse tipo de problema é :

 - Regressão Linear (Linear Regression)


## 3. INTERPRETAÇÃO DOS VETORES DE PESOS w

In [32]:
w = w_pinv  # usaremos a solução pela pseudoinversa

pesos_df = pd.DataFrame({
    "Feature": X.columns,
    "Peso w": w
}).sort_values(by="Peso w", ascending=False)

pesos_df


Unnamed: 0,Feature,Peso w
2,EducationLevel,0.124448
4,PreviousCompanies,0.01536
3,ExperienceYears,0.014702
7,SkillScore,0.003246
8,PersonalityScore,0.002774
6,InterviewScore,0.002755
0,Age,0.000831
5,DistanceFromCompany,-0.000391
1,Gender,-0.006631
9,RecruitmentStrategy,-0.307295


### ✔ Respostas (Parte 3)

**• O que w representa?**  
O vetor **w** fornece o grau de importância de cada característica do candidato para prever a contratação.  O w positivo: aumenta a chance de contratação. Já o  w negativo: reduz a chance de contratação. Valores positivos indicam competências ou características valorizadas pela empresa e valores negativos indicam fatores associados a rejeição ou menor adequação.

As informações que tem maior peso são as variáveis com maiores valores absolutos em `w`.
No dataset são:  
| Feature               | Peso w      |
|----------------------|-------------|
| EducationLevel       | +0.124448   |
| RecruitmentStrategy  | –0.307295   |
| PreviousCompanies    | +0.015360   |
| ExperienceYears      | +0.014702   |

Esses resultados são coerentes?
Sim., pois:  
- Formação acadêmica costuma ser critério de peso real no mercado.  
- Experiência profissional tende a contribuir, mas depende da área.  
- Estratégias ruins de recrutamento podem realmente gerar candidatos menos adequados.



# **Questão 4 – Ranking dos candidatos**

Usando o vetor w, calcularemos:

\[
\text{Score} = Xw
\]

Depois listaremos os 5 candidatos com maior score.


In [33]:
# Score = Xw
scores = X_np @ w

df_scores = df.copy()
df_scores["Score"] = scores

# Top 5
top5 = df_scores.sort_values(by="Score", ascending=False).head(5)
top5


Unnamed: 0,Age,Gender,EducationLevel,ExperienceYears,PreviousCompanies,DistanceFromCompany,InterviewScore,SkillScore,PersonalityScore,RecruitmentStrategy,HiringDecision,Score
1094,39,0,4,15,1,4.83112,58,99,86,1,1,1.176655
1088,49,1,4,14,1,17.438006,91,71,80,1,1,1.142078
516,45,0,4,10,4,28.698974,49,69,96,1,1,1.050428
1095,44,0,4,8,3,34.201652,69,65,98,1,1,1.050346
682,47,1,4,15,1,48.696838,8,100,95,1,1,1.049982




Os 5 candidatos com maior score são exibidos acima.

### Eles foram contratados?
A coluna `HiringDecision` mostra:
- 1 → contratado
- 0 → não contratado
Ou seja esses 5 foram contratados.
### A decisão faz sentido?
Sim faz, pois os candidatos com maior score têm:
- bons resultados em entrevistas
- boa pontuação de habilidades
- características compatíveis com contratação
Todos tem boas habilidades/características que possuem maior peso pra contratação

# **Questão 5**

In [36]:
novo_candidato = np.array([[
    29,     # Age
    1,      # Gender (1 = male, 0 = female)
    3,      # EducationLevel (0 a 5)
    4,      # ExperienceYears
    1,      # PreviousCompanies
    12,     # DistanceFromCompany
    79,     # InterviewScore
    88,     # SkillScore
    74,     # PersonalityScore
    2       # RecruitmentStrategy (0,1,2)
]])

novo_candidato


array([[29,  1,  3,  4,  1, 12, 79, 88, 74,  2]])

In [37]:
# Score do novo candidato
score_novo = novo_candidato @ w
score_novo


array([0.55430617])

In [None]:
# Calcular scores de todos os candidatos originais
scores = X_np @ w

df_scores = df.copy()
df_scores["Score"] = scores

# Ranking geral
df_scores = df_scores.sort_values(by="Score", ascending=False).reset_index(drop=True)

# Garantir que score_novo é um escalar
score_novo_valor = float(score_novo)

# Calcular posição do novo candidato
posicao = (df_scores["Score"] > score_novo_valor).sum() + 1

posicao


  score_novo_valor = float(score_novo)


np.int64(309)

In [40]:
print("Novo candidato (valores):")
print(novo_candidato)
print("\nScore do novo candidato:", float(score_novo))
print("Posição no ranking:", posicao, "de", len(df_scores))


Novo candidato (valores):
[[29  1  3  4  1 12 79 88 74  2]]

Score do novo candidato: 0.5543061728777365
Posição no ranking: 309 de 1500


  print("\nScore do novo candidato:", float(score_novo))




O novo candidato obteve um score de aproximadamente **0.5543**. Quando esse valor é comparado com os demais candidatos do conjunto, ele alcança a posição **309 entre 1500** concorrentes.
Isso nos mostra que o candidato está situado dentro dos 20% melhores colocados, o que representa um desempenho acima da média. Embora não esteja entre os primeiros, sua colocação indica que ele possui um perfil competitivo e tem possibilidade real de ser contratado, dependendo da quantidade de vagas disponíveis e de critérios adicionais do processo seletivo.

O método utilizado — baseado em um **score linear (Xw)** que combina as características dos candidatos através de pesos apresenta vantagens como simplicidade e interpretabilidade. No entanto, possui limitações importantes como:

1. Relação linear: O método assume que todas as variáveis influenciam o score de maneira linear, o que pode não refletir a dinâmica real de contratação.
2. Sensibilidade aos pesos (w): O desempenho depende diretamente dos pesos escolhidos; caso eles não sejam otimizados corretamente, o ranking pode ser enviesado.
3. Falta de padronização: Sem normalização, variáveis com maior escala podem dominar o score.
4. Ausência de interações: O modelo não captura relações mais complexas entre variáveis.

### Possíveis melhorias

- Aplicar normalização** ou padronização aos dados.
- Ajustar os pesos usando métodos como regressão linear, regressão logística ou técnicas mais robustas.
- Utilizar modelos mais avançados, como Random Forest, Gradient Boosting ou Redes Neurais.
- Considerar métricas qualitativas ou entrevistas complementares.



# Questão 6 
Existem alguns riscos éticos de usar modelos matemáticos para decisões humanas como:
- Reforço de discriminações históricas
- Falhas podem impactar vidas de forma injusta
- Falta de transparência no processo decisório

Risco de usar decisões passadas como referência:
Sim, existe, pois se o histórico da empresa for enviesado, o modelo vai amplificar esse viés no futuro.

O modelo pode ser usado assim?
o modelo pode, mas não deve ser usado sozinho.
Recomenda-se:
- auditorias éticas,
- revisão humana,
- remoção de features sensíveis,
- normalização e tratamento de vieses.

Ou seja, o modelo ele é útil para apoio à decisão, não para decisão automática.
