In [None]:

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))


# <font color="#F24405">Analise de dados RH - Mudança de emprego</font>
<hr color="#0CABA8" size="1">


**Por: [Wanderson Clayton](https://www.linkedin.com/in/wandersonclayton3/)**

<span>
  <a href="https://api.whatsapp.com/send?phone=5534998771247">
    <img src="https://img.icons8.com/material-outlined/24/000000/whatsapp.png"/>
  </a>
  <a href="https://www.linkedin.com/in/wandersonclayton3">
    <img src="https://img.icons8.com/material-outlined/24/000000/linkedin.png"/>
  </a>
  <a href="https://github.com/WandersonClayton">
    <img src="https://img.icons8.com/material-outlined/24/000000/github.png"/>
  </a>
</span>

<hr color="#F5F5F5" size="2"> 

Este notebook tem como objetico realizar a analise de dados para prever melhor quais os fatores mais influenciam um candidato a vaga, permanecer na empresa ou buscar novos empregos.

<div style="display:inline-block;vertical-align:top;">
<h2>Sumário:</h2>
<ul>
    <li><a href="#contexto-projeto">1. Sobre o contexto do projeto </a></li>
    <li><a href="#install-pack">2. Instalação e carregamento de pacotes </a></li>
    <li><a href="#conhecendo_dados">3. Carregando e conhecendo dados </a></li>  
    <li><a href="#explorando_dados">4. Análise Exploratória de dados</a></li>
    <li><a href="#limpeza_dados">5. Identificação de valores ausentes e limpesa de dados </a></li>
    <li><a href="#reaferindo_analise">6. Verificando se a limpeza de dados alterou o dataset </a></li>
    <li><a href="#relatorio">7. Relatório</a></li>
</ul>
</div>

<a id='contexto-projeto'></a>
# <font color="#FA7F08">1. Sobre o Contexto do Projeto</font>
<hr color="#F5F5F5" size="1">

### <font color="#22BABB">Realizar analise afim de identificar quais os fatores influencia um candidato mudar ou não de emprego.</font>

Uma empresa que atua em Big Data e Data Science deseja contratar cientistas de dados entre as pessoas que foram aprovadas em alguns cursos ministrados pela empresa. Muitas pessoas se inscrevem para o treinamento. A empresa quer saber qual desses candidatos realmente quer trabalhar para a empresa após o treinamento ou procurando um novo emprego, pois ajuda a reduzir o custo e o tempo, bem como a qualidade do treinamento ou planejamento dos cursos e categorização dos candidatos. Informações relacionadas a dados demográficos, educação e experiência estão em mãos desde a inscrição e inscrição dos candidatos.

Este conjunto de dados foi projetado para entender os fatores que levam uma pessoa a deixar o emprego atual também para pesquisas de RH. Pelo(s) modelo(s) que usam as credenciais atuais, dados demográficos e dados de experiência, você preverá a probabilidade de um candidato procurar um novo emprego ou trabalhar para a empresa, bem como interpretar os fatores afetados na decisão do funcionário.

<div class="alert alert-info"> 
<strong><div style="color: rgb(0, 0, 0);">📌 Os principais objetivos na aprendizagem deste projeto: </div></strong> <br>
<div style="color: rgb(0, 0, 0);">→ Realizar limpeza e tratamento de dados; </div>
<div style="color: rgb(0, 0, 0);">→ Realizar análise exploratória;</div>
<div style="color: rgb(0, 0, 0);">→ Realizar novamente limpeza de dados apos o conhecimento e analise exploratória; e</div>
<div style="color: rgb(0, 0, 0);">→ Desenvolver relatório com pontos importantes para os tomadores de decisões.</div>
</div>

<a id='descricao-variaveis'></a>
### <font color="#F24405"> Descrição das Variáveis do Dataset</font>
<hr color="#F5F5F5" size="1">

| Variável | Descrição |
| --- | --- |
| **enrollee_id** | Identificador único para cada candidato |
| **city** | Código da cidade |
| **city_development_index** | Índice de desenvolvimento da cidade (escalado) |
| **gender** | Gênero do candidato |
| **relevent_experience** | Experiência relevante do candidato |
| **enrolled_university** | Tipo de curso universitário matriculado, se houver |
| **education_level** | Nível de educação do candidato |
| **major_discipline** | Disciplina principal de educação do candidato |
| **experience** | Experiência total do candidato em anos |
| **company_size** | Número de funcionários na empresa atual do candidato |
| **company_type** | Tipo de empresa atual do candidato |
| **lastnewjob** | Diferença em anos entre o trabalho anterior e o trabalho atual |
| **training_hours** | Horas de treinamento concluídas |
| **target** | 0 - Não procurando mudar de emprego, 1 - Procurando mudar de  emprego |

<a id='install-pack'></a>
# <font color="#FA7F08"> 2. Instalação e carregamento de pacotes </font>
<hr color="#F5F5F5" size="1">

In [None]:
!pip install -q -U watermark

In [None]:
#Pack para manipular dados
import numpy as np 
import pandas as pd 

#Pack para visulização
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import missingno

# Estatística
import scipy
from scipy.stats import normaltest
from scipy.stats import chi2_contingency

# Engenharia de Atributos
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer
import category_encoders as ce

#Pck para ignorar Warning
import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")
    
print('import de pack - ok!')



In [None]:
# Versões dos pacotes usados neste notebook
%reload_ext watermark
%watermark -a "Wanderson Clayton - @wandersonclayton3" --iversions


    
<a id='conhecendo_dados'></a>
# <font color="#FA7F08"> 3. Carregando e conhecendo dados </font>
<hr color="#F5F5F5" size="1">

In [None]:
# Carrega o dataset
df = pd.read_csv("/kaggle/input/hr-analytics-job-change-of-data-scientists/aug_train.csv")

In [None]:
print('Numero de linhas: '+ str(df.shape[0])+'\nNúmero de colunas: '+ str(df.shape[1]))

In [None]:
#Nomes das colunas do dataframe
df.columns

In [None]:
#Amostra de dados
df.head()

In [None]:
# informações do df
df.info()

  
<a id='explorando_dados'></a>
# <font color="#FA7F08"> 4. Análise Exploratória de dados </font>
<hr color="#F5F5F5" size="1">

In [None]:
df.head()

Ao se fazer uma pequena analise nos dados notamos que podemos classificar as colunas em categóricas e númericas, sendo elas:
* Categoricas              
 1.   city                     
 3.   gender                   
 4.   relevent_experience
 5.   enrolled_university
 6.   education_level
 7.   major_discipline
 9.   company_size
 10.  company_type
 11.  last_new_job
 13.  target
<br>
* Númericas
 2.   city_development_index
 8.   experience
 12.  training_hours 
 

    
### <font color="#FA7F08"> 4.1. Verificando a distribuição de variaveis categoricas </font>
<hr color="#F5F5F5" size="1">
    

In [None]:

df.describe(include = object).drop(columns = ['experience'])

In [None]:
# Plot

# Tamanho da figura
plt.figure(figsize = (18,30))

# Lista de colunas
column_list = list(df.columns.values)[3:12]

# Contador
A = 0

# Loop
for i in column_list:
    A += 1
    plt.subplot(5, 2, A)
    ax = sns.countplot(data = df.fillna('NaN'), x = i)
    plt.title(i, fontsize = 15)
    for p in ax.patches:
        ax.annotate(f'\n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha = 'center', color = 'black', size = 12)
    if A >= 7:
        plt.xticks(rotation = 45)

# Layout
plt.tight_layout(h_pad = 2)



### <font color="#FA7F08"> 4.2 Verificando a distribuição de variaveis numericas</font>
<hr color="#F5F5F5" size="1">
    
* Para descrever as colunas numericas primeiro precisamos transformar a coluna 'experience'para o tipo numerico.
* Plotando histograma das variaveis numericas para verificar possiveis outlier, além de distribuição visual do dados

In [None]:
df.experience.unique()

In [None]:
replace_dict = {'>20': 21, '<1': 1, 'nan': 0}
df['experience'] = df['experience'].replace(replace_dict)
df['experience'] = df['experience'].astype('float64')


In [None]:
#Descrevendo somente os dados númericos
df.describe().drop(columns = ['enrollee_id', 'target'])

In [None]:
# Figura
plt.figure(figsize = (17,12))

# Subplots com histogramas
plt.subplot(221)
sns.color_palette("hls", 8)
sns.histplot(df['city_development_index'], kde = True, color = "green")
plt.title('Histograma do CDI', fontsize = 20)

plt.subplot(222)
sns.histplot(df['training_hours'], kde = True, color = "magenta")
plt.title('Histograma das Horas de Treinamento', fontsize = 20)

# Subplots com boxplots
plt.subplot(223)
sns.boxplot(df['city_development_index'],orient='h', color = "green")

plt.subplot(224)
sns.boxplot(df['training_hours'],orient='h', color = "magenta")

plt.show()

In [None]:
# Figura
plt.figure(figsize = (10,8))

# Subplots com histogramas
plt.subplot(221)
sns.color_palette("hls", 8)
sns.histplot(df['experience'], kde = True, color = "green")
plt.title('Histograma de experience', fontsize = 20)

# Subplots com boxplots
plt.subplot(222)
sns.boxplot(df['experience'],orient='h', color = "green")



plt.show()





In [None]:
# Realizar o teste de normalidade de D'Agostino-Pearson para cada coluna
for coluna in ['city_development_index', 'experience', 'training_hours']:
    stat, p_valor = normaltest(df[coluna].dropna())
    print(f'Coluna {coluna}:')
    print(f'Estatística de teste: {stat:.4f}')
    if p_valor < 0.05:
        print('Os dados não seguem uma distribuição normal.\n')
    else:
        print('Os dados seguem uma distribuição normal.\n')

<div class="alert alert-success"> 
    <strong><div style="color: rgb(0, 0, 0);"><strong>Prévia até o momento de analise exploratória:</strong></div></strong> <br>
     <div style="color: rgb(0, 0, 0);">→ ✔️ Nenhuma das 3 colunas numericas <strong><i>city_development_index, experience,training_hours </i></strong> segue uma distribuição normal ou gaussiana, logo teremos que usa de outros métodos para analisar, bem como métodos paramétricos.</div>
    <div style="color: rgb(0, 0, 0);">→ ✔️ Sobre <strong><i>training_hours</i></strong>,ao se deectar uma calda mais longa em direção a valores mais altos, e sabendo que esses valores se distancial da média, podemos inferir que algumas possias que realizam o demoram muito tempo ou nem conseguem terminar em um tempo comum. Entre possiveis causas: Expectativas frustada sobre conteudo do curso por exemplo.</div>
</div>




    
### <font color="#FA7F08"> 4.3 Verificando a correlação entre os dados</font>
<hr color="#F5F5F5" size="1">

In [None]:
df_numerical = df.copy()
df_numerical.head()

In [None]:
df_numerical['experience'].value_counts()

In [None]:
df_numerical['city'].value_counts()

In [None]:
df_numerical['city'] = df['city'].str.replace('city_', '')
df_numerical['city'].value_counts()

In [None]:
df_numerical["last_new_job"].value_counts()

In [None]:
# Convertemos a variável last_new_job para numérica
df_numerical["last_new_job"] = np.where(df_numerical["last_new_job"] == "never", 0, df_numerical["last_new_job"])
df_numerical["last_new_job"] = np.where(df_numerical["last_new_job"] == ">4", 5, df_numerical["last_new_job"])
df_numerical["last_new_job"] = df_numerical["last_new_job"].astype(float)
df_numerical["last_new_job"].value_counts()

In [None]:
df_numerical["education_level"].value_counts()

In [None]:
conversion_dict = {
    'Primary School': 0,
    'High School': 1,
    'Graduate': 2,
    'Masters': 3,
    'Phd': 4
}

# aplicar conversão na coluna 'education_level'
df_numerical['education_level'] = df_numerical['education_level'].map(conversion_dict)
df_numerical["education_level"].value_counts()

In [None]:
df_numerical.info()


In [None]:
df_numerical.drop("enrollee_id", axis = 1).corr("spearman")

In [None]:
# Heatmap
plt.figure(figsize = (5,5))
sns.heatmap(df_numerical.drop("enrollee_id", axis = 1).corr("spearman"), annot = True, cmap = "YlGnBu")
plt.title("Mapa de Correlação das Variáveis Numéricas\n", fontsize = 15)
plt.show()

<div class="alert alert-success"> 
    <strong><div style="color: rgb(0, 0, 0);"><strong>Ponto a se observar com a correlação de variaveis númericas:</strong></div></strong> <br>
     <div style="color: rgb(0, 0, 0);">→ ✔️ A coluna "city_development_index" apresenta uma correlação negativa moderada com a variável alvo "target", o que sugere que quanto menor o índice de desenvolvimento da cidade, maior é a probabilidade do candidato estar buscando uma mudança de emprego.</div>
    <div style="color: rgb(0, 0, 0);">→ ✔️ A coluna "experience" também apresenta uma correlação negativa moderada com a variável alvo "target", o que sugere que quanto menor a experiência do candidato, maior é a probabilidade de ele estar buscando uma mudança de emprego.</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️ A coluna "last_new_job" apresenta uma correlação negativa fraca com a variável alvo "target", o que sugere que quanto maior o tempo desde a última mudança de emprego, menor é a probabilidade do candidato estar buscando uma mudança de emprego.</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️ As colunas "education_level" e "enrolled_university" não apresentam uma correlação forte com a variável alvo "target", o que sugere que a educação e o tipo de curso universitário matriculado não são fatores determinantes para a decisão de mudar de emprego.</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️  As demais colunas apresentam uma correlação fraca ou nula com a variável alvo "target"</div>
</div>


In [None]:
# Loop
for i in df.drop(columns = ['target',
                            'enrollee_id',
                            'city',
                            'city_development_index',
                            'training_hours',
                            'experience',
                            'last_new_job',
                            'company_size']).columns:
    
    df_woe_iv = (pd.crosstab(df[i], df['target'], normalize = 'columns')
                 .assign(woe = lambda dfx: np.log(dfx[1] / dfx[0]))
                 .assign(iv = lambda dfx: np.sum(dfx['woe'] * (dfx[1]-dfx[0]))))
    
    print(df_woe_iv,'\n------------------------------------------------------------')

In [None]:
# Plot do Information Value

# Variáveis categóricas
columns_cat = df.drop(columns = ['target',
                                 'enrollee_id',
                                 'city',
                                 'city_development_index',
                                 'training_hours',
                                 'experience',
                                 'last_new_job',
                                 'company_size']).columns

# Lista para o IV
iv = []

# Loop
for i in columns_cat:
    df_woe_iv = (pd.crosstab(df[i], df['target'], normalize = 'columns')
                 .assign(woe = lambda dfx: np.log(dfx[1] / dfx[0]))
                 .assign(iv = lambda dfx: np.sum(dfx['woe']*(dfx[1]-dfx[0]))))
    iv.append(df_woe_iv['iv'][0])

# Dataframe
df_iv = pd.DataFrame({'Features':columns_cat,'iv':iv}).set_index('Features').sort_values(by = 'iv')

# Plot
# Figura
plt.figure(figsize = (10,12))
df_iv.plot(kind = 'barh', title = 'Information Value das Variáveis Categóricas', colormap = "Dark2")
for index, value in enumerate(list(round(df_iv["iv"],3))):
    plt.text((value), index, str(value))
plt.legend(loc  = "lower right")
plt.show()

<div class="alert alert-success"> 
    <strong><div style="color: rgb(0, 0, 0);"><strong>Ponto a se observar com a correlação de variaveis categóricas:</strong></div></strong> <br>
     <div style="color: rgb(0, 0, 0);">→ ✔️ Com base em seu valor IV, `enrolled_university` é um preditor médio, `relevent_experience` e `education_level` são preditores fracos e os outros são inúteis para a previsão.</div>
    <div style="color: rgb(0, 0, 0);">→ ✔️ A maioria dos candidatos não está matriculada em nenhum curso universitário atualmente (enrolled_university = "no_enrollment")</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️ Os candidatos com experiência relevante (relevent_experience = "Has relevent experience") têm uma proporção maior de estar procurando emprego em comparação com aqueles sem experiência relevante.</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️ A maioria dos candidatos possui um nível de educação de graduação (education_level = "Graduate"), seguido de pós-graduação (education_level = "Masters").</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️ Os candidatos com nível de educação de ensino médio (education_level = "High School") têm uma proporção menor de estar procurando emprego em comparação com aqueles com níveis de educação mais altos.</div>
     <div style="color: rgb(0, 0, 0);">→ ✔️  Com base nessas informações, podemos inferir que os candidatos que estão atualmente matriculados em cursos universitários têm menos probabilidade de procurar emprego, enquanto aqueles sem experiência relevante têm maior probabilidade de estar procurando emprego. Além disso, candidatos com níveis de educação mais altos, como pós-graduação, têm maior probabilidade de estar procurando emprego em comparação com aqueles com níveis de educação mais baixos, como ensino médio.</div>
    
</div>


 
<a id='limpeza_dados'></a>
# <font color="#FA7F08"> 5. Identificação de valores ausentes e limpesa de dados </font>
<hr color="#F5F5F5" size="1">

In [None]:
# Valores ausentes por coluna
null_df = df.isna().sum().reset_index()
print(null_df)


In [None]:


# Figura
plt.figure(figsize=(15, 5))

# Barplot
ax = sns.barplot(x='index', y=0, data=null_df, palette='husl')
plt.xlabel('Atributos', fontsize=12)
plt.ylabel('Contagem de Valores Ausentes', fontsize=12)
plt.xticks(rotation=45)
plt.title("Plot de Valores Ausentes", fontsize=15)

for p in ax.patches:
    ax.annotate(f'\n{p.get_height()}', (p.get_x()+0.4, (p.get_height())), ha='center', color='black', size=11)

plt.show()

In [None]:
# Gera a visualização

# Dataframe
df_nan = pd.DataFrame(df.isna().sum())

# Plot - Mapa de Valores Ausentes
if df.isna().any(axis = None):
    missingno.matrix(df[df_nan[df_nan[0]>0].index])
    plt.show()

In [None]:
df['enrollee_id'].duplicated().sum()

In [None]:
# Figura
plt.figure(figsize = (17,(100)/20))

plt.subplot(121)

plt.pie(round(df['target'].value_counts() / len(df) * 100, 2),
        labels = list(df['target'].value_counts().index),
        autopct = "%.2f%%",
        explode = (0,0.1))

plt.axis("equal")
plt.title("Target Imbalance Ratio", size = 15)

plt.subplot(122)
ax = sns.countplot(data = df, x = 'target')
plt.title("Barplot Target Label", fontsize = 15)
for p in ax.patches:
    ax.annotate(f'\n{p.get_height()}', 
                (p.get_x()+0.4, 
                 p.get_height()), 
                ha = 'center', 
                va = 'top', 
                color = 'white', 
                size = 12)

Dados desbalanceados são aqueles em que a distribuição da classe alvo (target) é desproporcional, ou seja, uma classe tem um número significativamente maior de exemplos do que outra. Esse desequilíbrio pode levar a problemas na modelagem, pois o algoritmo de aprendizado pode ter dificuldade em aprender a classe minoritária, o que pode levar a uma baixa precisão e recall para essa classe. Além disso, métricas como a acurácia podem ser enganosas em conjuntos de dados desbalanceados, pois a simples previsão da classe majoritária pode levar a uma acurácia alta, mesmo que o modelo seja inútil para a classe minoritária.


### <font color="#FA7F08"> 5.1. Limpeza e Processamento dos Dados </font>
<hr color="#F5F5F5" size="1">

In [None]:
df.columns



### <font color="#FA7F08"> 5.2. Tratamento e processamento de valores ausente para a coluna <strong>'enrolled_university' </font>
<hr color="#F5F5F5" size="1">


In [None]:
count_enrolled_university = df['enrolled_university'].value_counts(dropna=False)

In [None]:
plt.figure(figsize=(4,4))
ax = count_enrolled_university.plot(kind='bar')

plt.title('Value count >> enrolled_university <<, incluindo NaN')
plt.xlabel('enrolled_university')
plt.ylabel('Count')

for i in ax.containers:
    ax.bar_label(i, label_type='edge')
    


plt.show()

In [None]:
"""
criando uma lista de idx dos valores ausente contido na coluna 'enrolled_university'
ultiizamos esses indices para criar um filtro e aplicar a coluna 'education_level' para saber o seguinte:
Dentre os valores ausentes (NaN) contidos na coluna 'enrolled_university' como está distribuidos o nivel de educação do funcionarios...
"""
list_idx_nan_enrolled_university = df[df['enrolled_university'].isna()].index.tolist()
print(df.loc[list_idx_nan_enrolled_university, 'education_level'].value_counts(dropna=False))


<div class="alert alert-success"> 
    <strong><div style="color: rgb(0, 0, 0);"><strong>Informações:</strong></div></strong> <br>
     <div style="color: rgb(0, 0, 0);">→ ✔️ Sabendo que se no "education_level" o profissional tem apenas "High School" ou "Primary School" automaticamente ele não poderar está cursando nenhum curso de graduação, logo no campo 'enrolled_university' o valor devera ser "no_enrollment" ao inves de "NaN".</div>
    <div style="color: rgb(0, 0, 0);">→ ✔️ Sabendo que se no "education_level" o profissional tem "Phd" provavelmente não está escrito em um curso universitario também.</div>
    <div style="color: rgb(0, 0, 0);">→ ✔️ O restante de valores ausente contido na 'enrolled_university' podemos classificar como 'Other'</div>

    
</div>


In [None]:
# Seleciona as linhas em que a coluna 'enrolled_university' é NaN e a coluna 'education_level' é 'Primary School' ou 'High School'
mask = df['education_level'].isin(['Primary School', 'High School','Phd'])
df.loc[mask, 'enrolled_university'] = 'no_enrollment'

#O restante de valores Nan podem ser tratados como Other
df['enrolled_university'] = df['enrolled_university'].fillna('Other')


In [None]:
print(df['enrolled_university'].value_counts(dropna=False))

In [None]:
plt.figure(figsize=(4,4))
ax = (df['enrolled_university'].value_counts(dropna=False)).plot(kind='bar')

plt.title('Value count >> enrolled_university <<, apos processamento de valores ausentes')
plt.xlabel('enrolled_university')
plt.ylabel('Count')

for i in ax.containers:
    ax.bar_label(i, label_type='edge')

### <font color="#FA7F08"> 5.3. Tratamento e processamento de valores ausente para a coluna <strong>'education_level' </font>
<hr color="#F5F5F5" size="1"> 


In [None]:
print(df['education_level'].value_counts(dropna=False))



In [None]:
df['education_level'] = df['education_level'].fillna('Other')

In [None]:
plt.figure(figsize=(4,4))
ax = (df['education_level'].value_counts(dropna=False)).plot(kind='bar')

plt.title('Value count >> education_level <<, incluindo NaN')
plt.xlabel('education_level')
plt.ylabel('Count')

for i in ax.containers:
    ax.bar_label(i, label_type='edge')

plt.show()


### <font color="#FA7F08"> 5.4. Tratamento e processamento de valores ausente para a coluna <strong>'education_level' </font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['gender'].value_counts(dropna=False))
df['gender'] = df['gender'].fillna('Other')

In [None]:
print(df['gender'].value_counts(dropna=False))


### <font color="#FA7F08"> 5.5. Tratamento e processamento de valores ausente para a coluna 'major_discipline' </font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['major_discipline'].value_counts(dropna=False))
df['major_discipline'] = df['major_discipline'].fillna('Other')

In [None]:
print(df['major_discipline'].value_counts(dropna=False))

### <font color="#FA7F08"> 5.6. Tratamento e processamento de valores ausente para a coluna 'experience' </font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['experience'].value_counts(dropna=False))
df = df.dropna(subset=['experience'])

In [None]:
print(df['experience'].value_counts(dropna=False))

Como somente tem 65 valores ausentes podemos excluir as linhas cujo esses valores existem que não afetará nosso resultado. A parcela é minima. 



### <font color="#FA7F08"> 5.7. Tratamento e processamento de valores ausente para a coluna 'company_size' </font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['company_size'].value_counts(dropna=False))

In [None]:
df['company_size'] = df['company_size'].fillna('Other')
print(df['company_size'].value_counts(dropna=False))

### <font color="#FA7F08"> 5.8. Tratamento e processamento de valores ausente para a coluna 'company_type'</font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['company_type'].value_counts(dropna=False))

In [None]:
df['company_type'] = df['company_type'].fillna('Other')
print(df['company_type'].value_counts(dropna=False))

### <font color="#FA7F08"> 5.9. Tratamento e processamento de valores ausente para a coluna 'last_new_job'</font>
<hr color="#F5F5F5" size="1"> 

In [None]:
print(df['last_new_job'].value_counts(dropna=False))

In [None]:
df['last_new_job'] = df['last_new_job'].fillna('Other')
print(df['last_new_job'].value_counts(dropna=False))

<a id='reaferindo_analise'></a>
## <font color="#FA7F08"> 6. Verificando se a limpeza de dados alterou o dataset </font>
<hr color="#F5F5F5" size="1">

In [None]:
# Valores ausentes por coluna
new_null_df = df.isna().sum().reset_index()
print(new_null_df)

# Figura
plt.figure(figsize=(15, 5))

# Barplot
ax = sns.barplot(x='index', y=0, data=new_null_df, palette='husl')
plt.xlabel('Atributos', fontsize=12)
plt.ylabel('Contagem de Valores Ausentes', fontsize=12)
plt.xticks(rotation=45)
plt.title("Plot de Valores Ausentes", fontsize=15)

for p in ax.patches:
    ax.annotate(f'\n{p.get_height()}', (p.get_x()+0.4, (p.get_height())), ha='center', color='black', size=11)

plt.show()

In [None]:
df.drop("enrollee_id", axis = 1).corr("spearman")

In [None]:
plt.figure(figsize = (5,5))
sns.heatmap(df.drop("enrollee_id", axis = 1).corr("spearman"), annot = True, cmap = "YlGnBu")
plt.title("Mapa de Correlação das Variáveis Numéricas\n", fontsize = 15)
plt.show()

In [None]:
# Loop
for i in df.drop(columns = ['target',
                            'enrollee_id',
                            'city',
                            'city_development_index',
                            'training_hours',
                            'experience',
                            'last_new_job',
                            'company_size']).columns:
    
    df_woe_iv = (pd.crosstab(df[i], df['target'], normalize = 'columns')
                 .assign(woe = lambda dfx: np.log(dfx[1] / dfx[0]))
                 .assign(iv = lambda dfx: np.sum(dfx['woe'] * (dfx[1]-dfx[0]))))
    
    print(df_woe_iv,'\n------------------------------------------------------------')

In [None]:
# Plot do Information Value

# Variáveis categóricas
columns_cat = df.drop(columns = ['target',
                                 'enrollee_id',
                                 'city',
                                 'city_development_index',
                                 'training_hours',
                                 'experience',
                                 'last_new_job',
                                 'company_size']).columns

# Lista para o IV
iv = []

# Loop
for i in columns_cat:
    df_woe_iv = (pd.crosstab(df[i], df['target'], normalize = 'columns')
                 .assign(woe = lambda dfx: np.log(dfx[1] / dfx[0]))
                 .assign(iv = lambda dfx: np.sum(dfx['woe']*(dfx[1]-dfx[0]))))
    iv.append(df_woe_iv['iv'][0])

# Dataframe
df_iv = pd.DataFrame({'Features':columns_cat,'iv':iv}).set_index('Features').sort_values(by = 'iv')

# Plot
# Figura
plt.figure(figsize = (10,12))
df_iv.plot(kind = 'barh', title = 'Information Value das Variáveis Categóricas', colormap = "Dark2")
for index, value in enumerate(list(round(df_iv["iv"],3))):
    plt.text((value), index, str(value))
plt.legend(loc  = "lower right")
plt.show()

<a id='relatorio'></a>
## <font color="#FA7F08"> 7. Relatório</font>
<hr color="#F5F5F5" size="1">

<div class="alert alert-info"> 
<strong><div style="color: rgb(0, 0, 0);">📌 Relatório de Análise de Dados </div></strong> <br>
    <div style="color: rgb(0, 0, 0);"> <h3><strong> Introdução: </strong></h3>
        <p>Nesta análise, foram usado dados referente a pesquisas de RH para tentar prever a intenção do funcionario permanecer ou procurar outros empregos após a contratação</p>  
    </div>
     <div style="color: rgb(0, 0, 0);"><h3> <strong> Metodologia:</strong></h3>
Para realização desta analise foram ultilizado as seguintes técnicas:
<ul>
    <strong>Limpeza de dados</strong>
    <li>Imputação de valores.</li>
    <li>Remoção de valores duplicados.</li>
    <li>Drop de registros desnecessarios.</li>
    <br>
        <strong>Análise de dados</strong>
    <li>Verificação da distribuição de dados.</li>
    <li>Verificação da correlação das variaveis númericas usando mapa de correlação.</li>
    <li>Verificação da correlação da variavel dependente com a independente usando WoE (Weight of Evidence) e IV (Information Value).  </li>
</ul>       
    </div>  
        <div style="color: rgb(0, 0, 0);"><h3> <strong> Resultados: </strong></h3>
             <ul>   
             <li> A coluna "city_development_index" apresenta uma correlação negativa moderada com a variável alvo "target", o que sugere que quanto menor o índice de desenvolvimento da cidade, maior é a probabilidade do candidato estar buscando uma mudança de emprego. </li> 
                 <li>A coluna "experience" também apresenta uma correlação negativa moderada com a variável alvo "target", o que sugere que quanto menor a experiência do candidato, maior é a probabilidade de ele estar buscando uma mudança de emprego.</li>
                 <li>A coluna "last_new_job" apresenta uma correlação negativa fraca com a variável alvo "target", o que sugere que quanto maior o tempo desde a última mudança de emprego, menor é a probabilidade do candidato estar buscando uma mudança de emprego.</li>
                  <li>As colunas "education_level" e "enrolled_university" não apresentam uma correlação forte com a variável alvo "target", o que sugere que a educação e o tipo de curso universitário matriculado não são fatores determinantes para a decisão de mudar de emprego.</li>
                  <li>Com base em seu valor IV, `enrolled_university` é um preditor médio, `relevent_experience` e `education_level` são preditores fracos e os outros são inúteis para a previsão.</li>
                  <li>A maioria dos candidatos não está matriculada em nenhum curso universitário atualmente (enrolled_university = "no_enrollment")</li>
                  <li>Os candidatos com experiência relevante (relevent_experience = "Has relevent experience") têm uma proporção maior de estar procurando emprego em comparação com aqueles sem experiência relevante.</li>
                  <li>A maioria dos candidatos possui um nível de educação de graduação (education_level = "Graduate"), seguido de pós-graduação (education_level = "Masters").</li>
                  <li>Os candidatos com nível de educação de ensino médio (education_level = "High School") têm uma proporção menor de estar procurando emprego em comparação com aqueles com níveis de educação mais altos.</li>
                 <li>Com base nessas informações, podemos inferir que os candidatos que estão atualmente matriculados em cursos universitários têm menos probabilidade de procurar emprego, enquanto aqueles sem experiência relevante têm maior probabilidade de estar procurando emprego. Além disso, candidatos com níveis de educação mais altos, como pós-graduação, têm maior probabilidade de estar procurando emprego em comparação com aqueles com níveis de educação mais baixos, como ensino médio.</li>
            </div>   
    <div style="color: rgb(0, 0, 0);"><h3><strong> Conclusão: </strong></h3>
        <p>Com base na análise que fizemos podemos concluir que as variaveis mais relevantes para identificar um bom candidato a permanecer na empresa são:</p>
        <p><strong>Obs:</strong> Os item listados abaixo estão classificados de mais relevantes para menos relevantes. As variaveis não listadas abaixo que também pertence ao dataset não são influente para o candidato permanecer ou não na empresa.</p>
        <ul>
            <li>Índice de desenvolvimento da cidade do candidato</li>
            <li>Tempo de experiência do candidato</li>
            <li>Estár ou não matriculado em curso universitário</li>
            <li>Nivel educacional</li>
            <li>A especialização do curso do candidado, quando esse tiver nivel superior</li>
        </ul>
        <strong>Recomendações</strong>
                 <ul> 
                 <li> O RH pode procurar candidatos que tenham como origem, cidades com índice de desenvolvimento mais baixo, sem possiveis experiências relevantes, menor experiência de trabalho e que tenha ensino superior. Assim terá maiores chances de encontrar candidatos que querem mudar de emprego e possivelmente maiores chances de boas contratações.</li>
                 <li>O RH pode melhorar o processo de captura de dados, afim de se obter melhores informações sobre seu negocio e futuramente obter melhores insight que afetam positivamente nos processos internos.</li>
                 <li>O RH pode mudar o tamanho dos cursos, para se obter melhores resultados com seus candidatos, não sendo necessario cursos extensos oque atualmente está causando desistencias ou desanimos, possivelmente por quebras de expectativas</li>                
    </div>
        
# FIM








