# Análise de Dados com Linguagem Python - Análise de Dados de RH (Recursos Humanos)

## Definição do Problema
---
Uma empresa de consultoria que atua em Big Data e Data Science deseja contratar Cientistas de Dados entre pessoas que obtenham aprovação em alguns cursos ministrados pela empresa.
Muitas pessoas se inscrevem para o treinamento. A empresa quer saber quais desses candidatos realmente querem trabalhar para a empresa após o treinamento ou estão apenas fazendo o treinamento para retornarem ao mercado à procura de um novo emprego. O objetivo é contratar os profissionais com perfil adequado, a fim de reduzir o custo e o tempo de contratação, bem como a qualidade do treinamento ou planejamento dos cursos e categorização dos candidatos.
Informações relacionadas a dados demográficos, educação e experiência estão disponíveis no conjunto de dados fornecido.

## Objetivo
---
Realizar um extenso trabalho de análise nos dados, compreender como estão organizados, realizar limpeza e transformação dos dados conforme necessário, detectar eventuais padrões e diagnósticos e ao final emitir um parecer com um resumo sobre os dados.



## Fonte dos Dados
---
![Kaggle](https://miro.medium.com/max/837/1*tI-TWV--K05xbXUgA4Qm1w.png)  
Os dados estão disponíveis na plataforma Kaggle acessando o link: [HR Analytics: Job Change of Data Scientists](https://www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists/version/1?select=sample_submission.csv)

## Dicionário de Variáveis
---
**enrollee_id**: ID única por candidato

**city**: Código da cidade

**city_ development _index**: Índice de Desenvolvimento da Cidade (escalado)

**gender**: Gênero do candidato

**relevent_experience**: Experiência relevante do candidato

**enrolled_university**: Tipo de curso universitário matriculado, se houver

**education_level**: Nível de educação do candidato

**major_discipline**:Disciplina principal do candidato

**experience**: Experiência total do candidato em anos

**company_size**: Número de empregados na empresa atual do candidato

**company_type**: Tipo de empregador atual

**lastnewjob**: Diferença de anos entre o emprego anterior e o atual

**training_hours**: Horas de treinamento completadas

**target**: 0 – Não procura mudança de emprego, 1 – Procura mudança de emprego

## Instalando e Carregando os Pacotes Python

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python usada neste projeto:', python_version())

Versão da Linguagem Python usada neste projeto: 3.9.7


In [2]:
# Instalação de pacotes.

# Pacote para auxiliar na criação de mapas de valores ausentes.
!pip install -q missingno

# Pacote para categorizar variáveis
!pip install -q category_encoders

# Pacote para criação de gráficos
!pip install -q plotly

In [3]:
# Imports 

# Manipulação de Dados
import pandas as pd
import numpy as np

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots
import missingno

# Estatística
import scipy
from scipy.stats import normaltest
from scipy.stats import chi2_contingency

# Engenharia de Atributos
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer
import category_encoders as ce

# Ignore Warning
import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")


## Carregando os Dados

In [4]:
# Dataset
df = pd.read_csv("dataset/aug_train.csv")

In [5]:
# Shape
row_n, column_n = df.shape
print(f'Número de linhas: {row_n} \nNúmero de colunas: {column_n}')

Número de linhas: 19158 
Número de colunas: 14


In [6]:
# Colunas
df.columns

Index(['enrollee_id', 'city', 'city_development_index', 'gender',
       'relevent_experience', 'enrolled_university', 'education_level',
       'major_discipline', 'experience', 'company_size', 'company_type',
       'last_new_job', 'training_hours', 'target'],
      dtype='object')

In [7]:
# Amostra dos dados
df.head()

Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0.0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0.0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0.0


In [8]:
# Info de cada variável
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19158 entries, 0 to 19157
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   enrollee_id             19158 non-null  int64  
 1   city                    19158 non-null  object 
 2   city_development_index  19158 non-null  float64
 3   gender                  14650 non-null  object 
 4   relevent_experience     19158 non-null  object 
 5   enrolled_university     18772 non-null  object 
 6   education_level         18698 non-null  object 
 7   major_discipline        16345 non-null  object 
 8   experience              19093 non-null  object 
 9   company_size            13220 non-null  object 
 10  company_type            13018 non-null  object 
 11  last_new_job            18735 non-null  object 
 12  training_hours          19158 non-null  int64  
 13  target                  19158 non-null  float64
dtypes: float64(2), int64(2), object(10)
me

## Análise Exploratória dos Dados (EDA)

In [9]:
# Descrevendo os dados não numéricos
df.describe(include = object)

Unnamed: 0,city,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job
count,19158,14650,19158,18772,18698,16345,19093,13220,13018,18735
unique,123,3,2,3,5,6,22,8,6,6
top,city_103,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,50-99,Pvt Ltd,1
freq,4355,13221,13792,13817,11598,14492,3286,3083,9817,8040


In [10]:
# Descrevendo os dados numéricos
df.describe().drop(columns = ['enrollee_id', 'target'])

Unnamed: 0,city_development_index,training_hours
count,19158.0,19158.0
mean,0.828848,65.366896
std,0.123362,60.058462
min,0.448,1.0
25%,0.74,23.0
50%,0.903,47.0
75%,0.92,88.0
max,0.949,336.0


 - Em **city_development_index** (CDI), os valores médios são 0,828, mediana 0,903 e desvio padrão 0,123. Significa que a maioria dos candidatos é de cidades bem desenvolvidas.
 - Em **training_hours**, os valores médios são 65,367, mediana 47 e máx 336. Isso significa que há mais candidatos com poucas horas de treinamento, mas alguns candidatos gastam muito tempo para fazer o treinamento.