## Definindo o Problemas

### Recebemos um arquivo contendo dados do setor de Recursos Humanos (RH). Nossa tarefa é responder às perguntas abaixo da maneira mais precisa possível e realizar uma representação gráfica dos resultados obtidos.

## Questões a serem respondidas:
    Qual o total de funcionários atualmente na empresa?
    Qual o tempo médio de experiência dos funcionários (em anos)?
    Qual o total e percentual de funcionários do gênero masculino e feminino?
    Qual a média salarial mensal?
    Qual o total de funcionários por função?
    Qual o percentual de funcionários disponíveis para fazer hora extra?

### Fonte de dados
dados/DataSetRH.csv 

### Ferramentas
    - Python
    - Streamlit

### Versão e carregando pacotes 

In [125]:
# Versão da Linguagem Python
from platform import python_version
print("Versão da Linguagem Python usada neste Notebook", python_version())

Versão da Linguagem Python usada neste Notebook 3.11.5


### Imports

In [126]:
import pandas as pd
import os
import plotly.express as px

In [127]:
df = pd.read_csv('../data/DatasetRH.csv')

In [128]:
df

Unnamed: 0,Id_Funcionario,Idade,Genero,Estado Civil,Departamento,Funcao,Viagem,Valor Diaria,Indice_Envolvimento_Trabalho,Nivel_Satisfacao_Trabalho,...,Numero_Empresas_Anteriores,Disponivel_Hora_Extra,Percentual_Ultimo_Aumento_Salario,Aval_Performance,Anos_Experiencia,Numero_Treinamentos_Ano_Anterior,Anos_na_Empresa,Anos_Funcao_Atual,Anos_Desde_Ultima_Promocao,Anos_com_Gerente_Atual
0,1,41,Feminino,Solteiro,Data Science,Cientista de Dados,Viaja Raramente,1102,3,4,...,8,S,11,3,8,0,6,4,0,5
1,2,49,Masculino,Casado,Data Science,Cientista de Dados,Viaja Frequentemente,279,2,2,...,1,N,23,4,10,3,10,7,1,7
2,4,37,Masculino,Solteiro,Data Science,Analista de Dados,Viaja Raramente,1373,2,3,...,6,S,15,3,7,3,0,0,0,0
3,5,33,Feminino,Casado,Data Science,Cientista de Dados,Viaja Frequentemente,1392,3,3,...,1,S,11,3,8,3,8,7,3,0
4,7,27,Masculino,Casado,Data Science,Analista de Dados,Viaja Raramente,591,3,2,...,9,N,12,3,6,3,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1395,1967,31,Masculino,Casado,Data Science,Cientista de Dados,Viaja Frequentemente,754,3,4,...,1,S,11,3,10,4,10,7,0,8
1396,1968,53,Masculino,Solteiro,Data Science,Cientista de Dados,Viaja Raramente,1168,3,1,...,6,S,13,3,15,2,2,2,2,2
1397,1969,54,Feminino,Casado,Data Science,Cientista de Dados,Viaja Raramente,155,3,3,...,3,N,11,3,9,6,4,3,2,3
1398,1970,33,Masculino,Divorciado,Data Science,Engenheiro de Dados,Viaja Frequentemente,1303,3,3,...,1,N,20,4,9,2,9,7,2,8


### Qual o total de funcionários atualmente na empresa?

In [129]:
total_funcionario = df.shape[0]
total_funcionario

1400

In [130]:
print(f'Total de Funcionnario: {total_funcionario}')

Total de Funcionnario: 1400


### Qual o tempo médio de experiência dos funcionários (em anos)?

In [131]:
media_exp = int(round(df['Anos_Experiencia'].mean(), 0))

In [132]:
print(f'Tempo médio de experiência dos funcionario: {media_exp}')

Tempo médio de experiência dos funcionario: 11


### Qual o total e percentual de funcionários do gênero masculino e feminino?

In [133]:
df_feminino = df[df['Genero'] == 'Feminino']
total_feminino = df_feminino.shape[0]
percentual_feminino = total_feminino / total_funcionario * 100
percentual_feminino = round(percentual_feminino, 2)

In [134]:
df_masculino = df[df['Genero'] == 'Masculino']
total_masculino = df_masculino.shape[0]
percentual_masculino = total_masculino / total_funcionario * 100
percentual_masculino = round(percentual_masculino,2)

In [135]:
data_pizza = {
    'Gênero': ['Feminino', 'Masculino'],
    'Total': [total_feminino, total_masculino],
    'Percentual': [percentual_feminino, percentual_masculino]
}

df_pizza = pd.DataFrame(data_pizza)

fig_pizza = px.pie(df_pizza, values='Total', names='Gênero', 
                   title='Distribuição de Funcionários por Gênero',
                   hover_data=['Percentual'],
                   labels={'Total':'Total de Funcionários'})
fig_pizza.update_traces(textinfo='percent+label',
                        hovertemplate = 'Gênero: %{label}<br>Total: %{value}<br>Percentual: %{customdata[0]}%')

### Qual a média salarial mensal?

In [136]:
media_sal_mensal = df['Salario_Mensal'].mean()
media_sal_mensal = round(media_sal_mensal,2)
print(f'Media de salario mensal: R$ {media_sal_mensal}')

Media de salario mensal: R$ 6927.51


### Qual o total de funcionários por função?

In [137]:
func_por_funcao = df.groupby('Funcao').size().reset_index()
func_por_funcao.columns = ['Funcao', 'Total_Funcionarios']

func_por_funcao = func_por_funcao.sort_values(by='Total_Funcionarios', ascending=False)

In [138]:
func_por_funcao_sorted = func_por_funcao.sort_values(by='Total_Funcionarios', ascending=True)

grafico5 = px.bar(
    func_por_funcao_sorted,
    y='Funcao',
    x='Total_Funcionarios',
    title='Total Funcionário Por Função (Ordem Crescente)',
    orientation='h',  
    text='Total_Funcionarios',
    template="plotly_white"
)

grafico5.show()

### Qual o percentual de funcionários disponíveis para fazer hora extra?

In [139]:
df_horas_extra = df.groupby('Disponivel_Hora_Extra').size().reset_index()
df_horas_extra.columns = ['Disponibilidade', 'Total Funcionarios']

df_horas_extra.loc[df_horas_extra['Disponibilidade'] == 'S', 'Disponibilidade'] = 'Disponivel'
df_horas_extra.loc[df_horas_extra['Disponibilidade'] == 'N', 'Disponibilidade'] = 'Nao Disponivel'

In [140]:
gf_pizza_disponilidade = px.pie(df_horas_extra, values='Total Funcionarios', names='Disponibilidade', title='Disponibilidade Para Horas Extras')
gf_pizza_disponilidade.show()

### Qual o nível de envolvimento dos funcionários no trabalhoconsiderando 4 categorias: Ruim, Baixo, Médio e Alto?

In [141]:
#Criando uma coluna vazia
df['envolvimento'] = ''
#Preenchendo ela depois de acordo com a regras informada 1-rum, 2-baixo, 3-medio, 4-alto
df.loc[df['Indice_Envolvimento_Trabalho'] == 1, 'envolvimento'] = 'Ruim'
df.loc[df['Indice_Envolvimento_Trabalho'] == 2, 'envolvimento'] = 'Baixo'
df.loc[df['Indice_Envolvimento_Trabalho'] == 3, 'envolvimento'] = 'Médio'
df.loc[df['Indice_Envolvimento_Trabalho'] == 4, 'envolvimento'] = 'Alto'

In [142]:
df_envolvimento = df.groupby('envolvimento').size().reset_index()
df_envolvimento.columns = ['envolvimento', 'total_funcionarios']
df_envolvimento = df_envolvimento.sort_values(by='total_funcionarios', ascending = False)
df_envolvimento

Unnamed: 0,envolvimento,total_funcionarios
2,Médio,826
1,Baixo,356
0,Alto,139
3,Ruim,79


In [143]:
graf_envolvimento = px.pie(df_envolvimento, values='total_funcionarios', names='envolvimento', title='Envolvimento Dos Funcionarios')

# Exibe o gráfico
graf_envolvimento.show()

In [144]:
df.to_csv('../data/DatasetRHTratado.csv', index=False)