# <font color = 'Redblue'> **Análise Exploratória**</font> $→$ <font color = 'GREY'> **Previsão de Custo de Seguro Médico**</font>

### **Contexto**

- Para este projeto, temos um conjunto de dados relativo ao **custo de seguro médico** de vários clientes de uma empresa de seguro, com o objetivo analítico de construir um modelo preditivo de regressão que seja útil e acurado o suficiente para prever o custo de seguro médico de um segurado, com base no perfil e nas características que forem fornecidas sobre tal segurado.

### **Objetivo Principal**

- Então eu te convido a realizar uma Análise Exploratória de Dados (EDA)para podermos saber com mais precisão, quais são às variáveis que mais impactam e influenciam nos resultados da variável-alvo $(charges)$.

## *Descrição das Variáveis*

- **age** $→$ Idade do segurado;

- **sex** $→$  Gênero do segurado;

- **bmi** $→$ Índice de Massa Corporal ou IMC do segurado;

- **children** $→$ Quantidade de filhos do segurado;

- **smoker** $→$ Se o segurado/pessoa é fumante ou não;

- **region** $→$ Região em que o segurado mora;

- **charges** $→$ O custo de seguro médico do segurado

## <font color = 'ligthstee'> **Responda as perguntas abaixo**👇🏽👇</font>

- Qual é a média de idade dos segurados?

Media de idade é 39,21 anos aproximadamente

- Qual é a mediana de custos de seguro médico para jovens adultos (20 e 39 anos) e adultos maduros (40 e 69 anos)?
- Qual é a distribuição estatística da idade dos segurados?
- Qual é a mediana de custo de seguro médico por segurados abaixo do peso, acima do peso ou com o peso normal (com base no IMC)?
- Qual é a distribuição estatística do IMC dos segurados?
- Qual é a mediana de custos de seguro médico por fumantes e não-fumantes?
- Qual é a média de custos de seguro médico por região?
- Qual é a distribuição estatística do custos de seguro médico?

**Bibliotecas**

In [1]:
# Importando as Bibliotecas
import pandas as pd # ---> É uma bibliotecas para Manipular dados
import matplotlib.pyplot as plt # ---> Serve para criar visualizções (Gráficos)
import seaborn as sns # ---> Serve para criar visualizções (Gráficos)
import numpy as np # ---> Biblioteca Matematica (Serve para fazer manipulações matematicas)

# Serve para Ignorando alertas idesejados
import warnings
warnings.filterwarnings("ignore")

# Serve para Manter os gráficos nesse mesmo Notebook
%matplotlib inline

# Define o estilo do gráfico seaborn
sns.set(style="whitegrid")  

## **Importando e Conhecendo os Dados**

In [None]:
dados = pd.read_csv('seguro_medico.csv')

In [None]:
dados

In [None]:
dados.head(45)

In [None]:
dados.tail()

In [None]:
dados.columns

In [None]:
dados.shape

In [None]:
dados.info()

In [None]:
dados.count()

In [None]:
dados.isna().sum()

In [None]:
dados.duplicated()

In [None]:
dados.sex.unique()

In [None]:
dados['smoker'].unique()

In [None]:
dados.describe()

 **Qual é a média de idade dos segurados?**

Media de idade é 39,21 anos aproximadamente, a mediana de idade é 39 anos.

**Qual é a mediana de custos de seguro médico para jovens adultos (20 e 39 anos) e adultos maduros (40 e 69 anos)?**

In [None]:
dados_filtrados1= dados[(dados['age'] >= 20) & (dados['age'] <= 30)]
dados_filtrados2= dados[(dados['age'] >= 40) & (dados['age'] <= 69)]

mediana_idades1 = dados_filtrados1['age'].median()
mediana_idades2 = dados_filtrados2['age'].median()
print("A mediana das idades entre 20 e 30 anos é {} e mediana das idades 40 a 69 é {}:".format(mediana_idades1,mediana_idades2))


**Qual é a distribuição estatística da idade dos segurados?**

In [None]:
# Gráfico: Distribuição de Idade dos Clientes
plt.figure(figsize=(8, 6))
sns.histplot(dados['age'], bins=20, kde=True)
plt.title('distribuição de idade')
plt.ylabel('Pessoas')
plt.show();

**Qual é a mediana de custo de seguro médico por segurados abaixo do peso, acima do peso ou com o peso normal (com base no IMC)?**

In [None]:
categorias = ['Abaixo do peso', 'Peso normal', 'Sobrepeso']
limites = [0, 18.5, 24.9, 90]

df = pd.DataFrame(dados)

# Categorize os dados com base no IMC
df['Categoria_IMC'] = pd.cut(df['bmi'], bins=limites, labels=categorias, right=False)

# Agrupe os dados pelo IMC categorizado e calcule a média da idade em cada categoria
grupo = df.groupby('Categoria_IMC')['charges'].median()

print(grupo)

**Qual é a distribuição estatística do IMC dos segurados?**

**Qual é a mediana de custos de seguro médico por fumantes e não-fumantes?**

In [None]:
# Verificando a Médiana smoker  por charges
dados.groupby('smoker')['charges'].median()

**Qual é a média de custos de seguro médico por região?**

In [None]:
# Verificando a Média de Idade por smoker
dados.groupby('region')['charges'].mean()

**Qual é a distribuição estatística do custos de seguro médico?**

In [None]:
# Gráfico: Distribuição de Idade dos Clientes
plt.figure(figsize=(8, 6))
sns.histplot(dados['charges'], bins=20, kde=True)
plt.title('distribuição de custos')
plt.ylabel('Pessoas')
plt.show();

O IMC dos segurados tendem a aumentar ao decorer dos anos

In [None]:
children_quantidade = dados['children'].value_counts()  # Conta a frequência de valores na coluna children
children_porcentagem = (children_quantidade * 100) / 1338  # Calcula a porcentagem em relação a 1338

# Exibe as contagens e as porcentagens
print("Contagem de filhos por segurado:\n{}".format(children_quantidade))
print("Pocentagem de segurados com filhos:\n{}".format(children_porcentagem ))

A porcentagem de segurados sem filho é de 42.89 aproximadamente.
574 pessoas não tem filhos

In [None]:
# Realizando a Contagem das regioes
dados.region.value_counts()

Está bem dividido as regioes 

In [None]:
(dados.age.value_counts())*100/1338

Porcentagem de pessoas por idade

In [None]:
dados.groupby('smoker')['charges'].median()

A mediana de custos de quem não fuma é 7345 e de quem fuma e 34456

In [None]:
dados.groupby('region')['charges'].mean()

Media por região

In [None]:
categorias = ['Abaixo do peso', 'Peso normal', 'Sobrepeso']
limites = [0, 18.5, 24.9, 90]

df = pd.DataFrame(dados)

# Categorize os dados com base no IMC
df['Categoria_IMC'] = pd.cut(df['bmi'], bins=limites, labels=categorias, right=False)

# Agrupe os dados pelo IMC categorizado e calcule a média da idade em cada categoria
grupo = df.groupby('Categoria_IMC')['charges'].median()

print(grupo)

In [None]:
import matplotlib.pyplot as plt

# Dados
idade = [18, 19, 50, 51, 47, 46, 45, 20, 48, 52, 22, 49, 54, 53, 21, 26, 24, 25, 28, 27, 23, 43, 29, 30, 41, 42, 44, 31, 40, 32, 33, 56, 34, 55, 57, 37, 59, 58, 36, 38, 35, 39, 61, 60, 63, 62, 64]
porcentagem = [5.156951, 5.082212, 2.167414, 2.167414, 2.167414, 2.167414, 2.167414, 2.167414, 2.167414, 2.167414, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.092676, 2.017937, 2.017937, 2.017937, 2.017937, 2.017937, 2.017937, 2.017937, 2.017937, 1.943199, 1.943199, 1.943199, 1.943199, 1.943199, 1.943199, 1.868460, 1.868460, 1.868460, 1.868460, 1.868460, 1.868460, 1.868460, 1.718984, 1.718984, 1.718984, 1.718984, 1.644245]

# Plotando o gráfico de dispersão
plt.scatter(idade, porcentagem)

# Adicionando rótulos aos eixos
plt.xlabel('idade')
plt.ylabel('porcentagem')

# Adicionando título ao gráfico
plt.title('Gráfico de Dispersão')

# Exibindo o gráfico
plt.show()





In [None]:
dados.groupby('sex')['charges'].median()

Os homens na mediana gastam mais 

# <font color = 'Redblue'> **Análise Exploratória**</font> $→$ <font color = 'GREY'> **Titanic**</font>

### **Contexto**

- O naufrágio do Titanic é um dos eventos mais conhecidos do mundo.

### **Objetivo Principal**

-  É analisar ou identificar  os principais fatores grupos de passageiros com maior **chance de sobrevivência** tendo em vista as características demográficas e sociais presentes na base de dados.

## *Descrição das Variáveis*

- **PassengerId** $→$Indetificador único do  passageiro  na viagem;

- **Survived** $→$ é a variável alvo $(Target)$, que indica a sobrevivência do passageiro, isto é:
   - $1 →$ *Indica que o passageiro sobreviveu*
   - $0→$ *Indica que o passageiro não sobreviveu*

- **Pclass** $→$ Representa a classe social do passageiro, isto é:
   - $1→$ Classe Alta
   - $2→$ Classe Média
   - $3→$ Classe Baixa

- **Name** $→$ Indica o Nome do passageiro;

- **Sex** $→$ Indica o Sexo/gênero do passageiro;

- **Age** $→$ Indica a Idade do passageiro;

- **SibSp** Inica o total de irmãos/cônjuges do passageiro a bordo do navio;

- **Parch** $→$ Total de pais/filhos do passageiro a bordo do navio;

- **Ticket** $→$ Número de referência do bilhete do passageiro;

- **Fare** $→$ Valor pago pelo passageiro na compra da passagem;

- **Cabin** $→$ Número de referência da cabine em que está o passageiro;

- **Embarked** $→$ Indica o local/porto de embarque:

   - $C→$ *Cherbourg*
   - $Q →$ *Queenstown*
   - $S →$ *Southampton*

In [6]:
# Importando as Bibliotecas
import pandas as pd # ---> É uma bibliotecas para Manipular dados
import matplotlib.pyplot as plt # ---> Serve para criar visualizções (Gráficos)
import seaborn as sns # ---> Serve para criar visualizções (Gráficos)
import numpy as np # ---> Biblioteca Matematica (Serve para fazer manipulações matematicas)

# Serve para Ignorando alertas idesejados
import warnings
warnings.filterwarnings("ignore")

# Serve para Manter os gráficos nesse mesmo Notebook
%matplotlib inline

# Define o estilo do gráfico seaborn
sns.set(style="whitegrid")

In [7]:
# Carregando os Dados
titanic = pd.read_csv('titanic.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'titanic.csv'

In [None]:
titanic

In [None]:
styled_df = titanic.head(15).style

# Defina a cor de fundo, a cor do texto e a borda de todo o DataFrame
styled_df.set_properties(**{"background-color": "#254E58", "color": "#e9c46a", "border": "1.5px solid black"})

# Modificando a cor de fundo dos cabeçalhos da tabela
styled_df.set_table_styles([
    {"selector": "th", "props": [("color", 'white'), ("background-color", "#333333")]}
])

In [None]:
# Verificando o nome das colunas
titanic.columns

In [None]:
titanic.shape

In [4]:
titanic.info()

NameError: name 'titanic' is not defined

In [5]:
# Verificando a quantidade de Registros
titanic.count()

NameError: name 'titanic' is not defined

In [None]:
# Verificando se há valores ausentes
titanic.isna().sum()

In [None]:
# Verificando se há valores duplicados
titanic.duplicated()

In [None]:
titanic.describe()

**Começando a analise**

**Qual é a porcentagem de sobreviventes no navio?**

In [None]:
# Verificando a porcentagem dos passageiros que sobreviveram
(titanic.Survived.value_counts())*100/890

In [None]:
#Media de subreviventes por sexo
titanic.groupby('Sex')['Survived'].mean()

In [None]:
# Verificando a porcentagem dos passageiros
(titanic.Pclass.value_counts())*100/890

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(data=titanic, x='Pclass', palette='Blues')
plt.title('Numero de passageiros por classe social')
plt.xlabel('Classe Social')
plt.ylabel('Pessoas')
plt.show();

In [None]:


plt.figure(figsize=(8, 6))
ax = sns.countplot(data=titanic, x='Pclass', palette='Blues')
plt.title('Número de passageiros por classe social')
plt.xlabel('Classe Social')
plt.ylabel('Pessoas')

# Substituindo os números 1, 2, 3 por "Classe Alta", "Classe Média" e "Classe Baixa"
plt.xticks(ticks=[0, 1, 2], labels=['Classe Média', 'Classe baixa', 'Classe Alta'])

plt.show()


In [None]:
plt.figure(figsize=(16, 6))
plt.pie(x=titanic['Pclass'].value_counts(),
        labels=['classe alta', 'classe media', 'classe baixa'],
        autopct='%1.1f%%',
        textprops={'fontsize': 11.5, 'color': 'k'},
        shadow=True,
        colors=sns.color_palette('Blues'),
        wedgeprops={'edgecolor': 'lightgreen'})
plt.title('Porcentagem por classe social', fontsize=12.5, color='k')
plt.show()

In [None]:
# Verificando a Média classe social por sobreviventes 
titanic.groupby('Pclass')['Survived'].mean()

***A media de sobreviventes da classe alta foi quase 3 vezes mais alta que a de classe baixa***

In [None]:
# Verificando a porcentagem dos passageiros
(titanic.Sex.value_counts())*100/890

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(data=titanic, x='Sex', palette='Blues')
plt.title('Passageiros por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Pessoas')
plt.show();

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 6))
ax = sns.countplot(data=titanic, x='Sex', palette='Blues')
plt.title('Passageiros por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Pessoas')

# Adicionando números em cima das barras
for p in ax.patches:
    ax.annotate(format(p.get_height(), '.0f'), 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')

plt.show()


In [None]:
plt.figure(figsize=(16, 6))
plt.pie(x=titanic['Sex'].value_counts(),
        labels=['Masculino','Feminino'],
        autopct='%1.1f%%',
        textprops={'fontsize': 11.5, 'color': 'k'},
        shadow=True,
        colors=sns.color_palette('Blues'),
        wedgeprops={'edgecolor': 'lightgreen'})
plt.title('Porcentagem por sexo', fontsize=12.5, color='k')
plt.show()

In [None]:
titanic.groupby('Sex')['Survived'].mean()

In [None]:

# Defina o estilo do seaborn
sns.set_style('darkgrid')

# Crie um gráfico de barras vertical com contagem de valores
ax = sns.countplot(data=titanic, x='Sex', hue='Survived', palette=('Blues'))

plt.xlabel('Sexo')
plt.ylabel('Pessoas')
plt.title('Número de sobreviventes por sexo')

# Mapeamento de valores para rótulos na legenda
labels = {0: 'Não sobreviveu', 1: 'Sobreviveu'}

plt.legend(title='Sobrevivência', labels=[labels[0], labels[1]], fontsize=10, edgecolor='k')

# Adicionar informações em cima das barras
for p in ax.patches:
    height = p.get_height()
    ax.annotate(f'{height}', 
                xy=(p.get_x() + p.get_width() / 2, height), 
                xytext=(0, 3), 
                textcoords="offset points",
                ha='center')

plt.show()



***A quantidade de mulheres que sobriveram foi muito maior que os homens mesmo sabendo que a quantidade de homens a bordo fosse quase o dobro das mulhes***

In [None]:
titanic.groupby('Survived')['Fare'].median()

***A mediana de sobrevivencia nas cabines mais caras foi de mais que o dobro das mais baratas o que pode signicar que as cabines mais caras são mais seguras***

In [None]:
# Verificando a porcentagem dos passageiros
(titanic.Age.value_counts())

In [None]:
# Gráfico: Distribuição de Idade dos Clientes
plt.figure(figsize=(8, 6))
sns.histplot(titanic['Age'], bins=30, kde=True)
plt.title('Distribuição de Idade por passageiro')
plt.ylabel('Pessoas')
plt.show();

***A grande parte dos passageiros tinham idade de 20 a 30 anos***

In [None]:
titanic.groupby('Embarked')['Fare'].median()

***O local de embarque onde enbarcou os que pagaram mais caro nas cabines foi do 𝐶→
  Cherbourg***

In [None]:
# Gráfico relplot
# Passando outro parametro como classe no gráfico
sns.relplot( x='Age', y='Fare', data = titanic, hue='Survived' )
plt.ylabel('Preço da passagem')
plt.xlabel('Idade')
plt.show();

In [None]:
# Gráfico relplot
# Passando outro parametro como classe no gráfico
sns.relplot( x='Age', y='Fare', data = titanic, hue='Sex' )
plt.ylabel('Preço da passagem')
plt.xlabel('Idade')
plt.show();

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Criando uma paleta de tons de azul personalizada
custom_palette = sns.color_palette("Set1", as_cmap=True)

# Gráfico relplot Passando outro parametro como classe no gráfico
sns.relplot(x='Age', y='Fare', data=titanic, hue='Pclass', palette=custom_palette)
plt.ylabel('Preço da passagem')
plt.xlabel('Idade')
plt.show()



- **PassengerId** $→$Indetificador único do  passageiro  na viagem;

- **Survived** $→$ é a variável alvo $(Target)$, que indica a sobrevivência do passageiro, isto é:
   - $1 →$ *Indica que o passageiro sobreviveu*
   - $0→$ *Indica que o passageiro não sobreviveu*

- **Pclass** $→$ Representa a classe social do passageiro, isto é:
   - $1→$ Classe Alta
   - $2→$ Classe Média
   - $3→$ Classe Baixa

- **Name** $→$ Indica o Nome do passageiro;

- **Sex** $→$ Indica o Sexo/gênero do passageiro;

- **Age** $→$ Indica a Idade do passageiro;

- **SibSp** Inica o total de irmãos/cônjuges do passageiro a bordo do navio;

- **Parch** $→$ Total de pais/filhos do passageiro a bordo do navio;

- **Ticket** $→$ Número de referência do bilhete do passageiro;

- **Fare** $→$ Valor pago pelo passageiro na compra da passagem;

- **Cabin** $→$ Número de referência da cabine em que está o passageiro;

- **Embarked** $→$ Indica o local/porto de embarque:

   - $C→$ *Cherbourg*
   - $Q →$ *Queenstown*
   - $S →$ *Southampton*

# <font color = 'Redblue'> **Análise Exploratória**</font> $→$ <font color = 'GREY'> **Recursos Humanos**</font>

### **Contexto e o Objetivo Principal**

Suponhamos hipoteticamente que o gerente do setor de RH (Recursos Humanos) queira que façamos uma análise descritiva que ajude-o à prever quais são os fatores que influenciam na demissão ou na retenção de um funcionário na empresa. **(left)**

### **Motivação do Gerente**

- O objetivo do gerente ao obter tais análises é implementar medidas no setor de RH que possam evitar a demissão futura dos funcionários.

## *Descrição das Variáveis*

- **satisfaction_level**: Taxa de satisfação do funcionário com a empresa (está na faixa entre $0$ e $1$);
    
- **last_evaluation**: Última avaliação de desempenho que os funcionários receberam (está na faixa entre $0$ e $1$);
    
- **number_project**: Número de projetos que os funcionários participaram na empresa;
    
- **average_montly_hours**: Média de horas de trabalho que cada funcionário gastou na empresa mensalmente;
    
- **time_spend_company**: Anos de trabalho que cada funcionário teve na empresa;
    
- **work_acident**: Informação sobre acidente de trabalho sofrido por cada funcionário;

    - $0 →$  Indica que o funcionário *não* sofreu acidente de trabalho;
    
    - $1→$ Indica que o funcinário *sofreu* acidente de trabalho.
    
- **left**: Informação sobre o fato de cada funcionário ter sido demitido ou não da empresa; 
    
    - $0 →$  Indica que o funcionário *não* foi demitido.
    
    - $1→$ Indica que o funcinário *foi* demitido.
    
- **promotion_last_5_years**: Promoção na empresa nos últimos $5$ anos para cada funcionário;

    - $0 →$  Indica que o funcionário *não* foi promovidos nos últimos $5$ anos;
    
    - $1→$ Indica que o funcinário *foi* promovidos nos últimos $5$ anos.
    
- **department**: Departamento que cada funcionário trabalha na empresa;
    
- **salary**: Classificação salarial de cada funcionário entre baixo, médio e alto salário.

## <font color = 'ligthstee'> **Responda as perguntas abaixo**👇🏽👇</font>

- Qual é a quantidade de funcionários demitidos e retidos da empresa?
- Qual é a porcentagem de funcionários por classificação salarial?
- Qual é a taxa de retenção e demissão dos funcionários por classificação salarial?
- Qual é a quantidade de retenções e demissões de funcionários por departamento?
- Qual é a média e a mediana das demais variáveis por taxa de retenção dos funcionários?
- Qual é a taxa de funcionários retidos e demitidos que receberam promoções na empresa nos últimos 5 anos?


In [None]:
# Carregando os Dados
df = pd.read_csv('HR_comma.csv')

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df

In [None]:
# Visualizando as 5 últimas linhas do DataFrame
df.head()

In [None]:
df.tail()

In [None]:
# Verificando o nome das colunas
df.columns

In [None]:
# Verificar o tamanho da base de dados "(Linhas, Colunas")
df.shape

In [None]:
# Verificando o tipo de dados
df.info()

In [None]:
# Verificando a quantidade de Registros
df.count()

In [None]:
# Verificando se há valores ausentes
df.isna().sum()

In [None]:
# Verificando se há valores duplicados
df.duplicated()

In [None]:
# Verificando se há valores duplicados
df.duplicated().sum()

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df['satisfaction_level'].unique()

In [None]:
# Análise matematica - ESTATISTICA DESCRITIVA
df.describe()

**Começando as analises**

**Qual é a quantidade de funcionários demitidos e retidos da empresa?**

In [None]:
(df.left.value_counts())

**Qual é a porcentagem de funcionários por classificação salarial?**

In [None]:
(df.salary.value_counts())*100/11999

**Qual é a taxa de retenção e demissão dos funcionários por classificação salarial?**

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por classificão salarial:
df_salary_demitido_retido = df.groupby(['salary', 'left']).agg({'left': 'size'})

# Renomeando as coluna:
df_salary_demitido_retido.rename(columns = {'left': 'qtd_demitido_retido'}, inplace = True)

# Visualização da quantidade de demissões e retenções pela classificação salarial dos funcionários
df_salary_demitido_retido

**Qual é a quantidade de retenções e demissões de funcionários por departamento?**

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por setor:
df_departamento_demitido_retido = df.groupby(['sales', 'left']).agg({'left': 'size'})

# Renomeando as coluna:
df_departamento_demitido_retido.rename(columns = {'left': 'qtd_demitido_retido'}, inplace = True) 

# Visualização da quantidade de demissões e retenções pelo departamento dos funcionários
df_departamento_demitido_retido

**Qual é a média e a mediana das demais variáveis por taxa de retenção dos funcionários?**

In [None]:
#Media por reteção de satisfação 
df.groupby('left')['satisfaction_level'].mean()

In [None]:
#Mediana por reteção de satisfação 
df.groupby('left')['satisfaction_level'].median()

In [None]:
#Media por reteção da ultima avaliação de desempenho que os funcionários receberam 
df.groupby('left')['last_evaluation'].mean()

In [None]:
#Mediana por reteção da ultima avaliação de desempenho que os funcionários receberam 
df.groupby('left')['last_evaluation'].median()

In [None]:
#Media por reteção por numero de projeto
df.groupby('left')['number_project'].mean()

In [None]:
#Mediana por reteção por numero de projeto
df.groupby('left')['number_project'].median()

In [None]:
#Media por retenção por média de horas de trabalho que cada funcionário gastou na empresa mensalmente
df.groupby('left')['average_montly_hours'].mean()

In [None]:
#Mediana por retenção por média de horas de trabalho que cada funcionário gastou na empresa mensalmente
df.groupby('left')['average_montly_hours'].median()

In [None]:
#Media por retenção e por anos de trabalho na empresa
df.groupby('left')['time_spend_company'].mean()

In [None]:
#Mediana por retenção e por anos de trabalho na empresa
df.groupby('left')['time_spend_company'].median()

In [None]:
#Media por retenção e por acidente de trabalho
df.groupby('left')['Work_accident'].mean()

In [None]:
#Mediana por retenção e por acidente de trabalho
df.groupby('left')['Work_accident'].median()

In [None]:
#Mediana por retenção e por Promoção nos ultimos 5 anos
df.groupby('left')['promotion_last_5years'].mean()

In [None]:
#Mediana por retenção e por Promoção nos ultimos 5 anos
df.groupby('left')['promotion_last_5years'].median()

**Qual é a taxa de funcionários retidos e demitidos que receberam promoções na empresa nos últimos 5 anos?**

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por promoção:
df_promocao_demitido_retido = df.groupby(['left','promotion_last_5years']).agg({'promotion_last_5years': 'size'})

# Renomeando as coluna:
df_promocao_demitido_retido.rename(columns = {'promotion_last_5years': 'qtd_promocao_retido'}, inplace = True) 

# Visualização da quantidade de demissões e retenções pelo departamento dos funcionários
df_promocao_demitido_retido

In [None]:
styled_df = df.head(15).style

# Defina a cor de fundo, a cor do texto e a borda de todo o DataFrame
styled_df.set_properties(**{"background-color": "#254E58", "color": "#e9c46a", "border": "1.5px solid black"})

# Modificando a cor de fundo dos cabeçalhos da tabela
styled_df.set_table_styles([
    {"selector": "th", "props": [("color", 'white'), ("background-color", "#333333")]}

In [None]:
# Visualizando a "Estatística Descritiva" colocando Background

styled_df = df.describe().style \
    .set_table_styles([
        {'selector': 'th', 'props': [('background-color', '#254E58'), ('color', 'white'), ('font-weight', 'bold'), ('text-align', 'left'), ('padding', '8px')]},
        {'selector': 'td', 'props': [('padding', '8px')]}
    ]) \
    .set_properties(**{'font-size': '14px', 'background-color': '#F5F5F5', 'border-collapse': 'collapse', 'margin': '10px'})


In [None]:
# Verificando somente a Variável Idade
df.Work_accident.describe()

In [None]:
# Verificando a distribuição dos dados categoricos
df.select_dtypes(include= 'object').describe() # OU df.describe(include = 'O')

2.6 | Associação de Variáveis

In [None]:
# Verificando a Média de Idade por Sexo
df.groupby('salary')['satisfaction_level'].median()

A mediana de salario mostra que está praticamente igual o que mostra que a satisfação não está relacionada com salario

In [None]:
df.groupby('satisfaction_level')['number_project'].mean()

Nota-se que os mais insatisfeitos são os que mais estão desenvolvendo projetos ajudará na satisfação dos funcionarios diminuir um pouco os projetos de alguns grupos

In [None]:
df.groupby('satisfaction_level')['average_montly_hours'].mean()

Pra desenvolver mais projetos os grupos mais insatisfeitos ficam mais tempo na empresa 

In [None]:
df.groupby('sales')['satisfaction_level'].median()

Satisfação por setor

In [None]:
df.groupby('sales')['average_montly_hours'].mean()

Não tem muito um setor que está trabalhando mais que o outro nao em relação a horas medias trabalhadas

In [None]:
df.groupby('sales')['number_project'].mean()

In [None]:
df.groupby('sales')['time_spend_company'].mean()

In [None]:
(df.Work_accident.value_counts())

Quase 20% dos funcionarios já sofreram assidentes no trabalho um numero bem alto

In [None]:
(df.left.value_counts())

In [None]:
df

***Qual é a quantidade de funcionários demitidos e retidos da empresa?***

In [None]:
(df.left.value_counts())

In [None]:
# The snippet above can also be represented as:
g_continents = df.groupby(['left'])
g_continents.size().reset_index(name= 'funcionários demitidos e retidos')

In [None]:
# Gráfico usando a paleta de cor "QUALITATIVA" “Set2”. Também chamdo de "GRÁFICO DE BARRAS"
# Você pode testar usano o "SET1" para verificar como ficrá o seu gráfico.

sns.catplot(x="left", kind="count", edgecolor='k', data=df)
plt.xlabel('Não demitidos/demitidos')
plt.ylabel('Quantidade')
plt.title('Quantidade de Funcionários Retidos')
palette=('Blues')
plt.show();

# Note que não existe uma variação das cores, pois temos dados categóricos e não contínuos como os da coluna size.

In [None]:
# Gráfico usando a paleta de cor "QUALITATIVA" “Set2”. Também chamdo de "GRÁFICO DE BARRAS"
# Você pode testar usano o "SET1" para verificar como ficrá o seu gráfico.

sns.catplot(x="salary", kind="count", edgecolor='k', data=df)
plt.xlabel('Não demitidos/demitidos')
plt.ylabel('Quantidade')
plt.title('Quantidade de Funcionários Retidos')
palette=('Blues')
plt.show();


Qual é a porcentagem de funcionários por classificação salarial?

In [None]:
salario = (df.salary.value_counts())*100/11999
salario

In [None]:
plt.style.use('fivethirtyeight')
salario.plot(kind='bar', x='Country', rot=0,
                      figsize=(20,10), fontsize=20, edgecolor='k');

***Qual é a taxa de retenção e demissão dos funcionários por classificação salarial?***

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por classificão salarial:
df_salary_demitido_retido = df.groupby(['salary', 'left']).agg({'left': 'size'})

# Renomeando as coluna:
df_salary_demitido_retido.rename(columns = {'left': 'qtd_demitido_retido'}, inplace = True)

# Visualização da quantidade de demissões e retenções pela classificação salarial dos funcionários
df_salary_demitido_retido

In [None]:
# Criação de coluna para representar a porcentagem de retenção / demissão por classificação salarial dos funcionários:

df_salary_demitido_retido = df_salary_demitido_retido.assign(perc_left = 
                           (df_salary_demitido_retido.qtd_demitido_retido / 
                            df_salary_demitido_retido.qtd_demitido_retido.sum() * 100)).round(2)

In [None]:
sns.set_style('darkgrid')

# Crie um gráfico de barras vertical com contagem de valores
sns.countplot(data=df, x='salary', hue='left', palette=['skyblue', 'salmon'])
plt.xlabel('Classificação Salarial')
plt.ylabel('Quantidade')
plt.title('Quantidade de Funcionários Retidos / Demitidos por Classificação Salarial')
plt.legend(title='Status', fontsize=10, edgecolor='k')
plt.show()

***Qual é a quantidade de retenções e demissões de funcionários por departamento?***

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por setor:
df_departamento_demitido_retido = df.groupby(['sales', 'left']).agg({'left': 'size'})

# Renomeando as coluna:
df_departamento_demitido_retido.rename(columns = {'left': 'qtd_demitido_retido'}, inplace = True) 

# Visualização da quantidade de demissões e retenções pelo departamento dos funcionários
df_departamento_demitido_retido

In [None]:
df_departamento_demitido_retido *100/11999

In [None]:
sns.set_style('darkgrid')

# Crie um gráfico de barras vertical com contagem de valores
sns.countplot(data=df, x='sales', hue='left', palette=['skyblue', 'salmon'])
plt.xlabel('Departamentos')
plt.ylabel('Quantidade')
plt.title('Quantidade de Funcionários Retidos / Demitidos por Departamento') 
plt.legend(title='Status', fontsize=10,  edgecolor='k')
plt.xticks(rotation=45)
plt.show()


***Qual é a média e a mediana das demais variáveis por taxa de retenção dos funcionários?***

***Qual é a taxa de funcionários retidos e demitidos que receberam promoções na empresa nos últimos 5 anos?***

In [None]:
# Agrupamento da quantidade de funcionários demitidos e retidos por promoção:
df_promocao_demitido_retido = df.groupby(['left','promotion_last_5years']).agg({'promotion_last_5years': 'size'})

# Renomeando as coluna:
df_promocao_demitido_retido.rename(columns = {'promotion_last_5years': 'qtd_promocao_retido'}, inplace = True) 

# Visualização da quantidade de demissões e retenções pelo departamento dos funcionários
df_promocao_demitido_retido

In [None]:
sns.set_style('darkgrid')

# Crie um gráfico de barras vertical com contagem de valores
sns.countplot(data=df, x='left', hue='promotion_last_5years', palette=['skyblue', 'salmon'])
plt.xlabel('Não demitidos/demitidos')
plt.ylabel('Quantidade')
plt.title('funcionários retidos e demitidos/promoções na empresa nos últimos 5 anos') 
plt.legend(title='Status', fontsize=10,  edgecolor='k')
plt.show()


In [None]:
%%html
<marquee style='width: 100%; color:  Red;'><b> Bons Estudos!</b></marquee>