# Exploring the data

### Indíce
1. [Introdução](#introducao)
2. [Importando as dependências](#importando-as-dependências)
3. [Importando os datasets](#importando-os-datasets)
4. [Ativos e demitidos](#ativos-e-demitidos)
5. [Movimentações](#movimentações)
6. [Certificações](#certificações)
7. [Entrevistas](#entrevistas)

### Introdução

Estamos lidando com 4 datasets diferentes:

- **SRA Ativo e Demitidos**: Tabela com a lista de funcionários ativos e desligados
- **Movimentações**: listando as promoções das pessoas ao longo do período
- **Certificações**: tabela com a adição de novas certificações ao perfil dos funcionários conforme vão as adquirindo
- **Entrevistas**: tabela com dados das entrevistas demessionais conduzidas com funcionários que pedem para ser desligados da companhia

Abaixo iremos explorar melhor o que compõe cada dataset.

### Importando as dependências

In [1]:
import pandas as pd
import numpy as np

### Importando os datasets

In [3]:
sra = pd.read_excel("../data/SRA Ativo e Demitidos envio.xlsx")
movimentacoes = pd.read_excel("../data/Movimentações.xlsx")
certificacoes = pd.read_excel("../data/Certificacoes.xlsx")
entrevistas = pd.read_excel("../data/Entrevistas.xlsx")

### Ativos e Demitidos

Qual o aspecto geral do `DataFrame`?

In [20]:
sra.head()

Unnamed: 0,FILIAL,DESC.FIL,MATRICULA,CENTRO DE CUSTO,FUNCAO,ADMISSAO,DEMISSAO,IDADE,SEXO,EST.CIVIL,...,SIT. FOLHA,SALARIO,ESTADO,DIRETOR,HOME,TIPO DEMISSÃO,TIPO_RES,DESCR_RECISAO,COD_TO,MOTIVO TO
0,5,CANDELARIA II,168186,1001230253,921,2011-11-07,2022-01-07 00:00:00,53,M,SOLTEIRO(A),...,D,4237.57,RJ,CLOUD PORTIFOLIO,FULL,PROVOCADO,3.0,DISPENSA SEM JUSTA CAUSA (API),,
1,5,CANDELARIA II,236946,1061532281,201,2014-02-05,2022-01-07 00:00:00,38,M,SOLTEIRO(A),...,D,5598.72,RJ,CLOUD PORTIFOLIO,FULL,VOLUNTARIO,5.0,PEDIDO DE DEMISSAO,,
2,5,CANDELARIA II,265449,1001230220,604,2011-05-02,2022-01-03 00:00:00,35,M,CASADO(A),...,D,15623.47,RJ,CLIENTE E SALES,FULL,VOLUNTARIO,5.0,PEDIDO DE DEMISSAO,,
3,5,CANDELARIA II,280823,1001230129,111,2015-09-08,2022-01-06 00:00:00,33,F,SOLTEIRO(A),...,D,1407.25,RJ,CLOUD PORTIFOLIO,FULL,PROVOCADO,3.0,DISPENSA SEM JUSTA CAUSA (API),,
4,5,CANDELARIA II,294487,1001230259,919,2016-10-03,2022-01-04 00:00:00,35,M,CASADO(A),...,D,1679.49,RJ,CLOUD PORTIFOLIO,FULL,VOLUNTARIO,6.0,PEDIDO DE DEMISSAO C/ DESC AVP,,


**Existem dados nulos? Quantos são?**

Sim, nas colunas `SIT. FOLHA`, `TIPO DEMISSÃO`, `TIPO_RES`, `DESCR_RECISAO`, `COD_TO` e `MOTIVO TO`.

In [4]:
sra = sra.replace("-", np.nan)
sra.isnull().sum()

FILIAL                0
DESC.FIL              0
MATRICULA             0
CENTRO DE CUSTO       0
FUNCAO                0
ADMISSAO              0
DEMISSAO              0
IDADE                 0
SEXO                  0
EST.CIVIL             0
RACA/COR              0
SIT. FOLHA         3244
SALARIO               0
ESTADO                0
DIRETOR               0
HOME                  0
TIPO DEMISSÃO      4046
TIPO_RES           4046
DESCR_RECISAO      4046
COD_TO             6019
MOTIVO TO          6019
dtype: int64

**Quais as colunas, tipos e outras informações básicas?**

Temos 6020 entradas no total

In [27]:
sra.describe()

Unnamed: 0,FILIAL,CENTRO DE CUSTO,IDADE,SALARIO,TIPO_RES,COD_TO
count,6020.0,6020.0,6020.0,6020.0,1974.0,1.0
mean,24.306478,1075587000.0,37.043023,6980.29838,7.621074,28.0
std,19.097156,358600900.0,10.239318,6503.90272,9.297869,
min,1.0,1001101000.0,15.0,569.36,1.0,28.0
25%,9.0,1001225000.0,29.0,2289.0175,3.0,28.0
50%,19.0,1001230000.0,36.0,4434.315,5.0,28.0
75%,27.0,1001231000.0,43.0,10000.0,6.0,28.0
max,71.0,3007010000.0,74.0,93186.15,42.0,28.0


In [4]:
print(f"O DataFrame tem {len(sra.columns)} colunas.\n")

for column in sra.columns:
    print(
        f"A coluna {column} tem o tipo {'string' if sra[column].dtype == 'object' else sra[column].dtype}.")

O DataFrame tem 21 colunas.

A coluna FILIAL tem o tipo int64.
A coluna DESC.FIL tem o tipo string.
A coluna MATRICULA tem o tipo string.
A coluna CENTRO DE CUSTO tem o tipo int64.
A coluna FUNCAO tem o tipo string.
A coluna ADMISSAO tem o tipo datetime64[ns].
A coluna DEMISSAO tem o tipo string.
A coluna IDADE tem o tipo int64.
A coluna SEXO tem o tipo string.
A coluna EST.CIVIL tem o tipo string.
A coluna RACA/COR tem o tipo string.
A coluna SIT. FOLHA tem o tipo string.
A coluna SALARIO tem o tipo float64.
A coluna ESTADO tem o tipo string.
A coluna DIRETOR tem o tipo string.
A coluna HOME tem o tipo string.
A coluna TIPO DEMISSÃO tem o tipo string.
A coluna TIPO_RES tem o tipo float64.
A coluna DESCR_RECISAO tem o tipo string.
A coluna COD_TO tem o tipo float64.
A coluna MOTIVO TO tem o tipo string.


### Movimentações

Qual o aspecto geral do `DataFrame`?

In [5]:
movimentacoes.head()

Unnamed: 0,MATRICULA,DATA ALTERACAO,TIPO ALTERACAO,DESC_TP_ALTERACAO,FUNCAO ANTERIOR,SALARIO ANTERIOR,FUNCAO_ATUAL,SALARIO_ATUAL
0,189,2021-03-02,2,PROMOCAO,377,19269.01,1479,26172.4
1,835,2020-09-02,2,PROMOCAO,12,8046.47,466,10782.38
2,2472,2022-02-02,6,MERITO,874,13124.18,874,15214.86
3,2826,2021-01-01,2,PROMOCAO,726,35541.79,1458,52832.4
4,2826,2021-03-02,6,MERITO,357,35541.79,1458,52832.4


**Existem dados nulos? Quantos são?**

Neste dataset não.

In [6]:
movimentacoes = movimentacoes.replace("-", np.nan)
movimentacoes.isnull().sum()

MATRICULA            0
DATA ALTERACAO       0
TIPO ALTERACAO       0
DESC_TP_ALTERACAO    0
FUNCAO ANTERIOR      0
SALARIO ANTERIOR     0
FUNCAO_ATUAL         0
SALARIO_ATUAL        0
dtype: int64

**Quais as colunas, tipos e outras informações básicas?**

Temos 3035 entradas no total

In [7]:
movimentacoes.describe()

Unnamed: 0,TIPO ALTERACAO,SALARIO ANTERIOR,SALARIO_ATUAL
count,3035.0,3035.0,3035.0
mean,72.951895,6232.094336,8738.910685
std,51.978702,6648.756714,8432.069138
min,2.0,454.29,1359.65
25%,6.0,2156.26,3397.09
50%,112.0,4138.65,6420.87
75%,112.0,8414.735,11649.44
max,113.0,141924.71,178416.14


In [8]:
print(f"O DataFrame tem {len(movimentacoes.columns)} colunas.\n")

for column in movimentacoes.columns:
    print(
        f"A coluna {column} tem o tipo {'string' if movimentacoes[column].dtype == 'object' else movimentacoes[column].dtype}.")

O DataFrame tem 8 colunas.

A coluna MATRICULA tem o tipo string.
A coluna DATA ALTERACAO tem o tipo datetime64[ns].
A coluna TIPO ALTERACAO tem o tipo int64.
A coluna DESC_TP_ALTERACAO tem o tipo string.
A coluna FUNCAO ANTERIOR tem o tipo string.
A coluna SALARIO ANTERIOR tem o tipo float64.
A coluna FUNCAO_ATUAL tem o tipo string.
A coluna SALARIO_ATUAL tem o tipo float64.


### Certificações

Qual o aspecto geral do `DataFrame`?

In [9]:
certificacoes.head()

Unnamed: 0,MATRICULA,NOME CERTIFICAÇÃO,NOME INSTITUIÇAO,EMISSÃO,VALIDADE
0,296144,SIX SIGMA YELLOW BELT PROFESSIONAL,6 SIGMA STUDY,02/12/2019,-
1,307812,SIX SIGMA YELLOW BELT PROFESSIONAL,6 SIGMA STUDY,06/06/2020,-
2,290835,SIX SIGMA YELLOW BELT PROFESSIONAL,6 SIGMA STUDY,03/06/2020,-
3,306464,SIX SIGMA YELLOW BELT PROFESSIONAL,6 SIGMA STUDY,05/03/2019,-
4,309321,PROFESSIONAL OKR COACH CERTIFIED - POCC,AGILE INSTITUTE BRAZIL,14/11/2021,-


**Existem dados nulos? Quantos são?**

Sim, na coluna `VALIDADE` temos 1302 dados nulos. Provavelmente porque os certificados não espiram nesses casos.

In [10]:
certificacoes = certificacoes.replace("-", np.nan)
certificacoes.isnull().sum()

MATRICULA               0
NOME CERTIFICAÇÃO       0
NOME INSTITUIÇAO        0
EMISSÃO                 0
VALIDADE             1302
dtype: int64

**Quais as colunas, tipos e outras informações básicas?**

Temos 2572 entradas no total.

In [12]:
certificacoes.describe()

Unnamed: 0,MATRICULA,NOME CERTIFICAÇÃO,NOME INSTITUIÇAO,EMISSÃO,VALIDADE
count,2572,2572,2572,2572,1270
unique,708,579,97,1145,482
top,291157,ORACLE CLOUD INFRASTRUCTURE 2023 CERTIFIED FOU...,MICROSOFT,08/08/2023,08/08/2025
freq,27,305,621,45,35


In [13]:
print(f"O DataFrame tem {len(certificacoes.columns)} colunas.\n")

for column in certificacoes.columns:
    print(
        f"A coluna {column} tem o tipo {'string' if certificacoes[column].dtype == 'object' else certificacoes[column].dtype}.")

O DataFrame tem 5 colunas.

A coluna MATRICULA tem o tipo string.
A coluna NOME CERTIFICAÇÃO tem o tipo string.
A coluna NOME INSTITUIÇAO tem o tipo string.
A coluna EMISSÃO tem o tipo string.
A coluna VALIDADE tem o tipo string.


### Entrevistas

Qual o aspecto geral do `DataFrame`?

In [14]:
entrevistas.head()

Unnamed: 0,MATRÍCULA,MAPA \nTOP TALENT,DISCIPLINA,SALÁRIO ATUAL,PARA QUAL EMPRESA FOI?,CARREIRA,DESENVOLVIMENTO PROFISSIONAL,REMUNERAÇÃO,BENEFÍCIOS,CLIMA,CULTURA,BEM ESTAR,OUTROS
0,E12394,NÃO,,2900.0,BANCO PAN,NÃO,SIM,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO
1,310791,NÃO,,9500.0,GLOBAL WEB,NÃO,NÃO,NÃO,NÃO,SIM,NÃO,NÃO,NÃO
2,308968,NÃO,BANCO DE DADOS,15887.19,SERASA,SIM,SIM,NÃO,SIM,NÃO,NÃO,NÃO,NÃO
3,308236,NÃO,UNIX,0.0,ZADARA,SIM,SIM,NÃO,NÃO,NÃO,NÃO,NÃO,NÃO
4,297837,NÃO,WINDOWS,8000.0,CIELO,NÃO,NÃO,NÃO,NÃO,SIM,NÃO,SIM,NÃO


**Existem dados nulos? Quantos são?**

Sim, nas colunas `DISCIPLINA` e `PARA QUAL EMPRESA FOI?`.

In [15]:
entrevistas = entrevistas.replace("-", np.nan)
entrevistas.isnull().sum()

MATRÍCULA                         0
MAPA \nTOP TALENT                 0
DISCIPLINA                      819
SALÁRIO ATUAL                     0
PARA QUAL EMPRESA FOI?          817
CARREIRA                          0
DESENVOLVIMENTO PROFISSIONAL      0
REMUNERAÇÃO                       0
BENEFÍCIOS                        0
CLIMA                             0
CULTURA                           0
BEM ESTAR                         0
OUTROS                            0
dtype: int64

**Quais as colunas, tipos e outras informações básicas?**

Temos 922 entradas no total

In [18]:
entrevistas.describe()

Unnamed: 0,SALÁRIO ATUAL
count,922.0
mean,721.400751
std,2830.666124
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,26000.0


In [19]:
print(f"O DataFrame tem {len(entrevistas.columns)} colunas.\n")

for column in entrevistas.columns:
    print(
        f"A coluna {column} tem o tipo {'string' if entrevistas[column].dtype == 'object' else entrevistas[column].dtype}.")

O DataFrame tem 13 colunas.

A coluna MATRÍCULA tem o tipo string.
A coluna MAPA 
TOP TALENT tem o tipo string.
A coluna DISCIPLINA tem o tipo string.
A coluna SALÁRIO ATUAL tem o tipo float64.
A coluna PARA QUAL EMPRESA FOI? tem o tipo string.
A coluna CARREIRA tem o tipo string.
A coluna DESENVOLVIMENTO PROFISSIONAL tem o tipo string.
A coluna REMUNERAÇÃO tem o tipo string.
A coluna BENEFÍCIOS tem o tipo string.
A coluna CLIMA tem o tipo string.
A coluna CULTURA tem o tipo string.
A coluna BEM ESTAR tem o tipo string.
A coluna OUTROS tem o tipo string.
