<h1> Processo ETL para o dataset 'base_de_dados' <h1>

<h2> Base de dados Corp Solutions </h2>

O dataset denominado **base_de_dados** possui um total de 10.000 registros distribuídos em 12 colunas (id, id.1, Nome, Genero, Idade, Raça, Endereço, Formação, Estado, Tempo de casa, Departamento, Senioridade). Ele está no formato CSVe vai servir como base para toda nossa analíse.

<h3> Import das bibliotecas </h3>

Para o projeto vamos utilizar 4 Bibliotecas do _Python_.

O **Pandas** é uma biblioteca de análise de dados em _Python_ que fornece estruturas de dados de alto desempenho e ferramentas de manipulação de dados.

O **Matplotlib** é uma biblioteca de visualização de dados em _Python_ que permite criar uma ampla variedade de gráficos e visualizações de alta qualidade. 

O **Seaborn** é uma biblioteca de visualização de dados em _Python_ que se baseia no Matplotlib e oferece uma interface de alto nível para criar gráficos estatísticos atraentes e informativos. 

O **Plotly** é uma biblioteca de visualização interativa em _Python_ que permite criar visualizações interativas e dinâmicas, como gráficos de linhas interativos, gráficos de barras, gráficos de dispersão e mapas de calor. 

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

<h2>Extração, Transformação e Carregamento(ETL) dos Dados</h2>

O processo de ETL é fundamental na gestão e análise de dados. Ele compreende três etapas principais:

1. <b>Extração</b>: Nesta etapa, os dados são coletados de suas fontes de origem, que podem incluir bancos de dados, arquivos, APIs ou outras fontes de dados. A extração envolve acessar e capturar os dados brutos de suas fontes e transferi-los para um ambiente de armazenamento centralizado.

2. <b>Transformação</b>: Após a extração, os dados brutos passam por processos de transformação para prepará-los para análise. Isso pode incluir limpeza de dados, padronização de formatos, remoção de duplicatas, correção de erros e agregação de informações. A transformação visa garantir que os dados estejam consistentes, precisos e prontos para serem utilizados nas análises.

3. <b>Carregamento</b>: Por fim, os dados transformados são carregados em um destino final, como um data warehouse, um banco de dados ou uma ferramenta de análise. Nesta etapa, os dados são organizados e estruturados de forma adequada para facilitar o acesso e a consulta posterior. O carregamento pode ser realizado de forma incremental, adicionando novos dados aos já existentes, ou de forma completa, substituindo os dados antigos pelos novos.


<h3>Extração dos dados</h3>

Para fazer a leitura do arquivo vamos usar a função built in do Pandas, **read_csv**, que permite carregar dados de um arquivo CSV para um DataFrame em Python, facilitando a manipulação e análise dos dados. 

In [5]:
df = pd.read_csv('../Data_Base/base_dados_encoding.csv')

<h3> Vizualização inicial da tabela </h3>

Segue a primeira visualização do dataset dos funcionários da Corp Solutions.

In [6]:
df

Unnamed: 0,id,id.1,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
0,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
1,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
2,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
3,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\nSmithborough, NV 0...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
4,5,5,Fagner Josiel dos Santos,Masc,21.0,pardo,"8666 Ramos Ports Apt. 070\nSandraport, MN 33570",Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9996,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\nJohnsonshire, GU 8...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9997,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9998,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior


<h3> Verificação de inconsistências nos valores das colunas </h3>

<h4>Valores Nulos</h4>

Vamos verificar a se há dados nulos, se sim em quais colunas e a quantidade para fazer o tratamento deste tipo de erro. Vamos usar a função **isna** para ter acesso a a todos os dados nulos em nosso dataset, e a função **sum** para somar todos os valores.

In [7]:
df.isna().sum()

id                 0
id.1               0
Nome               0
Genero             0
Idade             56
Raça               0
Endereço           0
Formação          44
Estado             0
Tempo de casa    200
Departamento       0
Senioridade        0
dtype: int64

<h4>Valores Duplicados</h4>

Assim como os dados nulos identificar dados duplicados fazem toda a diferença quando se trata do processo de ETL, para fazer a contagem dos valores duplicados vamos usar a função **duplicated** em conjunto com a função **sum** para agregar os valores duplicados.

In [8]:
df.duplicated().sum()

0

<h4>Verificação de Valores Únicos</h4>


A função info no Pandas fornece um resumo conciso das informações sobre um DataFrame, incluindo o número de entradas não nulas em cada coluna, os tipos de dados das colunas e a quantidade de memória usada pelo DataFrame.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             10000 non-null  int64  
 1   id.1           10000 non-null  int64  
 2   Nome           10000 non-null  object 
 3   Genero         10000 non-null  object 
 4   Idade          9944 non-null   float64
 5   Raça           10000 non-null  object 
 6   Endereço       10000 non-null  object 
 7   Formação       9956 non-null   object 
 8   Estado         10000 non-null  object 
 9   Tempo de casa  9800 non-null   float64
 10  Departamento   10000 non-null  object 
 11  Senioridade    10000 non-null  object 
dtypes: float64(2), int64(2), object(8)
memory usage: 937.6+ KB



<h4>Identificando todos os registros únicos</h4>

Vamos usar as funções **sorted** e **unique** para determinar os valores únicos nas colunas Idade, Genero, Raça, Formação, Estado, Departamento, Senioridade e Tempo de casa para tentar identificar algum outlier.

In [10]:
sorted(df['Idade'].unique(), reverse=False)

[5.0,
 6.0,
 8.0,
 9.0,
 10.0,
 11.0,
 12.0,
 13.0,
 14.0,
 15.0,
 16.0,
 17.0,
 18.0,
 19.0,
 20.0,
 21.0,
 22.0,
 23.0,
 24.0,
 25.0,
 26.0,
 27.0,
 28.0,
 29.0,
 30.0,
 31.0,
 32.0,
 33.0,
 34.0,
 35.0,
 36.0,
 37.0,
 38.0,
 39.0,
 40.0,
 41.0,
 42.0,
 43.0,
 44.0,
 45.0,
 46.0,
 47.0,
 48.0,
 49.0,
 50.0,
 51.0,
 52.0,
 53.0,
 54.0,
 55.0,
 56.0,
 nan,
 57.0,
 58.0,
 60.0,
 61.0,
 62.0,
 63.0,
 64.0,
 65.0,
 68.0,
 74.0]

In [11]:
df['Genero'].unique()

array(['Fem', 'Masc'], dtype=object)

In [12]:
df['Raça'].unique()

array(['pardo', 'preto', 'branco', 'indígena', 'amarelo'], dtype=object)

In [13]:
df['Formação'].unique()

array(['Ensino Médio', 'Ensino Superior', 'Pós graduação', 'Mestrado',
       'Doutorado', nan], dtype=object)

In [14]:
df['Estado'].unique()

array(['Santa Catarina', 'Pará', 'Tocantins', 'Ceará', 'São Paulo',
       'Rondônia', 'Amapá', 'Minas Gerais', 'Acre', 'Roraima', 'Amazonas',
       'Paraná', 'Bahia', 'Piauí', 'Goiás', 'Rio de Janeiro',
       'Rio Grande do Norte', 'Pernambuco', 'Mato Grosso',
       'Rio Grande do Sul', 'Espírito Santo', 'Maranhão', 'Paraíba',
       'Distrito Federal', 'Mato Grosso do Sul', 'Sergipe', 'Alagoas'],
      dtype=object)

In [15]:
df['Departamento'].unique()

array(['Compras', 'Contabilidade', 'Vendas', 'Administrativo',
       'Recursos Humanos', 'Operações', 'Desenvolvimento de Produtos',
       'Marketing', 'TI'], dtype=object)

In [16]:
df['Senioridade'].unique()

array(['Analista Pleno', 'Analista Júnior', 'Gerente', 'Analista Sênior',
       'Estagiário', 'Diretor', 'gerente'], dtype=object)

In [17]:
sorted(df['Tempo de casa'].unique(), reverse=False)

[-6.0,
 -5.0,
 -3.0,
 -2.0,
 -1.0,
 0.0,
 1.0,
 2.0,
 3.0,
 4.0,
 5.0,
 6.0,
 7.0,
 8.0,
 9.0,
 11.0,
 12.0,
 nan,
 10.0,
 13.0,
 14.0,
 15.0,
 16.0,
 17.0]

<h4>Foram encotrado valores negativos na coluna 'Tempo de casa', onde só deve ser aceito valores positivos, assim como pessoas com idade menores de 14 anos trabalhando na empresa, dentre outras incosistências. Desta forma teremos que localizar todos os dados incorretos e trata-lós para evitar outliers. </h4>

<h3> Processo de transformação dos dados<h3>

<h4>Remoção de linhas de outliers da coluna "Idade"</h4>

Conforme foi dito anteriormente, na coluna Idade temos um outlier que são pessoas trabalhando na empresa com idade menor que 14 anos. Usando a função _drop_ vamos a principio excluir todos os registros com a idade menor que 14.

In [18]:
df_filtrado = df.drop(df[df['Idade'] < 14].index)
df_filtrado

print(f'Número de funcionário que apresentam idades atuais menores que 14 é igual a : {len(df) - len(df_filtrado)}')


Número de funcionário que apresentam idades atuais menores que 14 é igual a : 23


<h4>Remoção de linhas com a coluna "Tempo de casa" negativo</h4>

Outro outlier que foi identificado foi na coluna Tempo de casa ter valores negativos, usaremos novamente a função _drop_ para remover esses registros.

In [19]:
df_filtrado2 = df_filtrado.drop(df_filtrado[df_filtrado['Tempo de casa'] < 0].index)
print(f'O número de funcionários que apresentam tempo de casa menor que 0(ano) é: {len(df_filtrado) - len(df_filtrado2)}')

O número de funcionários que apresentam tempo de casa menor que 0(ano) é: 98


In [20]:
df_filtrado2['Tempo de casa'].unique()

array([12.,  6.,  5.,  4.,  3.,  9.,  8.,  1.,  0.,  7., nan,  2., 10.,
       11., 14., 13., 15., 17., 16.])

<h4>Remoção Coluna Id duplicada e endereço</h4>

Decidimos excluir 3 colunas em nosso projeto, a coluna de Endereço não vamos utilizar, a coluna id.1 está duplicada e a coluna de nome devido a <a href="https://www.gov.br/mds/pt-br/acesso-a-informacao/privacidade-e-protecao-de-dados/lgpd">LGPD</a>

In [21]:
df_filtrado2 = df_filtrado2.drop(columns=['id.1'])

In [22]:
df_filtrado2 = df_filtrado2.drop(columns=['Endereço'])

In [23]:
df_filtrado2 = df_filtrado2.drop(columns=['Nome'])

<h4>Padronização da palavra 'Gerente'</h4>

De todos os itens na coluna Senioridade, a palvras "Gerente" era a única com a primeira letra minuscula, foi feita a alteração usando a função _loc_.

In [24]:
df_filtrado2.loc[df_filtrado2['Senioridade'] == 'gerente', 'Senioridade'] = 'Gerente'

In [25]:
df_filtrado2['Senioridade'].unique()

array(['Analista Pleno', 'Analista Júnior', 'Gerente', 'Analista Sênior',
       'Estagiário', 'Diretor'], dtype=object)

<h4>Conversão de tipo de dados</h4>

Foi identificado que os valores das Colunas Idade e Tempo de casa estão no formato float, e precisamos converter estes valores para inteiro para não prejudicar na analise dos dados.

In [26]:
# Primeiro deve atribuir um valor aos dados nulos, para depois fazer a conversão, neste caso adicionamos o valor 0 aos valores nulos.
df_filtrado2['Idade'] = df_filtrado2['Idade'].fillna(0)
df_filtrado2['Idade'] = df_filtrado2['Idade'].astype(int)

<h4>Verificação de possibilidades para 14 >= e Idade >= 18 </h4>

Na legislação trabalhista do Brasil, é permitido que uma pessoa comece a trabalhar com 14 anos como menor aprendiz, fizemos essa verificação tentando localizar algum registro que se enquadre nesta condição.

In [27]:
idade_df = df_filtrado2[df_filtrado2['Idade'] < 18]

In [28]:
idade_df = idade_df.drop(idade_df[idade_df['Idade'] <= 14].index)

In [29]:
idade_df = idade_df[idade_df['Senioridade'] == 'Estagiário']

In [30]:
idade_df

Unnamed: 0,id,Genero,Idade,Raça,Formação,Estado,Tempo de casa,Departamento,Senioridade
2807,2808,Masc,15,branco,,Mato Grosso,3.0,Administrativo,Estagiário
5285,5286,Masc,17,branco,,Santa Catarina,12.0,Contabilidade,Estagiário
6599,6600,Fem,15,indígena,Ensino Superior,Ceará,5.0,Recursos Humanos,Estagiário
8281,8282,Masc,15,branco,,Ceará,9.0,Recursos Humanos,Estagiário
9183,9184,Masc,16,branco,,Distrito Federal,10.0,Desenvolvimento de Produtos,Estagiário


<h4> Infelizmente todos os registros com a idade entre 14 e 18 anos apresentam inconsistência ou na Senioridade ou no Tempo de Casa, desta forma resolvemos deletar esses registros<h4>

In [31]:
idade_df = idade_df.drop(idade_df[idade_df['Idade'] < 18].index)

<h4>Criação da coluna "Idade Ingresso"</h4>

Resolvemos adicionar uma nova coluna no dataset com a informação de quanto tempo que o funcionário trabalha na Corp Solutions, conseguimos extrair esse dado fazendo a subtração entre a idade da pessoa e o Tempo de Casa.

In [32]:
df_filtrado2['Idade Ingresso'] = df_filtrado2['Idade'] - df_filtrado2['Tempo de casa']

<h4>Gráficos para verificação de mediana do Tempo de casa</h4>

In [33]:
fig = px.box(df_filtrado2, y="Tempo de casa", title='Boxplot do tempo de casa')
fig.update_yaxes(title='Tempo de Casa')
fig.show()

<h4>Gráficos para verificação de mediana da Idade</h4>

In [34]:
fig = px.box(df_filtrado2, y="Idade", title='Boxplot do Idade')
fig.update_yaxes(title='Idade')
fig.show()

<h4> Os valores das medianas de Idade e Tempo de casa foram calculados pelo boxplot<h4>
 
 * A mediana do "Tempo de casa" é 5 anos.

 * A mediana da "Idade" é de 30 anos.

In [35]:
#As medianas foram calculadas pelo boxplot 
df_filtrado2.loc[df_filtrado2['Idade Ingresso'] < 14, 'Idade'] = 30
df_filtrado2.loc[df_filtrado2['Idade Ingresso'] < 14, 'Tempo de casa'] = 5


### Recalculando dados em Idade Ingresso

In [36]:
# Excluindo a tabela de Idade Ingresso e refazendo o calculo

In [37]:
df_filtrado2 = df_filtrado2.drop(columns=['Idade Ingresso'])
df_filtrado2['Idade Ingresso'] = df_filtrado2['Idade'] - df_filtrado2['Tempo de casa']

In [38]:
df_teste = df_filtrado2[df_filtrado2['Tempo de casa'] < 0]

In [39]:
df_filtrado2.loc[df_filtrado2['Tempo de casa'] < 0, 'Tempo de casa'] = 5

In [40]:
df_filtrado2[df_filtrado2['Idade Ingresso'] < 14]

Unnamed: 0,id,Genero,Idade,Raça,Formação,Estado,Tempo de casa,Departamento,Senioridade,Idade Ingresso


<h3> Calculando a porcentagem da inconcistência restante </h3>

In [41]:
df_filtrado3 = df_filtrado2.copy()
df_filtrado3['Idade'] = pd.to_numeric(df_filtrado2['Idade'], errors='coerce')

# Filtrar o DataFrame para encontrar as inconsistências nas datas
incData = len(df_filtrado2[(df_filtrado2['Idade'] < 14) |
                (df_filtrado2['Idade'] < 14) |
                (df_filtrado2['Tempo de casa'] < 0) |
                ((df_filtrado2['Idade'] == 14) & (df_filtrado2['Tempo de casa'] > 1)) |
                ((df_filtrado2['Idade'] >= 14) & (df_filtrado2['Idade'] <= 18) & (df_filtrado2['Senioridade'] != 'Estagiário'))
                ])

# Calcular a porcentagem de inconsistências
tmDataSet = len(df)
percInc = incData / tmDataSet

print(f'Dados com inconsistência de datas: {percInc*100}%')

Dados com inconsistência de datas: 1.34%


In [42]:
df_filtrado2

Unnamed: 0,id,Genero,Idade,Raça,Formação,Estado,Tempo de casa,Departamento,Senioridade,Idade Ingresso
0,1,Fem,34,pardo,Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno,22.0
1,2,Fem,26,pardo,Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior,20.0
2,3,Masc,35,pardo,Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno,30.0
3,4,Masc,24,pardo,Ensino Superior,Tocantins,4.0,Administrativo,Gerente,20.0
4,5,Masc,21,pardo,Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior,16.0
...,...,...,...,...,...,...,...,...,...,...
9995,9996,Masc,30,pardo,Ensino Superior,Rondônia,5.0,Contabilidade,Analista Júnior,25.0
9996,9997,Masc,44,pardo,Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior,34.0
9997,9998,Masc,21,branco,Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente,15.0
9998,9999,Masc,39,pardo,Ensino Superior,Paraná,5.0,Vendas,Analista Júnior,34.0


<h4>Deletando os valores nulos para evitar problemas de outliers</h4>

In [43]:
df_filtrado2 = df_filtrado2.dropna()
df_filtrado2

Unnamed: 0,id,Genero,Idade,Raça,Formação,Estado,Tempo de casa,Departamento,Senioridade,Idade Ingresso
0,1,Fem,34,pardo,Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno,22.0
1,2,Fem,26,pardo,Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior,20.0
2,3,Masc,35,pardo,Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno,30.0
3,4,Masc,24,pardo,Ensino Superior,Tocantins,4.0,Administrativo,Gerente,20.0
4,5,Masc,21,pardo,Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior,16.0
...,...,...,...,...,...,...,...,...,...,...
9995,9996,Masc,30,pardo,Ensino Superior,Rondônia,5.0,Contabilidade,Analista Júnior,25.0
9996,9997,Masc,44,pardo,Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior,34.0
9997,9998,Masc,21,branco,Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente,15.0
9998,9999,Masc,39,pardo,Ensino Superior,Paraná,5.0,Vendas,Analista Júnior,34.0


<h4>Convertando os valores das colunas Tempo de casa e Idade Ingresso para inteiro</h4>

In [44]:
df_filtrado2.loc[:,
                 'Tempo de casa'] = df_filtrado2['Tempo de casa'].astype(int)
df_filtrado2.loc[:,
                 'Idade Ingresso'] = df_filtrado2['Idade Ingresso'].astype(int)

df_filtrado2

Unnamed: 0,id,Genero,Idade,Raça,Formação,Estado,Tempo de casa,Departamento,Senioridade,Idade Ingresso
0,1,Fem,34,pardo,Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno,22.0
1,2,Fem,26,pardo,Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior,20.0
2,3,Masc,35,pardo,Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno,30.0
3,4,Masc,24,pardo,Ensino Superior,Tocantins,4.0,Administrativo,Gerente,20.0
4,5,Masc,21,pardo,Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior,16.0
...,...,...,...,...,...,...,...,...,...,...
9995,9996,Masc,30,pardo,Ensino Superior,Rondônia,5.0,Contabilidade,Analista Júnior,25.0
9996,9997,Masc,44,pardo,Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior,34.0
9997,9998,Masc,21,branco,Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente,15.0
9998,9999,Masc,39,pardo,Ensino Superior,Paraná,5.0,Vendas,Analista Júnior,34.0


<h3>Salvando os dados depois de todo o processo de ETL para serem tratados em outros processo de analise no formato <i>CSV</i>. </h3>

In [45]:
df_filtrado2.to_csv("dados_filtrados.csv", index=False)