###Proposta do AdaHack

A Corp Solutions, uma empresa líder no mercado de tecnologia para recursos humanos, recentemente recebeu um aporte milionário de uma grande corporação dos Estados Unidos. Como parte de seu compromisso em se tornar uma referência no mercado e em promover um ambiente de trabalho diverso e inclusivo, a Corp Solutions identificou a necessidade de aumentar a diversidade dentro de sua própria equipe.

* Identificar oportunidades de aumentar a diversidade na Corp Solutions. Desenvolver soluções criativas, aplicáveis e inovadoras para promover a inclusão e equidade no ambiente de trabalho. Contribuir para a construção de uma cultura organizacional diversa, inclusiva e sustentável.

In [19]:
#Importando as bibliotecas
import pandas as pd
import numpy as np

#Banco de dados
from sqlalchemy import create_engine
from sqlalchemy.exc import SQLAlchemyError

# Visualização
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots

In [20]:
df = pd.read_csv('base_de_dados.csv')

In [21]:
df.head(5)

Unnamed: 0,id,id.1,Nome,Genero,Idade,RaÃ§a,EndereÃ§o,FormaÃ§Ã£o,Estado,Tempo de casa,Departamento,Senioridade
0,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\nSellersside, FL 21337",Ensino MÃ©dio,Santa Catarina,12.0,Compras,Analista Pleno
1,2,2,ElisÃ¢ngela Gabrielle de OsÃ³rio,Fem,26.0,pardo,"941 Martin Manor\nLake Isaiahtown, FM 43797",Ensino MÃ©dio,ParÃ¡,6.0,Contabilidade,Analista JÃºnior
2,3,3,JosÃ© TÃºlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\nMejiaville, LA 17095",Ensino MÃ©dio,Santa Catarina,5.0,Vendas,Analista Pleno
3,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\nSmithborough, NV 0...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
4,5,5,Fagner Josiel dos Santos,Masc,21.0,pardo,"8666 Ramos Ports Apt. 070\nSandraport, MN 33570",Ensino Superior,CearÃ¡,5.0,Recursos Humanos,Analista JÃºnior


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             10000 non-null  int64  
 1   id.1           10000 non-null  int64  
 2   Nome           10000 non-null  object 
 3   Genero         10000 non-null  object 
 4   Idade          9944 non-null   float64
 5   RaÃ§a          10000 non-null  object 
 6   EndereÃ§o      10000 non-null  object 
 7   FormaÃ§Ã£o     9956 non-null   object 
 8   Estado         10000 non-null  object 
 9   Tempo de casa  9800 non-null   float64
 10  Departamento   10000 non-null  object 
 11  Senioridade    10000 non-null  object 
dtypes: float64(2), int64(2), object(8)
memory usage: 937.6+ KB


In [23]:
#Verificando duplicadas
df.duplicated().sum()

0

In [24]:
#Verificando se a nulos
df.isnull().sum()

id                 0
id.1               0
Nome               0
Genero             0
Idade             56
RaÃ§a              0
EndereÃ§o          0
FormaÃ§Ã£o        44
Estado             0
Tempo de casa    200
Departamento       0
Senioridade        0
dtype: int64

Nesse dataset original temos 12 colunas e 10000 linhas, entretanto pudemos identificar que os dados não estão tratados, possuindo caracteres quebrados e dados com valores ausentes. Diante disso vamos realizar o tratamento dos dados para uma análise mais exploratória.

Inicialmente começamos conectando ao banco de dados do Postgres e vamos criar um dataframe dos dados salvos na tabela.

In [25]:
# conectar postgres DB
try:
    # Criar a string de conexão usando SQLAlchemy
    db_string = "postgresql://postgres:adahack2024@db-adahack.cfevcennalmb.us-east-1.rds.amazonaws.com:5432/postgres"
    # Criar engine SQLAlchemy
    engine = create_engine(db_string)
except:
    print("Connection failed")

Criamos o banco de dados para armazenar os dados tratados, buscando facilitar a análise e elaboração de gráficos do mesmo

In [26]:
def decode_text(text):
    '''Tratando caracteres mal interpretados'''

    if isinstance(text, str):
        latin1_bytes = text.encode('latin-1', errors='ignore')
        corrected_text = latin1_bytes.decode('utf-8', errors='ignore')
        return corrected_text
    else:
        return text

df = pd.read_csv('base_de_dados.csv', encoding='utf-8', header=None).applymap(decode_text)

print(df)


          0      1                                        2       3      4   \
0         id     id                                     Nome  Genero  Idade   
1          1      1  Eleonora Arilda Penedo Gomes de Padilha     Fem   34.0   
2          2      2           Elisângela Gabrielle de Osório     Fem   26.0   
3          3      3                     José Túlio de Cabral    Masc   35.0   
4          4      4      Ezequiel Edivaldo de Medeiros Sonao    Masc   24.0   
...      ...    ...                                      ...     ...    ...   
9996    9996   9996                       Omar Camilo da Paz    Masc   21.0   
9997    9997   9997                Edu de Muniz Jinuyul Neto    Masc   44.0   
9998    9998   9998                  Benedito Robert Dlievic    Masc   21.0   
9999    9999   9999                   Bento Osvaldo do Piauí    Masc   39.0   
10000  10000  10000           Augusto José do Rio de Tavares    Masc   35.0   

           5                                       

In [27]:
# Corrigindo os cabeçalhos
df.columns = df.iloc[0]
df = df[1:]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


In [29]:
#Substituindo valores nulos
df.dropna(subset=['Idade','Formação','Tempo de casa'],inplace= True)
df

Unnamed: 0,id,id.1,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
2,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
3,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\nSmithborough, NV 0...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
5,5,5,Fagner Josiel dos Santos,Masc,21.0,pardo,"8666 Ramos Ports Apt. 070\nSandraport, MN 33570",Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior
...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9997,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\nJohnsonshire, GU 8...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9998,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9999,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior


In [30]:
# Corrigindo dados das colunas


df['Tempo de casa'] = df['Tempo de casa'].astype(float).astype(int)
df.loc[df['Tempo de casa'] < 0, 'Tempo de casa'] = -1

df['Idade'] = df['Idade'].astype(float).astype(int)

df['Endereço'] = df['Endereço'].str.replace('\n', ' ')

df['Genero'] = df['Genero'].replace({'Fem': 'F', 'Masc': 'M'})

lista_de_estados = {
                    'Acre':'AC',
                    'Alagoas':'AL',
                    'Amapá':'AP',
                    'Amazonas':'AM',
                    'Bahia':'BA',
                    'Ceará':'CE',
                    'Distrito Federal':'DF',
                    'Espírito Santo':'ES',
                    'Goiás':'GO',
                    'Maranhão':'MA',
                    'Mato Grosso':'MT',
                    'Mato Grosso do Sul':'MS',
                    'Minas Gerais':'MG',
                    'Pará':'PA',
                    'Paraíba':'PB',
                    'Paraná':'PR',
                    'Pernambuco':'PE',
                    'Piauí':'PI',
                    'Rio de Janeiro':'RJ',
                    'Rio Grande do Norte':'RN',
                    'Rio Grande do Sul':'RS',
                    'Rondônia':'RO',
                    'Roraima':'RR',
                    'Santa Catarina':'SC',
                    'São Paulo':'SP',
                    'Sergipe':'SE',
                    'Tocantins':'TO'}

df['Estado_UF'] = df['Estado'].replace(lista_de_estados)


In [31]:
# Padronizando cabeçalhos
df.rename(columns={'Raça': 'Raca', 'Endereço': 'Endereco', 'Formação': 'Formacao', 'Tempo de casa': 'Tempo_de_casa'}, inplace=True)

In [32]:
# Retirando coluna repetida
df.drop(['id'], axis=1, inplace=True)

In [33]:
nome_tabela = "colaboradores"
# Salvar o DataFrame no banco de dados usando o engine SQLAlchemy
try:
    df.to_sql(nome_tabela, engine, index=False, if_exists='replace')
    print("Dados salvos com sucesso na tabela", nome_tabela)
except Exception as e:
    print("Erro ao salvar os dados na tabela:", e)

Dados salvos com sucesso na tabela colaboradores


In [34]:
# criar um dataframe a partir dos dados salvos na tabela colaboradores
colaboradores_db = "SELECT * FROM public.colaboradores"
df_db = pd.read_sql(colaboradores_db, db_string)
df_db

Unnamed: 0,Nome,Genero,Idade,Raca,Endereco,Formacao,Estado,Tempo_de_casa,Departamento,Senioridade,Estado_UF
0,Eleonora Arilda Penedo Gomes de Padilha,F,34,pardo,"9155 Harold Oval Sellersside, FL 21337",Ensino Médio,Santa Catarina,12,Compras,Analista Pleno,SC
1,Elisângela Gabrielle de Osório,F,26,pardo,"941 Martin Manor Lake Isaiahtown, FM 43797",Ensino Médio,Pará,6,Contabilidade,Analista Júnior,PA
2,José Túlio de Cabral,M,35,pardo,"110 Davis Ridges Mejiaville, LA 17095",Ensino Médio,Santa Catarina,5,Vendas,Analista Pleno,SC
3,Ezequiel Edivaldo de Medeiros Sonao,M,24,pardo,"48010 Wilson Glen Apt. 749 Smithborough, NV 00864",Ensino Superior,Tocantins,4,Administrativo,Gerente,TO
4,Fagner Josiel dos Santos,M,21,pardo,"8666 Ramos Ports Apt. 070 Sandraport, MN 33570",Ensino Superior,Ceará,5,Recursos Humanos,Analista Júnior,CE
...,...,...,...,...,...,...,...,...,...,...,...
9696,Omar Camilo da Paz,M,21,pardo,"47323 Casey Junction Jaimefort, UT 49158",Ensino Superior,Rondônia,9,Contabilidade,Analista Júnior,RO
9697,Edu de Muniz Jinuyul Neto,M,44,pardo,"1431 Gina Gardens Apt. 534 Johnsonshire, GU 84706",Ensino Médio,Paraíba,10,Contabilidade,Analista Júnior,PB
9698,Benedito Robert Dlievic,M,21,branco,"41179 Tracie Parkways Langfort, IA 88137",Ensino Superior,Distrito Federal,6,Desenvolvimento de Produtos,Gerente,DF
9699,Bento Osvaldo do Piauí,M,39,pardo,"902 Luis Island Brownton, NJ 61984",Ensino Superior,Paraná,5,Vendas,Analista Júnior,PR


Agora com os dados tratados obtivemos 9701 linhas e mantivemos 12 colunas, deletamos a coluna repetida de id e criamos uma coluna de Estado_UF para que possamos filtrar por estado na hora de criarmos os gráficos.

In [35]:
#Extraindo estatísticas
df.describe().T

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Idade,9701.0,30.888465,8.67488,6.0,24.0,30.0,37.0,74.0
Tempo_de_casa,9701.0,5.497268,2.948898,-1.0,3.0,5.0,8.0,17.0
