# ETL

Nesta etapa, iremos realizar a extração/leitura, tratamento e carregamento dos dados da nossa base em um banco de dados.

A base de dados fornecida para este desafio possui diversos caracteres que não podem ser lidos diretamente, e/ou estão formatados incorretamente. Além disso, adicionaremos novas colunas que irão nos auxiliar para a criação das análises que virão a seguir e carregaremos nossos dados em um banco de dados online.

Dividiremos este processo nas seguintes etapas:
- [x] Instalação e importação das bibliotecas necessárias
- [x] Encode/decode dos dados da base
- [x] Ajuste e padronização dos cabeçalhos da tabela
- [x] Retirada de valores nulos
- [x] Retirada de colunas que não serão necessárias
- [x] Correção da tipagem dos dados
- [x] Padronização de valores 
- [x] Carregamento dos dados no banco de dados
- [x] Salvamento do arquivo de backup em csv

## Instalando e importando as bibliotecas necessárias

Note que nesta etapa não precisaremos instalar todas as bibliotecas que utilizaremos devido a utilização do Jupyter notebook, que já trás consigo diversas bibliotecas comumente utilizadas para trabalharmos com dados.

In [84]:
%pip install SQLAlchemy
%pip install psycopg2

Note: you may need to restart the kernel to use updated packages.
Collecting psycopg2
  Downloading psycopg2-2.9.9.tar.gz (384 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m384.9/384.9 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m[36m0:00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: psycopg2
  Building wheel for psycopg2 (setup.py) ... [?25ldone
[?25h  Created wheel for psycopg2: filename=psycopg2-2.9.9-cp311-cp311-linux_x86_64.whl size=168862 sha256=fc5083828d59b381a550a31b1fca9df144ada07545df1f5b870236ce7e10f03e
  Stored in directory: /home/jumbeba/.cache/pip/wheels/ab/34/b9/78ebef1b3220b4840ee482461e738566c3c9165d2b5c914f51
Successfully built psycopg2
Installing collected packages: psycopg2
Successfully installed psycopg2-2.9.9
Note: you may need to restart the kernel to use updated packages.


In [85]:
from sqlalchemy import create_engine
from sqlalchemy.exc import SQLAlchemyError
import pandas as pd
import numpy as np

## Extração/leitura

O bloco de código a seguir trata caracteres mal interpretados em nosso arquivo CSV antes de carregá-lo em um DataFrame do Pandas.

A função decode_text() é definida para corrigir caracteres mal interpretados:
Estafunção é responsável por:
- Verificar se o texto é uma string.
- Codificar o texto como bytes usando a codificação Latin-1, ignorando erros.
- Decodificar os bytes usando a codificação UTF-8, ignorando erros.
- Retornar o texto corrigido ou o valor original se não for uma string.

Um arquivo CSV é lido usando pd.read_csv() com a codificação UTF-8 e sem um cabeçalho definido para que os cabeçalhos também passem pela correção de caracteres.

A função decode_text() é aplicada a cada célula do DataFrame usando applymap() para corrigir os caracteres mal interpretados.

O DataFrame resultante desta operação é impresso para realizarmos a veriricação inicial do tratamento.

In [91]:
def decode_text(text):
    '''Tratando caracteres mal interpretados'''

    if isinstance(text, str):
        latin1_bytes = text.encode('latin-1', errors='ignore')
        corrected_text = latin1_bytes.decode('utf-8', errors='ignore')
        return corrected_text
    else:
        return text

input_file = './base_dados/base_de_dados.csv'

df = pd.read_csv(input_file, encoding='utf-8', header=None).applymap(decode_text)

df


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,id,id,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
2,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
3,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\nSmithborough, NV 0...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9997,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\nJohnsonshire, GU 8...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9998,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9999,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior


## Tratamento dos dados

Nesta etapa do processo, vamos realizar as ações abaixo para tratar os dados carregados anteriormente.


1. Correção dos cabeçalhos:

- Os cabeçalhos do DataFrame são substituídos pelos valores da primeira linha do DataFrame.
- A primeira linha é removida do DataFrame.
- É verificado se a correção dos cabeçalhos foi bem-sucedida.

In [66]:
# Corrigindo os cabeçalhos
df.columns = df.iloc[0]  
df = df[1:] 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


Neste momento, vamos tratar os dados das colunas realizando a padronização e normalização dos dados



In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


Note que todas as nossas colunas estão sendo consideradas strings, vamos corrigir os tipos e os dados da nossa tabela.

2. Remoção de linhas com valores ausentes:

- As linhas que contêm valores ausentes nas colunas 'Idade', 'Formação' e 'Tempo de casa' são removidas do DataFrame. Optamos pela remoção destas linhas pois elas não têm um volume significativo de dados.


In [69]:
df.dropna(subset=['Idade','Formação','Tempo de casa'],inplace= True)
df

Unnamed: 0,id,id.1,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
2,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
3,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\nSmithborough, NV 0...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
5,5,5,Fagner Josiel dos Santos,Masc,21.0,pardo,"8666 Ramos Ports Apt. 070\nSandraport, MN 33570",Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior
...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9997,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\nJohnsonshire, GU 8...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9998,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9999,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior



3. Correção dos dados das colunas:

- Os valores da coluna 'Tempo de casa' que vieram como string, são convertidos para float e depois para int, e os valores negativos são substituídos por -1.
- Os valores da coluna 'Idade' que vieram como string, são convertidos para float e depois para int.
- Os valores da coluna 'Endereço' são substituídos para remover quebras de linha.
- Os valores da coluna 'Gênero' são substituídos para padronizar os rótulos.


In [70]:
# Corrigindo dados das colunas

df['Tempo de casa'] = df['Tempo de casa'].astype(float).astype(int)
df.loc[df['Tempo de casa'] < 0, 'Tempo de casa'] = -1

df['Idade'] = df['Idade'].astype(float).astype(int)

df['Endereço'] = df['Endereço'].str.replace('\n', ' ')

df['Genero'] = df['Genero'].replace({'Fem': 'F', 'Masc': 'M'})


4. Adição da coluna de UFs:

- Uma nova coluna 'Estado_UF' é adicionada ao DataFrame, contendo a sigla dos estados brasileiros com base nos nomes dos estados existentes na coluna 'Estado'.

In [None]:
# Adição da coluna de UFs

state_list = {
                    'Acre':'AC',
                    'Alagoas':'AL',
                    'Amapá':'AP',
                    'Amazonas':'AM',
                    'Bahia':'BA',
                    'Ceará':'CE',
                    'Distrito Federal':'DF',
                    'Espírito Santo':'ES',
                    'Goiás':'GO',
                    'Maranhão':'MA',
                    'Mato Grosso':'MT',
                    'Mato Grosso do Sul':'MS',
                    'Minas Gerais':'MG',
                    'Pará':'PA',
                    'Paraíba':'PB',
                    'Paraná':'PR',
                    'Pernambuco':'PE',
                    'Piauí':'PI',
                    'Rio de Janeiro':'RJ',
                    'Rio Grande do Norte':'RN',
                    'Rio Grande do Sul':'RS',
                    'Rondônia':'RO',
                    'Roraima':'RR',
                    'Santa Catarina':'SC',
                    'São Paulo':'SP',
                    'Sergipe':'SE',
                    'Tocantins':'TO'}

df['Estado_UF'] = df['Estado'].replace(state_list)

5. Padronização dos cabeçalhos:

- Os cabeçalhos do DataFrame são padronizados para usar camel case e remover caracteres especiais.
- A coluna 'id' é removida do DataFrame, se existir.

In [72]:
# Padronizando cabeçalos
df.rename(columns={'Raça': 'Raca', 'Endereço': 'Endereco', 'Formação': 'Formacao', 'Tempo de casa': 'Tempo_de_casa'}, inplace=True)

In [73]:
# Retirando coluna repetida
df.drop(['id'], axis=1, inplace=True)

6. Exibição de informações do DataFrame:

- É exibido um resumo das informações do DataFrame, incluindo o tipo de dados de cada coluna.
- São exibidas as primeiras linhas do DataFrame para verificar as mudanças realizadas.

In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9701 entries, 1 to 10000
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Nome           9701 non-null   object
 1   Genero         9701 non-null   object
 2   Idade          9701 non-null   int64 
 3   Raca           9701 non-null   object
 4   Endereco       9701 non-null   object
 5   Formacao       9701 non-null   object
 6   Estado         9701 non-null   object
 7   Tempo_de_casa  9701 non-null   int64 
 8   Departamento   9701 non-null   object
 9   Senioridade    9701 non-null   object
 10  Estado_UF      9701 non-null   object
dtypes: int64(2), object(9)
memory usage: 909.5+ KB


In [78]:
df.head()

Unnamed: 0,Nome,Genero,Idade,Raca,Endereco,Formacao,Estado,Tempo_de_casa,Departamento,Senioridade,Estado_UF
1,Eleonora Arilda Penedo Gomes de Padilha,F,34,pardo,"9155 Harold Oval Sellersside, FL 21337",Ensino Médio,Santa Catarina,12,Compras,Analista Pleno,SC
2,Elisângela Gabrielle de Osório,F,26,pardo,"941 Martin Manor Lake Isaiahtown, FM 43797",Ensino Médio,Pará,6,Contabilidade,Analista Júnior,PA
3,José Túlio de Cabral,M,35,pardo,"110 Davis Ridges Mejiaville, LA 17095",Ensino Médio,Santa Catarina,5,Vendas,Analista Pleno,SC
4,Ezequiel Edivaldo de Medeiros Sonao,M,24,pardo,"48010 Wilson Glen Apt. 749 Smithborough, NV 00864",Ensino Superior,Tocantins,4,Administrativo,Gerente,TO
5,Fagner Josiel dos Santos,M,21,pardo,"8666 Ramos Ports Apt. 070 Sandraport, MN 33570",Ensino Superior,Ceará,5,Recursos Humanos,Analista Júnior,CE



Os últimos blocos de código realizam tratamentos importantes nos dados do DataFrame, incluindo:

- Renomeação de colunas: As colunas são renomeadas para seguir um padrão de escrita consistente.

- Remoção de coluna: A coluna 'id' é removida do DataFrame devido a utilização da indexação do próprio pandas.

- Exibição de informações do DataFrame: Um resumo das informações do DataFrame é exibido para verificar as transformações aplicadas.

- Exibição das primeiras linhas do DataFrame: As primeiras linhas do DataFrame são exibidas para verificar se as mudanças foram aplicadas corretamente.

Esses tratamentos são essenciais para garantir a consistência, qualidade e utilidade dos dados para análise posterior.

## Carregamento dos dados

Os blocos de código a seguir realizam operações de conexão e manipulação de banco de dados PostgreSQL usando SQLAlchemy. 

1. Conexão ao banco de dados:

- É criada uma string de conexão usando SQLAlchemy para se conectar ao banco de dados PostgreSQL.
- Um engine SQLAlchemy é criado com a string de conexão.
- Se a conexão for bem-sucedida, uma mensagem de "Conectado" é exibida; caso contrário, uma mensagem de "Falha de Conexão" é exibida, seguida pelo erro.

2. Salvando o DataFrame no banco de dados:

- O DataFrame é salvo em uma tabela no banco de dados PostgreSQL usando o método to_sql() do Pandas.
- O parâmetro index=False é utilizado para não incluir o índice do DataFrame na tabela.
- Se a operação de salvamento for bem-sucedida, uma mensagem indicando sucesso é exibida; caso contrário, uma mensagem de erro é exibida, seguida pelo erro.

3. Fechando a conexão com o banco de dados:

- A conexão com o banco de dados é fechada usando o método dispose() do SQLAlchemy. Isso libera os recursos do banco de dados utilizados pela conexão.

4. Salvando os dados em um arquivo CSV
- Salvamos o arquivo de backup por segurança






In [90]:
# Conectando ao postgres DB
try:
    # Criar a string de conexão usando SQLAlchemy 
    db_string = "postgresql://postgres:adahack2024@db-adahack.cfevcennalmb.us-east-1.rds.amazonaws.com:5432/postgres"
    # Criar engine SQLAlchemy
    engine = create_engine(db_string)
    print("Conectado")
except Exception as e:
    print("Falha de Conexão")
    print(e)

Conectado


In [92]:
name_table = "colaboradores"

# Salvar o DataFrame no banco de dados usando o engine SQLAlchemy
try:
    df.to_sql(name_table, engine, index=False, if_exists='replace')
    print("Dados salvos com sucesso na tabela", name_table)
except Exception as e:
    print("Erro ao salvar os dados na tabela:", e)

# Fechando conexão com o banco de dados
engine.dispose()

Dados salvos com sucesso na tabela colaboradores


In [79]:
# Salvando o arquivo de backup dos dados tratados em um arquivo csv
df.to_csv('./base_dados/dados_tratados.csv', index=True)