Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@ Este repositório possui um teste que visa avaliar sua curiosidade, seus conheci

Sua tarefa é criar um processo ETL/ELT com agendamento que transporte dados úteis, presentes nos datasets fornecidos, para um banco de dados relacional. Os critérios para a execução deste desafio são:

1. Suas **únicas e excluisivas** fonte de dados devem ser os datasets fornecidos neste repositório;
1. Suas **únicas e exclusivas** fonte de dados devem ser os datasets fornecidos neste repositório;
2. Você deve processar **todos** os arquivos de dados fornecidos;
3. Seu script deve ser agendado para rodar a cada **10 segundos** processando **1.630 registros**;
4. Aplique todas as transformações e limpeza de dados que julgar necessária (*Tenha em mente que precisamos acessar dados úteis que possibilitem a extração de insights!*);
Expand Down
32,560 changes: 32,560 additions & 0 deletions data/adult.csv

Large diffs are not rendered by default.

15 changes: 15 additions & 0 deletions src/README-RICARDO-VEGH.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
# Acessando a database
Basta realizar o download do sqlitebrowser, realizar a instalação, e após aberto, adicionar a database adult na pasta src através da opção
''OPEN DATABASE'' no menu superior e visualizar a tabela através de SQL convencional.

#Ordem de excecução:
Para melhor visualização do processo, pode-se excluir o arquivo adult.db e realizar a seguinte sequência:
database.py -- recria a database e a tabela adult do zero.
insert_data.py -- insere 1630 registros e executa a cada 10 segundos(Como no passo a passo abaixo, pode-se configurar um cronjob pelo crontab para simular a execução. Por padrão, o script está rodando todo dia as 10h05).

# Como configurar um cronjob via crontab no linux:
Abra o terminal dentro do repositório e digite a seguinte sequência de comandos:
sudo chmod +x ./path_do_arquivo > crontab -e, 5 10 * * * ./path_do_arquivo > ctrl x > enter > crontab -l(mostra os crons configurados)

# Como instalar o sqlitebrowser para visualização do banco de dados, tabela, e dados inseridos:
https://sqlitebrowser.org/dl/
Binary file added src/database/adult
Binary file not shown.
4 changes: 4 additions & 0 deletions src/requirements.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,4 @@
pandera
pandas
sqlite3
time
Loading