Skip to content

Repositório com as diretrizes necessárias para o data challenge para avaliar os candidatos a vagas de estágio em Engenharia de IA

Notifications You must be signed in to change notification settings

Aignosi/aignosi-internship-datascience-challenge

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 

Repository files navigation

1. Bem-vindo ao repositório do Desafio de Dados da aignosi

Esse repositório contém todas as informações e diretrizes necessárias para que você possa realizar o nosso desafio, como parte integrante do nosso processo de avaliação dos potenciais candidatos as vagas estágio em Engenharia de IA.

Sugerimos que você leia com bastante atenção a todos as etapas, critérios e requisitos a serem cumpridos no desafio.

1.1 Objetivo do desafio

Avaliar de forma qualitativa quais são os pontos fortes e os pontos de gaps do candidato à vaga. O desafio tem o intuito de prover para o RH e os líderes da aignosi, informações sobre a experiência que você já tem na área.

1.2 Etapas do desafio

O desafio se divide nas seguintes etapas:

  1. Recebimento do link de acesso ao repositório (considerando que já cadastramos e liberamos o seu acesso previamente)
  2. Recebimento do link para baixar o dataset
  3. Desenvolvimento do desafio (analisar, explorar e modelar o problema)
  4. Criar uma apresentação em formato PowerPoint
  5. Submeter o(s) código(s) e o arquivo da apresentação ao mesmo repositório*(maiores detalhes vide seção 1.6)
  6. Informar pelo email eduardo@aignosi.com que você concluiu o desafio
  7. Iremos combinar uma data da sua apresentação (a ser realizada remotamente via Google Meet)
  8. Realizar a apresentação final para os stackholders da ihm stefanini

1.3 Critérios de avaliação mais relevantes

Atenção! Pois os critérios são voltados tanto para as soft skills bem como para as hard skills.

Iremos avaliar com bastante critério (em ordem de relevância maior para menor):

  1. Maturidade na codificação (organização do código, estilos e qualidade dos comentários)
  2. Maturidade no versionamento do seu código
  3. Nível de organização e sequência lógica de exploração dos dados
  4. Maturidade no correto entendimento dos conceitos fundamentais em ciência de dados e o julgamento apropriado de como você emprega as técnicas de exploração
  5. Skills de comunicação e apresentação (quando for apresentar o trabalho para os stakeholders)
  6. Skills em Data Viz, ou seja, a qualidade e a clareza dos seus gráficos, bem como a facilidade de interpretação

1.4 Critérios que Não nos preocupamos tanto nessa etapa

Capacidade em explorar dados de maneira coerente

É isso mesmo que você está lendo! Parece contraintuitivo, mas não estamos preocupado em você conseguir fazer um modelo de ML, até porque esse modelo não será colocado em produção, então, não há necessidade de se preocupar com isso e gastar todo o tempo do desafio com isso.

Esperamos que você faça um EDA (exploratory data analysis) bacana, mas não "frite" os neurônios com modelos. Lembre dos principais critérios que estamos nos preocupando mais em te avaliar, conforme descrito no item anterior.

Claro que se você já sabe fazer algum modelo de ML aplicável ao problema, ótimo e o faça. Porém se for realmente fazer algum modelo, preferimos que faça um modelo o mais simples possível (isso mesmo, evite usar deep learning!). Fazer um modelo será considerado um diferencial, mas não é critério de caráter eliminatório.

1.5 Requisitos mínimos

Para realizar o desafio, você precisa cumprir os seguintes requisitos:

  1. Linguagem de programação 100% Python
  2. Escolha da IDE: VSCode ou Pycharm (ATENÇÃO -> *não aceitaremos os códigos em formato .ipynb - Jupyter Notebook)
  3. Escolha do git: livre escolha
  4. Baixar os dados pelo link enviado no seu email e que também estão contidos na seção 2.2
  5. Apresentação em formato PowerPoint

1.6 Entregáveis, Prazos e Submissão final

  1. Submeter via github a versão final do(s) seu(s) código(s) em formato *.py via github;
  2. Utilizar o git também para enviar o arquivo da sua apresentação;
  3. Submeter em uma nova branch que segue o seguinte padrão: internship-datascientist-challenge-xxxxxxxx (onde x representa o seu nome e sobrenome juntos, sem acento e com caracteres minúsculos). Exemplo: internship-datascientist-challenge-eduardomagalhaes
  4. Prazo inicial de até 03 semanas, a contar a partir da data em que você recebeu o email de convocação para o desafio;
  5. A data final da apresentação será combinada via email com o time ihm stefanini.

1.7 FAQ

  1. Pode usar Google, Kaggle, Stackoverflow à vontade, pois é assim que funciona na vida real!
  2. Será permitido tirar dúvidas com as pessoas da ihm stefanini, apenas no que concerne ao entendimento da dinâmica do desafio. Não é permitido tirar dúvidas técnicas. O contato será via email eduardo@aignosi.com
  3. Não é permitido entregar os códigos em formato *.ipynb, pois queremos ver a sua desenvoltura codificando apenas em formato *.py.

##--------------------------------------------------------------------------------------------------------------

2. Maiores Detalhes sobre o problema que você irá resolver no desafio

Nessa seção iremos trazer mais informações sobre o problema de negócio que você resolverá, os objetivos de negócio, bem como o que os tomadores de decisão estão esperando dessa solução.

2.1 Descrevendo o cenário e o problema

Imagine que você trabalha numa empresa que fornece serviços de ciência de dados para indústria e que você é o principal cientista de dados desse time. Considere também que é a primeira vez que você e sua empresa estão encarando o desafio proposto por esse cliente.

Ou seja, você conhece pouco do processo produtivo dele, de como ele toma as decisões acerca do problema atualmente e tudo mais. Porém, por sua "sorte" o cliente é bem camarada e está topando um certo risco de o projeto dar errado, ou seja, você até não conseguir fazer um bom modelo, mas ele precisa acreditar que vale a pena explorar mais o problema e até mesmo explorar outras demandas caso essa não dê certo.

Pois então, veja que você a oportunidade em mãos de mostrar para esse cliente que a ciência de dados é potencialmente viável para o negócio dele.

Dito tudo isso, te damos uma dica: preocupe em avaliar bem os dados que você tem em mãos, explicar bem as escolhas das aplicações das técnicas de exploração dos dados e capriche numa apresentação impactante, de forma que o seu cliente que é leigo, possa entender os gráficos e o contexto que você quer vender: há um bom potencial preditivo nesses dados, veja sô!

Portanto, reforçando novamente: não se preocupe em ter que fazer modelo para esse desafop.

Mais detalhes sobre o cliente: é uma mineradora e o seu cliente de contato direto e quem está comprando o projeto piloto da sua empresa tem uma leve noção de análise de dados.

2.2 O Dataset

O dataset do problema a ser analisado se encontra na plataforma Kaggle, nesse link.

Lá você já encontrará toda a explicação mínima necessária para executar o desafio.

2.3 Considerações finais

Busque trazer diferenciais para o seu desafio:

  1. Formular suas hipóteses de exploração dos dados e documentá-las (livre escolha de onde achar melhor)
  2. Descrever o que está vendo nas séries temporais? Há tendência/sazonalidade? Tem muito ou pouco ruído? E os outliers?
  3. Descrever minimamente por que está técnica A ou B para explorar os dados. Exemplo, usei o PCA porque acredito ser interessante por causa de xxxx e esperava ver yyyyy
  4. Descreva porquê e como escolheu as features
  5. Descreva que tipo de modelo usaria, caso fosse necessário aplicar algum tipo

2.4 Agradecimentos e dúvidas

Agradecemos o seu interesse de participar no desafio e qualquer dúvida, entre em contato pelo email com eduardo@aignosi.com

About

Repositório com as diretrizes necessárias para o data challenge para avaliar os candidatos a vagas de estágio em Engenharia de IA

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published