Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Validação dos dados #1

Closed
5 tasks done
leofmr opened this issue Mar 16, 2022 · 2 comments
Closed
5 tasks done

Validação dos dados #1

leofmr opened this issue Mar 16, 2022 · 2 comments
Assignees
Labels
prepare Preparação dos dados

Comments

@leofmr
Copy link
Owner

leofmr commented Mar 16, 2022

Objetivos

Análise da consistência dos dados, verificando se existem dados faltantes, se os dados categóricos estão padronizados em torno de uma quantidade limitada de categorias. Quais são os registros que são únicos. Se os dados estão em formato correto ou se necessitam ser reformatados.

Etapas

  • verificar dados faltantes
  • verificar tipo de dados de todas as variáveis
  • verificar categorias de tag - transformar para listas
  • verificar categoria express_delivery
  • verificar unicidade dos product_id (se a unicidade do product_id é por seller_id ou pervasiva aos vendedores)
@leofmr leofmr self-assigned this Mar 16, 2022
@leofmr leofmr added the prepare Preparação dos dados label Mar 16, 2022
@leofmr
Copy link
Owner Author

leofmr commented Mar 16, 2022

Transformar os dados de tag para lista prejudica o funcionamento de algumas operações do dataset. Dessa forma, essa subaterefa foi descartada

@leofmr
Copy link
Owner Author

leofmr commented Mar 17, 2022

O escopo da última subtarefa desse item foi expandido. Ao invés de analisarmos apenas a unicidade das combinações de product_id e seller_id, pelo reconhecimento de que a base é de querys, passamos a fazer a análise em termos de combinações duplicadas de product_id, seller_id e query como estratégia para identificar e eliminar registros duplicados da base.

leofmr pushed a commit that referenced this issue Mar 17, 2022
@leofmr leofmr closed this as completed Mar 17, 2022
leofmr pushed a commit that referenced this issue Mar 17, 2022
@leofmr leofmr mentioned this issue Mar 17, 2022
5 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
prepare Preparação dos dados
Projects
None yet
Development

No branches or pull requests

1 participant