Processo de Ciência de Dados

Uma metodologia para soluções de problemas ligados à ciência de dados pode ser definida a partir da aplicação do processo OSEMN. Este mesmo é definido por um conjunto de etapas recomendadas para desenvolvimento da solução em 5 (cinco) momentos bem específicos:

A primeira etapa envolve obter os dados (Obtain). Os dados podem ser coletados praticamente de qualquer lugar, como redes sociais, exames médicos, sensores, APIs, datasets públicos e privados, etc. A maioria das bases coletadas apresentam falhas, como dados faltantes, por exemplo.
Para realizar o tratamento desses dados é aplicada a segunda etapa do processo OSEMN, definido por limpeza (Scrub), que atuará na remoção ou substituição dos dados desnecessários.
Na terceira etapa, relacionada à exploração (Explore), a propriedade dos dados é verificada. Em uma base de dados há diferentes tipos de dados, como numérico, categóricos, datas, etc. Para cada um desses dados faz-se necessário realizar um tratamento diferente, seja para extração de novos dados ou para conversão.
O quarto passo associa-se à modelagem (Model), em que os algoritmos de aprendizado de máquina são utilizados para realizar classificação ou regressão sobre os dados. Este passo é completamente dependente da etapa anterior, o que reforça que uma boa análise exploratória dos dados influi diretamente nas predições do modelo. Após o uso do modelo e assim alcançar o resultado de suas predições, faz-se necessário interpretar os dados alcançados.
Esta é a última etapa, que se trata da interpretação (iNterpret). Este passo se mostra relevante para dar significado ao que o modelo apresentou como saída, o que aquela predição representa e como ela pode ser aplicada. Esse tipo de inferência pode ser apresentada de forma gráfica, permitindo um melhor entendimento por parte do público-alvo da solução.

Inicializando o repositório

Clone o repositório

git clone https://github.com/pab-h/DataScienceProcess

Inicialize as variáveis de ambientes virtuais

python -m venv .venv

Ative as variáveis de ambiente

source .venv/bin/activate

Sempre faça esse passo ao manipular o projeto

Instale as bibliotecas necessárias:

pip install -r requirements.txt

Baixe os datasets

python scripts/downloadDatasets.py

(opcional) Execute o dataapp

streamlit run app/index.py

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
app		app
assets		assets
docs		docs
models		models
notebooks		notebooks
scripts		scripts
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Processo de Ciência de Dados

Inicializando o repositório

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Processo de Ciência de Dados

Inicializando o repositório

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages