A mineração de dados surgiu como área de pesquisa e aplicação independente em meados da década de 1990. Entretanto, as suas origens na matemática, estatística e computação são muito anteriores a esse período ¹.
Preparação e análise das grandes massas de dados, tendo a finalidade de encontrar o conhecimento. Portanto, para cumprir tal finalidade, reuni áreas distintas, como estatística; matemática; engenharia; inteligência artificial; banco de dados; sistemas de informação; visualização; antropologia; e o especialista do domínio dos dados, que se complementam e formam a área de ciência de dados.
-
Dados: conjunto de dados organizados de forma qualitativa ou quantitativa sobre determinado tema, no qual possibilidade a extração de informação que pode resultar em conhecimento.
-
Pré-processamento dos dados:
Selecionar os dados de acordo com a demanda do estudo, descartando assim dados irrelevantes, a fim de tornar a análise dos eficiente e eficaz. As etapas são distribuídas:
- limpeza: remoção de ruídos de dados inconsistentes e ausentes;
- integração: combinação dos dados de diferentes fontes;
- seleção: escolha de dados relevantes à análise; e
- transformação: consolidação dos dados em formato apropriado.
- Mineração de dados:
Utilização de métricas e medidas estatísticas, para representar o conjunto de dados e a sua distribuição. Tais medidas são análise descritiva, agrupamento, predição, associação e detecção de anomalias.
- Avaliação:
Identificar os padrões obtidos pela representação do conhecimento são válidos, ou seja, representativo.
- Dados abertos Conectados
- Data Science para Negócios
- Data on the Web Best Practices
- Escola de dados
- Guia de Dados Abertos
- Introdução a mineração de dados por Daniel Gomes Ferrari e Leandro Nunes de Castro Silva
- Introdução à Ciência de Dados Fundamentos e Aplicações
- Machine Learning – Guia de Referência Rápida: Trabalhando com dados estruturados em Python
- Python para análise de dados por Wes McKinney
- Data Visualization – Charts with Matplotlib
- Data Science: Visualização de Dados com Python
- Matplotlib