Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Machine Learning do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no curso:
- Ingestão dos dados em um banco de dados;
- Leitura de dados disponibilizados no banco de dados;
- Pré-processamento dos dados;
- Detecção de anomalias;
- Processamento de dados;
- Correlação de parâmetros;
- Redução da dimensionalidade;
- Uso de algoritmos supervisionados e não supervisionados;
Para todo engenheiro de Machine Learning é fundamental que todos os sete passos para construção de uma solução sejam seguidos. Nesse sentido, saber percorrer todas essas etapas e, ao final, identificar a melhor estratégia, é papel primordial para esse profissional.
Neste projeto são utilizados diversos conceitos mostrados no decorrer de todos os módulos do bootcamp para a análise e classificação de veículos, do conhecido dataset “cars”. Esse dataset contém um conjunto de informações sobre vários veículos pesquisados. Existem dados, por exemplo, sobre a potência do veículo, sobre a origem e cilindradas cúbicas.
Para essa análise são empregados os conceitos de redução da dimensionalidade com o PCA, clusterização com o K-Means e classificações com algoritmos supervisionados.
Este projeto consiste em dois arquivos .ipynb: "Ingest.ipynb" e "Análise dados - Carros". O primeiro arquivo consiste na etapa de ingestão dos dados contidos no arquivo "cars.csv" no banco de dados MySQL através da biblioteca SQLAlchemy. Já o segundo arquivo consiste nas etapas de leitura dos dados disponibilizados no banco de dados MySQL e toda a etapa de análise dos dados.