# Modelo para Projetos de Mineração de Dados usando CRISP-DM
*Luiz Rodrigues (ultima atualização: 20/07/2022).*

## Apresentação

* Esse notebook fornece um modelo para planejamento, condução, e relato de projetos de mineração de dados
* O notebook está organizado de acordo com as seis fases do CRISP-DM

## Usando o Modelo
Para usar este modelo, basta:
1. Fazer uma cópia do mesmo (para o seu Google Drive, por exemplo);
2. Alterar/preencher as células de forma a satisfazer e justificar os pontos de cada uma das tarefas das seis fases do CRISP-DM

## Organização
* Este modelo está organizado em seis seções, uma para cada fase do CRISP-DM;
* Cada seção está organizada em subsções, uma para cada tarefa da respectiva fase.

## Recomendações
Para um melhor proveito desse notebook, sugiro a leitura das principais referencias que usei para escrevê-lo:
* "What is CRISP DM?", de Nick Hotz: https://www.datascience-pm.com/crisp-dm-2/
* "CRISP-DM is Still the Most Popular Framework for Executing Data Science Projects", de Jeff Saltz: https://www.datascience-pm.com/crisp-dm-still-most-popular/
* "CRISP-DM: Towards a Standard Process Model for Data Mining", de Wirth e Hipp: http://cs.unibo.it/~danilo.montesi/CBD/Beatriz/10.1.1.198.5133.pdf

Como um exemplo prático de uso do CRISP-DM, cito o artigo *GARFIELD - A Recommender System to Personalize Gamified Learning*.
* O artigo pode ser acessado no seguinte link: https://rodriguesluiz.github.io/publications/garfield.pdf
* Uma breve apresentação da pesquisa (em inglês) pode ser vista em: https://www.youtube.com/watch?v=vqvC3BSn124
* Materiais suplementares da pesquisa, incluindo o arquivo usado para analisar os dados, pode ser acessado em: https://osf.io/znyx2

# 1 Entendimento do Negócio

Essa fase foca em entender os objetivos e requisitos do projeto. Esta é uma das fases mais importantes, uma vez que ela fundamenta todas as outras. Ela é composta por quatro subfases, as quais são apresentadas na sequência.


## 1.1 Determinar os objetivos do negócio

Da perspectiva do negócio, o que o cliente realmente quer alcançar?
- Uma forma de identificar as reações dos reviews deixado pelos usuários dentro do sistema.

Quais são os critérios de sucesso?
- Obter corretamente a reação dos usuários.

## 1.2 Avaliar a Situação

Quais recursos estão disponíveis?
- Os recursos disponiveis sao o feedback e avaliação de estrelas feitas pelo usuário

Quais são os requisitos do projeto?
- Possibilitar que, a partir dos reviews deixados pelos usuários, possamos identificar o sentimento dos usuarios, assim permitindo identificar se o review é positivo ou negativo.

Quais são os riscos e contingencias?
- Não atingir objetivo amejado.

Qual o custo-benefício da situação?
- Uma vez que temos dados, recursos computacionais e humanos à nossa disposição, consideramos que o custo-benefício deste projeto é positivo.

## 1.3 Determinar os objetivos da mineração de dados

Do ponto de vista técnico, da mineração de dados, quais são os critérios de sucesso?
- Criar um modelo que permita indentificar pelos 60% do comentários.

## 1.4 Planejar o projeto

Quais tecnologias e ferramentas serão usadas?
* *Python para programação*,
* *Pandas para lidar com os dados*,
* *Sklearn para lidar com dados e modelagem*,
* *Google Collab e Visual Studio Code para documentação, condução*,
* *Github para compartilhamento da solução entre a equipe*,

Qual o plano para cada fase do projeto?
* *O plano consiste na realização de cada etapa do projeto de forma gradual e progressiva dentro do cronograma estipulado para o desenvolvimento, buscado sempre excelencia nos resultados obtidos.*

# 2 Entendimento dos Dados

Essa fase foca em identificar, coletar e analisar conjuntos de dados que podem nos ajudar a alcançar os objetivos do projeto. Ela também é composta por quatro tarefas.

## 2.1 Coleta de dados inicial

Coletar os dados necessários e - se necessário - carrega-los na ferramenta de análise.
- Tendo em vista que o nosso projeto da jornada não está finalizado, logo não possui feedback de usuários, utilizaremos um dataset do TripAdvisor Hotel (O dataset pode ser encontrado no link: https://www.kaggle.com/datasets/andrewmvd/trip-advisor-hotel-reviews).

## 2.2 Descrever os dados

Examine os dados e documente suas principais propriedades, como formato, número de linhas, colunas, etc.
* *Os dados estão organizados em um arquivo de texto no formato csv.*
* *O arquivo 'tripadvisor_hotel_reviews.csv' apresenta as informações dos reviews. Logo, cada linha representa um review. Ele contém 2 colunas. Por simplicidade, vou descrever apenas algumas delas:*
*  *Review (text): review deixo pelo usuário*
*  *Rating (int): curso em que o aluno está matriculado*


## 2.3 Explorar os dados

Mergulhe nos dados, faça visualizações, identifique relações entre os dados, etc.

## 2.4 Verifique a qualidade dos dados

Verifique e documente qualquer problema de qualidade/limpeza dos dados.

# 3 Preparação dos Dados

Essa fase prepara o(s) conjunto(s) de dados para a modelagem. Ela envolve cinco tarefas.

## 3.1 Selecione os dados

Determine qual conjunto de dados será usado e documente suas escolhas.

## 3.2 Limpe os dados

É comum que as tarefas dessa fase sejam corrigir, preencher ou remover valores Normalmente, esta é a tarefa mais demorada, sendo de extrema importancia para o sucesso da análise. Lembre-se: garbage-in, garbage-out; ou seja, se entra lixo, sai lixo.

## 3.3 Construa dados

Derive novos atributos que irão ajudar suas análises. Exemplo: derivar o IMC a partir dos atributos Peso e Altura.


## 3.4 Integre os dados

Crie novos conjuntos de dados ao combinar dados de várias fontes.

## 3.5 Formate os dados

A reformatação de dados é necessária em certas ocasiões. Exemplo: converter "1.7" (string) para 1.7 (float)

# 4 Modelagem

Nessa fase, é provavel que você irá criar e analisar varios modelos a partir de muitas técnicas. Essa fase envolve quatro tarefas.

## 4.1 Selecione técnicas de modelagem

Determine quais algoritmos você vai experimentar. Exemplos: regressão linear, árvore de decisão, redes neurais, etc.

## 4.2 Gere sua abordagem de teste

É comum que você separe seu conjunto de dados em, por exemplo, conjuntos de trainamento, validação, e teste. Embora essa fase faça parte da quarta fase do CRISP-DM, **recomendo que ela seja realizada antes de qualquer análise dos dados para minimizar ao máximo as chances de *overfitting*.**

## 4.3 Construa o modelo

Na prática, uma das fases mais simples. Exemplo: *reg = LinearRegression().fit(X, y)*

## 4.4 Analise o modelo

Interprete todos os modelos criados no passo anterior, com base nos critérios de sucesso, abordagem de teste, conhecimento de domínio, etc.

# 5 Avaliação

Por um lado, a tarefa 4.4 foca no ponto de vista técnico. Por outro lado, a fase Avaliação foca em avaliar qual modelo melhor se encaixa no negócio e quais são os próximos passos. Ela envolve três tarefas.

## 5.1 Avaliar os resultados

Os modelos alcançam os critérios de sucesso de negócio?

Quais modelos devemos aprovar para o negócio?

## 5.2 Revise o processo

Revise o projeto, resuma os resultados e corrija tudo que for necessário. Por exemplo:
* Alguma coisa não foi analisada de forma correta?
* Todos os passos foram executados de forma adequada?

## 5.3 Defina os próximos passos

Com base nas três ultimas tarefas, define se é hora de mover para a implantação, fazer uma nova iteração, ou iniciar novos projetos.

# 6 Implantação

Um modelo só é útil se o cliente pode acessar seus resultados. Para que isso seja possível, essa fase envolve quatro tarefas.

## 6.1 Planeje a Implantação

Desenvolva e documente o plano de implantação do modelo.

## 6.2 Planeje a monitoração e manutenção

Desenvolva um plano rigoroso de monitoramento e manutenção do modelo para evitar problemas operacionais.

## 6.3 Produza um relatório final

Documente um resumo final do projeto, podendo incluir uma apresentação final dos resultados da mineração de dados.

## 6.4 Revise o projeto

Faça uma retrospectiva do projeto, sobre o que foi bom, o que poderia ser melhor, e como melhorar no futuro.