<a href="https://colab.research.google.com/github/OseiasBeu/Data-Science/blob/master/Modelo_de_Projeto_DTS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 5 Passos para implementação de um projeto de Data Science

## 1º Entendendo o problema e pensar em sugestões de possíveis soluções

* Olhar o todo e delimitar o escopo do projeto
* Como a solução vai ser usada?
* Quais são as soluções já existentes?
* Qual abordagem usar?
    * Aprendizado Supervisionado
    * Aprendizado Não Supervisionado
    * Aprendizado Por Reforço
* Qual é a métrica de performance?
* Qual a performance mínima esperada para atingir o objetivo?
* Liste as premissas básicas do projeto

## 2º ETL

* Criar uma cópia dos dados para a exploração
* Criar um Jupyter Notebook para documentar a exploração
* Estudar cada atributo e suas características:
    * Nome
    * Tipo
        * Categórica
        * Numérica
            * int
            * float
        * Estruturada
        * Não Estruturada
        * etc
    * % de valores ausentes
    * Ruído nos dados e tipo de ruído (outliers, estocásticos, erros de arredondamento)
    * Tipo de distribuição
        * Gaussiana
        * Uniforme
        * Logarítmica
        * etc
* Identificar a variável alvo (target)
* Visualizar os dados
* Estudar a correlação entre os dados
* Identificar as transformações que podem ser aplicadas
* Identificar os dados extras que podem ser úteis

## 3º Analise e interpretação dos dados

* Trabalhar em cópias dos dados
* Escrever funções para todas as transformações


### 1. Limpeza dos Dados
    - Consertar ou remover outliers
    - Preencher os valores faltantes ou eliminar as linhas/colunas
        * Zero
        * Média
        * Mediana
        * etc
### 2. Seleção de atributos
    - Eliminar os atributos (*features*) que não contêm informações úteis

### 3. *Feature Engineering*
    - Discretizar variáveis contínuas
    - Decompor *features* (categóricas, data, tempo)
    - Aplicar transformações às variáveis
    - Agregar *features* para gerar novas
    
### 4. *Feature Scaling*
    - Normalizar ou padronizar *features*

## 4º Exposição dos resultados 

* Documentar todos as etapas
* Tornar todos os passos replicáveis (download de arquivos, uso da API do Kaggle)
* Escrever o Storytelling (Decisores e Diretores provavelmente desconhecem a parte técnica)
* Ver qual o melhor gráfico para contar cada *insight* descoberto
* Escrever testes unitários
* Criar rotinas de monitoramento e alertas
* Determinar quando atualizar o modelo

## 5º Implementação

* Automatizar o maior número de passos possíveis
* Treinar mais de um modelo e comparar as performances
* Analisar as variáveis mais significativas para cada algoritmo
* *Fine-Tune* dos *hyperparameters*
* Uso de *cross-validation*
* Verificar o desempenho dos métodos *Ensemble*, combinando os modelos que tiveram os melhores desempenhos individuais
* Testar o desempenho do mesmo com o *dataset* de teste.

# 3 Camadas de desenvolvimento 

## 1 º EDA

**Exploratory Data Analysis** é a fase em que estamos tratando de entender o problema apresentado. De forma bem resumida, definimos fontes de dados, avaliamos todos os dados que temos e sua relação com a tarefa, construímos features e definimos um pipeline de dados. 

objetivo: 1 - identificar o problema;

objetivo: 2 — montar o pipeline de dados para preparar a base de dados para treino, teste, validação e payload de predição do sistema final.

## 2º PoC

**Proof of Concept** é tentar demonstrar que conseguimos de alguma forma fornecer a modelagem requerida para sanar o problema, com um erro aceitável. Esta tarefa, por ser muito exploratória, testa diversos modelos, diversas formas de pré-processamento e inúmeras variabilidades.

Nesse fluxo de trabalho nem todos os projetos podem/devem chegar na etapa de desenvolvimento. O projeto pode chegar ao final da PoC e concluirmos que, por exemplo, não conseguimos resolver o problema de forma aceitável. Nesse caso, o projeto seria cancelado, tentaremos extrair insights/aprendizados e formalizar uma retrospectiva do projeto para entender se podemos refatorar o projeto de alguma forma ou seguir adiante.

## 3º Dev

No caso de obtermos sucesso na etapa de PoC entraremos na etapa de **desenvolvimento** e integração do modelo de aprendizado de máquina com a equipe stakeholder ou algum sistema. É aqui onde recriamos toda a estrutura de diretórios do nosso projeto.

# Boas práticas de desenvolvimento:

## A. Criando um notebook limpo Nomenclatura e localização do documento

Sempre crie um diretório para trabalhar em um projeto com um nome que deixe claro sobre o que será aquele projeto, bem como os arquivos dentro do projeto, como por exemplo:


```
diretorio_com_projeto/
  datasets/
    dataset.csv
    ...
  tests/
    tests.py
    ..
  logs/
    file.log
  secrets/
    tokens.json
    credencials.json
    ..
  
  main_app/
    EDA_NOME_DO_PROJETO.ipynb
    POC_NOME_DO_PROJETO.ipynb
    DEV_NOME_DO_PROJETO.ipynb
    train.ipynb
    serve.ipynb
    ...
    services/
      ...
  ml/
    querys.sql

  
  setup.py
  README.md
  checklist_dev.md
  requirements.txt
  .gitignore
```





## B. Contextualização

Nesse passo é descrevemos nossos objetivos, ou melhor, aqui busco resolver perguntas com base no projeto, algo como:

* Do que se trata o dataset que será utilizado?
* Qual é o significado de cada coluna deste dataset?
* Quais tipos de problemas que tentaremos resolver? Classificação, regressão ou  ranqueamento, etc ?
* Quais modelos vamos testar?
* Como serão testados?
* Quais métricas usaremos para escolher o melhor modelo?

OBS.: Quanto mais perguntas forem feitas, melhor será o entendimento do problema e mais preciso serão nossos insights sobre o modelo a ser criado e seus resultados. Com as perguntas organizadas, podemos respondê-las no início do notebook.

## C. Configuração de ambiente

Após a contextualização do problema (descritiva do propósito do notebook), podemos colocar os principais imports de bibliotecas e configurações na primeira célula de código, pois fica claro como o ambiente foi configurado. Por exemplo, nesta célula podemos colocar a semente dos valores aleatórios ou também desabilitar warnings (se eles forem realmente desnecessários).

## D. Modelagem e testes

Depois de deixar claro o propósito deste notebook e também configurar o ambiente, iniciamos a modelagem e também os testes.

OBS.:Durante esse processo é onde surgirão insights sobre os resultados, outros modelos e métricas. Não deixe de registrar cada uma dessas coisas,no próprio notebook! Além disso, coloque todas as métricas que utilizou de forma padronizada. Assim você, sua equipe e/ou o cliente já saberá por onde começar a comparar.

Caso esteja utilizando Python, utilizar as seguintes bibliotecas para logging, test e Documentation:
logging
pydoc
pytest
unittest


## E. Conclusões

Para finalizar a documentação, coloque uma sessão como “Considerações finais” ou “Conclusões”, trazendo os resultados finais do estudo -qual foi o melhor modelo e o porquê dele ser o melhor. Busque a clareza e a objetividade!
Com isso, revise os seus feitos (como se estivesse finalizando uma prova ou uma redação) para não deixar nada passar.