# Trabalho Prático - FRM

Você já conhece o fluxo de trabalho para construção de aplicações de aprendizado de máquina. Esse fluxo deve se estabelecer como um elemento norteador de projetos de soluções que aplicam aprendizado de Máquina. Cincos fases compõe o fluxo:

1. Identificação do problema de negócio,
2. Análise exploratória e preparação dos dados,
3. Criação dos modelos, treinamento e otimização,
4. Implantação dos modelos, previsões on-line e monitoramento e
5. Gestão dos modelos.

Você também já conhece algumas das principais bibliotecas Python usadas na construção de aplicações de aprendizado de máquina: numpy, pandas, scikit-learn (sklearn), matplotlib e tensorflow:

Nesse trabalho prático você deve usar os conhecimentos adquiridos para codificar scripts que realizem atividades de cada fase do fluxo de trabalho. O objetivo final do script é construir um modelo de classificação utilizando o dataset disponível na competição do Kaggle: ["Titanic: Machine Learning from Disaster”](https://www.kaggle.com/c/titanic/data). Esse modelo de classificação deverá ser capaz de prever quais passageiros sobreviveram à tragédia.

Nessa competição são disponibilizados um conjunto de dados de treinamento e um conjunto de dados de teste. A diferença entre os dois conjuntos é a existência de um atributo "Survived" no conjunto de treinamento. Esse atributo será o atributo alvo. Depois que o modelo for treinado o conjunto de teste deve ser submetido ao modelo para que ele faça previsões.  

Vamos começar: 

### Fase 1 - Identificação do problema de negócio

Nessa fase é necessário realizar entre outras atividades, a <b>obtenção dos dados identificados como relevantes</b>. Para o nosso problema de negócio, esses dados são os conjuntos de treino e teste da competição “Titanic: Machine Learning from Disaster”.  

Conjunto de treino: https://www.kaggle.com/c/titanic/download/train.csv <br/>
Conjunto de teste: https://www.kaggle.com/c/titanic/download/test.csv

Você vai precisar se autenticar no kaggle antes de realizar essa atividade

Crie na próxima célula um script para realizar essa atividade utilizando a biblioteca pandas. Imprima a quantidade de atributos e objetos de cada conjunto

In [1]:
#importação dos dados

### Fase 2 - Análise exploratória e preparação dos dados

Nessa fase é necessário realizar entre outras atividades a <b>análise exploratória de dados</b>, o que inclui análise estatística descritiva. Nas células a seguir utilize a biblioteca pandas para apresentar essa análise do conjunto de dados de treinamento e exibir os 10 primeiros objetos desse conjunto. 

In [2]:
#análise estatistica descritiva

In [4]:
#imprimir os 10 primeiros registros

Ainda durante a fase 2 é necessário <b>remover algum(s) atributo(s) irrelevante(s) para classificação</b>. Faça isso nos conjuntos de treinamento e teste na próxima célula.

Lembre-se de remover o atributo "target" do conjunto de treinamento, mas não se esqueça de armazenar esse atributo em uma variável y para utilizá-lo na fase seguinte 

In [5]:
#remoção de atributos

### Fase 3 - Criação de modelos preditivos, treinamento e otimização

O objetivo dessa fase é <b>construir um modelo preditivo</b> (que faz previsões ou classificações) para obter o melhor desempenho possível. Para construir o melhor modelo você deve experimentar vários algoritmos (Regressão Logística, Naive Bayes, Árvore de Decisão, Redes Neurais, Redes Neurais profundas, etc) e selecionar o algoritmo que forneça o melhor modelo.

Para experimentar alguns certos algoritmos, você precisará realizar outra atividade da fase 2: <b>“Transformar dados válidos e limpos no formato mais adequado às necessidades do algoritmo”</b>. Por exemplo, para utilizar o Naive Bayes você precisará codificar os atributos nominais em atributos numéricos. 

Nas próximas duas células você deve construir e treinar dois modelos preditivos utilizando necessariamente as bibliotecas scikit-learn e o tensorflow. Pode ser necessário transformar os dados (codificação, discretização, etc). Depois de concluir o treinamento, você deve imprimir a acurácia dois modelos. 

In [6]:
#modelo construido com o scikit-learn

In [7]:
#modelo construido com o tensorflow

<b>Qual modelo teve a maior acurácia?</b> Vamos analisar esse modelo utilizando uma matriz de confusão e o relatório de precisão, sensibilidade (recall) e f-1 (f-measure). Na célula seguinte utilize o pacote sklearn.metrics para imprimir essa duas informações, utilizando o conjunto de treinamento:

In [8]:
#imprimir matriz de confusão e o relatório de precisão, sensibilidade (recall) e f-1 

### Fase 4: Implantação de modelo, previsões on-lines e monitoramento

São objetivos dessa fase implantar os modelos construídos na fase anterior e utilizá-lo para fazer previsões. 

Uma vez que seu modelo alcançou uma performance excelente, finalmente você pode utilizá-lo para  prever quais passageiros sobreviveram à tragédia do Titanic. Então faça isso na célula abaixo.

<b>Não se esqueça que as previsões devem ser realizadas com o conjunto de dados de teste.</b>

In [9]:
#realizar previsões com o melhor modelo

### Fase 5: Gestão dos modelos

São objetivos dessa fase monitorar e registrar a qualidade das previsões realizadas pelo modelo. 

Seu modelo já fez previsões para objetos “desconhecidos” na fase 4, mas ainda não sabemos a qualidade dessas previsões. Devemos descobrir essa informação para avaliarmos se é necessário voltar em alguma fase do fluxo de trabalho e realizar algum outro procedimento (limpar atributos, experimentar outros modelos, otimizar os modelos já experimentados).

Para descobrir a qualidade do seu modelo, você precisará submeter as previsões já realizada na competição [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/submit) do Kaggle. As previsões do modelo precisam ser salvas em um arquivo csv com os atributos passengerId e Survived ([Veja o exemplo](previsoes-exemplo.csv)) e depois você precisa enviar o arquivo e fazer a submissão. 

<b>Depois de fazer a submissão, faça uma captura da tela para anexar no relatorio da atividade prática ([Exemplo](exemplo-submissao.png))</b>

Na célula a seguir você deve criar o arquivo "previsoes.csv" com as previsões realizadas pelo seu modelo utilizando a biblioteca numpy. 

<b>Dica: use os as funções [np.column_stack](https://docs.scipy.org/doc/numpy/reference/generated/numpy.column_stack.html) e [np.savetxt](https://docs.scipy.org/doc/numpy/reference/generated/numpy.savetxt.html)</b>

In [10]:
#salvar arquivo previsoes.csv