## (OK) 
# Introdução ao desafio
Este desafio foi desenvolvido para a conclusão da trilha Data Science.
Caso tenha alguma dúvida sobre o desafio, pode entrar em contato com a equipe ASCAN;

#### Recomendações para o desafio:
- Toda informação que possa ser representada em gráficos deve ser representada, escolher o gráfico adequado para o dado em questão faz parte do desafio;
- Entenda do que o dado se trata, pesquise, teste, pense!;
- Seja curioso, passe por cada coluna olhando elas isoladamente e também procurando se há alguma relação com as demais colunas.
- Utilize boas práticas de programação em Python e em notebooks, segue um [link](https://www.slideshare.net/joelpl/boas-prticas-de-desenvolvimento-para-jupyter-notebooks) para mais orientações;
- Todo gráfico deve ter um título e está em um tamanho adequado, lembre-se das boas políticas de visualização.
- Faça métodos (functions) para reaproveitar código;
- Documente o seu código, lembre-se que outros pessoas vão avaliá-lo;
- **Perguntas guias** ou **Perguntas chaves** devem ser respondidas diretamente por você durante a elaboração do notebook, sempre com dados reforçando seus argumentos.
- E o mais importante, divirta-se!



# Dados

Para este desafio vamos utilizar um dos dados mais utilizados na comunidade de Ciência de Dados, o tão famoso TITANIC! Esta versão foi modificada para este desafio com o intuito de facilitar e direcionar melhor os desafiantes.
Recomendo que antes de iniciar você se familiarize com o contexto do dataset, o que basicamente foi um navio famoso no início do século 20 que naufragou. 

Vou deixar dois links sobre o tema abaixo:
- [Youtube](https://www.youtube.com/watch?v=epc1KZMx2vs)
- [Wikipedia](https://pt.wikipedia.org/wiki/RMS_Titanic)

Metadata:
 
| **Variável**         | **Descrição**           |**Valores Chaves**          |
| ---------------- | ------------------- | ---------------------- |
| sobreviveu       | Se sobreviveu ou não ao acidente.            |Não sobreviveu = False, Sobreviveu = Yes |
| classe_bilhete   | Classe do bilhete comprado.      |1=Primeira Classe, 2=Segunda Classe, 3=Terceira Classe |
| genero           | Gênero do passageiro.                 |M=Masculino, F=Feminino       |
| idade            | Idade em anos e meses.        |Min=0.42 ~ Max=80.0       |
| irmaos_conjuges_abordo    | Número de irmãos/cônjuges a bordo do Titanic.  |Min=0 ~ Max=6       |
| pais_filhos_abordo      | Número de pais/filhos a bordo do Titanic.   |Min=0 ~ Max=8       |
| numero_bilhete   | Número do Bilhete.     |Combinação de texto e número.       |
| preco_bilhete    | Preço pago no Bilhete.    |Min=0.00 ~ Max=512.32       |
| cabine_numero    | Número da Cabine do Passageiro.        |Combinação de texto e número.       |
| local_embarque   | Cidade que o passageiro embarcou. |Valores válidos=['Southampton', 'Cherbourg', 'Queenstown'] |
 
[Referência do dado](https://www.kaggle.com/competitions/titanic/data?select=train.csv)

## (OK)
**ATENÇÃO: Você pode usar outras versões dos pacotes como também outras ferramentas de visualização de dados no lugar do `seaborn`, como exemplo o `plotly`!!!**

In [None]:
(OK) 
!pip install pandas==1.1.4 seaborn==0.9.0 -q

In [1]:
import pandas as pd
import seaborn as sns

df = pd.read_csv("titanic.csv").set_index("id_passageiro")
df.head()

Unnamed: 0_level_0,sobreviveu,classe_bilhete,genero,idade,irmaos_conjuges_abordo,pais_filhos_abordo,numero_bilhete,preco_bilhete,cabine_numero,local_embarque
id_passageiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,False,3,M,22.0,1,0,A/5 21171,7.25,,Southampton
2,True,1,F,38.0,1,0,PC 17599,71.2833,C85,Cherbourg
3,True,3,F,26.0,0,0,STON/O2. 3101282,7.925,,Southampton
4,True,1,F,35.0,1,0,113803,53.1,C123,Southampton
5,False,3,M,35.0,0,0,373450,8.05,,Southampton


# EDA 
Aqui vamos iniciar a parte de exploratório, as categorias do DataFrame já foram previamente identificadas, mas nada impede que você faça transformações para estas. Fique livre para identificar novos pontos e trazer para a sua defesa no futuro.

Novamente: **Perguntas guias** ou **Perguntas chaves** devem ser respondidas diretamente por você durante a elaboração do notebook, sempre com dados reforçando seus argumentos.




In [None]:
numerica = [
    "idade",
    "preco_bilhete",
    "irmaos_conjuges_abordo",
    "pais_filhos_abordo",
    "preco_bilhete",
]

categorica = [
    "classe_bilhete",
    "genero",
    "numero_bilhete",
    "cabine_numero",
    "local_embarque",
    "sobreviveu",
]

##  Visualize e entenda todas as colunas numéricas.
#### Perguntas guias para as categorias númerias:
- Existem dados faltantes no seu conjunto?
- Quais as suas distribuições?
- Temos outliers neste subconjunto? (utilize a definição numérica de outliers apresentado na trilha para fazer essa verificação)
- Existe alguma correlação entre essas variáveis numéricas? (não precisa olhar para outras categorias no momento)




In [None]:
## Seu código

##  Visualize e entenda todas as colunas categóricas.
#### Perguntas guias para as categorias categóricas:
- Existem dados faltantes no seu conjunto? 
- Conseguimos extrair alguma informação nas colunas `numero_bilhete` e `cabine_numero`? ([Dica](https://pt.wikipedia.org/wiki/Instala%C3%A7%C3%B5es_da_primeira_classe_do_RMS_Titanic))
- Existe alguma casualidade ou correlação entre as categorias?
- Existe alguma relação entre a `classe_bilhete` e o `cabine_numero`?




In [None]:
## Seu código

#### Perguntas chave para as categorias categóricas:
- Há alguma influência de pertencer a algum grupo de alguma cabine na sua sobrevivência?
- Há algum padrão no `numero_bilhete`?
- Há algum padrão na `cabine_numero`?




In [None]:
### Seu código

# Perguntas do Desafio:

### Qual o fator que foi mais importante e menos importante para determinar a sobrevivência para esta população?



In [None]:
### Seu código

Sua resposta: .....

### Você pode dizer que houve alguma influência do poder aquisitivo na sobrevivência do acidente? 



In [None]:
### Seu código

Sua resposta: .....

### O protocolo marítimo da época do Titanic tinha foco em dar prioridade a crianças e mulheres, analisando os dados podemos dizer se este protocolo foi seguido?



In [None]:
### Seu código

Sua resposta: .....

### Ter uma família no barco influenciou negativamente ou positivamente para a sua sobrevivência?

In [None]:
### Seu código

Sua resposta: .....

### Qual o perfil de quem não sobreviveu? E qual é o perfil de quem sobreviveu?
- Entenda Perfil como: Gênero, Idade e Classe Social. Caso você identifique alguma nova característica pode adicioná-la ao perfil.

In [None]:
### Seu código

Sua resposta: .....

# Predições - Aprendizado de Máquina
Uma vez que você compreendeu o contexto do problema e explorou os dados relacionados ao mesmo, é hora de criar um modelo para fazer predições!

### Orientações:
* O objetivo do seu modelo é fazer uma predição de sobrevivência com base nas informações de cada pessoa em individual.[Referencia para estudo de caso.](https://www.youtube.com/watch?v=ba3_UMjhAQc) 
* Você poderá desenvolver novas features para ajudar o modelo a entender melhor as características de cada amostra. 
* Deve ser feita uma limpeza e normalização dos dados antes de ser fornecido para o modelo.
* Você não poderá utilizar nenhuma lib de AutoML no desafio, é recomendado utilizar a bibliteca do [scikit-learn](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning) para fazer o seu processamento dos dados e treinamento de modelo.
* Defina quais métricas são importantes para o seu problema uma vez que se trata de uma classificação. [Referencia  para entender métricas.](https://medium.com/kunumi/m%C3%A9tricas-de-avalia%C3%A7%C3%A3o-em-machine-learning-classifica%C3%A7%C3%A3o-49340dcdb198)
* Você deve testar mais de um modelo e comprar o resultados antes de escolher o melhor modelo para o seu problema.
 
Este vídeo é de um Cientista de Dados resolvendo o problema refência do desafio, a suas idéias e lógicas podem ser aproveitadas mas o código não pode ser aproveitado uma vez que os dados não são exatamente iguais.[Link da solução feita por um profissional de referência do projeto.](https://www.youtube.com/watch?v=1KguWZH4hXw&list=PLwnip85KhroW8Q1JSNbgl06iNPeC0SDkx&index=7)

In [None]:
!pip install -U scikit-learn==1.1.2

In [8]:
### Importação dos pacotes scikit-learn 
#
#
#

# Reimportando o conjunto de dado
df = pd.read_csv("titanic.csv").set_index("id_passageiro")

y = df.pop("sobreviveu")
X = df

Unnamed: 0_level_0,sobreviveu,classe_bilhete,genero,idade,irmaos_conjuges_abordo,pais_filhos_abordo,numero_bilhete,preco_bilhete,cabine_numero,local_embarque
id_passageiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,False,3,M,22.0,1,0,A/5 21171,7.25,,Southampton
2,True,1,F,38.0,1,0,PC 17599,71.2833,C85,Cherbourg
3,True,3,F,26.0,0,0,STON/O2. 3101282,7.925,,Southampton
4,True,1,F,35.0,1,0,113803,53.1,C123,Southampton
5,False,3,M,35.0,0,0,373450,8.05,,Southampton


#### Perguntas guias para criação do modelo:
- Como você pretende tratar os dados faltantes do seu dataset antes de fornecer para o modelo? 
- Você consegue criar alguma nova coluna (feature) para fornecer ao modelo?
- Existe alguma coluna que pode ser removida sob algum critério? Como por exemplo correlação?
- Você encontrou `outliers` no dataset? Se sim qual ação foi feita com estes dados?
- Quais normatizações você aplicou nos dados categóricos e numéricos?

In [13]:
### Seu código

In [13]:
### Seu código

In [13]:
### Seu código

# Perguntas do Desafio  - Modelo:

### Quais etapas de processamento foram realizadas e o porquê de cada uma?
- Responda de maneira superficial uma vez que você já mostrou via código o que foi feito, quais as etapas do seu dado desde que ele é carregado pelo pandas até ser fornecido ao modelo durante o treinamento.

In [13]:
### Seu código

### Dos modelos testados qual foi melhor? Porque? Apresenta as métricas do seu melhor modelo. 
- Sabendo que você testou pelo menos 2 modelos diferentes, como você definiu o que é o melhor e qual é o melhor.




In [None]:
### Seu código

### Seu  melhor modelo comete erros? Quais os pontos fracos dele?
- Saber os pontos fracos de seu modelo é crucial durante o seu uso, tente identificar com uma matriz confusão onde o seu modelo erra e o perfil do dado que ele erra.





In [None]:
### Seu código

Se você sobreviveu até aqui, meus parabéns! =D