<a href="https://colab.research.google.com/github/josepefg/kaggle/blob/master/Titanic_Iniciantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Desafio do Titanic**  
<a href="https://www.linkedin.com/in/josepegerent"> <img border="0" alt="Linkedin" src="https://img.shields.io/badge/Autor-josepefg-red.svg"> </a>
## **Solução básica**
## [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic)  
Essa é a famosa competição do Kaggle sobre o acidente do Titanic. Ela é considerada a principal competição para iniciantes no mundo de Data Science. O objetivo dessa competição é simples, predizer os sobreviventes do acidente a partir de um modelo de Machine Learning.
![Titanic](https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/RMS_Titanic_3.jpg/1280px-RMS_Titanic_3.jpg)  
Abaixo segue uma maneira rápida, simples e direta para criar o seu primeiro modelo de machine learning para predição.

## **Obtendo os dados**  
Os dados foram divididos em dois grupos:
*   Treino (train.csv)  
*   Teste (test.csv)  
Os dados de treino devem ser utilizados para a análise e criação dos modelos de Machine Learning, enquanto que os dados de teste servem para avaliar o modelo criado.  
Para baixar os arquivos é necessário criar uma conta no Kaggle (não se preocupe, é de graça). Para facilitar eu já baixei esses arquivos e salvei no meu repositório.




In [0]:
# importando os pacotes necessarios
# essa biblioteca é apenas para suprimir os warnings que possam aparecer
import warnings
warnings.filterwarnings("ignore", category=Warning) 

import pandas as pd

# permitir visualizar todas as colunas
pd.options.display.max_columns = None

In [0]:
train = pd.read_csv('https://raw.githubusercontent.com/josepefg/kaggle/master/data/titanic/train.csv')
test = pd.read_csv('https://raw.githubusercontent.com/josepefg/kaggle/master/data/titanic/test.csv')

## **Entendendo os dados**

In [0]:
# Amostra do dataset
display(train.head())

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## **Preparação dos dados**  
Para que os modelos possam ser treinados não podem haver dados categóricos nem dados faltantes.

In [0]:
# Feature Engineering
# converter 'Sex' em 0 e 1
train['Sex'] = train['Sex'].map({'male': 0, 'female': 1})
test['Sex'] = test['Sex'].map({'male': 0, 'female': 1})

In [0]:
# Excluir linhas categóricas do treino e do teste
train.drop(["Name", "Ticket", "Cabin", "Embarked"],  axis=1, inplace=True)
test.drop(["Name", "Ticket", "Cabin", "Embarked"],  axis=1, inplace=True)

In [0]:
# Salvar coluna Survived como alvo e depois excluir do treino
target = train["Survived"]
train.drop(['Survived'], axis=1, inplace=True)

In [0]:
# Valores faltantes nos datasets de treino e test
print(train.isnull().sum())
print(test.isnull().sum())

PassengerId      0
Pclass           0
Sex              0
Age            177
SibSp            0
Parch            0
Fare             0
dtype: int64
PassengerId     0
Pclass          0
Sex             0
Age            86
SibSp           0
Parch           0
Fare            1
dtype: int64


In [0]:
# Excluir dados faltantes de "Age"
train.drop(["Age"], axis=1, inplace=True)
test.drop(["Age"], axis=1, inplace=True)

In [0]:
# Tratar dados faltantes de "Fare" no test
fare_median = test['Fare'].median()
test['Fare'].fillna(fare_median, inplace=True)

## **Construção e avaliação dos modelos**  
Abaixo foram criados dois modelos simples de classificação para podermos comparar e escolher o de melhor acurácia.

In [0]:
# Importar bibliotecas dos modelos de Machine Learning
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

In [0]:
# Criar um modelo de Regressão Logística
lr_model = LogisticRegression(solver='liblinear')
lr_model.fit(train, target)

# Verificar a acurácia do modelo
acc_logReg = round(lr_model.score(train, target) * 100, 2)
print("Acurácia do modelo de Regressão Logística: {}".format(acc_logReg))

Acurácia do modelo de Regressão Logística: 79.57


In [0]:
# Criar um modelo de árvore de decisão
tree_model = DecisionTreeClassifier(max_depth=3)
tree_model.fit(train, target)

# Verificar a acurácia do modelo
acc_tree = round(tree_model.score(train, target) * 100, 2)
print("Acurácia do modelo de Árvore de Decisão: {}".format(acc_tree))

Acurácia do modelo de Árvore de Decisão: 81.03


In [0]:
# Salvar o melhor modelo para submissão
y_pred = tree_model.predict(test)
passengerId = test['PassengerId']

submission = pd.DataFrame({
    "PassengerId": passengerId,
    "Survived": y_pred
})

# Gerar arquivo csv
filename = './submission.csv'

submission.to_csv(filename, index=False)

![alt text](https://raw.githubusercontent.com/josepefg/kaggle/master/resources/Screenshot_18.png)