# Resolvendo Kaggle Titanic

Este tutorial é para iniciantes e será divido em alguma partes

- Exploração de Análise de Dados (Exploratory Data Analysis - EDA) com visualização
- Extração de Características (Feature Extract)
- Modelagem de Dados (Data Modeling)
- Model Evaluate

Talvez nem todos os termos sejam traduzidos para o português, porque há muito conteúdo bom inglês (essas palavras estarão em itálico) então espero que sirva de inspiração para se aprofundar um pouco mais nessa lingua, porém, vou me esforçar ao máximo para deixar todos os seus significados ou mesmo um link com mais detalhes.

Link do desafio no Kaggle, [Titanic](https://www.kaggle.com/c/titanic)

### Objetivo

O objetivo desse desafio é prever utilizando modelos de *machine learning* quem sobreviveria, para isso foi disponibilizado dois *datasets* que estão dentro da pasta titanic, o primeiro é **train.csv** que possui os dados dos sobreviventes(sim ou não) e suas características. O **test.csv** são os mesmos dados com suas caracterísicas, mas sem os sobreviventos onde no fim vamos usa-los para prever se sobreviveriam ou não.

### Importação das bibliotecas

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set() # setting seaborn default for plots


### Carregando conjunto de dados

Para carregar os dados será utilizada a biblioteca chamada [pandas](https://pandas.pydata.org/pandas-docs/version/0.21/index.html), amplamente utilizada no python, iremos utilizar o método **read_csv** para carregar nossas planilhas de dados que se tornaram DataFrames que é uma estrutura do pandas que permite maniputalar tabelas de forma simples. 

In [3]:
train = pd.read_csv('titanic/train.csv')
test = pd.read_csv('titanic/test.csv')

Primeiro passo é olhar nosso dataset, para isso tem método chamado .head() que retorna por default os 5 primeiros dados do dataset.

In [5]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


Esse método aceita argumentos, que são inteiros que indicam a quantidade de linhas que devem retornar.

In [8]:
train.head(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [9]:
train.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Agora vamos a explicação do significado de cada uma das colunas, que são nossas *features*.

1. **PassengerId**: Um identificar único para cada linha de dados dos passageiros.
2. **Survived**: Indicador se o passageiro sobreviveu, representado pelo valor 1 ou não sobreviveu, representado pelo valor 0.
3. **Pclass**: A classe do ticket do passageiro, sendo 1 Primeira Classe, 2 Segunda Classe e 3 Terciera classe.
4. **Name**: Nome do passageiro.
5. **Sex**: Genero no passageiro, sendo *male* masculino e *female* feminino.
6. **Age**: Idade do passageiro.
7. **SibSp**: Número de irmãos e/ou esposas (os) a bordo.
8. **Parch**: Número de pais de filhos a bordo.
9. **Ticket**: Número do Ticket.
10. **Fare**: A quantidade de dinheiro paga pela viagem.
11. **Cabin**: Número de pessoas na cabine.
12. **Embarked**:

Se forem encontrados valores NaN em qualquer coluna, significa que esses valores não foram gravados.