# Titanic: Machine Learning from Disaster

# Definição do Escopo

* Realizar o processo de Data Munging no dataset do tytanic;
* Gerar arquivos CSVs para o próximos projeto para aplicar os algoritmos machine learning;
* Os arquivos devem passar pelo processo de:
    * Análise Exploratória de Dados;
    * Análise Estatística de Dados;
    * Pré-Processamento;


# Objetivo

Gerar dataset(csv) limpo e formatado para aplicar no projeto algoritmos de ML para prever: 
* Que tipos de pessoas provavelmente sobreviveriam?

# Coleta de dados

https://www.kaggle.com/c/titanic/data

<b>PassengerId</b> = Passageiro ID<br>
<b>Survived</b> = Sobreviventes<br>
<b>Pclass</b> = Classe do Ingresso<br>
<b>Name</b> = Nome<br>
<b>Sex</b> = Sexo<br>
<b>Age</b> = Idade<br>
<b>SibSp</b> = Parentes Irmão/Irmã/Marido/Esposa<br>
<b>Parch</b> = Parentes Mãe/Pai/Filhos/Enteado<br>
<b>Ticket</b> = Passagem Número<br>
<b>Fare</b> = Passagem Preço<br>
<b>Cabin</b> = Cabine<br>
<b>Embarked</b> = Porto de Embarque(C = Cherbourg; Q = Queenstown; S = Southampton)<br>

## Fontes

In [1]:
### Importando as libs
import pandas as pd
import numpy as np

In [2]:
### Coletando as fontes de dados
train_csv = pd.read_csv('train.csv', sep = ',', encoding = 'UTF-8')
test_csv = pd.read_csv('test.csv', sep = ',', encoding = 'UTF-8')

## Validação - Importação dos dados

In [3]:
test_csv.head(2)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S


In [4]:
train_csv.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


## Renomeando - Colunas

In [5]:
### Colunas de Teste
test=test_csv.copy()
colunasTeste=['PassageiroId','Classe','Nome','Sexo','Idade','ParentesIrmao','ParentesFilhos',
              'PassagemNumero','PassagemPreco','Cabine','PortoEmbarque']
test.columns=colunasTeste

In [6]:
### Colunas de Treino
train=train_csv.copy()
colunasTreino = colunasTeste[:]
colunasTreino.insert(1,'Sobreviventes')
train.columns=colunasTreino

## Validação - Renomeação das colunas

In [7]:
test.head(2)

Unnamed: 0,PassageiroId,Classe,Nome,Sexo,Idade,ParentesIrmao,ParentesFilhos,PassagemNumero,PassagemPreco,Cabine,PortoEmbarque
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S


In [8]:
train.head(2)

Unnamed: 0,PassageiroId,Sobreviventes,Classe,Nome,Sexo,Idade,ParentesIrmao,ParentesFilhos,PassagemNumero,PassagemPreco,Cabine,PortoEmbarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


## Join Metadados

In [9]:
### União do Treino e Teste 
frames = [train[colunasTeste], test]
join = pd.concat(frames)

## Coleta de dados - Conclusão

<b>Dados de treino:</b> Possuí informações dos sobreviventes, então podemos utilizar algoritmos machine learning supervisionado.
<br>
<b>Dados de teste:</b> As previsões dos dados de teste deve ser enviado para o Kaggle, conforme o modelo: gender_submission.csv
<br>
<b>Join Metadados:</b> A união dos datasets de treino e teste vai ajudar no processo de análise exploratória dos dados.
<br>
<b>Join Metadados:</b> Foi excluído a coluna sobreviventes.

# Análise Exploratória de Dados

## Visualizar - 1ª Linhas

In [10]:
### Treino
train.head(20)

Unnamed: 0,PassageiroId,Sobreviventes,Classe,Nome,Sexo,Idade,ParentesIrmao,ParentesFilhos,PassagemNumero,PassagemPreco,Cabine,PortoEmbarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [11]:
### Teste
test.head(20)

Unnamed: 0,PassageiroId,Classe,Nome,Sexo,Idade,ParentesIrmao,ParentesFilhos,PassagemNumero,PassagemPreco,Cabine,PortoEmbarque
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
5,897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.225,,S
6,898,3,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q
7,899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0,,S
8,900,3,"Abrahim, Mrs. Joseph (Sophie Halaut Easu)",female,18.0,0,0,2657,7.2292,,C
9,901,3,"Davies, Mr. John Samuel",male,21.0,2,0,A/4 48871,24.15,,S


## Quais as dimensões do dataset?


In [12]:
### Treino
train.shape

(891, 12)

In [13]:
### Teste
test.shape

(418, 11)

In [14]:
### JOIN
join.shape

(1309, 11)

<b>Dados de treino:</b> A quantidade de dados de treino aparentemente não é suficiente para ter um modelo com alta precisão.
<br>

## Quais são os tipos das colunas?

In [15]:
### Treino
train.dtypes

PassageiroId        int64
Sobreviventes       int64
Classe              int64
Nome               object
Sexo               object
Idade             float64
ParentesIrmao       int64
ParentesFilhos      int64
PassagemNumero     object
PassagemPreco     float64
Cabine             object
PortoEmbarque      object
dtype: object

In [16]:
### Teste
test.dtypes

PassageiroId        int64
Classe              int64
Nome               object
Sexo               object
Idade             float64
ParentesIrmao       int64
ParentesFilhos      int64
PassagemNumero     object
PassagemPreco     float64
Cabine             object
PortoEmbarque      object
dtype: object

In [17]:
### Join
join.dtypes

PassageiroId        int64
Classe              int64
Nome               object
Sexo               object
Idade             float64
ParentesIrmao       int64
ParentesFilhos      int64
PassagemNumero     object
PassagemPreco     float64
Cabine             object
PortoEmbarque      object
dtype: object

## Quais as colunas que tem valores nulos?

In [18]:
### Treino
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassageiroId      891 non-null int64
Sobreviventes     891 non-null int64
Classe            891 non-null int64
Nome              891 non-null object
Sexo              891 non-null object
Idade             714 non-null float64
ParentesIrmao     891 non-null int64
ParentesFilhos    891 non-null int64
PassagemNumero    891 non-null object
PassagemPreco     891 non-null float64
Cabine            204 non-null object
PortoEmbarque     889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [19]:
### Teste
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassageiroId      418 non-null int64
Classe            418 non-null int64
Nome              418 non-null object
Sexo              418 non-null object
Idade             332 non-null float64
ParentesIrmao     418 non-null int64
ParentesFilhos    418 non-null int64
PassagemNumero    418 non-null object
PassagemPreco     417 non-null float64
Cabine            91 non-null object
PortoEmbarque     418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [20]:
### Join
join.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1309 entries, 0 to 417
Data columns (total 11 columns):
PassageiroId      1309 non-null int64
Classe            1309 non-null int64
Nome              1309 non-null object
Sexo              1309 non-null object
Idade             1046 non-null float64
ParentesIrmao     1309 non-null int64
ParentesFilhos    1309 non-null int64
PassagemNumero    1309 non-null object
PassagemPreco     1308 non-null float64
Cabine            295 non-null object
PortoEmbarque     1307 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 122.7+ KB


## Quais total de valores nulos por coluna?

In [21]:
### Treino
train.isnull().sum()

PassageiroId        0
Sobreviventes       0
Classe              0
Nome                0
Sexo                0
Idade             177
ParentesIrmao       0
ParentesFilhos      0
PassagemNumero      0
PassagemPreco       0
Cabine            687
PortoEmbarque       2
dtype: int64

In [22]:
### Teste
test.isnull().sum()

PassageiroId        0
Classe              0
Nome                0
Sexo                0
Idade              86
ParentesIrmao       0
ParentesFilhos      0
PassagemNumero      0
PassagemPreco       1
Cabine            327
PortoEmbarque       0
dtype: int64

In [23]:
### Join
join.isnull().sum()

PassageiroId         0
Classe               0
Nome                 0
Sexo                 0
Idade              263
ParentesIrmao        0
ParentesFilhos       0
PassagemNumero       0
PassagemPreco        1
Cabine            1014
PortoEmbarque        2
dtype: int64

## Sumário Estatístico

Resumo estatístico do DataFrame, com quartis, mediana, etc

<ul>
<li>count = quantidade de registros não nulo</li>
<li>mean = média aritmética</li>
<li>std = desvio padrão</li>
<li>min = minímo valor</li>
<li>25% = Primeiro Quartil</li>
<li>50% = Segundo Quartil = Mediana</li>
<li>75% = Terceiro Quartil</li>
<li>max = maior valor</li>
</ul>

### Dados Brutos

In [24]:
### Treino 
train.describe()

Unnamed: 0,PassageiroId,Sobreviventes,Classe,Idade,ParentesIrmao,ParentesFilhos,PassagemPreco
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [25]:
### Teste
test.describe()

Unnamed: 0,PassageiroId,Classe,Idade,ParentesIrmao,ParentesFilhos,PassagemPreco
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [26]:
### Join
join.describe()

Unnamed: 0,PassageiroId,Classe,Idade,ParentesIrmao,ParentesFilhos,PassagemPreco
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,655.0,2.294882,29.881138,0.498854,0.385027,33.295479
std,378.020061,0.837836,14.413493,1.041658,0.86556,51.758668
min,1.0,1.0,0.17,0.0,0.0,0.0
25%,328.0,2.0,21.0,0.0,0.0,7.8958
50%,655.0,3.0,28.0,0.0,0.0,14.4542
75%,982.0,3.0,39.0,1.0,0.0,31.275
max,1309.0,3.0,80.0,8.0,9.0,512.3292


### Sumário Estatístico(Dados Brutos) - Conclusão 

<b>PassageiroId:</b> Desconsiderar os valores relacionados a coluna.
<br>
<b>Sobreviventes:</b> Nos dados de treino aproximadamente 38% sobreviveu - mean 0.383838
<br>
<b>Classe:</b> 
<br>
<b>Idade:</b> 
<br>
<b>ParentesIrmao:</b> 
<br>
<b>ParentesFilhos:</b> 
<br>
<b>PassagemPreco:</b> 
<br>