# Titanic

Hoje, faremos uma análise de dados do naufrágio do Titanic, um dos maiores desastres da história naval. 
A nossa principal tarefa é verificar se dado uma pessoa, caso ela estivesse no Titanic se ela teria sobrevivido ou não.
Neste tutorial, de forma bem geral, faremos a preparação dos dados de treinamento e teste, identificando dados inconsistentes ou faltantes, numéricos ou categóricos tornando assim, nosso conjunto de dados mais consistente para uma análise mais precisa. A partir disto, extrairemos correlações entre cada característica, avaliaremos nosso modelo e por fim, faremos predições.




### Algumas premissas:

* Algumas características não têm correlação com sobrevivência.

* Crianças são mais propensas a sobreviver.

* Mulheres são mais propensas a sobreviver.

* Passageiros de primeira classe têm maior probabilidade de sobreviver.

Estas 4  premissas mostraremos no decorrer deste notebook.

In [125]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

O conjunto de dados de treino e de teste estão disponíveis no site Kaggle, porém, no diretório que este projeto está contido, também estão presentes estes dois conjuntos de dados com extensão csv.

In [126]:
treino = pd.read_csv("train.csv")
teste = pd.read_csv("test.csv")

In [127]:
treino

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [128]:
treino.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [129]:
teste

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
5,897,3,"Svensson, Mr. Johan Cervin",male,14.0,0,0,7538,9.2250,,S
6,898,3,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q
7,899,2,"Caldwell, Mr. Albert Francis",male,26.0,1,1,248738,29.0000,,S
8,900,3,"Abrahim, Mrs. Joseph (Sophie Halaut Easu)",female,18.0,0,0,2657,7.2292,,C
9,901,3,"Davies, Mr. John Samuel",male,21.0,2,0,A/4 48871,24.1500,,S


In [130]:
teste.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292



A função info() nos auxilia a verificar quantas instâncias possuem dados faltantes. Note que dados faltantes geram inconsistência no nosso dataset e afetam diretamente no nosso modelo preditivo.

In [131]:
print("Informações do conjunto de dados de treino")
print()
treino.info()

Informações do conjunto de dados de treino

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


Note que neste conjunto de treino possuimos 891 entradas, ou seja, instâncias do problema e 12 colunas que são os atributos. Porém, idade(age), cabine(cabin) , em qual porta embarcou(embarked) possuem dados faltantes.

In [132]:
print("Informações do conjunto de dados de teste")
teste.info()

Informações do conjunto de dados de teste
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


Já no conjuntos de teste temos como dados faltantes idade(age), tarifa(fare) e cabine(cabin).


### Informações sobre variáveis qualitativas.

In [133]:
# o parametro include = ['O'] apresenta apenas informações sobre
# atributos qualitativos
treino.describe(include=['O'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Gee, Mr. Arthur H",male,CA. 2343,G6,S
freq,1,577,7,4,644


Perceba que o sexo mais comum é masculino e a porta de embarque mais usada é a porta S.

In [134]:
teste.describe(include=['O'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,418,418,418,91,418
unique,418,2,363,76,3
top,"Collett, Mr. Sidney C Stuart",male,PC 17608,B57 B59 B63 B66,S
freq,1,266,5,3,270


### Preparando os dados para predição 

* Preenchendo dados que não estão preenchidos.
* Correlação entre características e sobrevivência.
* Transformando variáveis categóricas em valores numéricos equivalentes.

#### 1. Remover dados que não são importantes para a análise

In [135]:
treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


* Observe que Cabine(Cabin) possui mais ausência do que presença de informação.
* Nome(Name) e PassengerId(Id do passageiro) não têm relação com sobrevivência 
* PassengerId é importante para a submissão do resultado final

In [136]:
teste_Id_passageiro = teste["PassengerId"]

treino.drop(["PassengerId","Ticket","Cabin"], axis=1, inplace=True)

teste.drop(["PassengerId","Ticket","Cabin"], axis=1, inplace=True)

treino_teste_data = [treino, teste]


#### 2. Atributo Sexo

* Não há campos em branco 
* É uma variável qualitativa

Como SEXO é uma variável qualitativa, devemos transformá-los em valores numéricos. Assim, adotamos 1 para masculino e 0 para feminino.


In [138]:
for dataset in treino_teste_data:
    dataset['Sex'] = dataset['Sex'].map({'male': 1,
                                         'female': 0}).astype(int)

In [143]:
treino_teste_data[0].head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,7.25,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,71.2833,C
2,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,7.925,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,53.1,S
4,0,3,"Allen, Mr. William Henry",1,35.0,0,0,8.05,S


In [144]:
treino_teste_data[1].head()

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,3,"Kelly, Mr. James",1,34.5,0,0,7.8292,Q
1,3,"Wilkes, Mrs. James (Ellen Needs)",0,47.0,1,0,7.0,S
2,2,"Myles, Mr. Thomas Francis",1,62.0,0,0,9.6875,Q
3,3,"Wirz, Mr. Albert",1,27.0,0,0,8.6625,S
4,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",0,22.0,1,1,12.2875,S


In [159]:
# as_index = false torna a consulta semelhante a uma consulta SQL.
# teste com valor as_index = True
treino[['Sex','Survived']].groupby(['Sex'],
                                   as_index = False).mean().sort_values(by = 'Survived', ascending = True)

Unnamed: 0,Sex,Survived
1,1,0.188908
0,0,0.742038


#### Com esta consulta, podemos considerar que pessoas do sexo feminino são mais propensos a sobreviver.

#### Atributo Pclass
Este atributo indica qual classe cada indivíduo está podendo ser 1ª, 2ª ou 3ª classe.

In [165]:
treino[['Pclass', 'Survived']].groupby(['Pclass'], 
                                        as_index = False).mean().sort_values(by = 'Survived', ascending = True)

Unnamed: 0,Pclass,Survived
2,3,0.242363
1,2,0.472826
0,1,0.62963


Desta consulta, podemos concluir que passageiros da 1ª classe estão mais propensos e passageiros da 3ª menos e os de 2ª classe está no meio destas duas classes.