# PROJETO TITANIC

Este projeto se destina a analisar dados provenientes da lista de embarque do RMS Titanic, navio de passageiros que realizou sua primeira e última viagem saindo do porto de Southampton no dia 10 de Abril de 1912, com destino a Nova York.

In [1]:
# Importando os programas necessários
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# Importando o dataset do Titanic
data = pd.read_csv('datasets/train.csv')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Abaixo utilizo o comando describe() para extrair alguns dados iniciais deste dataset, antes de começar sua preparação

Podemos observar que:
- A contagem total de passageiros é 891 pessoas
- Na coluna "Idade" temos apenas 714 valores válidos. Examinaremos posteriormente essa coluna
- A média de sobreviventes do naufrágio é de 38,38% do total de passageiros
- A idade média dos passageiros era de 29,7 anos
- A valor médio da tarifa paga foi de 32,20 dólares
- O passageiro mais novo tinha 0,42 anos de idade, o equivalente a 5 meses; o passageiro mais velho tinha 80 anos de idade
- A tarifa de embarque mais cara foi de 512,32 dólares, enquanto a mais barata foi gratuita

In [5]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Para deixar os dados mais facilmente inteligíveis para o público brasileiro, irei traduzir as colunas

In [6]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [7]:
data.columns = ['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 'IrmaosConjuge',
                'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'Embarque']

In [8]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Agora irei traduzir o conteúdo da coluna "Sexo"

In [9]:
data['Sexo'].unique()

array(['male', 'female'], dtype=object)

In [10]:
data['Sexo'].replace({'male': 'masculino', 'female': 'feminino'}, inplace = True)

In [11]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",masculino,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",feminino,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",feminino,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",feminino,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",masculino,35.0,0,0,373450,8.05,,S


### Vamos analisar os dados faltantes em todas as colunas do nosso dataset

In [12]:
data.isnull().sum()

IdPassageiro       0
Sobreviveu         0
Classe             0
Nome               0
Sexo               0
Idade            177
IrmaosConjuge      0
PaisFilhos         0
Bilhete            0
Tarifa             0
Cabine           687
Embarque           2
dtype: int64

### Podemos observar, conforme descrição acima, que há dados faltantes nas colunas "Idade", "Cabine" e "Embarque". Vamos lidar primeiramente com a coluna "Embarque"

Na coluna "Embarque" temos apenas 2 valores nulos em um dataset de 891 linhas. Conforme mostrado abaixo, o valor que mais se repete é "S", com 644 ocorrências em um total de 889 valores válidos. Ou seja, 72,4% dos embarques registrados foram feitos pelo portão S. Dessa forma, iremos preencher os dados faltantes nesta coluna com o valor "S", de modo a alterar o mínimo possível as porcentagens de distribuição.

In [13]:
data.describe(include='O')

Unnamed: 0,Nome,Sexo,Bilhete,Cabine,Embarque
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Norman, Mr. Robert Douglas",masculino,1601,C23 C25 C27,S
freq,1,577,7,4,644


In [14]:
data['Embarque'].fillna('S', inplace = True)

In [15]:
data['Embarque'].isnull().sum()

0

In [16]:
data.isnull().sum()

IdPassageiro       0
Sobreviveu         0
Classe             0
Nome               0
Sexo               0
Idade            177
IrmaosConjuge      0
PaisFilhos         0
Bilhete            0
Tarifa             0
Cabine           687
Embarque           0
dtype: int64

### Agora vamos analisar a coluna "Cabine". Como mostrado acima, temos 687 valores nulos para esta coluna, de um total de 891. Essas informações seriam muito interessantes para analisar os sobreviventes segundo o posicionamento de suas cabines no navio, porém o grande número de valores nulos nesta coluna faz com que ela seja inútil à nossa análise. Iremos eliminá-la do dataset.

In [17]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",masculino,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",feminino,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",feminino,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",feminino,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",masculino,35.0,0,0,373450,8.05,,S


In [18]:
data.drop(columns = ['Cabine'], inplace = True)

In [19]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",masculino,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",feminino,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",feminino,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",feminino,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",masculino,35.0,0,0,373450,8.05,S


In [20]:
data.set_index('IdPassageiro', inplace = True)
data.head()

Unnamed: 0_level_0,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque
IdPassageiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",masculino,22.0,1,0,A/5 21171,7.25,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",feminino,38.0,1,0,PC 17599,71.2833,C
3,1,3,"Heikkinen, Miss. Laina",feminino,26.0,0,0,STON/O2. 3101282,7.925,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",feminino,35.0,1,0,113803,53.1,S
5,0,3,"Allen, Mr. William Henry",masculino,35.0,0,0,373450,8.05,S
