# RMS Titanic

## O RMS Titanic foi um navio de passageiros britânico operado pela White Star Line e construído pelos estaleiros da Harland and Wolff em Belfast. Foi a segunda embarcação da Classe Olympic de transatlânticos depois do RMS Olympic e seguido pelo HMHS Britannic. Projetado pelos engenheiros navais Alexander Carlisle e Thomas Andrews, sua construção começou em março de 1909 e ele foi lançado ao mar em maio de 1911. O Titanic foi pensado para ser o navio mais luxuoso e mais seguro de sua época, gerando lendas que era supostamente "inafundável".

## A embarcação partiu em sua viagem inaugural de Southampton para Nova Iorque em 10 de abril de 1912, no caminho passando em Cherbourg-Octeville na França e por Queenstown na Irlanda. Ele colidiu com um iceberg às 23h40min do dia 14 de abril e afundou na madrugada do dia seguinte matando mais de 1500 pessoas, sendo um dos maiores desastres marítimos em tempos de paz de toda a história. Seu naufrágio destacou vários pontos fracos de seu projeto, deficiências nos procedimentos de evacuação de emergência e falhas nas regulamentações marítimas da época. Comissões de inquérito foram instauradas nos Estados Unidos e no Reino Unido, levando a mudanças nas leis internacionais de navegação que permanecem em vigor mais de um século depois.

## Os destroços do Titanic foram procurados por décadas até serem encontrados em 1985 por uma equipe liderada por Robert Ballard. Ele se encontra a 3843 m de profundidade e a 650 km ao sudeste de Terra Nova no Canadá. Sua história e naufrágio permaneceram no imaginário popular durante décadas, levando a produção de vários livros e filmes a seu respeito, mais notavelmente o filme Titanic de 1997. Até hoje o Titanic permanece como um dos navios mais famosos da história, com seus destroços atraindo várias expedições de exploração ao longo dos anos.

*Fonte:* [WikiPedia](https://pt.wikipedia.org/wiki/RMS_Titanic)

--------

## A equipe da [Udacity](https://udacity.com) disponibilizou informações sobre uma parte dos passageiros à bordo do RMS Titanic no dia daquela tragédia. Esse _dataset_ que contém informações reais vem sendo utilizado em diversos estudos de caso, além de servir de base para aprendizado de Ciência de Dados, Estatística e Machine Learning.

## O arquivo **titanic.data** contém informações reais sobre os passageiros organizadas da seguinte forma:

- Survived (Sobreviveu): 0 = Não, 1 = Sim
- Pclass (Classe): Classe de ingresso 1 = 1º, 2 = 2º, 3 = 3º
- Sex (Sexo): Sexo do passageiro
- Age (Idade): Idade em anos
- Sibsp: Quantidade de irmãos / cônjuges a bordo do Titanic
- Parch: Quantidade de pais / crianças a bordo do Titanic
- Ticket (Bilhete): Número do bilhete de embarque
- Fare (Tarifa): Tarifa paga pelo Passageiro
- Cabin (Cabine): Número de cabine
- Embarked (Embarque): Porto de Embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

## O objetivo deste estudo é obter algumas informações estatísticas sobre a tragédia e realizar alguns _insights_ a respeito dos tripulantes e das circunstâncias do acidente.

## Efetue a carga do arquivo através da biblioteca _Pandas_ e a partir do _DataFrame_ gerado, efetue as operações necessárias para responder as questões.


## Importando o DataSet

### 1 - Efetuar a leitura do dataset através do Pandas, gerando um DataFrame de nome tit, levando-se em consideração que o arquivo encontra-se na mesma pasta do notebook.

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [2]:
tit = pd.read_table ('titanic.data', sep=',')

In [3]:
tit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [4]:
tit.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [5]:
tit.value_counts().head(10)

PassengerId  Survived  Pclass  Name                                                      Sex     Age   SibSp  Parch  Ticket    Fare      Cabin            Embarked
890          1         1       Behr, Mr. Karl Howell                                     male    26.0  0      0      111369    30.0000   C148             C           1
337          0         1       Pears, Mr. Thomas Clinton                                 male    29.0  1      0      113776    66.6000   C2               S           1
332          0         1       Partner, Mr. Austen                                       male    45.5  0      0      113043    28.5000   C124             S           1
330          1         1       Hippach, Miss. Jean Gertrude                              female  16.0  0      1      111361    57.9792   B18              C           1
328          1         2       Ball, Mrs. (Ada E Hall)                                   female  36.0  0      0      28551     13.0000   D                S          

## Conhecendo o DataSet

In [6]:
tit.value_counts().head(5)

PassengerId  Survived  Pclass  Name                          Sex     Age   SibSp  Parch  Ticket  Fare     Cabin  Embarked
890          1         1       Behr, Mr. Karl Howell         male    26.0  0      0      111369  30.0000  C148   C           1
337          0         1       Pears, Mr. Thomas Clinton     male    29.0  1      0      113776  66.6000  C2     S           1
332          0         1       Partner, Mr. Austen           male    45.5  0      0      113043  28.5000  C124   S           1
330          1         1       Hippach, Miss. Jean Gertrude  female  16.0  0      1      111361  57.9792  B18    C           1
328          1         2       Ball, Mrs. (Ada E Hall)       female  36.0  0      0      28551   13.0000  D      S           1
dtype: int64

### 2 - Quantas linhas e colunas tem o dataset? Quais os tipos das colunas?

In [7]:
len(tit.index)

891

In [8]:
tit[tit.columns[0]].count()

891

In [9]:
tit.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
tit.columns.value_counts()


Sex            1
Age            1
Survived       1
Ticket         1
PassengerId    1
SibSp          1
Cabin          1
Pclass         1
Parch          1
Embarked       1
Name           1
Fare           1
dtype: int64

Quantos sobreviveram? 342

In [11]:
tit['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

Idade do passageiro mais novo

In [12]:
tit['Age'].min()

0.42

Passageiro mais velho

In [13]:
tit['Age'].max()

80.0

### 3 - Mostre os dados dos dez primeiros e 8 últimos registros do dataset.

In [18]:
tit.head(10)
tit.head(-8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S


### 4 - Cálculos envolvendo colunas numéricas com dados faltantes podem sofrer impacto. É possível afirmar se há dados faltantes no dataset? Caso positivo, quais e quantos seriam esses dados? Preencha os dados faltantes de forma que não influenciem em operações futuras.

In [19]:
tit2 = tit.dropna()
tit2.shape

(183, 12)

In [20]:
enulo = tit.isnull()
faltantes = tit.isnull().sum()
print(faltantes)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [21]:
faltantes_percentual = (tit.isnull().sum() / len(tit['PassengerId']))*100
print(faltantes_percentual)

PassengerId     0.000000
Survived        0.000000
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            19.865320
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.000000
Cabin          77.104377
Embarked        0.224467
dtype: float64


## Adequando o DataSet

### 4 - Uma vez que algumas colunas não serão utilizadas, eventualmente é melhor excluí-las para que não interfiram na análise. Assim, exclua do dataset as colunas Sibsp, Parch e Ticket.

In [22]:
tit['Cabin'].fillna('Sem Cabine',inplace = True)
tit['Age'].fillna(tit['Age'].mean(),inplace = True)
faltantes_percentual = (tit.isnull().sum() / len(tit['PassengerId']))*100
print(faltantes_percentual)

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.000000
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.000000
Embarked       0.224467
dtype: float64


In [23]:
tit.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,Sem Cabine,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,Sem Cabine,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,Sem Cabine,S


In [24]:
tit = tit.drop('SibSp', axis=1)
tit = tit.drop('Ticket', axis=1)
tit = tit.drop('Parch', axis=1)

In [None]:
tit.columns.value_counts()

Survived       1
Sex            1
Cabin          1
Pclass         1
PassengerId    1
Embarked       1
Age            1
Name           1
Fare           1
dtype: int64

### 5 - Renomear as colunas restantes para a lingua portuguesa, utilizando os seguintes nomes de colunas: IdPassageiro, Sobreviveu, Classe, Nome, Sexo, Idade, Tarifa, Cabine e Embarque.

In [25]:
tit.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')

In [29]:
tit = tit.rename(columns={'PassengerId':'Passageiro', 'Survived':'Sobrevivente', 'Pclass':'Classe', 'Name':'Nome', 'Sex':'Sexo', 'Age':'Idade', 'Fare':'Tarifa','Cabin':'Cabine', 'Embarked':'Embarque'})

In [26]:
tit.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,Sem Cabine,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.925,Sem Cabine,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,Sem Cabine,S


### 6 - Alterar o conteudo da coluna Sobreviveu para:
- 0 => Não
- 1 => Sim

In [30]:
tit['Sobrevivente'].replace({ 0 : 'Não', 1 : 'Sim'}, inplace=True)
tit.head()

Unnamed: 0,Passageiro,Sobrevivente,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,Não,3,"Braund, Mr. Owen Harris",male,22.0,7.25,Sem Cabine,S
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C85,C
2,3,Sim,3,"Heikkinen, Miss. Laina",female,26.0,7.925,Sem Cabine,S
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,Não,3,"Allen, Mr. William Henry",male,35.0,8.05,Sem Cabine,S


### 7 - Alterar o conteudo da coluna Sexo para:
- female => Mulher
- male   => Homem

In [31]:
tit['Sexo'].replace({ 'female' : 'Mulher', 'male' : 'Homem'}, inplace=True)
tit.head()

Unnamed: 0,Passageiro,Sobrevivente,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,Não,3,"Braund, Mr. Owen Harris",Homem,22.0,7.25,Sem Cabine,S
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,71.2833,C85,C
2,3,Sim,3,"Heikkinen, Miss. Laina",Mulher,26.0,7.925,Sem Cabine,S
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,53.1,C123,S
4,5,Não,3,"Allen, Mr. William Henry",Homem,35.0,8.05,Sem Cabine,S


## Alguns números

### 8 - Quantas mulheres e quantos homems estavam à bordo, de acordo com o dataset?

In [32]:
tit['Sexo'].value_counts()

Homem     577
Mulher    314
Name: Sexo, dtype: int64

### 9 - Quantos passageiros sobreviveram e quantos não sobreviveram?

In [33]:
tit['Sobrevivente'].value_counts()

Não    549
Sim    342
Name: Sobrevivente, dtype: int64

### 10 - Quantas mulheres não sobreviveram?

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f504d87cdd0>

### 11 - Proporcionalmente, sobreviveram mais homens ou mais mulheres? Cite as proporções.

### 12 - Levando-se em consideração a idade dos passageiros, qual a idade e quantidade de pessoas com o maior número de mortos?

### 13 - Qual a média de idade dos homens sobreviventes?

### 14 - Levando-se em consideração passageiros prioritários (mulheres e crianças de até 15 anos independente do sexo) qual a proporção de sobreviventes por sexo?

### 15 - Qual a quantidade de passageiros por classe?

### 16 - Qual o percentual de sobreviventes por classe?

### 17 - Crie um dataframe que demonstre a quantidade de sobreviventes e não sobreviventes, agrupados por sexo e classe.

### 18 - Dos homens com idade entre 24 e 30 anos quantos da classe 3 sobreviveram? Quantos da classe 2 não sobreviveram?

### 19 - Represente graficamente duas comparações que preferir e analise/descreva quais as conclusões obtidas.