# RMS Titanic

## O RMS Titanic foi um navio de passageiros britânico operado pela White Star Line e construído pelos estaleiros da Harland and Wolff em Belfast. Foi a segunda embarcação da Classe Olympic de transatlânticos depois do RMS Olympic e seguido pelo HMHS Britannic. Projetado pelos engenheiros navais Alexander Carlisle e Thomas Andrews, sua construção começou em março de 1909 e ele foi lançado ao mar em maio de 1911. O Titanic foi pensado para ser o navio mais luxuoso e mais seguro de sua época, gerando lendas que era supostamente "inafundável".

## A embarcação partiu em sua viagem inaugural de Southampton para Nova Iorque em 10 de abril de 1912, no caminho passando em Cherbourg-Octeville na França e por Queenstown na Irlanda. Ele colidiu com um iceberg às 23h40min do dia 14 de abril e afundou na madrugada do dia seguinte matando mais de 1500 pessoas, sendo um dos maiores desastres marítimos em tempos de paz de toda a história. Seu naufrágio destacou vários pontos fracos de seu projeto, deficiências nos procedimentos de evacuação de emergência e falhas nas regulamentações marítimas da época. Comissões de inquérito foram instauradas nos Estados Unidos e no Reino Unido, levando a mudanças nas leis internacionais de navegação que permanecem em vigor mais de um século depois.

## Os destroços do Titanic foram procurados por décadas até serem encontrados em 1985 por uma equipe liderada por Robert Ballard. Ele se encontra a 3843 m de profundidade e a 650 km ao sudeste de Terra Nova no Canadá. Sua história e naufrágio permaneceram no imaginário popular durante décadas, levando a produção de vários livros e filmes a seu respeito, mais notavelmente o filme Titanic de 1997. Até hoje o Titanic permanece como um dos navios mais famosos da história, com seus destroços atraindo várias expedições de exploração ao longo dos anos.

*Fonte:* [WikiPedia](https://pt.wikipedia.org/wiki/RMS_Titanic)

--------

## A equipa da [Udacity](https://udacity.com) disponibilizou informações sobre uma parte dos passageiros à bordo do RMS Titanic no dia daquela tragédia. Esse _dataset_ que contém informações reais vem sendo utilizado em diversos estudos de caso, além de servir de base para aprendizado de Ciência de Dados, Estatística e Machine Learning.

## O arquivo **titanic_data.csv** contém informações reais sobre os passageiros organizadas da seguinte forma:

- Survived (Sobreviveu): 0 = Não, 1 = Sim
- Pclass (Classe): Classe de ingresso 1 = 1º, 2 = 2º, 3 = 3º
- Sex (Sexo): Sexo do passageiro
- Age (Idade): Idade em anos
- Sibsp: Quantidade de irmãos / cônjuges a bordo do Titanic
- Parch: Quantidade de pais / crianças a bordo do Titanic
- Ticket (Bilhete): Número do bilhete de embarque
- Fare (Tarifa): Tarifa paga pelo Passageiro
- Cabin (Cabine): Número de cabine
- Embarked (Embarque): Porto de Embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

## O objetivo deste estudo é obter algumas informações estatísticas sobre a tragédia e realizar alguns _insights_ a respeito dos tripulantes e das circunstâncias do acidente.

## Efetue a carga do arquivo através da biblioteca _Pandas_ e a partir do _DataFrame_ gerado, efetue as operações necessárias para responder as questões.


## Importando o DataSet

### 1 - Efetuar a leitura do dataset através do Pandas, gerando um DataFrame de nome tit, levando-se em consideração que o arquivo encontra-se na mesma pasta do notebook.

In [1]:
import pandas as pd

data_set = pd.read_csv("titanic_data.csv")
data_set.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Conhecendo o DataSet

### 2 - Quantas linhas e colunas tem o dataset? Quais os tipos das colunas?

In [2]:
# linhas
data_set.shape[0]

891

In [3]:
# colunas
data_set.shape[1]

12

In [4]:
data_set.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 3 - Mostre os dados dos dez primeiros e 8 últimos registros do dataset.

In [5]:
# 10 primeiros
data_set.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [6]:
# 8 ultimos
data_set.tail(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### 4 - Cálculos envolvendo colunas numéricas com dados faltantes podem sofrer impacto. É possível afirmar se há dados faltantes no dataset? Caso positivo, quais e quantos seriam esses dados? Preencha os dados faltantes de forma que não influenciem em operações futuras.

In [7]:
print(data_set.count())

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64


In [8]:
# Há bastande dados faltantes na colunas: 'Cabin'
# Uma quantidade razoavel nas colunas: 'Age' e 'Embarked'

# Porém para essa análise as colunas 'Cabin' e 'Embarked' não faram grande diferença para o estudo, a coluna 'Age'
# é uma coluna interessante para se manter e estudar. Como a quantidade de dados vazios não é extremamente grande
# essas linhs serão, neste momento, descartadas.
# A quantidade de linhas perdidas será: 177 dados

In [9]:
data_set_titanic = data_set.dropna(subset=['Age'])
data_set_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
data_set_titanic.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 714 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  714 non-null    int64  
 1   Survived     714 non-null    int64  
 2   Pclass       714 non-null    int64  
 3   Name         714 non-null    object 
 4   Sex          714 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        714 non-null    int64  
 7   Parch        714 non-null    int64  
 8   Ticket       714 non-null    object 
 9   Fare         714 non-null    float64
 10  Cabin        185 non-null    object 
 11  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 72.5+ KB


## Adequando o DataSet

### 4 - Uma vez que algumas colunas não serão utilizadas, eventualmente é melhor excluí-las para que não interfiram na análise. Assim, exclua do dataset as colunas Sibsp, Parch e Ticket.

In [11]:
data_set_titanic = data_set_titanic.drop('SibSp', 1)
data_set_titanic = data_set_titanic.drop('Parch', 1)
data_set_titanic = data_set_titanic.drop('Ticket', 1)

data_set_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,,S


### 5 - Renomear as colunas restantes para a lingua portuguesa, utilizando os seguintes nomes de colunas: IdPassageiro, Sobreviveu, Classe, Nome, Sexo, Idade, Tarifa, Cabine e Embarque.

In [12]:
data_set_titanic.rename(columns = {'PassengerId' : 'IdPassageiro', 'Survived' : 'Sobreviveu', 'Pclass' : 'Classe', 'Name' : 'Nome', 'Sex' : 'Sexo', 'Age' : 'Idade', 'Fare' : 'Tarifa', 'Cabin' : 'Cabine', 'Embarked' : 'Embarque'}, inplace = True)

data_set_titanic.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,,S


### 6 - Alterar o conteudo da coluna Sobreviveu para:
- 0 => Não
- 1 => Sim

In [14]:
data_set_titanic['Sobreviveu'] = data_set_titanic['Sobreviveu'].map({0: 'Não', 1: 'Sim'})

data_set_titanic.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,Não,3,"Braund, Mr. Owen Harris",male,22.0,7.25,,S
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C85,C
2,3,Sim,3,"Heikkinen, Miss. Laina",female,26.0,7.925,,S
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,Não,3,"Allen, Mr. William Henry",male,35.0,8.05,,S


### 7 - Alterar o conteudo da coluna Sexo para:
- female => Mulher
- male   => Homem

In [15]:
data_set_titanic['Sexo'] = data_set_titanic['Sexo'].map({'male': 'Homem', 'female': 'Mulher'})

data_set_titanic.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,Não,3,"Braund, Mr. Owen Harris",Homem,22.0,7.25,,S
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,71.2833,C85,C
2,3,Sim,3,"Heikkinen, Miss. Laina",Mulher,26.0,7.925,,S
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,53.1,C123,S
4,5,Não,3,"Allen, Mr. William Henry",Homem,35.0,8.05,,S


## Alguns números

### 8 - Quantas mulheres e quantos homems estavam à bordo, de acordo com o dataset?

In [20]:
#mulheres
len(data_set_titanic[data_set_titanic["Sexo"] == "Mulher"])

261

In [21]:
#homens
len(data_set_titanic[data_set_titanic["Sexo"] == "Homem"])

453

In [26]:
data_set_titanic['Sexo'].value_counts()

Homem     453
Mulher    261
Name: Sexo, dtype: int64

### 9 - Quantos passageiros sobreviveram e quantos não sobreviveram?

In [22]:
#sobreviveram
len(data_set_titanic[data_set_titanic["Sobreviveu"] == "Sim"])

290

In [23]:
#nao-sobreviveram
len(data_set_titanic[data_set_titanic["Sobreviveu"] == "Não"])

424

In [27]:
data_set_titanic['Sobreviveu'].value_counts()

Não    424
Sim    290
Name: Sobreviveu, dtype: int64

### 10 - Quantas mulheres não sobreviveram?

In [28]:
data_set_titanic.value_counts(["Sexo", "Sobreviveu"])

Sexo    Sobreviveu
Homem   Não           360
Mulher  Sim           197
Homem   Sim            93
Mulher  Não            64
dtype: int64

In [None]:
# 64 mulheres não sobreviveram

### 11 - Proporcionalmente, sobreviveram mais homens ou mais mulheres? Cite as proporções.

In [29]:
# Sobreviveram mais mulheres.
# 75% das mulheres sobreviveram (considerando grupo feminino independente da idade ou classe)
# 20% dos homens sobreviveram (considerando grupo masculino independente da idade ou classe)

### 12 - Levando-se em consideração a idade dos passageiros, qual a idade e quantidade de pessoas com o maior número de mortos?

In [36]:
data_set_titanic.groupby('Sobreviveu')['Idade'].value_counts()

Sobreviveu  Idade
Não         21.0     19
            28.0     18
            18.0     17
            25.0     17
            19.0     16
                     ..
Sim         43.0      1
            47.0      1
            53.0      1
            55.0      1
            80.0      1
Name: Idade, Length: 142, dtype: int64

In [37]:
# 21 anos - 19 falecidos

### 13 - Qual a média de idade dos homens sobreviventes?

In [41]:
df_homens = data_set_titanic.loc[(data_set_titanic['Sexo'] == 'Homem')]
df_homens['Idade'].mean()

30.72664459161148

### 14 - Levando-se em consideração passageiros prioritários (mulheres e crianças de até 15 anos independente do sexo) qual a proporção de sobreviventes por sexo?

In [54]:
df_prioritarios = data_set_titanic.loc[(data_set_titanic['Sexo'] == 'Mulher') | (data_set_titanic['Idade'] < 15)]

df_prioritarios.value_counts(["Sexo", "Sobreviveu"])

Sexo    Sobreviveu
Mulher  Sim           197
        Não            64
Homem   Sim            21
        Não            18
dtype: int64

In [None]:
# mulheres (idependente da idade) - 75%
# homens (até 15 anos) - 53%

### 15 - Qual a quantidade de passageiros por classe?

In [35]:
data_set_titanic.value_counts(["Classe"])

Classe
3         355
1         186
2         173
dtype: int64

### 16 - Qual o percentual de sobreviventes por classe?

In [55]:
data_set_titanic.value_counts(["Classe" , "Sobreviveu"])

Classe  Sobreviveu
3       Não           270
1       Sim           122
2       Não            90
3       Sim            85
2       Sim            83
1       Não            64
dtype: int64

In [None]:
# classe 3 - 23%
# classe 2 - 47%
# classe 1 - 65%

### 17 - Crie um dataframe que demonstre a quantidade de sobreviventes e não sobreviventes, agrupados por sexo e classe.

In [None]:
df_amostra = data_set_titanic.loc[(data_set_titanic['Sobreviveu'] == 'Sim')]
df_amostra.head()

### 18 - Dos homens com idade entre 24 e 30 anos quantos da classe 3 sobreviveram? Quantos da classe 2 não sobreviveram?

In [61]:
df_classe3 = data_set_titanic.loc[(data_set_titanic['Sexo'] == 'Homem') & (data_set_titanic['Sobreviveu'] == 'Sim') & (data_set_titanic['Idade'] >= 24) & (data_set_titanic['Idade'] <= 30) & (data_set_titanic['Classe'] == 3)]
df_classe3.shape[0]

12

In [62]:
df_classe2 = data_set_titanic.loc[(data_set_titanic['Sexo'] == 'Homem') & (data_set_titanic['Sobreviveu'] == 'Não') & (data_set_titanic['Idade'] >= 24) & (data_set_titanic['Idade'] <= 30) & (data_set_titanic['Classe'] == 2)]
df_classe2.shape[0]

24

### 19 - Calcule a probabilidade condicional de uma pessoa sobreviver, dado seu sexo e a classe em que estava viajando:
- P(S= true | G=female,C=1)
- P(S= true | G=female,C=2)
- P(S= true | G=female,C=3)
- P(S= true | G=male,C=1)
- P(S= true | G=male,C=2)
- P(S= true | G=male,C=3)

In [63]:
data_set_titanic.head(10)

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,Não,3,"Braund, Mr. Owen Harris",Homem,22.0,7.25,,S
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,71.2833,C85,C
2,3,Sim,3,"Heikkinen, Miss. Laina",Mulher,26.0,7.925,,S
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,53.1,C123,S
4,5,Não,3,"Allen, Mr. William Henry",Homem,35.0,8.05,,S
6,7,Não,1,"McCarthy, Mr. Timothy J",Homem,54.0,51.8625,E46,S
7,8,Não,3,"Palsson, Master. Gosta Leonard",Homem,2.0,21.075,,S
8,9,Sim,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Mulher,27.0,11.1333,,S
9,10,Sim,2,"Nasser, Mrs. Nicholas (Adele Achem)",Mulher,14.0,30.0708,,C
10,11,Sim,3,"Sandstrom, Miss. Marguerite Rut",Mulher,4.0,16.7,G6,S
