# RMS Titanic

## O RMS Titanic foi um navio de passageiros britânico operado pela White Star Line e construído pelos estaleiros da Harland and Wolff em Belfast. Foi a segunda embarcação da Classe Olympic de transatlânticos depois do RMS Olympic e seguido pelo HMHS Britannic. Projetado pelos engenheiros navais Alexander Carlisle e Thomas Andrews, sua construção começou em março de 1909 e ele foi lançado ao mar em maio de 1911. O Titanic foi pensado para ser o navio mais luxuoso e mais seguro de sua época, gerando lendas que era supostamente "inafundável".

## A embarcação partiu em sua viagem inaugural de Southampton para Nova Iorque em 10 de abril de 1912, no caminho passando em Cherbourg-Octeville na França e por Queenstown na Irlanda. Ele colidiu com um iceberg às 23h40min do dia 14 de abril e afundou na madrugada do dia seguinte matando mais de 1500 pessoas, sendo um dos maiores desastres marítimos em tempos de paz de toda a história. Seu naufrágio destacou vários pontos fracos de seu projeto, deficiências nos procedimentos de evacuação de emergência e falhas nas regulamentações marítimas da época. Comissões de inquérito foram instauradas nos Estados Unidos e no Reino Unido, levando a mudanças nas leis internacionais de navegação que permanecem em vigor mais de um século depois.

## Os destroços do Titanic foram procurados por décadas até serem encontrados em 1985 por uma equipe liderada por Robert Ballard. Ele se encontra a 3843 m de profundidade e a 650 km ao sudeste de Terra Nova no Canadá. Sua história e naufrágio permaneceram no imaginário popular durante décadas, levando a produção de vários livros e filmes a seu respeito, mais notavelmente o filme Titanic de 1997. Até hoje o Titanic permanece como um dos navios mais famosos da história, com seus destroços atraindo várias expedições de exploração ao longo dos anos.

*Fonte:* [WikiPedia](https://pt.wikipedia.org/wiki/RMS_Titanic)

--------

## A equipa da [Udacity](https://udacity.com) disponibilizou informações sobre uma parte dos passageiros à bordo do RMS Titanic no dia daquela tragédia. Esse _dataset_ que contém informações reais vem sendo utilizado em diversos estudos de caso, além de servir de base para aprendizado de Ciência de Dados, Estatística e Machine Learning.

## O arquivo **titanic_data.csv** contém informações reais sobre os passageiros organizadas da seguinte forma:

- Survived (Sobreviveu): 0 = Não, 1 = Sim
- Pclass (Classe): Classe de ingresso 1 = 1º, 2 = 2º, 3 = 3º
- Sex (Sexo): Sexo do passageiro
- Age (Idade): Idade em anos
- Sibsp: Quantidade de irmãos / cônjuges a bordo do Titanic
- Parch: Quantidade de pais / crianças a bordo do Titanic
- Ticket (Bilhete): Número do bilhete de embarque
- Fare (Tarifa): Tarifa paga pelo Passageiro
- Cabin (Cabine): Número de cabine
- Embarked (Embarque): Porto de Embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

## O objetivo deste estudo é obter algumas informações estatísticas sobre a tragédia e realizar alguns _insights_ a respeito dos tripulantes e das circunstâncias do acidente.

## Efetue a carga do arquivo através da biblioteca _Pandas_ e a partir do _DataFrame_ gerado, efetue as operações necessárias para responder as questões.


## Importando o DataSet

### 1 - Efetuar a leitura do dataset através do Pandas, gerando um DataFrame de nome tit, levando-se em consideração que o arquivo encontra-se na mesma pasta do notebook.

In [1]:
# Realizando as importações e definindo o corte das casas decimais:
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

In [2]:
# Checkando as 5 primeiras linhas do arquivo:
tit = pd.read_csv('titanic_data.csv')
tit.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Conhecendo o DataSet

### 2 - Quantas linhas e colunas tem o dataset? Quais os tipos das colunas?

In [3]:
# Analisando as dimensões do dataset:
print('Este DataSet possui linhas:', tit.shape[0])
print('Este DataSet possui colunas:', tit.shape[1])

Este DataSet possui linhas: 891
Este DataSet possui colunas: 12


In [4]:
#Analisando informações sobre tipo de dados, incluindo o dtype do índice e, tipos de coluna, valores não nulos e uso da memória:
tit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [5]:
# Analisando o tipo de dados:
tit.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [6]:
# Verificando a quantidade de valores de cada coluna:
tit.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

Significa que esta base de dados não contém as informações de todas as pessoas abordo do Titanic. Contém informações apenas de 891 pessoas.

### 3 - Mostre os dados dos dez primeiros e 8 últimos registros do dataset.

In [7]:
# Visualização dos 10 primeiros registros:
tit.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.46,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.86,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.07,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.13,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.07,,C


In [8]:
# Visualização dos ultimos 8 registros:
tit.tail(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.12,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### 4 - Cálculos envolvendo colunas numéricas com dados faltantes podem sofrer impacto. É possível afirmar se há dados faltantes no dataset? Caso positivo, quais e quantos seriam esses dados? Preencha os dados faltantes de forma que não influenciem em operações futuras.

In [9]:
# Verificando se existem dados nulos:
tit.isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,True,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False


In [10]:
# Verificando quantidade de dados nulos:
tit.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [11]:
# Alterando dados Nan da Idade para Média dos valores existentes:
tit['Age'] = tit['Age'].fillna(tit['Age'].median())
tit.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [12]:
# Alterando outros valores Nan para 0:
tit.fillna(0, inplace = True)
tit.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


In [13]:
# Verificando quantidade de dados nulos:
tit.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## Adequando o DataSet

### 4 - Uma vez que algumas colunas não serão utilizadas, eventualmente é melhor excluí-las para que não interfiram na análise. Assim, exclua do dataset as colunas Sibsp, Parch e Ticket.

In [14]:
# Exclusão de Colunas:
tit.drop(['SibSp','Parch','Ticket'], axis=1, inplace = True)
tit.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.92,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,0,S


### 5 - Renomear as colunas restantes para a lingua portuguesa, utilizando os seguintes nomes de colunas: IdPassageiro, Sobreviveu, Classe, Nome, Sexo, Idade, Tarifa, Cabine e Embarque.

In [15]:
# Modificando o nome das colunas:
tit.columns = ['IdPassageiro','Sobreviveu','Classe','Nome','Sexo','Idade','Tarifa','Cabine','Embarque']
tit.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.92,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,0,S


### 6 - Alterar o conteudo da coluna Sobreviveu para:
- 0 => Não
- 1 => Sim

In [16]:
# Antes disso foi criado uma coluna não sobreviveu para facilitar as perguntas mais abaixo:
tit['Não Sobreviveu'] = tit['Sobreviveu'].map({0:1,1:0})
tit.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque,Não Sobreviveu
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,7.25,0,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.28,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,7.92,0,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,8.05,0,S,1


In [17]:
# Modificando o conteúdo do campo que identifica o Sobreviveu:
tit['Sobreviveu'] = tit['Sobreviveu'].replace([0,1],['Não','Sim'])
tit.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque,Não Sobreviveu
0,1,Não,3,"Braund, Mr. Owen Harris",male,22.0,7.25,0,S,1
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.28,C85,C,0
2,3,Sim,3,"Heikkinen, Miss. Laina",female,26.0,7.92,0,S,0
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S,0
4,5,Não,3,"Allen, Mr. William Henry",male,35.0,8.05,0,S,1


In [18]:
# Modificando o conteúdo do campo que identifica a coluna criada Não Sobreviveu:
tit['Não Sobreviveu'] = tit['Não Sobreviveu'].replace([1,0],['Sim','Não'])
tit.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque,Não Sobreviveu
0,1,Não,3,"Braund, Mr. Owen Harris",male,22.0,7.25,0,S,Sim
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.28,C85,C,Não
2,3,Sim,3,"Heikkinen, Miss. Laina",female,26.0,7.92,0,S,Não
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,C123,S,Não
4,5,Não,3,"Allen, Mr. William Henry",male,35.0,8.05,0,S,Sim


### 7 - Alterar o conteudo da coluna Sexo para:
- female => Mulher
- male   => Homem

In [19]:
# Modificando o conteúdo do campo que identifica o Sexo:
tit['Sexo'] = tit['Sexo'].map({'female': 'Mulher',
                                       'male': 'Homem'})
tit.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque,Não Sobreviveu
0,1,Não,3,"Braund, Mr. Owen Harris",Homem,22.0,7.25,0,S,Sim
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,71.28,C85,C,Não
2,3,Sim,3,"Heikkinen, Miss. Laina",Mulher,26.0,7.92,0,S,Não
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,53.1,C123,S,Não
4,5,Não,3,"Allen, Mr. William Henry",Homem,35.0,8.05,0,S,Sim


## Alguns números

### 8 - Quantas mulheres e quantos homems estavam à bordo, de acordo com o dataset?

In [20]:
# Número pessoas separados por Sexo:
tit.groupby(['Sexo']).size().reset_index(name='Quantidade')

Unnamed: 0,Sexo,Quantidade
0,Homem,577
1,Mulher,314


### 9 - Quantos passageiros sobreviveram e quantos não sobreviveram?

In [21]:
# Número pessoas que sobreviveram e que Não sobreviveram:
tit.groupby(['Sobreviveu']).size().reset_index(name='Quantidade')

Unnamed: 0,Sobreviveu,Quantidade
0,Não,549
1,Sim,342


### 10 - Quantas mulheres não sobreviveram?

In [22]:
# Mulheres não Sobreviventes
tit[tit['Sexo'] == 'Mulher'].groupby('Sexo')['Não Sobreviveu'].apply(lambda x: np.sum(x == 'Sim'))

Sexo
Mulher    81
Name: Não Sobreviveu, dtype: int64

### 11 - Proporcionalmente, sobreviveram mais homens ou mais mulheres? Cite as proporções.

In [23]:
# Analisando a quantidade de Sobreviventes porSexo:
df_sobreviveu = tit[tit['Sobreviveu'] == 'Sim'].groupby('Sexo')[['Sobreviveu']].count()
df_sobreviveu

Unnamed: 0_level_0,Sobreviveu
Sexo,Unnamed: 1_level_1
Homem,109
Mulher,233


In [24]:
# Aplicando a proporção:
df_sobreviveu.apply(lambda x: (x / x.sum(axis=0))*100)['Sobreviveu']

Sexo
Homem    31.87
Mulher   68.13
Name: Sobreviveu, dtype: float64

### 12 - Levando-se em consideração a idade dos passageiros, qual a idade e quantidade de pessoas com o maior número de mortos?

In [25]:
# Conforme já identificado anteriormente, verificando se há alguma idade sem preenchimento:
print('Passageiros SEM idade preenchida:',tit['Idade'].isnull().sum())
print('Passageiros COM idade preenchida:',(~tit['Idade'].isnull()).sum())

Passageiros SEM idade preenchida: 0
Passageiros COM idade preenchida: 891


In [26]:
# Agora iremos viualizar a quantidade de maior número de mortos por idade:
tit['Idade'].value_counts().sort_values(ascending = [False]).nlargest(1)

28.00    202
Name: Idade, dtype: int64

### 13 - Qual a média de idade dos homens sobreviventes?

In [27]:
# Média por Idade de Homem:
tit[(tit['Sexo'] == 'Homem') & (tit['Sobreviveu'] == 'Sim')].groupby('Sexo').mean()['Idade']

Sexo
Homem   27.38
Name: Idade, dtype: float64

### 14 - Levando-se em consideração passageiros prioritários (mulheres e crianças de até 15 anos independente do sexo) qual a proporção de sobreviventes por sexo?

In [28]:
# Criando um Dataframe que contenha apenas mulheres e crianças:
df_prioritarios = (tit['Idade'] <= 15) & (tit['Idade'] > 0) | (tit['Sexo'] == 'Mulher')
df_prioritarios = tit[df_prioritarios]
df_prioritarios.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,Tarifa,Cabine,Embarque,Não Sobreviveu
1,2,Sim,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,71.28,C85,C,Não
2,3,Sim,3,"Heikkinen, Miss. Laina",Mulher,26.0,7.92,0,S,Não
3,4,Sim,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,53.1,C123,S,Não
7,8,Não,3,"Palsson, Master. Gosta Leonard",Homem,2.0,21.07,0,S,Sim
8,9,Sim,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Mulher,27.0,11.13,0,S,Não


In [29]:
# Agrupando os dados de mulheres e crianças que sobreviveram a tragédia:
df_prioritarios.groupby('Sexo')['Sobreviveu'].apply(lambda x: np.mean(x ==  'Sim')*100)

Sexo
Homem    52.50
Mulher   74.20
Name: Sobreviveu, dtype: float64

In [30]:
df_prioritarios[df_prioritarios['Idade'] <= 15].groupby('Sexo')['Sobreviveu'].apply(lambda x: np.mean(x == 'Sim')*100)

Sexo
Homem    52.50
Mulher   65.12
Name: Sobreviveu, dtype: float64

### 15 - Qual a quantidade de passageiros por classe?

In [31]:
# Quantidade de pessoas por classe:
pd.pivot_table(tit, values='Nome', index='Classe', aggfunc='count')

Unnamed: 0_level_0,Nome
Classe,Unnamed: 1_level_1
1,216
2,184
3,491


### 16 - Qual o percentual de sobreviventes por classe?

In [32]:
#Percentual de Sobreviventes por Classe (em relação ao total de sobreviventes):
pd.crosstab(tit['Classe'],tit['Sobreviveu'])[['Sim']].apply(lambda x: (x / x.sum(axis=0))*100)

Sobreviveu,Sim
Classe,Unnamed: 1_level_1
1,39.77
2,25.44
3,34.8


### 17 - Crie um dataframe que demonstre a quantidade de sobreviventes e não sobreviventes, agrupados por sexo e classe.

In [33]:
# Quantidade de Homens e Mulheres por Classe:
tit.pivot_table('Sobreviveu', ["Classe"], 'Sexo', aggfunc='count')

Sexo,Homem,Mulher
Classe,Unnamed: 1_level_1,Unnamed: 2_level_1
1,122,94
2,108,76
3,347,144


In [34]:
# Quantidade de Sobrevientes Homens e Mulheres por Classe:
tit.pivot_table('Não Sobreviveu', ["Sexo","Classe"], 'Sobreviveu', aggfunc='count')

Unnamed: 0_level_0,Sobreviveu,Não,Sim
Sexo,Classe,Unnamed: 2_level_1,Unnamed: 3_level_1
Homem,1,77,45
Homem,2,91,17
Homem,3,300,47
Mulher,1,3,91
Mulher,2,6,70
Mulher,3,72,72


### 18 - Dos homens com idade entre 24 e 30 anos quantos da classe 3 sobreviveram? Quantos da classe 2 não sobreviveram?

In [35]:
# Sobreviventes da Classe 3:
df_sobrevientes1 = tit[(tit['Sexo'] == 'Homem') & (tit['Idade'] >= 24) & (tit['Idade'] <= 30)]
df_sobrevientes2 = df_sobrevientes1 [((df_sobrevientes1['Classe'] == 3) & (df_sobrevientes1['Sobreviveu'] == 'Sim'))]
df_sobrevientes2.shape[0]

21

In [36]:
##Não Sobreviventes da Classe 2:
df_sobrevientes3 = df_sobrevientes1 [((df_sobrevientes1['Classe'] == 2) & (df_sobrevientes1['Sobreviveu'] == 'Não'))]
df_sobrevientes3.shape[0]

31

### Extra shot (1 ponto adicional): Calcule a probabilidade condicional de uma pessoa sobreviver, dado seu sexo e a classe em que estava viajando:
- P(S= true | G=female,C=1)
- P(S= true | G=female,C=2)
- P(S= true | G=female,C=3)
- P(S= true | G=male,C=1)
- P(S= true | G=male,C=2)
- P(S= true | G=male,C=3)

In [37]:
#xProp = probabilidade_ambos = probabilidade_impar * probabilidade_5_ou_6
#xProp = tit[(tit['Sexo'] == 'Mulher') &(tit['Classe']>= 1)].agg({'Sobreviveu': ['count'], 'Não Sobreviveu': ['count']})
#xProp = xProp['Percentual de sobreviventes']=((xProp['Sobreviveu']/(xProp['Sobreviveu']+xProp['Não Sobreviveu']))*100)
#xProp

#xProp = tit[(tit['Classe']|['Sexo']) * tit[(tit['Sexo'] / tit['Classe'])]]
#xProp = tit[(tit['Sobreviveu'])|(tit['Sexo'])] * (tit['Sexo'])/tit[(tit['Sobreviveu'])]

### CONCLUSÃO (Insights):

A análise exploratória teve como objetivo identificar atributos de alguns conjunto de pessoas para saber se tiveram maior chance de sobrevivência que outras. 
<br/>
Identificamos que fatores como a Classe, Sexo e Idade realmente influenciaram para o aumento ou diminuição das chances de sobrevivência.
<br/>
As mulheres foram as que tiveram maiores chances de sobrevivência. Em resumo as maiores chances de sobrevivência foram para as mulheres da primeira e segunda classe. E as menores chances de sobrevivência foram para os homens da terceira classe.
<br/>
Foi identificado também que a maioria das pessoas que não sobrevieram foram da terceira classe e das crianças da terceira classe 60% morreram.
<br/>
Este estudo pode ser continuado com a análise de outras variáveis, explorar e encontrar novos insights utilizando as informações desta base para gerar novas variáveis, como por exmemplo saber se é possível identificar os tripulantes. 
A própria idade como já comentado poderia ser explorada através de técnicas preditivas para identificarmos melhor como esta informação impactou na taxa de sobrevivência.
<br/>
<i>IMPORTANTE: É importante ressaltar que as conclusões identificadas não são definitivas.