# **(Quase) mais uma Análise Exploratória de Dados sobre o Titanic**

![titanic](https://mega.ibxk.com.br//2021/04/16/16095209780079.jpg?ims=1920x480)

A idéia deste trabalho surgiu numa aula de curso de Data Science em que usamos o dataset do Titanic. Nos meus estudos particulares eu sempre relutei em usá-lo porque ele é que nem o *gremlins*: à todo o momento aparecem uns trocentos. Então... eu não queria ser "mais um".
Mas na aula eu não pude fugir. Enquanto nos era apresentado o dataset e a turma interagia com perguntas e suposições, eu fiquei pensando o que eu poderia fazer de diferente e, naquele dia, nasceu o esboço na minha mente e aqui, após algumas pesquisas, nasce a materialização do meu jeito de fazer diferente.  
Assim, apresento aqui a Análise Exploratória deste dataset com um pouco do meu toque.

---

## Sobre o Dataset

Este dataset foi disponilizado no [Kaggle](https://www.kaggle.com/c/titanic) em 2012 para uma competição de aprendizado de máquina para prever quais pessoas sobreviveram e ele possui as seguintes informações*:

| Coluna | Descrição | Valor Esperado | Observação |
| -- | -- | -- | -- |
| pclass | Classe do Ticket | 1 = 1ª<br> 2 = 2ª<br> 3 = 3ª | |
| name | Nome do passageiro | | |
| sex | Sexo | | |
| Age | Idade (em anos) e frações de meses | |Crianças a partir de 12 anos já eram<br> consideradas como adultas |
| sibsp | Qtd de irmãos/cônjuge à bordo | | |
| parch | Qtd de pais/filhos à bordo | | |
| ticket | Número do Ticket | | |
| fare | Preço da passagem | | |
| cabin | Número da cabine | | |
| embarked | Porto de embarque | S = Southampton<br> C = Cherbourg<br> Q = Queenstown | Inglaterra<br> França<br> Irlanda<br> |

\* As informações apresentadas são exclusivamente do que faremos uso.
<br><br>
Como este notebook foi criado e, originalmente, hospedado no Kaggle, a plataforma sugeriu os códigos abaixo para a importação das biliotecas. Assim, vamos deixar como está.

---

Variable Notes
pclass: A proxy for socio-economic status (SES)
1st = Upper
2nd = Middle
3rd = Lower

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

sibsp: The dataset defines family relations in this way...
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

parch: The dataset defines family relations in this way...
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

---
The outward route was to be Southampton, England – Cherbourg, France – Queenstown, Ireland – New York, USA

### Importando as bibliotecas e listando os arquivos do Kaglle

In [1]:
from jedi import settings
settings.case_insensitive_completion = True

In [2]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/titanic/train.csv
/kaggle/input/titanic/test.csv
/kaggle/input/titanic/gender_submission.csv


Por ser um dataset para aprendizado de máquina (AM), temos dois arquivos que nos interessam: train.csv e test.csv.
Eles possuem a mesma estrutura mas foram separados porque em um algoritmo de AM usamos um conjunto de dados (train.csv) para treinar este modelo. Uma vez treinado, usamos os dados chamados de teste (test.csv) para conferir se o modelo previu corretamente a informação desejada.  
Vale ressaltar que AM não é o nosso foco aqui. Assim, só saiba que para termos as informações completa de todos os passeiros temos que juntar os dois conjuntos de dados.

### Importando os arquivos e exibindo as suas primeiras linhas

In [3]:
# Lendo o arquivo de treino
train_data = pd.read_csv("/kaggle/input/titanic/train.csv")
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
# Lendo o arquivo de teste
test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [5]:
# Concatenando os dois datasets (dataframes)
titanic_passg = pd.concat([train_data, test_data])

# exibindo os tamanhos dos datasets para conferência
len(titanic_passg.index), len(test_data.index), len(train_data.index)

(1309, 418, 891)

Obs: *Decidi dar o nome do DataFrame de 'titanic_passg' porque naquele transatlântico não estavam apenas as pessoas do dataset. Este contempla **apenas** os passageiros.  
Muitas outras estavam lá e, infelizmente, muitas também morreram. Na verdade, havia 891 tripulantes e apenas 212 sobreviveram ao desastre.*

In [6]:
# e, antes de iniciar nossa AED, vamos excluir as colunas que não precisamos para nosso trabalho: Survived
titanic_passg.drop(columns=['PassengerId', 'Survived'], inplace=True); # o ponto e vírgula no final da linha serve para dizer ao Jupyter que não exiba o output do comando

___
### Vamos agora à nossa Análise Exploratória de Dados

#### e um pouco de estória

Mas antes vamos fazer dois ajustes no nosso dataset:
1. Converter os valores monetários para os dias de hoje e **em Reais**
2. Arredondar as idades

**Analisando e Convertendo os valores**  
Como vemos abaixo, os preços máximos pagos por classe foram de 512.3292, 73.5000 e 69.5500 para 1ª, 2ª e 3ª, respectivamente.  
Mas, afinal, estes valores estão em qual moeda?

É natural, numa primeira visão dos valores, já imaginarmos o dólar americano. Penso eu que seja pelo fato deste dataset estar no Kaggle. ;) Mas a moeda não está em dólar americano.  
Ela está em Libras!

In [7]:
# Exibindo a média, mínimo e máximo valor pago por classe
titanic_passg.groupby('Pclass').aggregate({'Fare':['mean','min','max']})

Unnamed: 0_level_0,Fare,Fare,Fare
Unnamed: 0_level_1,mean,min,max
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,87.508992,0.0,512.3292
2,21.179196,0.0,73.5
3,13.302889,0.0,69.55


Agora que sabemos a moeda, já podemos calcular. Né?  
Só que não!  
Você pensa que inflação é só coisa de brasileiros?  
Ah, então, tá! Só "jogar" a inflação.  
Só que não!  
Você pensa que mudanças monetárias é só coisa de brasileiros? Só no período chamado *Nova República* para cá (2022) mudamos de moedas 5 vezes!  
A Inglaterra também passou por mudanças monetárias no milênio passado. Bem... após uma pesquisa que me consumiu umas 4 horas, cheguei à conclusão que converter os valores dos tickets para os dias de hoje não teria uma exatidão como eu esperava. Há muitos debates em fóruns e em sites que falam do assunto e eles mesmos concordam que é difícil esta tarefa. Assim, como as diferenças de conversões são até pequenas (centavos, na verdade), optaremos por:
* usar apenas a inflação acumulada
* converter Libras para Real

In [8]:
# Inflação acumulada: 11,800.72% (De jan/1912 à dez/2021)
inflacao_acumulada = 11800.72
# Taxa de conversão Libras para Reais (30/01/2022): 
taxa_conversao_libra_real = 7.20

# Criano uma nova coluna com o valor em R$
titanic_passg['Fare'] = titanic_passg.apply(lambda x: round(
                                                  ( (x['Fare'] * inflacao_acumulada / 100.) + x['Fare']) * \
                                                   taxa_conversao_libra_real, 2), axis = 1)

Convertidos os valores, vamos olhar qual os valores máximos pagos por claro.  
Lembrando: Os valores já estão em Reais.

In [9]:
# Exibindo a média, mínimo e máximo valor pago por classe
titanic_passg.groupby('Pclass').aggregate({'Fare':['mean','min','max']})

Unnamed: 0_level_0,Fare,Fare,Fare
Unnamed: 0_level_1,mean,min,max
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,74982.24096,0.0,438990.22
2,18147.432383,0.0,62978.61
3,11398.604477,0.0,59594.05


R\\$ 438.990,22 por uma viagem!?  
Para efeito de comparação, fazendo hoje (30/01/2022) uma cotacao de viagem na MSC Cruzeiros uma viagem de 44 noites, conhecendo mais de 12 lugares e numacabine com vista para o mar, sai por R$ 41.618,20.  

![mapa](https://www.msccruzeiros.com.br/images/msc/iti/itin/UOOM.jpg)

**Arredondar as idades**  
Como queremos trabalhar com as idades em inteiros, vamos converter 22,5 (22 anos e meio) para 22. Só consideraremos a parte inteira.

In [10]:
titanic_passg['Age'] = titanic_passg['Age'].apply(np.trunc)

---

## Agora sim vamos agora começar nossas sessões de raios-x  

Vamos primeiro ver o trivial:

In [11]:
# mostre a qtd de linhas e colunas passg_titanic_passg_passg
titanic_passg.shape

(1309, 10)

In [12]:
# mostre as informações do Dataframe
titanic_passg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1309 entries, 0 to 417
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    1309 non-null   int64  
 1   Name      1309 non-null   object 
 2   Sex       1309 non-null   object 
 3   Age       1046 non-null   float64
 4   SibSp     1309 non-null   int64  
 5   Parch     1309 non-null   int64  
 6   Ticket    1309 non-null   object 
 7   Fare      1308 non-null   float64
 8   Cabin     295 non-null    object 
 9   Embarked  1307 non-null   object 
dtypes: float64(2), int64(3), object(5)
memory usage: 112.5+ KB


Podemos ver no dataset que ele tem:
- 10 colunas (Data columns)
- 1309 linhas (entries)
- Colunas com informações faltantes:
  - Age (só tem em 1046 dos 1.309 registros. Portanto, 263 faltantes)
  - Fare (apenas 1 faltante)
  - Cabin (1.014 faltantes)
  - Embarked (2 faltantes)

Podemos ver estas mesmas informações da seguinte forma:

In [13]:
# mostre a quantidade de nulos por coluna
titanic_passg.isnull().sum()

Pclass         0
Name           0
Sex            0
Age          263
SibSp          0
Parch          0
Ticket         0
Fare           1
Cabin       1014
Embarked       2
dtype: int64

## Vamos buscar algumas informações dos passageiros  
### Mas, antes, pecisamos saber algo sobre a lista de passageiro...   

Poderíamos concluir que no navio havia 1.309 (comando shape, lembra?) passageiros **mas** *só que não*.  
Pesquisando sobre ela, podemos ver que (1) algumas pessoas desistiram da viagem (não embarcaram), que (2) algumas usaram nomes falsos, (3) devido à desorganização e (4) esta lista também é um ponto de discussão como foi o da moeda.   

### Bem, sabendo disto (ou ignorando isto), vamos continuar.

Vamos buscar algumas informações básicas sobre os passageiros. Que tal vermos a quantidade de passageiros por sexo? E, por que não, também por faixa etária?  
### Um pouco sobre os passageiros

In [14]:
titanic_passg.groupby(['Pclass','Sex']).agg({'Sex':'count'})
#df.groupby('A').agg({'B': ['min', 'max'], 'C': 'sum'})


Unnamed: 0_level_0,Unnamed: 1_level_0,Sex
Pclass,Sex,Unnamed: 2_level_1
1,female,144
1,male,179
2,female,106
2,male,171
3,female,216
3,male,493


#### Fontes de Pesquisas:
* [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
* [Statistical Consultants Ltd](https://www.statisticalconsultants.co.nz/blog/titanic-fare-data.html)
* [How Britain converted to decimal currency](https://www.bbc.com/news/business-12346083)
* [Money: Problems with convertion rate factor](https://www.encyclopedia-titanica.org/discus/messages/5660/56798.html?1045826743)
* [Understanding old British money - pounds, shillings and pence](http://projectbritain.com/moneyold.htm)
* [Titanic Fare Data](https://www.statisticalconsultants.co.nz/blog/titanic-fare-data.html)
* [UK Composite Price Index values since 1750](https://www.officialdata.org/articles/uk-composite-price-index-values-since-1750/)
* [£100 in 1912 → 2022 | UK Inflation Calculator](https://www.in2013dollars.com/uk/inflation/1912?amount=100#formulas)

In [15]:
#titanic_passg[titanic_passg['Name'].str.contains('Rebecca', na=False)]
titanic_passg[titanic_passg['Ticket']=='PC 17756']
#titanic_passg[titanic_passg['Age']<=1.]
#titanic_passg[titanic_passg['Cabin']=='E49']

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
835,1,"Compton, Miss. Sara Rebecca",female,39.0,1,1,PC 17756,71254.34,E49,C
179,1,"Compton, Mrs. Alexander Taylor (Mary Eliza Ing...",female,64.0,0,2,PC 17756,71254.34,E45,C
181,1,"Compton, Mr. Alexander Taylor Jr",male,37.0,1,1,PC 17756,71254.34,E52,C
