# Análise de Dados Exploratória do Titanic

![titanic](https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/img/titanic_historical.jpg?raw=true)

# 1. Introdução

O RMS Titanic foi um navio de passageiros britânico operado pela empresa *White Star Line* que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o *dataset* descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## 1.1. Objetivos

O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados `titanic3`, adaptado pelo autor e disponível em [titanic3.csv](https://raw.githubusercontent.com/profdiegoaugusto/analise-dados/master/Pandas/titanic-eda/data/titanic3.csv), a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

1. Qual é o número de Sobreviventes?
2. Homens ou mulheres tiveram mais chances de sobreviver?
3. Qual classe social teve mais sobreviventes?
4. Qual faixa etária teve mais chances de sobreviver?


# 2. Metodologia

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no *dataset* que possui os seguintes dados:

| Coluna          | Descrição                                                                 |
|-----------------|---------------------------------------------------------------------------|
| id_passageiro   | Identficador único do passageiro.                                         |
| classe          | Classe social.                                                            |
| sobreviveu      | Sobrevivente? Sim (1), Não (0).                                           |
| nome            | Nome do passageiro.                                                       |
| sexo            | Masculino (male), Feminino (female).                                      |
| idade           | Idade do passageiro.                                                      |
| irmaos_conjuges | Número de irmãos e cônjuges a bordo.                                      |
| pais_filhos     | Número de pais e filhos a bordo.                                          |
| bilhete         | Número do bilhete                                                         |
| tarifa          | Preço da tarifa do passageiro.                                            |
| cabine          | Cabine.                                                                   |
| embarque        | Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton |
| bote            | Bote salva vidas.                                                         |
| corpo           | Número de identificação do corpo.                                         |
| destino         | Local de desembarque do passageiro.                                       |

## OBSERVAÇÕES

- `classe` é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
- `idade` está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
- `tarifa` está em Libras esterlinas (British Pounds - £) anteriores a 1970;
- `irmaos_conjuges` e `pais_filhos`: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
    - **Irmão**: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
    - **Cônjuge**: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
    - **Pai**: Mãe ou pai do passageiro a bordo do Titanic;
    - **Criança**: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
    - Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
    - Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos; 
    - Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.


## 2.1. Configuração do Ambiente

In [195]:
import pandas as pd
import sys

## 2.2. Leitura dos Dados

In [196]:
titanic_data = pd.read_csv("https://raw.githubusercontent.com/profdiegoaugusto/analise-dados/master/Pandas/titanic-eda/data/titanic3.csv")

## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [197]:
titanic_data.head()

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,cabine,embarque,bote,corpo,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.0,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [198]:
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_passageiro    1309 non-null   int64  
 1   classe           1309 non-null   int64  
 2   sobreviveu       1309 non-null   int64  
 3   nome             1309 non-null   object 
 4   sexo             1309 non-null   object 
 5   idade            1046 non-null   float64
 6   irmaos_conjuges  1309 non-null   int64  
 7   pais_filhos      1309 non-null   int64  
 8   bilhete          1309 non-null   object 
 9   tarifa           1308 non-null   float64
 10  cabine           295 non-null    object 
 11  embarque         1307 non-null   object 
 12  bote             486 non-null    object 
 13  corpo            121 non-null    float64
 14  destino          745 non-null    object 
dtypes: float64(3), int64(5), object(7)
memory usage: 153.5+ KB


### 2.3.2 Remoção de Colunas
Remoção de colunas incompletas e/ou desnecessárias para a análise.

In [199]:
titanic_data.drop(columns=['id_passageiro', 'nome', 'bilhete', 'cabine', 'bote', 'corpo', 'destino'], inplace=True)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   classe           1309 non-null   int64  
 1   sobreviveu       1309 non-null   int64  
 2   sexo             1309 non-null   object 
 3   idade            1046 non-null   float64
 4   irmaos_conjuges  1309 non-null   int64  
 5   pais_filhos      1309 non-null   int64  
 6   tarifa           1308 non-null   float64
 7   embarque         1307 non-null   object 
dtypes: float64(2), int64(4), object(2)
memory usage: 81.9+ KB


### 2.3.3. Dados Ausentes

#### 2.3.3.1 Idades Ausentes
Para os dados ausentes da coluna `idade` será feita a substituição dos dados vazios pela média das idades na época.

In [200]:
idade_media = titanic_data.dropna(subset=['idade']).idade.mean()

titanic_data['idade'].fillna(idade_media, inplace=True)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   classe           1309 non-null   int64  
 1   sobreviveu       1309 non-null   int64  
 2   sexo             1309 non-null   object 
 3   idade            1309 non-null   float64
 4   irmaos_conjuges  1309 non-null   int64  
 5   pais_filhos      1309 non-null   int64  
 6   tarifa           1308 non-null   float64
 7   embarque         1307 non-null   object 
dtypes: float64(2), int64(4), object(2)
memory usage: 81.9+ KB


#### 2.3.3.2 Tarifas Ausentes
Para os dados ausentes da coluna `tarifa`será feita a substituição dos dados vazios pela média de preço das tarifas na época.

In [201]:
tarifa_media = titanic_data.dropna(subset=['tarifa']).tarifa.mean()

titanic_data.tarifa.fillna(tarifa_media, inplace=True)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   classe           1309 non-null   int64  
 1   sobreviveu       1309 non-null   int64  
 2   sexo             1309 non-null   object 
 3   idade            1309 non-null   float64
 4   irmaos_conjuges  1309 non-null   int64  
 5   pais_filhos      1309 non-null   int64  
 6   tarifa           1309 non-null   float64
 7   embarque         1307 non-null   object 
dtypes: float64(2), int64(4), object(2)
memory usage: 81.9+ KB


#### 2.3.3.3 Portos de Embarque Ausentes
Para os dados ausentes da coluna `embarque`será feita a remoção dos dados vazios.

In [202]:
titanic_data.dropna(subset=['embarque'], inplace=True)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1307 entries, 0 to 1308
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   classe           1307 non-null   int64  
 1   sobreviveu       1307 non-null   int64  
 2   sexo             1307 non-null   object 
 3   idade            1307 non-null   float64
 4   irmaos_conjuges  1307 non-null   int64  
 5   pais_filhos      1307 non-null   int64  
 6   tarifa           1307 non-null   float64
 7   embarque         1307 non-null   object 
dtypes: float64(2), int64(4), object(2)
memory usage: 91.9+ KB


## 2.4. Mapeamento de Dados
Para melhorar a análise e interpretação dos dados os seguintes atributos serão modificados:

| Coluna    | Original     | Modificado                          |
|:----------|:-------------|:------------------------------------|
| Classe    | 1, 2, 3      | Alta, Média, Baixa                  |
| Sexo      | male, female | M, F                                |
| Embarque  | C, Q, S      | Cherbourg, Queenstown, Southampton  |


In [203]:
def translate (data):
  translation = {'C':'Cherbourg', 'Q':'Queenstown', 'S':'Southampton'}
  data['embarque'] = translation[data.embarque]

  translation = {'male':'M', 'female':'F'}
  data['sexo'] = translation[data.sexo]

  translation = ['Alta', 'Media', 'Baixa']
  data['classe'] = translation[data.classe - 1]
  
  return data

titanic_data = titanic_data.apply(translate, axis=1)

## 2.5.  Feature Engineering

A engenharia de recursos (*Feature Engineering*) é o processo de usar o conhecimento do domínio para extrair recursos dos dados brutos. Neste estudo serão acrescentadas as seguintes colunas para enriquecer a análise de dados:

| Coluna         | Descrição                                                         |
|:---------------|:------------------------------------------------------------------|
| total_parentes | Número total de parentes a bordo: `irmaos_conjuges + pais_filhos` |
| faixa_etaria   | Intervalo de idades dos passageiros.                              |

### 2.5.1 Total de Parentes

In [204]:
def somar_parentes(data):
  data['total_parentes'] = data.irmaos_conjuges + data.pais_filhos
  return data

titanic_data = titanic_data.apply(somar_parentes, axis=1)

titanic_data.head(3)

Unnamed: 0,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque,total_parentes
0,Alta,1,F,29.0,0,0,211.3375,Southampton,0
1,Alta,1,M,1.0,1,2,151.55,Southampton,3
2,Alta,0,F,2.0,1,2,151.55,Southampton,3


### 2.5.2 Faixas Etárias

In [205]:
titanic_data['faixa_etaria'] = pd.cut(
    titanic_data['idade'],
    bins = [0, 13, 19, 61, sys.maxsize],
    labels = ['criança', 'adolescente', 'adulto', 'idoso'],
)

titanic_data.head(2)

Unnamed: 0,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque,total_parentes,faixa_etaria
0,Alta,1,F,29.0,0,0,211.3375,Southampton,0,adulto
1,Alta,1,M,1.0,1,2,151.55,Southampton,3,criança


# 3. Análise dos Dados

## 3.1. Qual é o número de Sobreviventes?

In [210]:
sobreviventes = titanic_data.sobreviveu.sum()
print(f"{sobreviventes} pessoas sobreviveram")

498 pessoas sobreviveram


## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

In [211]:
total_homens = titanic_data.query("sexo == 'M'").sexo.count()
total_mulheres = titanic_data.query("sexo == 'F'").sexo.count()

sobreviventes = titanic_data[['sexo','sobreviveu']].groupby('sexo').sum()

porcentagem_mulheres = 100 * (sobreviventes['sobreviveu']['F'] / total_mulheres)
porcentagem_homens = 100* (sobreviventes['sobreviveu']['M'] / total_homens)

print(f"{porcentagem_mulheres.round(2)}% do total de mulheres sobreviveu")
print(f"{porcentagem_homens.round(2)}% do total de homens sobreviveu")

print(f"\n\n{'Homens' if porcentagem_homens > porcentagem_mulheres else 'Mulheres'} tiveram mais chances de sobreviver")


72.63% do total de mulheres sobreviveu
19.1% do total de homens sobreviveu


Mulheres tiveram mais chances de sobreviver


## 3.3. Qual classe social teve mais sobreviventes?

In [212]:
total_por_classe = titanic_data[['classe', 'sobreviveu']].groupby('classe').count()
sobreviventes_por_classe = 100*(titanic_data[['classe', 'sobreviveu']].groupby('classe').sum() / total_por_classe)

sobreviventes_por_classe.columns = ['% de sobreviventes']
print(sobreviventes_por_classe.round(2))

print(f"\n\nOs da classe alta tiveram mais chances de sobreviver")


        % de sobreviventes
classe                    
Alta                 61.68
Baixa                25.53
Media                42.96


Os da classe alta tiveram mais chances de sobreviver


## 3.4. Qual faixa etária teve mais chances de sobreviver?

In [216]:
total_por_faixa_etaria = titanic_data[['faixa_etaria', 'sobreviveu']].groupby('faixa_etaria').count()

sobreviventes_por_faixa_etaria = 100*(titanic_data[['faixa_etaria', 'sobreviveu']].groupby('faixa_etaria').sum() / total_por_faixa_etaria)

sobreviventes_por_faixa_etaria.columns = ['% de sobreviventes']
print(sobreviventes_por_faixa_etaria.round(2))

print(f"\n\nAs crianças tiveram mais chances de sobreviver")


              % de sobreviventes
faixa_etaria                    
criança                    57.29
adolescente                38.89
adulto                     36.46
idoso                      26.92


As crianças tiveram mais chances de sobreviver


# REFERÊNCIAS

- [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
- [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
- [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
- Hind, Philip.  "Encyclopedia Titanica."  Online.  Internet. n.p.  02 Aug 1999.