<a href="https://colab.research.google.com/github/Fabricioti/Avaliacao_A2_quem_nao_faz_PI/blob/master/titanic_an%C3%A1lise_explorat%C3%B3ria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Dados Exploratória do Titanic

![titanic](img/titanic_historical.jpg "Pintura do Titanic")

# 1. Introdução

O RMS Titanic foi um navio de passageiros britânico operado pela empresa *White Star Line* que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o *dataset* descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## 1.1. Objetivos

O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados `titanic3`, adaptado pelo autor e disponível em [data/titanic3.csv](data/titanic.csv); a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

1. [Qual é o número de Sobreviventes?](#3.1.-Qual-é-o-número-de-Sobreviventes?)
2. [Homens ou mulheres tiveram mais chances de sobreviver?](#3.2.-Homens-ou-mulheres-tiveram-mais-chances-de-sobreviver?)
3. [Qual classe social teve mais sobreviventes?](#3.3.-Qual-classe-social-teve-mais-sobreviventes?)
4. [Qual faixa etária teve mais chances de sobreviver?](#3.4.-Qual-faixa-etária-teve-mais-chances-de-sobreviver?)


# 2. Metodologia

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no *dataset* que possui os seguintes dados:

| Coluna          | Descrição                                                                 |
|-----------------|---------------------------------------------------------------------------|
| id_passageiro   | Identficador único do passageiro.                                         |
| classe          | Classe social.                                                            |
| sobreviveu      | Sobrevivente? Sim (1), Não (0).                                           |
| nome            | Nome do passageiro.                                                       |
| sexo            | Masculino (male), Feminino (female).                                      |
| idade           | Idade do passageiro.                                                      |
| irmaos_conjuges | Número de irmãos e cônjuges a bordo.                                      |
| pais_filhos     | Número de pais e filhos a bordo.                                          |
| bilhete         | Número do bilhete                                                         |
| tarifa          | Preço da tarifa do passageiro.                                            |
| cabine          | Cabine.                                                                   |
| embarque        | Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton |
| bote            | Bote salva vidas.                                                         |
| corpo           | Número de identificação do corpo.                                         |
| destino         | Local de desembarque do passageiro.                                       |

## OBSERVAÇÕES

- `classe` é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
- `idade` está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
- `tarifa` está em Libras esterlinas (British Pounds - £) anteriores a 1970;
- `irmaos_conjuges` e `pais_filhos`: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
    - **Irmão**: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
    - **Cônjuge**: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
    - **Pai**: Mãe ou pai do passageiro a bordo do Titanic;
    - **Criança**: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
    - Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
    - Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos; 
    - Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.


## 2.1. Configuração do Ambiente

In [None]:
import numpy as np
import pandas as pd

## 2.2. Leitura dos Dados

In [None]:
df = pd.read_csv('titanic3.csv')

df.head()

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,cabine,embarque,bote,corpo,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.0,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_passageiro    1309 non-null   int64  
 1   classe           1309 non-null   int64  
 2   sobreviveu       1309 non-null   int64  
 3   nome             1309 non-null   object 
 4   sexo             1309 non-null   object 
 5   idade            1046 non-null   float64
 6   irmaos_conjuges  1309 non-null   int64  
 7   pais_filhos      1309 non-null   int64  
 8   bilhete          1309 non-null   object 
 9   tarifa           1308 non-null   float64
 10  cabine           295 non-null    object 
 11  embarque         1307 non-null   object 
 12  bote             486 non-null    object 
 13  corpo            121 non-null    float64
 14  destino          745 non-null    object 
dtypes: float64(3), int64(5), object(7)
memory usage: 153.5+ KB


In [None]:
df.describe()

Unnamed: 0,id_passageiro,classe,sobreviveu,idade,irmaos_conjuges,pais_filhos,tarifa,corpo
count,1309.0,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,655.0,2.294882,0.381971,29.897706,0.498854,0.385027,33.295479,160.809917
std,378.020061,0.837836,0.486055,14.414973,1.041658,0.86556,51.758668,97.696922
min,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,328.0,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,655.0,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,982.0,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,1309.0,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


### 2.3.2 Remoção de Colunas
Remoção de colunas incompletas e/ou desnecessárias para a análise.

In [None]:
colunas_removidas = ['cabine', 'bote', 'corpo', 'destino']
df.drop(columns=colunas_removidas, inplace=True)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_passageiro    1309 non-null   int64  
 1   classe           1309 non-null   int64  
 2   sobreviveu       1309 non-null   int64  
 3   nome             1309 non-null   object 
 4   sexo             1309 non-null   object 
 5   idade            1046 non-null   float64
 6   irmaos_conjuges  1309 non-null   int64  
 7   pais_filhos      1309 non-null   int64  
 8   bilhete          1309 non-null   object 
 9   tarifa           1308 non-null   float64
 10  embarque         1307 non-null   object 
dtypes: float64(2), int64(5), object(4)
memory usage: 112.6+ KB


### 2.3.3. Dados Ausentes

In [None]:
print('Possui Dados ausentes?', df.isnull().values.any())

print('total de dados ausentes: ', df.isnull().sum().sum())
print('total de dados ausentes por coluna: ', df.isnull().sum())

Possui Dados ausentes? True
total de dados ausentes:  266
total de dados ausentes por coluna:  id_passageiro        0
classe               0
sobreviveu           0
nome                 0
sexo                 0
idade              263
irmaos_conjuges      0
pais_filhos          0
bilhete              0
tarifa               1
embarque             2
dtype: int64


#### 2.3.3.1 Idades Ausentes
Para os dados ausentes da coluna `idade` será feita a substituição dos dados vazios pela média das idades na época.

In [None]:
# média da coluna idade
media_idades = df['idade'].mean()
print('Média das idades: ', media_idades)

# subistituir os dados ausentes pela média
df['idade'].fillna(media_idades, inplace=True)

print('total de dados ausentes: ', df.isnull().sum().sum())
print('total de dados ausentes por coluna: ', df.isnull().sum())

Média das idades:  29.897705544933174
total de dados ausentes:  3
total de dados ausentes por coluna:  id_passageiro      0
classe             0
sobreviveu         0
nome               0
sexo               0
idade              0
irmaos_conjuges    0
pais_filhos        0
bilhete            0
tarifa             1
embarque           2
dtype: int64


#### 2.3.3.2 Tarifas Ausentes
Para os dados ausentes da coluna `tarifa`será feita a substituição dos dados vazios pela média de preço das tarifas na época.

In [None]:
# média da coluna tarifa
media_tarifas = df['tarifa'].mean()
print('Média das tarifas: ', media_tarifas)

df['tarifa'].fillna(media_tarifas, inplace=True)

print('total de dados ausentes: ', df.isnull().sum().sum())
print('total de dados ausentes por coluna: ', df.isnull().sum())

Média das tarifas:  33.29547928134572
total de dados ausentes:  2
total de dados ausentes por coluna:  id_passageiro      0
classe             0
sobreviveu         0
nome               0
sexo               0
idade              0
irmaos_conjuges    0
pais_filhos        0
bilhete            0
tarifa             0
embarque           2
dtype: int64


#### 2.3.3.3 Portos de Embarque Ausentes
Para os dados ausentes da coluna `embarque`será feita a remoção dos dados vazios.

In [None]:
df.dropna(subset=['embarque'], inplace=True)

print('total de dados ausentes: ', df.isnull().sum().sum())
print('total de dados ausentes por coluna: ', df.isnull().sum())

total de dados ausentes:  0
total de dados ausentes por coluna:  id_passageiro      0
classe             0
sobreviveu         0
nome               0
sexo               0
idade              0
irmaos_conjuges    0
pais_filhos        0
bilhete            0
tarifa             0
embarque           0
dtype: int64


## 2.4. Mapeamento de Dados
Para melhorar a análise e interpretação dos dados os seguintes atributos serão modificados:

| Coluna    | Original     | Modificado                          |
|:----------|:-------------|:------------------------------------|
| Classe    | 1, 2, 3      | Alta, Média, Baixa                  |
| Sexo      | male, female | M, F                                |
| Embarque  | C, Q, S      | Cherbourg, Queenstown, Southampton  |


In [None]:
classe_social = {1: 'Alta', 2: 'Média', 3: 'Baixa'}
sexo = {'male': 'M', 'female': 'F'}
embarque = {'C': 'Cherbourg', 'Q': 'Queenstown', 'S': 'Southampton'}
sobreviveu = {1: 'S', 0: 'N'}

df.classe.replace(classe_social, inplace=True)
df.sexo.replace(sexo, inplace=True)
df.embarque.replace(embarque, inplace=True)
df.sobreviveu.replace(sobreviveu, inplace=True)

df.head()

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,cabine,embarque,bote,corpo,destino,total_parentes,faixa_etaria
0,1,Alta,S,"Allen, Miss. Elisabeth Walton",F,29.0,0,0,24160,211.3375,B5,Southampton,2.0,,"St Louis, MO",0,20 a 29 anos
1,2,Alta,S,"Allison, Master. Hudson Trevor",M,1.0,1,2,113781,151.55,C22 C26,Southampton,11.0,,"Montreal, PQ / Chesterville, ON",3,0 a 9 anos
2,3,Alta,N,"Allison, Miss. Helen Loraine",F,2.0,1,2,113781,151.55,C22 C26,Southampton,,,"Montreal, PQ / Chesterville, ON",3,0 a 9 anos
3,4,Alta,N,"Allison, Mr. Hudson Joshua Creighton",M,30.0,1,2,113781,151.55,C22 C26,Southampton,,135.0,"Montreal, PQ / Chesterville, ON",3,30 a 39 anos
4,5,Alta,N,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",F,25.0,1,2,113781,151.55,C22 C26,Southampton,,,"Montreal, PQ / Chesterville, ON",3,20 a 29 anos


## 2.5.  Feature Engineering

A engenharia de recursos (*Feature Engineering*) é o processo de usar o conhecimento do domínio para extrair recursos dos dados brutos. Neste estudo serão acrescentadas as seguintes colunas para enriquecer a análise de dados:

| Coluna         | Descrição                                                         |
|:---------------|:------------------------------------------------------------------|
| total_parentes | Número total de parentes a bordo: `irmaos_conjuges + pais_filhos` |
| faixa_etaria   | Intervalo de idades dos passageiros.                              |

### 2.5.1 Total de Parentes

In [None]:
df['total_parentes'] = df['irmaos_conjuges'] + df['pais_filhos']
df['total_parentes']
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_passageiro    1309 non-null   int64  
 1   classe           1309 non-null   object 
 2   sobreviveu       1309 non-null   object 
 3   nome             1309 non-null   object 
 4   sexo             1309 non-null   object 
 5   idade            1046 non-null   float64
 6   irmaos_conjuges  1309 non-null   int64  
 7   pais_filhos      1309 non-null   int64  
 8   bilhete          1309 non-null   object 
 9   tarifa           1308 non-null   float64
 10  cabine           295 non-null    object 
 11  embarque         1307 non-null   object 
 12  bote             486 non-null    object 
 13  corpo            121 non-null    float64
 14  destino          745 non-null    object 
 15  total_parentes   1309 non-null   int64  
dtypes: float64(3), int64(4), object(9)
memory usage: 163.8+ KB


### 2.5.2 Faixas Etárias

In [None]:
faixas_etarias = ['0 a 9 anos', '10 a 19 anos', '20 a 29 anos', '30 a 39 anos',
                  '40 a 49 anos', '50 a 59 anos', '60 a 69 anos', '70 a 79 anos']

df['faixa_etaria'] = pd.cut(df.idade, range(0, 81, 10), right=False, labels=faixas_etarias)

df['faixa_etaria']

0       20 a 29 anos
1         0 a 9 anos
2         0 a 9 anos
3       30 a 39 anos
4       20 a 29 anos
            ...     
1304    10 a 19 anos
1305             NaN
1306    20 a 29 anos
1307    20 a 29 anos
1308    20 a 29 anos
Name: faixa_etaria, Length: 1309, dtype: category
Categories (8, object): [0 a 9 anos < 10 a 19 anos < 20 a 29 anos < 30 a 39 anos < 40 a 49 anos <
                         50 a 59 anos < 60 a 69 anos < 70 a 79 anos]

# 3. Análise dos Dados

## 3.1. Qual é o número de Sobreviventes?

In [None]:
df['sobreviveu'].value_counts()

N    809
S    500
Name: sobreviveu, dtype: int64

## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

In [None]:
pd.crosstab(df['sexo'], df['sobreviveu'])

sobreviveu,N,S
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,127,339
M,682,161


## 3.3. Qual classe social teve mais sobreviventes?

In [None]:
df['classe'].value_counts()

df.groupby('classe').sobreviveu.describe()

Unnamed: 0_level_0,count,unique,top,freq
classe,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alta,323,2,S,200
Baixa,709,2,N,528
Média,277,2,N,158


## 3.4. Qual faixa etária teve mais chances de sobreviver?

In [None]:
df.groupby(['faixa_etaria']).sobreviveu.describe()

Unnamed: 0_level_0,count,unique,top,freq
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0 a 9 anos,82,2,S,50
10 a 19 anos,143,2,N,87
20 a 29 anos,344,2,N,217
30 a 39 anos,232,2,N,134
40 a 49 anos,135,2,N,83
50 a 59 anos,70,2,N,38
60 a 69 anos,32,2,N,22
70 a 79 anos,7,2,N,6


In [50]:
pd.crosstab(df['faixa_etaria'], df['sobreviveu'])

sobreviveu,N,S
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1
0 a 9 anos,32,50
10 a 19 anos,87,56
20 a 29 anos,217,127
30 a 39 anos,134,98
40 a 49 anos,83,52
50 a 59 anos,38,32
60 a 69 anos,22,10
70 a 79 anos,6,1


# REFERÊNCIAS

- [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
- [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
- [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
- Hind, Philip.  "Encyclopedia Titanica."  Online.  Internet. n.p.  02 Aug 1999.