In [None]:

Análise de Dados Exploratória do Titanic

titanic
1. Introdução

O RMS Titanic foi um navio de passageiros britânico operado pela empresa White Star Line que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o dataset descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.
1.1. Objetivos

O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados titanic3, adaptado pelo autor e disponível em data/titanic3.csv; a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

    Qual é o número de Sobreviventes?
    Homens ou mulheres tiveram mais chances de sobreviver?
    Qual classe social teve mais sobreviventes?
    Qual faixa etária teve mais chances de sobreviver?

2. Metodologia

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no dataset que possui os seguintes dados:
Coluna 	Descrição
id_passageiro 	Identficador único do passageiro.
classe 	Classe social.
sobreviveu 	Sobrevivente? Sim (1), Não (0).
nome 	Nome do passageiro.
sexo 	Masculino (male), Feminino (female).
idade 	Idade do passageiro.
irmaos_conjuges 	Número de irmãos e cônjuges a bordo.
pais_filhos 	Número de pais e filhos a bordo.
bilhete 	Número do bilhete
tarifa 	Preço da tarifa do passageiro.
cabine 	Cabine.
embarque 	Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton
bote 	Bote salva vidas.
corpo 	Número de identificação do corpo.
destino 	Local de desembarque do passageiro.
OBSERVAÇÕES

    classe é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
    idade está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
    tarifa está em Libras esterlinas (British Pounds - £) anteriores a 1970;
    irmaos_conjuges e pais_filhos: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
        Irmão: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
        Cônjuge: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
        Pai: Mãe ou pai do passageiro a bordo do Titanic;
        Criança: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
        Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
        Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos;
        Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.

2.1. Configuração do Ambiente

import numpy as np
import pandas as pd

2.2. Leitura dos Dados

df = pd.read_csv("https://raw.githubusercontent.com/profdiegoaugusto/analise-dados/master/Pandas/titanic-eda/data/titanic3.csv")

2.3. Organização e Limpeza dos Dados
2.3.1. Visão Geral do Conjunto de Dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_passageiro    1309 non-null   int64  
 1   classe           1309 non-null   int64  
 2   sobreviveu       1309 non-null   int64  
 3   nome             1309 non-null   object 
 4   sexo             1309 non-null   object 
 5   idade            1046 non-null   float64
 6   irmaos_conjuges  1309 non-null   int64  
 7   pais_filhos      1309 non-null   int64  
 8   bilhete          1309 non-null   object 
 9   tarifa           1308 non-null   float64
 10  cabine           295 non-null    object 
 11  embarque         1307 non-null   object 
 12  bote             486 non-null    object 
 13  corpo            121 non-null    float64
 14  destino          745 non-null    object 
dtypes: float64(3), int64(5), object(7)
memory usage: 153.5+ KB

df.shape

(1309, 15)

df.dtypes

id_passageiro        int64
classe               int64
sobreviveu           int64
nome                object
sexo                object
idade              float64
irmaos_conjuges      int64
pais_filhos          int64
bilhete             object
tarifa             float64
cabine              object
embarque            object
bote                object
corpo              float64
destino             object
dtype: object

2.3.2 Remoção de Colunas

Remoção de colunas incompletas e/ou desnecessárias para a análise.

df = df.drop(['id_passageiro', 'nome', 'bilhete', 'cabine', 'bote', 'corpo', 'destino'], axis='columns')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   classe           1309 non-null   int64  
 1   sobreviveu       1309 non-null   int64  
 2   sexo             1309 non-null   object 
 3   idade            1046 non-null   float64
 4   irmaos_conjuges  1309 non-null   int64  
 5   pais_filhos      1309 non-null   int64  
 6   tarifa           1308 non-null   float64
 7   embarque         1307 non-null   object 
dtypes: float64(2), int64(4), object(2)
memory usage: 81.9+ KB

2.3.3. Dados Ausentes

df.isna().sum()

classe               0
sobreviveu           0
sexo                 0
idade              263
irmaos_conjuges      0
pais_filhos          0
tarifa               1
embarque             2
dtype: int64

2.3.3.1 Idades Ausentes

Para os dados ausentes da coluna idade será feita a substituição dos dados vazios pela média das idades na época.

df['idade'] = df['idade'].fillna(df['idade'].median())

print('Dados ausentes no momento:', df['idade'].isna().sum())

Dados ausentes no momento: 0

2.3.3.2 Tarifas Ausentes

Para os dados ausentes da coluna tarifaserá feita a substituição dos dados vazios pela média de preço das tarifas na época.

df['tarifa'] = df['tarifa'].fillna(df['tarifa'].median())

print('Dados ausentes no momento:', df['tarifa'].isna().sum())

Dados ausentes no momento: 0

2.3.3.3 Portos de Embarque Ausentes

Para os dados ausentes da coluna embarqueserá feita a remoção dos dados vazios.

df = df.dropna(subset=['embarque'])

print('Dados ausentes no momento:', df['embarque'].isnull().sum())

Dados ausentes no momento: 0

2.4. Mapeamento de Dados

Para melhorar a análise e interpretação dos dados os seguintes atributos serão modificados:
Coluna 	Original 	Modificado
Classe 	1, 2, 3 	Alta, Média, Baixa
Sexo 	male, female 	M, F
Embarque 	C, Q, S 	Cherbourg, Queenstown, Southampton

df = df.replace({'classe' : {1 : 'Alta', 2 : 'Media', 3 : 'Baixa'}, 'sexo': {'male' : 'M', 'female' : 'F'},
 'embarque' : {'C' : 'Cherbourg', 'Q' : 'Queenstown', 'S' : 'Southampton'}})

df[{'classe', 'sexo', 'embarque'}]

	classe 	sexo 	embarque
0 	Alta 	F 	Southampton
1 	Alta 	M 	Southampton
2 	Alta 	F 	Southampton
3 	Alta 	M 	Southampton
4 	Alta 	F 	Southampton
... 	... 	... 	...
1304 	Baixa 	F 	Cherbourg
1305 	Baixa 	F 	Cherbourg
1306 	Baixa 	M 	Cherbourg
1307 	Baixa 	M 	Cherbourg
1308 	Baixa 	M 	Southampton

1307 rows × 3 columns
2.5. Feature Engineering

A engenharia de recursos (Feature Engineering) é o processo de usar o conhecimento do domínio para extrair recursos dos dados brutos. Neste estudo serão acrescentadas as seguintes colunas para enriquecer a análise de dados:
Coluna 	Descrição
total_parentes 	Número total de parentes a bordo: irmaos_conjuges + pais_filhos
faixa_etaria 	Intervalo de idades dos passageiros.
2.5.1 Total de Parentes

df['total_parentes'] = df['irmaos_conjuges'] + df['pais_filhos']

df['total_parentes']

0       0
1       3
2       3
3       3
4       3
       ..
1304    1
1305    1
1306    0
1307    0
1308    0
Name: total_parentes, Length: 1307, dtype: int64

2.5.2 Faixas Etárias

df.loc[((df['idade'] >= 0) & (df['idade'] < 20)),  'faixa_etaria'] = 'Jovem'
df.loc[((df['idade'] >= 20) & (df['idade'] < 60)),  'faixa_etaria'] = 'Adulto'
df.loc[(df['idade'] >= 60),  'faixa_etaria'] = 'Idoso'

df['faixa_etaria']

0       Adulto
1        Jovem
2        Jovem
3       Adulto
4       Adulto
         ...  
1304     Jovem
1305    Adulto
1306    Adulto
1307    Adulto
1308    Adulto
Name: faixa_etaria, Length: 1307, dtype: object

3. Análise dos Dados
3.1. Qual é o número de Sobreviventes?

print('Sobrevieram:', df['sobreviveu'].loc[df['sobreviveu'] == 1].sum())

Sobrevieram: 498

3.2. Homens ou mulheres tiveram mais chances de sobreviver?

homens = df['sobreviveu'].loc[((df['sexo'] == 'M') & df['sobreviveu'] == 1)].sum()
mulheres = df['sobreviveu'].loc[(df['sobreviveu'] == 1) & (df['sexo'] == 'F')].sum()

if mulheres > homens:
    print('Sobrevieram mais mulheres:', mulheres)
else:
    print('Sobrevieram mais homens:', homens)

Sobrevieram mais mulheres: 337

3.3. Qual classe social teve mais sobreviventes?

alta = df['sobreviveu'].loc[((df['classe'] == 'Alta') & df['sobreviveu'] == 1)].sum()
media = df['sobreviveu'].loc[((df['classe'] == 'Media') & df['sobreviveu'] == 1)].sum()
baixa = df['sobreviveu'].loc[((df['classe'] == 'Baixa') & df['sobreviveu'] == 1)].sum()

if alta > media and alta > baixa:
    print('A classe Alta foi a que conteve mais sobreviventes:', alta)
elif media > alta and media > baixa:
    print('A classe Media foi a que conteve mais sobreviventes:', media)
else:
    print('A classe Baixa foi a que conteve mais sobreviventes:', baixa)

A classe Alta foi a que conteve mais sobreviventes: 198

3.4. Qual faixa etária teve mais chances de sobreviver?

jovens = df['sobreviveu'].loc[((df['faixa_etaria'] == 'Jovem') & df['sobreviveu'] == 1)].sum()
adultos = df['sobreviveu'].loc[((df['faixa_etaria'] == 'Adulto') & df['sobreviveu'] == 1)].sum()
idosos = df['sobreviveu'].loc[((df['faixa_etaria'] == 'Idoso') & df['sobreviveu'] == 1)].sum()

if jovens > adultos and jovens > idosos:
    print('A faixa etaria que conteve mais sobreviventes foi a de Jovens:', jovens)
elif adultos > jovens and adultos > idosos:
    print('A faixa etaria que conteve mais sobreviventes foi a de Adultos:', adultos)
else:
    print('A faixa etaria que conteve mais sobreviventes foi a de Idosos:', idosos)

A faixa etaria que conteve mais sobreviventes foi a de Adultos: 381

REFERÊNCIAS

    Titanic: Machine Learning from Disaster
    Encyclopedia Titanica
    Basic Feature Engineering with the Titanic Data
    Hind, Philip. "Encyclopedia Titanica." Online. Internet. n.p. 02 Aug 1999.

