### **TITANIC**

Análise de Dados Exploratória do Titanic
titanic

1. Introdução
O RMS Titanic foi um navio de passageiros britânico operado pela empresa White Star Line que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o dataset descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

1.1. Objetivos
O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados titanic3, adaptado pelo autor e disponível em data/titanic3.csv; a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

Qual é o número de Sobreviventes?
Homens ou mulheres tiveram mais chances de sobreviver?
Qual classe social teve mais sobreviventes?
Qual faixa etária teve mais chances de sobreviver?
2. Metodologia
Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no dataset que possui os seguintes dados:

Coluna	Descrição
id_passageiro	Identficador único do passageiro.
classe	Classe social.
sobreviveu	Sobrevivente? Sim (1), Não (0).
nome	Nome do passageiro.
sexo	Masculino (male), Feminino (female).
idade	Idade do passageiro.
irmaos_conjuges	Número de irmãos e cônjuges a bordo.
pais_filhos	Número de pais e filhos a bordo.
bilhete	Número do bilhete
tarifa	Preço da tarifa do passageiro.
cabine	Cabine.
embarque	Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton
bote	Bote salva vidas.
corpo	Número de identificação do corpo.
destino	Local de desembarque do passageiro.
OBSERVAÇÕES
classe é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
idade está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
tarifa está em Libras esterlinas (British Pounds - £) anteriores a 1970;
irmaos_conjuges e pais_filhos: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
Irmão: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
Cônjuge: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
Pai: Mãe ou pai do passageiro a bordo do Titanic;
Criança: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos;
Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.

In [41]:
import numpy as np
import pandas as pd

In [42]:
dados = pd.read_csv('/content/titanic3[1].csv', sep=',')
dados


Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,cabine,embarque,bote,corpo,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.0,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,3,0,"Zabour, Miss. Hileni",female,15.0,1,0,2665,14.4542,,C,,328.0,
1305,1306,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,1307,3,0,"Zakarian, Mr. Mapriededer",male,27.0,0,0,2656,7.2250,,C,,304.0,
1307,1308,3,0,"Zakarian, Mr. Ortin",male,27.0,0,0,2670,7.2250,,C,,,


# **Remoção de Colunas**

In [43]:
DadosAtualizados=dados.drop(columns=['cabine','corpo','bote'])
DadosAtualizados.isnull().sum()

id_passageiro        0
classe               0
sobreviveu           0
nome                 0
sexo                 0
idade              263
irmaos_conjuges      0
pais_filhos          0
bilhete              0
tarifa               1
embarque             2
destino            564
dtype: int64

# **Idades Ausentes**

In [44]:
media=DadosAtualizados['idade'].mean()
DadosAtualizados['idade'] = DadosAtualizados['idade'].fillna(media)
DadosAtualizados.isnull().sum()
DadosAtualizados

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.000000,0,0,24160,211.3375,S,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,3,0,"Zabour, Miss. Hileni",female,15.000000,1,0,2665,14.4542,C,
1305,1306,3,0,"Zabour, Miss. Thamine",female,29.897706,1,0,2665,14.4542,C,
1306,1307,3,0,"Zakarian, Mr. Mapriededer",male,27.000000,0,0,2656,7.2250,C,
1307,1308,3,0,"Zakarian, Mr. Ortin",male,27.000000,0,0,2670,7.2250,C,


# **Tarifas Ausentes**

In [45]:

valorTarifa = sum(DadosAtualizados['tarifa']) / len(DadosAtualizados['tarifa'])
DadosAtualizados = DadosAtualizados.replace({'NaN': valorTarifa})
DadosAtualizados

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.000000,0,0,24160,211.3375,S,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.000000,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,3,0,"Zabour, Miss. Hileni",female,15.000000,1,0,2665,14.4542,C,
1305,1306,3,0,"Zabour, Miss. Thamine",female,29.897706,1,0,2665,14.4542,C,
1306,1307,3,0,"Zakarian, Mr. Mapriededer",male,27.000000,0,0,2656,7.2250,C,
1307,1308,3,0,"Zakarian, Mr. Ortin",male,27.000000,0,0,2670,7.2250,C,


# **Portos de Embarque Ausentes**

In [46]:
DadosAtualizados.dropna(subset=['embarque','destino'])

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,S,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.0,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.5500,S,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...
838,839,3,0,"Gustafsson, Mr. Johan Birger",male,28.0,2,0,3101277,7.9250,S,"Ruotsinphytaa, Finland New York, NY"
839,840,3,0,"Gustafsson, Mr. Karl Gideon",male,19.0,0,0,347069,7.7750,S,"Myren, Sweden New York, NY"
1063,1064,3,0,"Nirva, Mr. Iisakki Antino Aijo",male,41.0,0,0,SOTON/O2 3101272,7.1250,S,"Finland Sudbury, ON"
1089,1090,3,0,"Olsvigen, Mr. Thor Anderson",male,20.0,0,0,6563,9.2250,S,"Oslo, Norway Cameron, WI"


# **Mapeamento de Dados**

In [47]:
DadosAtualizados['classe'] = DadosAtualizados['classe'].replace(1, 'Alta')
DadosAtualizados['classe'] = DadosAtualizados['classe'].replace(2, 'Media')
DadosAtualizados['classe'] = DadosAtualizados['classe'].replace(3, 'Baixa')

DadosAtualizados['sexo'] = DadosAtualizados['sexo'].replace('male', 'm')
DadosAtualizados['sexo'] = DadosAtualizados['sexo'].replace('female', 'f')

DadosAtualizados['embarque'] = DadosAtualizados['embarque'].replace('C', 'Cherbourg')
DadosAtualizados['embarque'] = DadosAtualizados['embarque'].replace('Q', 'Queenstown')
DadosAtualizados['embarque'] = DadosAtualizados['embarque'].replace('S', 'Southampton')

DadosAtualizados

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino
0,1,Alta,1,"Allen, Miss. Elisabeth Walton",f,29.000000,0,0,24160,211.3375,Southampton,"St Louis, MO"
1,2,Alta,1,"Allison, Master. Hudson Trevor",m,1.000000,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON"
2,3,Alta,0,"Allison, Miss. Helen Loraine",f,2.000000,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON"
3,4,Alta,0,"Allison, Mr. Hudson Joshua Creighton",m,30.000000,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON"
4,5,Alta,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",f,25.000000,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,Baixa,0,"Zabour, Miss. Hileni",f,15.000000,1,0,2665,14.4542,Cherbourg,
1305,1306,Baixa,0,"Zabour, Miss. Thamine",f,29.897706,1,0,2665,14.4542,Cherbourg,
1306,1307,Baixa,0,"Zakarian, Mr. Mapriededer",m,27.000000,0,0,2656,7.2250,Cherbourg,
1307,1308,Baixa,0,"Zakarian, Mr. Ortin",m,27.000000,0,0,2670,7.2250,Cherbourg,


# **Total de Parentes**

In [48]:
familiares = DadosAtualizados['irmaos_conjuges']+DadosAtualizados['pais_filhos']
DadosAtualizados = DadosAtualizados.assign(total_parentes=familiares)
DadosAtualizados.head()

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino,total_parentes
0,1,Alta,1,"Allen, Miss. Elisabeth Walton",f,29.0,0,0,24160,211.3375,Southampton,"St Louis, MO",0
1,2,Alta,1,"Allison, Master. Hudson Trevor",m,1.0,1,2,113781,151.55,Southampton,"Montreal, PQ / Chesterville, ON",3
2,3,Alta,0,"Allison, Miss. Helen Loraine",f,2.0,1,2,113781,151.55,Southampton,"Montreal, PQ / Chesterville, ON",3
3,4,Alta,0,"Allison, Mr. Hudson Joshua Creighton",m,30.0,1,2,113781,151.55,Southampton,"Montreal, PQ / Chesterville, ON",3
4,5,Alta,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",f,25.0,1,2,113781,151.55,Southampton,"Montreal, PQ / Chesterville, ON",3


# **Faixas Etárias**

In [49]:
faixaEtaria = DadosAtualizados['classe'].count()

idade = list(DadosAtualizados['idade'])
p=1;
for n in range(faixaEtaria):
 
    if idade[n] <= 17:
       idade[n]="Jovem"
    elif 17 < idade[n] <= 65:
        idade[n] = "Adulto"    
    else:
        idade[n] = "Idoso"

DadosAtualizados['idade']=idade

DadosAtualizados.head(100)

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,embarque,destino,total_parentes
0,1,Alta,1,"Allen, Miss. Elisabeth Walton",f,Adulto,0,0,24160,211.3375,Southampton,"St Louis, MO",0
1,2,Alta,1,"Allison, Master. Hudson Trevor",m,Jovem,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON",3
2,3,Alta,0,"Allison, Miss. Helen Loraine",f,Jovem,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON",3
3,4,Alta,0,"Allison, Mr. Hudson Joshua Creighton",m,Adulto,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON",3
4,5,Alta,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",f,Adulto,1,2,113781,151.5500,Southampton,"Montreal, PQ / Chesterville, ON",3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,Alta,1,"Dodge, Mrs. Washington (Ruth Vidaver)",f,Adulto,1,1,33638,81.8583,Southampton,"San Francisco, CA",2
96,97,Alta,0,"Douglas, Mr. Walter Donald",m,Adulto,1,0,PC 17761,106.4250,Cherbourg,"Deephaven, MN / Cedar Rapids, IA",1
97,98,Alta,1,"Douglas, Mrs. Frederick Charles (Mary Helene B...",f,Adulto,1,1,PC 17558,247.5208,Cherbourg,"Montreal, PQ",2
98,99,Alta,1,"Douglas, Mrs. Walter Donald (Mahala Dutton)",f,Adulto,1,0,PC 17761,106.4250,Cherbourg,"Deephaven, MN / Cedar Rapids, IA",1


# **Qual é o número de Sobreviventes?**

In [50]:
dados=DadosAtualizados.query('sobreviveu == 1')
print('sobreviveram:')
dados['sobreviveu'].sum()

sobreviveram:


500

# **Homens ou mulheres tiveram mais chances de sobreviver?**

In [51]:
faixaEtaria = dados['sexo'].count()

sexo = list(DadosAtualizados['sexo'])
homem=0;
mulher=0;
for n in range(faixaEtaria):
 
    if sexo[n] == "f":
     mulher = mulher+1
    else:
      homem=  homem+1

print(mulher)
print(homem)

211
289


# **Qual classe social teve mais sobreviventes?**

In [52]:
faixaEtaria = dados['classe'].count()

classe = list(dados['classe'])
alta=0;
media=0;
baixa=0;
for n in range(faixaEtaria):
 
    if classe[n] == "Alta":
     alta = alta+1
    elif classe[n] == "Media":
     media= media+1
    else:
      baixa=  baixa+1

print(alta)
print(media)
print(baixa)

200
119
181


# **Qual faixa etária teve mais chances de sobreviver?**

In [53]:
Jovem = dados.query('idade == "Jovem"').count()
Adulto = dados.query('idade == "Adulto"').count()
Idoso = dados.query('idade == "Idoso"').count()

Jovem = str(Jovem['idade']);
print("Jovens: " +Jovem)

Adulto = str(Adulto['idade']);
print("Adultos: " +Adulto)

Idoso = str(Idoso['idade']);
print("Idosos: " +Idoso)

Jovens: 81
Adultos: 417
Idosos: 2
