# Análise de Dados Exploratória do Titanic

# 1. Introdução
O RMS Titanic foi um navio de passageiros britânico operado pela empresa White Star Line que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o dataset descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## 1.1 Objetivos
O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados titanic3, adaptado pelo autor e disponível em [data/titanic3.csv](https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/data/titanic3.csv) ; a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

1.   Qual é o número de Sobreviventes?
2.   Homens ou mulheres tiveram mais chances de sobreviver?
3.   Qual classe social teve mais sobreviventes?
4.   Qual faixa etária teve mais chances de sobreviver?


# 2. Metodologia
Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no dataset que possui os seguintes dados:

In [24]:
valor_coluna = dados_brutos.columns
valor_descricao = np.array(['Identficador único do passageiro.','Classe social.','Sobrevivente? Sim (1), Não (0).','Nome do passageiro.','Masculino (male), Feminino (female).','Idade do passageiro.','Número de irmãos e cônjuges a bordo.','Número de pais e filhos a bordo.','Número do bilhete','Preço da tarifa do passageiro.','Cabine.','Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton','Bote salva vidas.','Número de identificação do corpo.','Local de desembarque do passageiro.'])
tabela = [(coluna,descricao) for coluna,descricao in zip(valor_coluna, valor_descricao)]
pd.DataFrame(tabela, columns=['Coluna','Descrição'])

Unnamed: 0,Coluna,Descrição
0,id_passageiro,Identficador único do passageiro.
1,classe,Classe social.
2,sobreviveu,"Sobrevivente? Sim (1), Não (0)."
3,nome,Nome do passageiro.
4,sexo,"Masculino (male), Feminino (female)."
5,idade,Idade do passageiro.
6,irmaos_conjuges,Número de irmãos e cônjuges a bordo.
7,pais_filhos,Número de pais e filhos a bordo.
8,bilhete,Número do bilhete
9,tarifa,Preço da tarifa do passageiro.


## 2.1. Configuração do Ambiente

In [11]:
import pandas as pd
import numpy as np

## 2.2. Leitura dos Dados

In [2]:
url = 'https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/data/titanic3.csv'
dados_brutos = pd.read_html(url)

In [3]:
#Passando para dataframe e excluindo coluna Unnamed
dados_brutos = dados_brutos[0]
dados_brutos.pop("Unnamed: 0")

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
        ..
1304   NaN
1305   NaN
1306   NaN
1307   NaN
1308   NaN
Name: Unnamed: 0, Length: 1309, dtype: float64

## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [4]:
dados_brutos.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_passageiro,1309.0,655.0,378.020061,1.0,328.0,655.0,982.0,1309.0
classe,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
sobreviveu,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
idade,1046.0,29.897706,14.414973,0.0,21.0,28.0,39.0,80.0
irmaos_conjuges,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
pais_filhos,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
tarifa,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292
corpo,121.0,160.809917,97.696922,1.0,72.0,155.0,256.0,328.0


In [5]:
dados_brutos.dtypes

id_passageiro        int64
classe               int64
sobreviveu           int64
nome                object
sexo                object
idade              float64
irmaos_conjuges      int64
pais_filhos          int64
bilhete             object
tarifa             float64
cabine              object
embarque            object
bote                object
corpo              float64
destino             object
dtype: object

In [6]:
dados_brutos.isnull().sum()

id_passageiro         0
classe                0
sobreviveu            0
nome                  0
sexo                  0
idade               263
irmaos_conjuges       0
pais_filhos           0
bilhete               0
tarifa                1
cabine             1014
embarque              2
bote                823
corpo              1188
destino             564
dtype: int64

### 2.3.2 Remoção de Colunas

In [7]:
#Excluindo colunas NOME, BILHETE, CABINE, DESTINO, BOTE, CORPO
df_titanic = dados_brutos.drop(["nome","bilhete","cabine","destino","bote","corpo"], axis=1)

### 2.3.3. Dados Ausentes

In [543]:
print('dados nulos: {}'.format(df_titanic.isnull().sum().sum()))
print(df_titanic.isnull().sum())

dados nulos: 266
id_passageiro        0
classe               0
sobreviveu           0
sexo                 0
idade              263
irmaos_conjuges      0
pais_filhos          0
tarifa               1
embarque             2
dtype: int64


#### 2.3.3.1 Idades Ausentes

Removendo todos os dados Ausentes da coluna idade

In [544]:
print('Idade NaN(Entrada): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic[['idade']]  = df_titanic['idade'].fillna(df_titanic['idade'].mean())
print('Idade NaN(Saida): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic['idade'] = df_titanic['idade'].astype(int)

Idade NaN(Entrada): 263
Idade NaN(Saida): 0


In [545]:
df_titanic['idade'].unique()

array([29,  1,  2, 30, 25, 48, 63, 39, 53, 71, 47, 18, 24, 26, 80, 50, 32,
       36, 37, 42, 19, 35, 28, 45, 40, 58, 22, 41, 44, 59, 60, 33, 17, 11,
       14, 49, 76, 46, 27, 64, 55, 70, 38, 51, 31,  4, 54, 23, 43, 52, 16,
       21, 15, 65, 56, 13, 61, 34,  6, 57, 62, 67, 12, 20,  8,  7,  3,  5,
       66,  9,  0, 10, 74])

#### 2.3.3.2 Tarifas Ausentes

In [546]:
print('Falta Tarifa')
df_titanic[df_titanic['tarifa'].isnull()]

Falta Tarifa


Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1225,1226,3,0,male,61,0,0,,S


In [547]:
tarifas = df_titanic[(df_titanic['classe'] == 3)  & (df_titanic['sexo'] == 'male') & (df_titanic['idade'] >= 50) & (df_titanic['irmaos_conjuges'] == 0)  & (df_titanic['embarque'] == 'S')]
print('Passageiros com dados (Classe, Sexo, Idade, Embarque) semelhantes ao faltante: {}'.format(len(tarifas)))

Passageiros com dados (Classe, Sexo, Idade, Embarque) semelhantes ao faltante: 9


In [548]:
df_titanic['tarifa'] = df_titanic['tarifa'].fillna(tarifas['tarifa'].mean())

In [549]:
df_titanic.loc[df_titanic['id_passageiro'] == 1225]

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1224,1225,3,0,male,21,0,0,8.05,S


#### 2.3.3.3 Portos de Embarque Ausentes

In [550]:
#Excluindo embarques com NaN
df_titanic = df_titanic[df_titanic['embarque'].notna()]

#### Dados Ausentes

In [551]:
print('dados nulos: {}'.format(df_titanic.isnull().sum().sum()))
print(df_titanic.isnull().sum())

dados nulos: 0
id_passageiro      0
classe             0
sobreviveu         0
sexo               0
idade              0
irmaos_conjuges    0
pais_filhos        0
tarifa             0
embarque           0
dtype: int64


## 2.4 Mapeamento de Dados

In [552]:
def modificado(coluna,origem):
    modificado = []
    if coluna == 'Classe':
        for coluna in origem:
            if coluna == 1:
                modificado.append('Alta')
            elif coluna == 2:
                modificado.append('Média')
            else:
                modificado.append('Baixa')
        return modificado
    elif coluna == 'Sexo':
        for coluna in origem:
            if coluna == 'male':
                modificado.append('Homem')
            else :
                modificado.append('Mulher')
        return modificado
    else:
        for coluna in origem:
            if coluna == 'C':
                modificado.append('Cherbourg')
            elif coluna == 'Q':
                modificado.append('Queenstown')
            else:
                modificado.append('Southampton')
        return modificado

df_titanic['classe'] = modificado('Classe',df_titanic['classe'])
df_titanic['sexo'] = modificado('Sexo',df_titanic['sexo'])
df_titanic['embarque'] = modificado('Embarque',df_titanic['embarque'])

In [553]:
df_titanic.sample(10)

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
481,482,Média,1,Mulher,22,1,2,41.5792,Cherbourg
112,113,Alta,1,Mulher,28,3,2,263.0,Southampton
207,208,Alta,1,Mulher,33,1,0,90.0,Queenstown
1289,1290,Baixa,0,Homem,21,1,0,6.4958,Southampton
777,778,Baixa,1,Homem,19,0,0,8.05,Southampton
1110,1111,Baixa,0,Homem,32,0,0,7.8958,Southampton
1247,1248,Baixa,1,Mulher,29,1,0,16.1,Southampton
1005,1006,Baixa,0,Homem,29,0,0,15.5,Queenstown
630,631,Baixa,1,Homem,27,0,0,7.7958,Southampton
1251,1252,Baixa,0,Homem,31,0,0,8.05,Southampton


## 2.5. Feature Engineering

### 2.5.1 Total de Parentes

In [554]:
df_titanic['total_parentes'] = df_titanic['irmaos_conjuges'] + df_titanic['pais_filhos']

In [555]:
df_titanic['total_parentes'].head()

0    0
1    3
2    3
3    3
4    3
Name: total_parentes, dtype: int64

### 2.5.2 Faixas Etárias

In [556]:
def faixa(df):
    idade = []
    for dados in df: 
        if dados <= 12:
            idade.append('Criança')
        elif (dados > 12) & (dados < 18):
            idade.append('Adolecente')
        elif (dados >= 18) & (dados < 60):
            idade.append('Adulto')
        else:
            idade.append('Idoso')
    return idade
faixa = faixa(df_titanic['idade'])
df_titanic['faixa_etaria'] = faixa

In [557]:
df_titanic.sample(20)

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque,total_parentes,faixa_etaria
150,151,Alta,0,Homem,40,0,0,0.0,Southampton,0,Adulto
682,683,Baixa,0,Mulher,29,0,2,7.75,Queenstown,2,Adulto
310,311,Alta,0,Homem,57,1,1,164.8667,Southampton,2,Adulto
301,302,Alta,0,Homem,47,0,0,34.0208,Southampton,0,Adulto
337,338,Média,1,Mulher,19,1,0,26.0,Southampton,1,Adulto
58,59,Alta,0,Homem,49,0,0,26.0,Southampton,0,Adulto
1232,1233,Baixa,1,Homem,16,0,0,8.05,Southampton,0,Adolecente
916,917,Baixa,1,Mulher,4,0,1,13.4167,Cherbourg,1,Criança
421,422,Média,0,Homem,24,0,0,13.5,Southampton,0,Adulto
1227,1228,Baixa,0,Mulher,22,0,0,9.8375,Southampton,0,Adulto


# 3. Análise dos Dados

### funções

In [571]:
def pcm(grupamento,total):
    a = str(round(grupamento*100/total,2))
    a = a+'%'
    return a
def consulta(orientacao):
    grupamento = []
    grupamento.append(df_titanic[orientacao].loc[df_titanic['sobreviveu'] == 1].value_counts())
    grupamento[0].rename('sobreviventes',axis=1, inplace= True)
    grupamento.append(df_titanic[orientacao].value_counts())
    grupamento[1].rename('Total_Pessoas',axis=1, inplace= True)
    return grupamento
def printt(todos,sobreviventes,s1):
    h_m = pd.concat([todos,sobreviventes,s1],axis=1).sort_values(by='Percentual')
    return h_m

## 3.1. Qual é o número de Sobreviventes?

In [572]:
tabela_sobrevivente = pd.merge(left= df_titanic['sobreviveu'].value_counts(),right= df_titanic['sobreviveu'].value_counts(normalize=True),left_index=True,right_index=True)
tabela_sobrevivente = tabela_sobrevivente.append(tabela_sobrevivente.sum(),ignore_index=True)
tabela_sobrevivente.rename(columns={'sobreviveu_x': 'Pessoas','sobreviveu_y': 'Percentual'},index={0:'Falecidos',1:'Sobreviventes',2:'Total'}, inplace=True)
tabela_sobrevivente.style.format({'Pessoas': '{:,.0f}','Percentual': '{:.2%}'})

Unnamed: 0,Pessoas,Percentual
Falecidos,809,61.90%
Sobreviventes,498,38.10%
Total,1307,100.00%


## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

In [573]:
grupamento = consulta('sexo')
sobreviventes,todos = grupamento[0].sort_values(),grupamento[1]
s1 = pd.Series([pcm(sobreviventes[0],todos[0]),pcm(sobreviventes[1],todos[1])], index=['Homem', 'Mulher'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Homem,843,161,19.1%
Mulher,464,337,72.63%


## 3.3. Qual classe social teve mais sobreviventes?

In [574]:
grupamento = consulta('classe')
sobreviventes,todos= grupamento[0],grupamento[1]
s1 = pd.Series([pcm(sobreviventes[1],todos[0]),pcm(sobreviventes[2],todos[2]),pcm(sobreviventes[0],todos[1])], index=['Baixa', 'Média','Alta'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Baixa,709,181,25.53%
Média,277,119,42.96%
Alta,321,198,61.68%


## 3.4. Qual faixa etária teve mais chances de sobreviver?

In [575]:
grupamento=consulta('faixa_etaria') 
sobreviventes,todos= grupamento[0],grupamento[1]
s1 = pd.Series([pcm(sobreviventes[0],todos[0]),pcm(sobreviventes[1],todos[1]),pcm(sobreviventes[2],todos[2]),pcm(sobreviventes[3],todos[3])], index=['Adulto', 'Criança','Adolecente','Idoso'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Idoso,39,11,28.21%
Adulto,1114,406,36.45%
Adolecente,60,27,45.0%
Criança,94,54,57.45%


# REFERÊNCIAS



*   [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
*   [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
*   [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
*   Hind, Philip.  \"Encyclopedia Titanica.\"  Online.  Internet. n.p.  02 Aug 1999.

