# Análise de Dados Exploratória do Titanic

# 1. Introdução
O RMS Titanic foi um navio de passageiros britânico operado pela empresa White Star Line que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o dataset descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## 1.1 Objetivos
O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados titanic3, adaptado pelo autor e disponível em [data/titanic3.csv](https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/data/titanic3.csv) ; a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

1.   Qual é o número de Sobreviventes?
2.   Homens ou mulheres tiveram mais chances de sobreviver?
3.   Qual classe social teve mais sobreviventes?
4.   Qual faixa etária teve mais chances de sobreviver?


# 2. Metodologia
Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no dataset que possui os seguintes dados:

## 2.1. Configuração do Ambiente

In [1]:
import pandas as pd

## 2.2. Leitura dos Dados

In [2]:
url = 'https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/data/titanic3.csv'
dados_brutos = pd.read_html(url)

In [3]:
#Passando para dataframe e excluindo coluna Unnamed
dados_brutos = dados_brutos[0]
dados_brutos.pop("Unnamed: 0")

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
        ..
1304   NaN
1305   NaN
1306   NaN
1307   NaN
1308   NaN
Name: Unnamed: 0, Length: 1309, dtype: float64

## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [4]:
dados_brutos.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_passageiro,1309.0,655.0,378.020061,1.0,328.0,655.0,982.0,1309.0
classe,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
sobreviveu,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
idade,1046.0,29.897706,14.414973,0.0,21.0,28.0,39.0,80.0
irmaos_conjuges,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
pais_filhos,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
tarifa,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292
corpo,121.0,160.809917,97.696922,1.0,72.0,155.0,256.0,328.0


In [5]:
dados_brutos.dtypes

id_passageiro        int64
classe               int64
sobreviveu           int64
nome                object
sexo                object
idade              float64
irmaos_conjuges      int64
pais_filhos          int64
bilhete             object
tarifa             float64
cabine              object
embarque            object
bote                object
corpo              float64
destino             object
dtype: object

In [6]:
dados_brutos.isnull().sum()

id_passageiro         0
classe                0
sobreviveu            0
nome                  0
sexo                  0
idade               263
irmaos_conjuges       0
pais_filhos           0
bilhete               0
tarifa                1
cabine             1014
embarque              2
bote                823
corpo              1188
destino             564
dtype: int64

### 2.3.2 Remoção de Colunas

In [7]:
#Excluindo colunas NOME, BILHETE, CABINE, DESTINO, BOTE, CORPO
df_titanic = dados_brutos.drop(["nome","bilhete","cabine","destino","bote","corpo"], axis=1)

### 2.3.3. Dados Ausentes

In [8]:
print('dados nulos: {}'.format(df_titanic.isnull().sum().sum()))
print(df_titanic.isnull().sum())

dados nulos: 266
id_passageiro        0
classe               0
sobreviveu           0
sexo                 0
idade              263
irmaos_conjuges      0
pais_filhos          0
tarifa               1
embarque             2
dtype: int64


#### 2.3.3.1 Idades Ausentes

In [9]:
print('Idade NaN(Entrada): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic[['idade']]  = df_titanic['idade'].fillna(df_titanic['idade'].mean())
print('Idade NaN(Saida): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic['idade'] = df_titanic['idade'].astype(int)

Idade NaN(Entrada): 263
Idade NaN(Saida): 0


In [10]:
df_titanic['idade'].unique()

array([29,  1,  2, 30, 25, 48, 63, 39, 53, 71, 47, 18, 24, 26, 80, 50, 32,
       36, 37, 42, 19, 35, 28, 45, 40, 58, 22, 41, 44, 59, 60, 33, 17, 11,
       14, 49, 76, 46, 27, 64, 55, 70, 38, 51, 31,  4, 54, 23, 43, 52, 16,
       21, 15, 65, 56, 13, 61, 34,  6, 57, 62, 67, 12, 20,  8,  7,  3,  5,
       66,  9,  0, 10, 74])

#### 2.3.3.2 Tarifas Ausentes

In [11]:
print('Falta Tarifa')
df_titanic[df_titanic['tarifa'].isnull()]

Falta Tarifa


Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1225,1226,3,0,male,61,0,0,,S


In [12]:
tarifas = df_titanic[(df_titanic['classe'] == 3)  & (df_titanic['sexo'] == 'male') & (df_titanic['idade'] >= 50) & (df_titanic['irmaos_conjuges'] == 0)  & (df_titanic['embarque'] == 'S')]
print('Passageiros com dados (Classe, Sexo, Idade, Embarque) semelhantes ao faltante: {}'.format(len(tarifas)))

Passageiros com dados (Classe, Sexo, Idade, Embarque) semelhantes ao faltante: 9


In [13]:
df_titanic['tarifa'] = df_titanic['tarifa'].fillna(tarifas['tarifa'].mean())

In [14]:
df_titanic.loc[df_titanic['id_passageiro'] == 1225]

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1224,1225,3,0,male,21,0,0,8.05,S


#### 2.3.3.3 Portos de Embarque Ausentes

In [15]:
#Excluindo embarques com NaN
df_titanic = df_titanic[df_titanic['embarque'].notna()]

#### Dados Ausentes

In [16]:
print('dados nulos: {}'.format(df_titanic.isnull().sum().sum()))
print(df_titanic.isnull().sum())

dados nulos: 0
id_passageiro      0
classe             0
sobreviveu         0
sexo               0
idade              0
irmaos_conjuges    0
pais_filhos        0
tarifa             0
embarque           0
dtype: int64


## 2.4 Mapeamento de Dados

In [17]:
def modificado(coluna,origem):
    modificado = []
    if coluna == 'Classe':
        for coluna in origem:
            if coluna == 1:
                modificado.append('Alta')
            elif coluna == 2:
                modificado.append('Média')
            else:
                modificado.append('Baixa')
        return modificado
    elif coluna == 'Sexo':
        for coluna in origem:
            if coluna == 'male':
                modificado.append('M')
            else :
                modificado.append('F')
        return modificado
    else:
        for coluna in origem:
            if coluna == 'C':
                modificado.append('Cherbourg')
            elif coluna == 'Q':
                modificado.append('Queenstown')
            else:
                modificado.append('Southampton')
        return modificado

df_titanic['classe'] = modificado('Classe',df_titanic['classe'])
df_titanic['sexo'] = modificado('Sexo',df_titanic['sexo'])
df_titanic['embarque'] = modificado('Embarque',df_titanic['embarque'])

In [18]:
df_titanic.sample(10)

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1282,1283,Baixa,0,M,29,0,0,8.05,Southampton
227,228,Alta,1,F,22,1,0,66.6,Southampton
1058,1059,Baixa,0,F,29,0,0,7.925,Southampton
923,924,Baixa,1,F,29,0,0,7.75,Queenstown
1107,1108,Baixa,0,M,21,0,0,8.6625,Southampton
334,335,Média,0,M,28,0,0,10.5,Southampton
450,451,Média,0,M,50,0,0,13.0,Southampton
135,136,Alta,0,M,71,0,0,34.6542,Cherbourg
540,541,Média,1,F,2,1,1,26.0,Southampton
546,547,Média,1,F,28,0,0,13.0,Southampton


## 2.5. Feature Engineering

### 2.5.1 Total de Parentes

In [19]:
df_titanic['total_parentes'] = df_titanic['irmaos_conjuges'] + df_titanic['pais_filhos']

In [20]:
df_titanic['total_parentes'].head()

0    0
1    3
2    3
3    3
4    3
Name: total_parentes, dtype: int64

### 2.5.2 Faixas Etárias

In [21]:
def faixa(df):
    idade = []
    for dados in df: 
        if dados <= 12:
            idade.append('Criança')
        elif (dados > 12) & (dados < 18):
            idade.append('Adolecente')
        elif (dados >= 18) & (dados < 60):
            idade.append('Adulto')
        else:
            idade.append('Idoso')
    return idade
faixa = faixa(df_titanic['idade'])
df_titanic['faixa_etaria'] = faixa

In [22]:
df_titanic.sample(20)

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque,total_parentes,faixa_etaria
437,438,Média,1,F,24,1,2,65.0,Southampton,3,Adulto
266,267,Alta,0,M,56,0,0,26.55,Southampton,0,Adulto
907,908,Baixa,0,F,20,1,0,9.825,Southampton,1,Adulto
843,844,Baixa,0,M,29,1,0,19.9667,Southampton,1,Adulto
1166,1167,Baixa,0,M,29,0,0,7.225,Cherbourg,0,Adulto
309,310,Alta,1,F,31,0,2,164.8667,Southampton,2,Adulto
639,640,Baixa,0,M,5,4,2,31.3875,Southampton,6,Criança
1214,1215,Baixa,0,M,29,0,0,8.6625,Southampton,0,Adulto
1005,1006,Baixa,0,M,29,0,0,15.5,Queenstown,0,Adulto
752,753,Baixa,0,M,24,2,0,24.15,Southampton,2,Adulto


# 3. Análise dos Dados

## 3.1. Qual é o número de Sobreviventes?

In [23]:
df_sobrevivente = df_titanic.loc[(df_titanic['sobreviveu'] == 1 )]
soma_sobrevivente = df_sobrevivente['sobreviveu'].sum()
total_pessoas = df_titanic.shape[0]

In [24]:
porcentagem = int(soma_sobrevivente*100/total_pessoas)
print(f'Total de sobreviventes: {soma_sobrevivente} ({porcentagem}%)')

Total de sobreviventes: 498 (38%)


## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

In [25]:
df_sexo = df_sobrevivente['sexo'].value_counts()
porcentagem = df_sexo*100/soma_sobrevivente

In [26]:
print('Total Sobreviventes: {} (100%)'.format(soma_sobrevivente))
print('Sobreviventes Femininos: {} ({}%)'.format(df_sexo[0], round(porcentagem[0],2)))
print('Sobreviventes Masculinos: {} ({}%)'.format(df_sexo[1], round(porcentagem[1],2)))
print()
print('Smith havia ordenado que seus oficiais colocassem as "mulheres e crianças dentro e baixassem".')
print('Entretanto, Murdoch e Lightoller interpretaram as ordens de evacuação de maneiras diferentes;') 
print('Murdoch as interpretou como mulheres e crianças primeiro, enquanto Lightoller as interpretou como apenas mulheres e crianças.')
print('Fonte: {https://pt.wikipedia.org/wiki/Botes_salva-vidas_do_RMS_Titanic}')

Total Sobreviventes: 498 (100%)
Sobreviventes Femininos: 337 (67.67%)
Sobreviventes Masculinos: 161 (32.33%)

Smith havia ordenado que seus oficiais colocassem as "mulheres e crianças dentro e baixassem".
Entretanto, Murdoch e Lightoller interpretaram as ordens de evacuação de maneiras diferentes;
Murdoch as interpretou como mulheres e crianças primeiro, enquanto Lightoller as interpretou como apenas mulheres e crianças.
Fonte: {https://pt.wikipedia.org/wiki/Botes_salva-vidas_do_RMS_Titanic}


## 3.3. Qual classe social teve mais sobreviventes?

In [27]:
df_classe = df_sobrevivente['classe'].value_counts() 
porcentagem = df_classe*100/soma_sobrevivente

In [28]:
print('Total Sobreviventes: {} (100%)'.format(soma_sobrevivente))
print('Sobreviventes classe Alta: {} ({}%)'.format(df_classe[0], round(porcentagem[0],2)))
print('Sobreviventes classe Baixa: {} ({}%)'.format(df_classe[1], round(porcentagem[1],2)))
print('Sobreviventes classe média: {} ({}%)'.format(df_classe[2], round(porcentagem[2],2)))

Total Sobreviventes: 498 (100%)
Sobreviventes classe Alta: 198 (39.76%)
Sobreviventes classe Baixa: 181 (36.35%)
Sobreviventes classe média: 119 (23.9%)


## 3.4. Qual faixa etária teve mais chances de sobreviver?

In [68]:
sobreviventes = df_sobrevivente['faixa_etaria'].value_counts()
total_passageiros = df_titanic['faixa_etaria'].value_counts()
columns= ['total_passageiros','sobreviventes','%_sobrevivente']
idades = df_titanic['faixa_etaria'].unique()
porcentagem = sobreviventes*100/total_passageiros
df = pd.DataFrame(list(zip(total_passageiros,sobreviventes,porcentagem)),index=idades, columns=columns )

In [73]:
print('Total de passageiros X chance de sobrevivência por faixa etária')
df

Total de passageiros X chance de sobrevivência por faixa etária


Unnamed: 0,total_passageiros,sobreviventes,%_sobrevivente
Adulto,1114,406,36.445242
Criança,94,54,57.446809
Idoso,60,27,45.0
Adolecente,39,11,28.205128


In [74]:
print('As crianças tiveram mais chances de sobreviver')

As crianças tiveram mais chances de sobreviver
