# Análise de Dados Exploratória do Titanic

# 1. Introdução
O RMS Titanic foi um navio de passageiros britânico operado pela empresa White Star Line que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o dataset descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## 1.1 Objetivos
O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados titanic3, adaptado pelo autor e disponível em [data/titanic3.csv](https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/data/titanic3.csv) ; a fim de caracterizar o perfil dos sobreviventes do fatídico naufrágio. Especificiamente serão respondidas as seguintes questões de pesquisa:

1. [Qual é o número de Sobreviventes?](#3.-Análise-dos-Dados)
2. [Homens ou mulheres tiveram mais chances de sobreviver?](#3.1.-Qual-é-o-número-de-Sobreviventes?)
3. [Qual classe social teve mais sobreviventes?](#3.2.-Homens-ou-mulheres-tiveram-mais-chances-de-sobreviver?)
4. [Qual faixa etária teve mais chances de sobreviver?](#3.3.-Qual-classe-social-teve-mais-sobreviventes?)

# 2. Metodologia
Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no dataset que possui os seguintes dados:

| Coluna | Descrição |   
|---------|--------|
| id_passageiro   | Identficador único do passageiro. |
|     classe    |     Classe social.   |
|      sobreviveu   |     Sobrevivente? Sim (1), Não (0).
|nome|Masculino (male), Feminino (female).|
|sexo|Masculino (male), Feminino (female).|
|idade|Idade do passageiro.|
|irmaos_conjuges|Número de irmãos e cônjuges a bordo.|
|pais_filhos|Número de pais e filhos a bordo.|
|bilhete|Número do bilhete|
|tarifa|Preço da tarifa do passageiro.|
|cabine|Cabine.|
|embarque|Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton|
|bote|Bote salva vidas.|
|corpo|Número de identificação do corpo.|
|destino|Local de desembarque do passageiro.|

# OBSERVAÇÕES

<ul>
<li><code>classe</code> é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;</li>
<li><code>idade</code> está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;</li>
<li><code>tarifa</code> está em Libras esterlinas (British Pounds - £) anteriores a 1970;</li>
<li><code>irmaos_conjuges</code> e <code>pais_filhos</code>: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:</li>
<ul>
<li><b>Irmão</b>: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;</li>
<li><b>Cônjuge</b>: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);</li>
<li><b>Pai</b>: Mãe ou pai do passageiro a bordo do Titanic;</li>
<li><b>Criança</b>: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;</li>
<li>Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;</li>
<li>Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos;</li>
<li>Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.</li>
<ul>
</ul>

## 2.1. Configuração do Ambiente

In [8]:
import pandas as pd

## 2.2. Leitura dos Dados

In [9]:
dados_brutos = pd.read_csv("data/titanic3.csv")

## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [10]:
dados_brutos.head(5)

Unnamed: 0,id_passageiro,classe,sobreviveu,nome,sexo,idade,irmaos_conjuges,pais_filhos,bilhete,tarifa,cabine,embarque,bote,corpo,destino
0,1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,2,1,1,"Allison, Master. Hudson Trevor",male,1.0,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


### 2.3.2. Total de Linhas

In [11]:
dados_brutos.shape[0]

1309

### 2.3.3. Total de Dados Validos

In [12]:
a = pd.DataFrame(dados_brutos.describe().iloc[0])
a.rename(columns={'count':'total_dados_linha'})

Unnamed: 0,total_dados_linha
id_passageiro,1309.0
classe,1309.0
sobreviveu,1309.0
idade,1046.0
irmaos_conjuges,1309.0
pais_filhos,1309.0
tarifa,1308.0
corpo,121.0


### 2.3.4. Tipos de Cada Coluna

In [13]:
pd.DataFrame(dados_brutos.dtypes,columns=['Tipos'])

Unnamed: 0,Tipos
id_passageiro,int64
classe,int64
sobreviveu,int64
nome,object
sexo,object
idade,float64
irmaos_conjuges,int64
pais_filhos,int64
bilhete,object
tarifa,float64


### 2.3.5. Total de Dados Ausentes

In [14]:
a = dados_brutos.isnull().sum()
b = pd.Series({'TOTAL:':dados_brutos.isnull().sum().sum()})
pd.DataFrame(a.append(b),columns=['Valores_nulos']).style.highlight_max()

Unnamed: 0,Valores_nulos
id_passageiro,0
classe,0
sobreviveu,0
nome,0
sexo,0
idade,263
irmaos_conjuges,0
pais_filhos,0
bilhete,0
tarifa,1


### 2.3.6 Remoção de Colunas

###### Excluindo colunas NOME, BILHETE, CABINE, DESTINO, BOTE, CORPO

In [15]:
df_titanic = dados_brutos.drop(["nome","bilhete","cabine","destino","bote","corpo"], axis=1)

#### 2.3.3.1 Idades Ausentes
**Para os dados ausentes da coluna `idade` será feita a substituição dos dados vazios pela média das idades na época.**

In [16]:
print('Idade NaN(Entrada): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic[['idade']]  = df_titanic['idade'].fillna(df_titanic['idade'].mean())
print('Idade NaN(Saida): {}'.format(df_titanic['idade'].isnull().sum()))
df_titanic['idade'] = df_titanic['idade'].astype(int)

Idade NaN(Entrada): 263
Idade NaN(Saida): 0


In [17]:
df_titanic['idade'].unique()

array([29,  1,  2, 30, 25, 48, 63, 39, 53, 71, 47, 18, 24, 26, 80, 50, 32,
       36, 37, 42, 19, 35, 28, 45, 40, 58, 22, 41, 44, 59, 60, 33, 17, 11,
       14, 49, 76, 46, 27, 64, 55, 70, 38, 51, 31,  4, 54, 23, 43, 52, 16,
       21, 15, 65, 56, 13, 61, 34,  6, 57, 62, 67, 12, 20,  8,  7,  3,  5,
       66,  9,  0, 10, 74])

#### 2.3.3.2 Tarifas Ausentes
**Para os dados ausentes da coluna** `tarifa` **será feita a substituição dos dados vazios pela média de preço das tarifas na época.**

In [18]:
df_titanic.loc[df_titanic['tarifa'].isnull()]

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1225,1226,3,0,male,61,0,0,,S


In [19]:
#Verficando passageiros com tarifa Nula, tratando com a média entre passageiros com mesmo perfil
tarifas = df_titanic[(df_titanic['classe'] == 3)  & (df_titanic['sexo'] == 'male') & (df_titanic['idade'] >= 50) & (df_titanic['irmaos_conjuges'] == 0)  & (df_titanic['embarque'] == 'S')]
df_titanic['tarifa'] = df_titanic['tarifa'].fillna(tarifas['tarifa'].mean())

In [20]:
df_titanic.loc[df_titanic['id_passageiro'] == 1225]

Unnamed: 0,id_passageiro,classe,sobreviveu,sexo,idade,irmaos_conjuges,pais_filhos,tarifa,embarque
1224,1225,3,0,male,21,0,0,8.05,S


#### 2.3.3.3 Portos de Embarque Ausentes
**Para os dados ausentes da coluna `embarque` será feita a remoção dos dados vazios.**

In [21]:
#Excluindo embarques com NaN
df_titanic = df_titanic[df_titanic['embarque'].notna()]

#### Dados Ausentes

In [22]:
a = df_titanic.isnull().sum()
b = pd.Series({'TOTAL:':df_titanic.isnull().sum().sum()})
pd.DataFrame(a.append(b),columns=['Valores_nulos'])

Unnamed: 0,Valores_nulos
id_passageiro,0
classe,0
sobreviveu,0
sexo,0
idade,0
irmaos_conjuges,0
pais_filhos,0
tarifa,0
embarque,0
TOTAL:,0


### 2.3.7 Convertendo Tipos

## 2.4 Mapeamento de Dados
**Para melhorar a análise e interpretação dos dados os seguintes atributos serão modificados:**

| Coluna | Original | Modificado |   
|---------|--------|--------|
|Classe	|1, 2, 3	|Alta, Média, Baixa|
|Sexo	|male, female|	M, F|
|Embarque	|C, Q, S	|Cherbourg, Queenstown, Southampton|

In [24]:
df_titanic['classe']=df_titanic['classe'].map({1:'Alta',2:'Média',3:'Baixa'})
df_titanic['sexo']=df_titanic['sexo'].map({'male':'M','female':'F'})
df_titanic['embarque']=df_titanic['embarque'].map({'C':'Cherbourg','Q':'Queenstown','S':'Southampton'})

In [25]:
df_titanic.loc[:,['classe','sexo','embarque']].sample(10)

Unnamed: 0,classe,sexo,embarque
630,Baixa,M,Southampton
989,Baixa,M,Southampton
606,Baixa,M,Southampton
59,Alta,F,Cherbourg
1203,Baixa,M,Southampton
1217,Baixa,M,Southampton
47,Alta,M,Southampton
997,Baixa,F,Cherbourg
1250,Baixa,M,Southampton
1128,Baixa,M,Southampton


## 2.5. Feature Engineering

| Coluna | Descrição |   
|---------|--------|
| total_parentes   | Número total de parentes a bordo: `irmaos_conjuges + pais_filhos` |
| faixa_etaria   | Intervalo de idades dos passageiros. |

### 2.5.1 Total de Parentes

In [26]:
df_titanic['total_parentes'] = df_titanic['irmaos_conjuges'] + df_titanic['pais_filhos']

In [63]:
df_titanic.loc[:,['total_parentes']]

Unnamed: 0,total_parentes
0,0
1,3
2,3
3,3
4,3
...,...
1304,1
1305,1
1306,0
1307,0


### 2.5.2 Faixas Etárias

In [45]:
df_titanic['faixa_etaria'] = df_titanic['idade']
df_titanic['faixa_etaria'][df_titanic.idade <= 12] = "Criança"
df_titanic['faixa_etaria'][(df_titanic.idade > 12) & (df.idade < 18)] = "Adolescente"
df_titanic['faixa_etaria'][(df_titanic.idade >= 18) & (df.idade < 60)] = "Adulto"
df_titanic['faixa_etaria'][df_titanic.idade > 18] = "Idoso"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_titanic['faixa_etaria'][df_titanic.idade <= 12] = "Criança"


In [62]:
print(df_titanic.faixa_etaria.drop_duplicates())
df_titanic.loc[:,['faixa_etaria']]

0           Idoso
1         Criança
11         Adulto
53    Adolescente
Name: faixa_etaria, dtype: object


Unnamed: 0,faixa_etaria
0,Idoso
1,Criança
2,Criança
3,Idoso
4,Idoso
...,...
1304,Adolescente
1305,Idoso
1306,Idoso
1307,Idoso


# 3. Análise dos Dados

### funções

In [571]:
def pcm(grupamento,total):
    a = str(round(grupamento*100/total,2))
    a = a+'%'
    return a
def consulta(orientacao):
    grupamento = []
    grupamento.append(df_titanic[orientacao].loc[df_titanic['sobreviveu'] == 1].value_counts())
    grupamento[0].rename('sobreviventes',axis=1, inplace= True)
    grupamento.append(df_titanic[orientacao].value_counts())
    grupamento[1].rename('Total_Pessoas',axis=1, inplace= True)
    return grupamento
def printt(todos,sobreviventes,s1):
    h_m = pd.concat([todos,sobreviventes,s1],axis=1).sort_values(by='Percentual')
    return h_m

## 3.1. Qual é o número de Sobreviventes?

In [572]:
tabela_sobrevivente = pd.merge(left= df_titanic['sobreviveu'].value_counts(),right= df_titanic['sobreviveu'].value_counts(normalize=True),left_index=True,right_index=True)
tabela_sobrevivente = tabela_sobrevivente.append(tabela_sobrevivente.sum(),ignore_index=True)
tabela_sobrevivente.rename(columns={'sobreviveu_x': 'Pessoas','sobreviveu_y': 'Percentual'},index={0:'Falecidos',1:'Sobreviventes',2:'Total'}, inplace=True)
tabela_sobrevivente.style.format({'Pessoas': '{:,.0f}','Percentual': '{:.2%}'})

Unnamed: 0,Pessoas,Percentual
Falecidos,809,61.90%
Sobreviventes,498,38.10%
Total,1307,100.00%


## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

In [573]:
grupamento = consulta('sexo')
sobreviventes,todos = grupamento[0].sort_values(),grupamento[1]
s1 = pd.Series([pcm(sobreviventes[0],todos[0]),pcm(sobreviventes[1],todos[1])], index=['Homem', 'Mulher'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Homem,843,161,19.1%
Mulher,464,337,72.63%


## 3.3. Qual classe social teve mais sobreviventes?

In [574]:
grupamento = consulta('classe')
sobreviventes,todos= grupamento[0],grupamento[1]
s1 = pd.Series([pcm(sobreviventes[1],todos[0]),pcm(sobreviventes[2],todos[2]),pcm(sobreviventes[0],todos[1])], index=['Baixa', 'Média','Alta'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Baixa,709,181,25.53%
Média,277,119,42.96%
Alta,321,198,61.68%


## 3.4. Qual faixa etária teve mais chances de sobreviver?

In [575]:
grupamento=consulta('faixa_etaria') 
sobreviventes,todos= grupamento[0],grupamento[1]
s1 = pd.Series([pcm(sobreviventes[0],todos[0]),pcm(sobreviventes[1],todos[1]),pcm(sobreviventes[2],todos[2]),pcm(sobreviventes[3],todos[3])], index=['Adulto', 'Criança','Adolecente','Idoso'], name='Percentual')
printt(todos,sobreviventes,s1)

Unnamed: 0,Total_Pessoas,sobreviventes,Percentual
Idoso,39,11,28.21%
Adulto,1114,406,36.45%
Adolecente,60,27,45.0%
Criança,94,54,57.45%


# REFERÊNCIAS



*   [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
*   [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
*   [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
*   Hind, Philip.  \"Encyclopedia Titanica.\"  Online.  Internet. n.p.  02 Aug 1999.

