# Análise exploratória de dados

In [5]:
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, Markdown, HTML
from matplotlib.colors import LinearSegmentedColormap

# 1. Descrição dos dados

O naufrágio do Titanic é um dos naufrágios mais infames da história.

Em 15 de abril de 1912, durante sua viagem inaugural, o amplamente considerado "inafundável" RMS Titanic afundou após colidir com um iceberg. Infelizmente, não havia botes salva-vidas suficientes para todos a bordo, resultando na morte de 1502 dos 2224 passageiros e tripulantes.

Embora houvesse algum elemento de sorte envolvido na sobrevivência, parece que alguns grupos de pessoas tinham mais probabilidade de sobreviver do que outros.

# 1.1 - Descrição dos grupos de sobreviventes

Segue o glossário com as especificações dos grupos que poderiam ou não sobreviver.

- **Sobreviventes:**  
    0 = Não  
    1 = Sim

- **Classe Social:**  
    O status socioeconômico de cada pessoa:
    - **1ª classe** = Alta
    - **2ª classe** = Média
    - **3ª classe** = Baixa

- **Sexo:**  
    Gênero, sendo homem ou mulher.

- **Idade:**  
    Desde bebês de colo até idosos estavam a bordo do navio.

- **Relação familiar:**  
    Quantidade de parentes que estavam acompanhados, como mãe/pai, marido/esposa, filhos(as)/irmãos(as). Até mesmo crianças de colo com suas babás. **Obs:** Amantes e noivos foram ignorados.

- **Convés e tarifa:**  
    Com diversos andares, a depender da acomodação do andar, podendo facilitar ou não a evasão do navio:
    - **Convés A (Boat Deck):** O convés superior, onde ficavam os botes salva-vidas. Também abrigava a ponte de comando e as cabines de luxo dos passageiros de primeira classe.
    - **Convés B:** Continha mais cabines de primeira classe e também algumas áreas de serviço. Era o convés onde estavam localizados os salões e algumas áreas de recreação.
    - **Convés C:** Acomodava mais cabines de primeira classe e, em algumas áreas, salas de jantar e de estar.
    - **Convés D:** Era onde ficava a maior parte das cabines de primeira classe, e também o Restaurante de Primeira Classe. Tinha também áreas comuns e de serviço.
    - **Convés E:** Acomodações para passageiros de segunda classe, além de áreas de serviço.
    - **Convés F:** Principalmente cabines de segunda classe, com uma pequena quantidade de cabines de terceira classe.
    - **Convés G:** Acomodações para passageiros de terceira classe. Também tinha áreas de serviço para a tripulação.
    - **Convés H:** Era usado para áreas de serviço e instalações da tripulação. Não havia cabines de passageiros neste convés.
    - **Convés I (Orlop Deck):** O convés inferior, onde ficavam as áreas de máquinas, armazenamento e outras instalações de serviço. Este convés estava abaixo da linha da água e, em caso de afundamento, seria uma das primeiras áreas a ser inundada.

- **Cidade e porto de embarcação:**  
    Local onde os passageiros embarcaram no navio, por ordem da rota do navio:
    - **S:** Southampton
    - **C:** Cherbourg
    - **Q:** Queenstown


## 1.2 - Descrição do dicionários de dados

In [14]:
#Dicionario do titanic
dicionario_titanic = pd.read_csv("../data/external/dicionario.csv")
display(dicionario_titanic)

Unnamed: 0.1,Unnamed: 0,variavel,descrição,tipo,subtipo
0,0,survived,Sobreviventes da tragédia,quantitativo,discreto
1,1,pclass,Status socioeconomico,qualitativo,ordinal
2,2,sex,Gênero das pessoas,qualitativo,Nominal
3,3,age,Idade das pessoas,quantitativa,continua
4,4,sibsp,Relação familiar de irmãos e cônjuge,qualitativas,nominal
5,5,parch,Relação familiar de pais e filhos,qualitativas,nominal
6,6,fare,Tarifa do passageiro,quantitativo,continua
7,7,embarked,Porto de embarcação,quantitativa,continua
8,8,class,Número da classe social,quantitativa,discreto
9,9,who,"Homem, Mulher ou Criança",qualitativa,nominal


## 1.3 - Tratamento do cojunto de dados

### 1.3.1 - Tradução e substituição de valores

In [57]:

df = pd.read_csv('../data/raw/titanic.csv') #leitura dos dados
#Tradução do EN -> PT
#survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
df.rename(columns = {
        'survived': 'Sobreviventes',
        'pclass': 'Status socioeconômico',
        'sex': 'Gênero das pessoas',
        'age': 'Idade das pessoas',
        'sibsp': 'Relação familiar de irmãos e cônjuge',
        'parch': 'Relação familiar de pais e filhos',
        'fare': 'Tarifa do passageiro',
        'embarked': 'Porto de embarcação',
        'class': 'Número da classe social',
        'who': 'Homem, Mulher ou Criança',
        'adult_male': 'Homem adulto',
        'deck': 'Convés',
        'embark_town': 'Cidade de embarcação',
        'alive': 'Pessoas vivas',
        'alone': 'Pessoas sozinhas'
}, inplace=True)

#substituição dos valores pela descrição com replace
df.replace ({'sobreviventes':{
        0: 'morto',
        1: 'vivo'
}}, inplace=True)

df.replace ({'Gênero das pessoas':{
        'male':'Masculino',
        'female':'Feminino'
}}, inplace=True)

df.replace ({'Porto de embarcação':{
        'S': 'Southampton',
        'C': 'Cherbourg',
        'Q': 'Queenstown'
}}, inplace=True)

df.replace ({'Número da classe social':{
        'First': 'Primeira Classe',
        'Second': 'Segunda Classe',
        'Third': 'Terceira Classe'
}}, inplace=True)

df.replace({'Homem, Mulher ou Criança':{
        'man':'Homen',
        'woman':'Mulher',
        'child':'Criança'
}}, inplace=True)

df.replace({'Homem adulto':{
        True : 'Sim',
        False : 'Não'
}}, inplace=True)
df.replace({'Convés':{
        'A': "Convés Primeira Classe com botes salva vidas",
        'B': "Convés Primeira Classe e áreas de serviço",
        'C': "Convés Primeira Classe e áreas de refeição",
        'D': "Convés Primeira Classe e Restaurante de Primeira Classe",
        'E': "Convés Segunda Classe e áreas de serviço",
        'F': "Convés Segunda Classe e parte da Terceira Classe",
        'G': "Convés Terceira Classe e áreas de serviço para tripulação",
        'H': "Convés da tripulação e áreas de serviço",
        'I': "Convés inferior (Máquinas, Armazenamento e serviços)"
}}, inplace=True)
df.replace ({'Pessoas vivas':{
        'no': 'Não',
        'yes': 'Sim'
}}, inplace=True)
df.replace({'Pessoas sozinhas':{
        True :'Sim',
        False: 'Não'
}}, inplace=True)

display(df)

Unnamed: 0.1,Unnamed: 0,Sobreviventes,Status socioeconômico,Gênero das pessoas,Idade das pessoas,Relação familiar de irmãos e cônjuge,Relação familiar de pais e filhos,Tarifa do passageiro,Porto de embarcação,Número da classe social,"Homem, Mulher ou Criança",Homem adulto,Convés,Cidade de embarcação,Pessoas vivas,Pessoas sozinhas
0,0,0,3,Masculino,22.0,1,0,7.2500,Southampton,Terceira Classe,Homen,Sim,,Southampton,Não,Não
1,1,1,1,Feminino,38.0,1,0,71.2833,Cherbourg,Primeira Classe,Mulher,Não,Convés Primeira Classe e áreas de refeição,Cherbourg,Sim,Não
2,2,1,3,Feminino,26.0,0,0,7.9250,Southampton,Terceira Classe,Mulher,Não,,Southampton,Sim,Sim
3,3,1,1,Feminino,35.0,1,0,53.1000,Southampton,Primeira Classe,Mulher,Não,Convés Primeira Classe e áreas de refeição,Southampton,Sim,Não
4,4,0,3,Masculino,35.0,0,0,8.0500,Southampton,Terceira Classe,Homen,Sim,,Southampton,Não,Sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,886,0,2,Masculino,27.0,0,0,13.0000,Southampton,Segunda Classe,Homen,Sim,,Southampton,Não,Sim
887,887,1,1,Feminino,19.0,0,0,30.0000,Southampton,Primeira Classe,Mulher,Não,Convés Primeira Classe e áreas de serviço,Southampton,Sim,Sim
888,888,0,3,Feminino,,1,2,23.4500,Southampton,Terceira Classe,Mulher,Não,,Southampton,Não,Não
889,889,1,1,Masculino,26.0,0,0,30.0000,Cherbourg,Primeira Classe,Homen,Sim,Convés Primeira Classe e áreas de refeição,Cherbourg,Sim,Sim


### 1.3.2 - Limpeza nas linhas duplicas, zeradas e sem informações

In [46]:
#colunas zeradas, NaN
# Verificar se há valores ausentes em cada célula
valores_faltantes = df.isnull() #função apenas para sabe se existia
#funções de verificação de linhas/colunas ausentes:
#df.isnull().any(axis=1) e #df.isnull().any() 

#valores ausentes na coluna
contg_coluna = df.isnull().sum()
print(contg_coluna)

# Contar o total de valores ausentes em todo o DataFrame
total = df.isnull().sum().sum()
print(f"\nTotal de valores ausentes: {total}")
print("\nNa coluna 'deck' os dados ausentes representa 77% dos dados, excluir esses dados não é viável,\nlogo não será feito uso para perguntas e hipóteses!")

duplicados = df.duplicated()
qntd_duplicados = df.duplicated().sum()
print(f"\nAs linhas duplicadas são:\n{duplicados}\nsomando ao todo {qntd_duplicados} linhas duplicadas")
# Remover duplicatas, função:
#df.drop_duplicates()
#como não há linhas, sem necessidade de uso.


Unnamed: 0       0
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

Total de valores ausentes: 869

Na coluna 'deck' os dados ausentes representa 77% dos dados, excluir esses dados não é viável,
logo não será feito uso para perguntas e hipóteses!

As linhas duplicadas são:
0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool
somando ao todo 0 linhas duplicadas


### 1.3.3 - Tipos de dados, instancias e variaveis

In [None]:
#tipos de daods: int, float, str, bool...

tipos = df.dtypes.value_counts()
print("Tipos de dados de cada coluna:\n")
print(df.dtypes)

print("\nDescrição dos tipos de dados:")
for tipo, count in tipos.items():
    print(f"- {count} variáveis do tipo '{tipo}'")

# quantidade de linhas
num_instancias = df.shape[0]
# quantidade de colunas
num_variaveis = df.shape[1]
print(f"\nO conjunto de dados possui {num_instancias} instâncias e {num_variaveis} variáveis")

#resumo estatistico


Tipos de dados de cada coluna:

Unnamed: 0                                int64
Sobreviventes                             int64
Status socioeconômico                     int64
Gênero das pessoas                       object
Idade das pessoas                       float64
Relação familiar de irmãos e cônjuge      int64
Relação familiar de pais e filhos         int64
Tarifa do passageiro                    float64
Porto de embarcação                      object
Número da classe social                  object
Homem, Mulher ou Criança                 object
Homem adulto                             object
Convés                                   object
Cidade de embarcação                     object
Pessoas vivas                            object
Pessoas sozinhas                         object
dtype: object

Descrição dos tipos de dados:
- 9 variáveis do tipo 'object'
- 5 variáveis do tipo 'int64'
- 2 variáveis do tipo 'float64'

O conjunto de dados possui 891 instâncias e 16 variáveis


## 1.4 - Resumos estatísticos de alguns dados
Resumos, variância, desvio padrão, média, moda e mediana de dados para uso dos insights e gráficos

In [None]:
#codigo de resumo estatistico dos dados:
#1ª, 2ª e 3ª classe
#homens, mulheres e crianças
#pessoas sozinhas e acompanhadas (sibsp / parch)

## 2. Perguntas de partida e hipóteses

## 2.1 - Passageiros de 1ª classe tiveram mais chances de sobreviver do que os de média e baixa classe?

**Hipóteses:**

## 2.2 - Mulheres e Crianças tiverem mais chanves de sobreviver do que Homens?

**Hipóteses:**

## 2.3 - Quem tinham mais probabilidade de sobreviver os passageiros acompanhados ou os sozinhos?

**Hipóteses:**

## 3. Insights