# 🚢 Projeto Titanic - Análise de Sobrevivência

### Desenvolvido com:
[![Python 3.12](https://img.shields.io/badge/Python-3.12-blue.svg)](https://www.python.org/)
[![Jupyter Notebook](https://img.shields.io/badge/Jupyter-Notebook-orange.svg)](https://jupyter.org/)

## 📑 Índice

[1. Introdução](#🎯-Introdução)  
   - [Objetivo do Projeto](#Objetivo-do-Projeto)  
   - [Objetivos Específicos](#Objetivos-Específicos)  
   - [Sobre o Dataset](#Sobre-o-Dataset)  
   - [Variável Target](#Variável-Target)

[2. Configuração Inicial](#⚙️-Configuração-Inicial)  
   - [Importação de Bibliotecas](#Importação-de-Bibliotecas)  
   - [Constantes e Configurações](#Constantes-e-Configurações)  
   - [Funções Auxiliares](#Funções-Auxiliares)

[3. Integração e Análise Inicial dos Dados](#📝-Integração-e-Análise-Inicial-dos-Dados)  
   - [Carregamento dos Dados](#Carregamento-dos-Dados)  
   - [Primeiros Registos](#Primeiros-Registos)  
   - [Tipologia e Variáveis do Dataset](#Tipologia-e-Variáveis-do-Dataset)  
   - [Dimensões do Dataset](#Dimensões-do-Dataset)  
   - [Informações Gerais do Dataset](#Informações-Gerais-do-Dataset)  
   - [Análise de Valores Ausentes](#Análise-de-Valores-Ausentes)  
   - [Análise de Valores Únicos](#Análise-de-Valores-Únicos)  
   - [Estatísticas Descritivas](#Estatísticas-Descritivas)

[4. Limpeza e Transformação de Dados](#🧹-Limpeza-e-Transformação-de-Dados)  
   - [Tratamento de Valores Ausentes](#Tratamento-de-Valores-Ausentes)  
   - [Codificação de Variáveis Categóricas](#Codificação-de-Variáveis-Categóricas)  
   - [Criação de Novas Variáveis Derivadas](#Criação-de-Novas-Variáveis-Derivadas)

[5. Análise Exploratória e Visualizações](#📊-Análise-Exploratória-e-Visualizações)  
   - [Distribuições](#Distribuições)  
      - [Idade (Age)](#Idade-(Age))  
      - [Tarifas (Fare)](#Tarifas-(Fare))  
      - [Tamanho das Famílias (FamilySize)](#Tamanho-das-Famílias-(FamilySize))  
      - [Género (Sex)](#Género-(Sex))  
   - [Relações](#Relações)  
      - [Sobrevivência Geral](#Sobrevivência-Geral)  
      - [Sobrevivência por Faixa Etária](#Sobrevivência-por-Faixa-Etária)  
      - [Sobrevivência por Género](#Sobrevivência-por-Género)  
      - [Sobrevivência por Classe](#Sobrevivência-por-Classe)  
      - [Sobrevivência por Tamanho de Família](#Sobrevivência-por-Tamanho-de-Família)  
      - [Sobrevivência por Porto de Embarque](#Sobrevivência-por-Porto-de-Embarque)  
      - [Sobrevivência por Género e Classe](#Sobrevivência-por-Género-e-Classe)  
   - [Heatmaps](#Heatmaps)  
      - [Matriz de Correlação de Variáveis](#Matriz-de-Correlação-de-Variáveis)  
      - [Análise das Correlações](#Análise-das-Correlações)

[6. Modelação e Comparação de Modelos](#🤖-Modelação-e-Comparação-de-Modelos)  
   - [Divisão dos Dados em Conjuntos de Treino e Teste](#Divisão-dos-Dados-em-Conjuntos-de-Treino-e-Teste)  
   - [Modelos Preditivos](#Modelos-Preditivos)  
      - [Árvore de Decisão](#Árvore-de-Decisão)  
      - [K-Nearest Neighbors (KNN)](#K-Nearest-Neighbors-(KNN))  
   - [Comparação de Modelos](#Comparação-de-Modelos)

[7. Conclusões e Observações Finais](#📋-Conclusões-e-Observações-Finais)  
   - [Grupos mais Propensos à Sobrevivência](#Grupos-mais-Propensos-à-Sobrevivência)  
   - [Análise Comparativa dos Modelos](#Análise-Comparativa-dos-Modelos)


---
# 🎯 Introdução

### Objetivo do Projeto
Este projeto visa analisar os dados dos passageiros do Titanic para identificar padrões de sobrevivência e desenvolver modelos preditivos. O principal objetivo é compreender quais características dos passageiros influenciaram as suas chances de sobrevivência durante o desastre.

### Objetivos Específicos
- Identificar padrões demográficos entre os sobreviventes
- Analisar a influência de fatores socioeconómicos na sobrevivência
- Desenvolver modelos preditivos para estimar probabilidades de sobrevivência
- Determinar as variáveis mais relevantes para a sobrevivência

### Sobre o Dataset
O dataset contêm informações sobre 891 passageiros do navio, incluindo:
- Dados demográficos (idade, sexo)
- Informações socioeconômicas (classe da passagem)
- Detalhes da viagem (porto de embarque, cabine)
- Estrutura familiar a bordo
- Status de sobrevivência

### Variável Target
- **Survived**: Indica se o passageiro sobreviveu (1) ou não (0) ao desastre

---
# ⚙️ Configuração Inicial

### Importação de Bibliotecas

In [None]:
# Análise de dados
import pandas as pd
import numpy as np

# Visualização
import seaborn as sns
import matplotlib.pyplot as plt

# Configurações
plt.style.use("seaborn-v0_8")
plt.rcParams['figure.figsize'] = [10, 6]
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

### Constantes e Configurações

In [None]:
# Configuração global para todos os gráficos
plt.style.use('seaborn-v0_8')
colors = plt.cm.tab10(np.linspace(0, 1, 10))

# Configurações padrão
plt.rcParams['figure.dpi'] = 150
plt.rcParams['font.size'] = 12
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10

### Funções Auxiliares

In [None]:
# Espaço reservado a funções auxiliares

---
# 📝 Integração e Análise Inicial

### Carregamento dos Dados

In [None]:
DATASET_URL = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
data = pd.read_csv(DATASET_URL)

### Primeiros Registos
Visualização das primeiras 10 linhas do dataset para compreensão inicial da estrutura dos dados

In [None]:
data.head(10)

### Variáveis e Tipologia do Dataset

| Variável    | Descrição                                        | Tipo      |
|-------------|--------------------------------------------------|-----------|
| PassengerId | Identificador único do passageiro                | Numérico  |
| Survived    | Indicador de sobrevivência (1 = Sobreviveu, 0 = Não sobreviveu)       | Binário   |
| Pclass      | Classe socioeconómica (1ª, 2ª ou 3ª classe)            | Categórico|
| Name        | Nome completo do passageiro                      | Texto     |
| Sex         | Sexo do passageiro                              | Categórico|
| Age         | Idade do passageiro                             | Numérico  |
| SibSp       | Número de irmãos/cônjuges a bordo               | Numérico  |
| Parch       | Número de pais/filhos a bordo                   | Numérico  |
| Ticket      | Número do bilhete                               | Texto     |
| Fare        | Tarifa paga pelo bilhete                        | Numérico  |
| Cabin       | Número da cabine                                | Categórico|
| Embarked    | Porto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton) | Categórico|

### Dimensões do Dataset
Análise do tamanho do conjunto de dados em termos de registos e variáveis

In [None]:
print(f"Número de linhas: {data.shape[0]}")
print(f"Número de colunas: {data.shape[1]}")

### Informações Gerais do Dataset
Análise dos tipos de dados e memória utilizada

In [None]:
# Tipos de dados de cada coluna
print("Variavel | Tipo:")
print(data.dtypes)

# Memória utilizada pelo dataset
print(f"\nMemória utilizada: {data.memory_usage().sum() / 1024:.2f} KB")

### Análise de Valores Ausentes
Identificação e quantificação dos valores ausentes em cada variável

In [None]:
missing_values = data.isnull().sum()
missing_percentages = (missing_values / len(data)) * 100
missing_info = pd.DataFrame({
    'Valores Ausentes': missing_values,
    'Percentagem (%)': missing_percentages.round(2)
})

missing_info

**Detalhes sobre valores ausentes:**
- A variável Cabin apresenta 77.10% de valores ausentes
- A variável Embarked possui apenas 0.22% de valores ausentes
- As demais variáveis estão completas

### Análise de Valores Únicos
Identificação da cardinalidade e exemplos de valores para cada variável

In [None]:
unique_values = pd.DataFrame({
    'Coluna': data.columns,
    'Tipos': data.dtypes,
    'Valores Únicos': [data[col].nunique() for col in data.columns],
    'Exemplo de Valores': [list(data[col].unique())[:3] for col in data.columns]
})

unique_values

### Estatísticas Descritivas
Análise estatística das variáveis numéricas do dataset

In [None]:
data.describe()

**Principais insights:**
- A taxa média de sobrevivência foi de 38.38%
- A idade média dos passageiros era de aproximadamente 29.7 anos
- A tarifa média paga foi de £32.20
- Há uma grande variação nas tarifas (desvio padrão de £49.69)

---
# 🧹 Limpeza e Transformação de Dados

## Tratamento de valores ausentes

In [None]:
print("Número de registos antes do tratamento:", len(data))

### Variável Age
Substituição de valores ausentes na variável Age pela mediana

In [None]:
age_median = data['Age'].median()
data['Age'] = data['Age'].fillna(age_median)

print("Idade mediana utilizada para preenchimento:", age_median)

### Variável Embarked
Remoção de registos com valores ausentes na variável Embarked

In [None]:
data = data.dropna(subset=['Embarked'])

### Variável Cabin
Substituição dos valores ausentes em Cabin por 'Unknown'

In [None]:
data['Cabin'] = data['Cabin'].fillna('Unknown')

In [None]:
print("Número de registos após os tratamentos:", len(data))

**Detalhes sobre o Tratamento de Valores Ausentes:**
- A mediana foi escolhida para Age por ser menos sensível a outliers
- Apenas 2 registos foram removidos (relacionados a Embarked)
- Cabin agora contêm valores 'Unknown' para facilitar análises posteriores

## Codificação de variáveis categóricas

### Variável Sex
Transformação de Sex em valores numéricos (0 para male, 1 para female)

In [None]:
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})

In [None]:
print("Distribuição da variável Sex:")
print(data['Sex'].value_counts())

### Variável Embarked (c/ One-Hot Encoding)
Codificação da variável Embarked em variáveis binárias

In [None]:
data = pd.get_dummies(data, columns=['Embarked'], prefix='Embarked', drop_first=False)
dummy_columns = [col for col in data.columns if 'Embarked_' in col]
data[dummy_columns] = data[dummy_columns].astype(int)

# Remover a coluna 'Embarked' original
if 'Embarked' in data.columns:
    data = data.drop('Embarked', axis=1)

print("Novas colunas de Embarked criadas:")
print(dummy_columns)
print("\nAmostra dos dados codificados:")
print(data[dummy_columns].head())

## Criação de novas variáveis derivadas

### Nova Variável FamilySize
FamilySize representa o número de familiares do passageiro (0 = Sem familiares)

In [None]:
# Soma de SibSp com Parch
data['FamilySize'] = data['SibSp'] + data['Parch']
print(data['FamilySize'].value_counts().sort_index())

### Nova Variável IsAlone
IsAlone representa se o passageiro viaja sozinho (0 = Não | 1 = Sim)

In [None]:
# Criação da variável binária
data['IsAlone'] = (data['FamilySize'] == 0).astype(int)
print(data['IsAlone'].value_counts())
print("\nTaxa de passageiros a viajar sozinhos:", 
      (data['IsAlone'].mean() * 100).round(2), "%")

### Observações sobre as variáveis *FamilySize* e *IsAlone*

#### Variável *FamilySize*  
A variável *FamilySize* representa o número total de familiares a bordo, calculada como a soma de *SibSp* (irmãos/cônjuges) e *Parch* (pais/filhos). A distribuição é a seguinte:

| **FamilySize** | **Descrição**                     | **Contagem** |
|----------------|-----------------------------------|--------------|
| 0              | Passageiros viajando sozinhos     | 535          |
| 1              | Passageiros com 1 familiar a bordo | 161         |
| 2              | Passageiros com 2 familiares a bordo | 102       |
| 3              | Passageiros com 3 familiares a bordo | 29        |
| 4              | Passageiros com 4 familiares a bordo | 15        |
| 5              | Passageiros com 5 familiares a bordo | 22        |
| 6              | Passageiros com 6 familiares a bordo | 12        |
| 7              | Passageiros com 7 familiares a bordo | 6         |
| 10             | Passageiros com 10 familiares a bordo | 7        |

#### Variável *IsAlone*  
A variável binária *IsAlone* indica se o passageiro viajava sozinho (*1*) ou acompanhado (*0*). A distribuição é a seguinte:

| **IsAlone** | **Descrição**           | **Contagem** |
|-------------|-------------------------|--------------|
| 1           | Passageiros sozinhos    | 535          |
| 0           | Passageiros acompanhados | 354         |

- **Taxa de passageiros a viajar sozinhos:** **60.18%**

#### Destaques combinados:
- A maioria dos passageiros (**535 indivíduos, 60.18%**) estava a viajar sozinhos (*IsAlone = 1*).  
- Dos passageiros acompanhados (*IsAlone = 0*), a maior parte tinha famílias pequenas, com *FamilySize* entre 1 e 2.  
- Casos com famílias muito grandes (*FamilySize* ≥ 7) foram raros, representando uma pequena fração dos dados.  

--- 
# 📊 Análise Exploratória e Visualizações

## Distribuições

### Idade (Age)

In [None]:
age_stats = data['Age'].describe()
print("Estatísticas da Distribuição de Idades:")
print(f"Número de registos: {age_stats['count']:.0f}")
print(f"Média: {age_stats['mean']:.2f} anos")
print(f"Desvio Padrão: {age_stats['std']:.2f} anos")
print(f"Idade Mínima: {age_stats['min']:.2f} anos")
print(f"25º Percentil: {age_stats['25%']:.2f} anos")
print(f"Mediana: {age_stats['50%']:.2f} anos")
print(f"75º Percentil: {age_stats['75%']:.2f} anos")
print(f"Idade Máxima: {age_stats['max']:.2f} anos")

# Moda da idade
age_mode = data['Age'].mode()[0]
print(f"Moda: {age_mode:.2f} anos")

# Distribuição por faixas etárias
age_bins = [0, 18, 65, 100]
age_labels = ['Criança (0-17)', 'Adulto (18-64)', 'Idoso (65+)']
data['FaixaEtaria'] = pd.cut(data['Age'], 
                            bins=age_bins, 
                            labels=age_labels, 
                            right=False)

age_distribution = data['FaixaEtaria'].value_counts().sort_index()
print("\nDistribuição por Faixa Etária:")
for faixa, count in age_distribution.items():
    percentage = (count/len(data))*100
    print(f"{faixa}: {count} passageiros ({percentage:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Distribuição geral das idades
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(12, 6), dpi=150)
sns.histplot(data=data, 
            x='Age', 
            bins=30, 
            color=colors[0],
            alpha=0.6,
            kde=True,
            line_kws={'color': colors[1], 'linewidth': 2},
            edgecolor='white',
            linewidth=1)

plt.axvline(x=data['Age'].mean(), 
            color=colors[2],
            linestyle='--', 
            linewidth=2,
            label=f'Média: {data["Age"].mean():.1f} anos')

plt.axvline(x=data['Age'].median(), 
            color=colors[4],
            linestyle='--', 
            linewidth=2,
            label=f'Mediana: {data["Age"].median():.1f} anos')

plt.title('Distribuição das Idades dos Passageiros do Titanic', 
         pad=20, 
         fontsize=14, 
         fontweight='bold')
plt.xlabel('Idade (anos)', fontsize=12)
plt.ylabel('Número de Passageiros', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tick_params(axis='both', labelsize=10)
plt.legend(frameon=True, 
          facecolor='white', 
          edgecolor='none', 
          fontsize=10,
          loc='upper right')
plt.xlim(-2, data['Age'].max() + 2)
plt.tight_layout()
plt.show()

# VISUALIZAÇÃO: Distribuição por faixa etária
plt.figure(figsize=(10, 6), dpi=150)

age_distribution = data['FaixaEtaria'].value_counts().sort_index()

pie_colors = [colors[0], colors[2], colors[4]]  # Cores selecionadas da paleta Tab20
wedges, texts, autotexts = plt.pie(age_distribution, 
                                 labels=age_distribution.index,
                                 autopct='%1.1f%%',
                                 colors=pie_colors, 
                                 startangle=90,
                                 explode=(0.05, 0, 0.05),
                                 shadow=False,
                                 textprops={'fontsize': 11},
                                 pctdistance=0.85,
                                 wedgeprops={'edgecolor': 'white', 
                                           'linewidth': 2})

plt.title('Distribuição de Passageiros por Faixa Etária', 
        pad=20, 
        fontsize=14, 
        fontweight='bold')

for autotext in autotexts:
    autotext.set_color('black')
    autotext.set_fontweight('bold')

plt.axis('equal')
plt.tight_layout()
plt.show()

#### **Observações sobre a Distribuição de Idades**

#### Estatísticas Principais
- Média de idade: 29.32 anos
- Mediana: 28.00 anos
- A proximidade entre média e mediana indica uma distribuição relativamente simétrica
- Desvio padrão: 12.98 anos, indicando variabilidade moderada nas idades

#### Análise por Faixas Etárias
- **Adultos (18-64)**: 765 passageiros (86.1%)
  - Representa a grande maioria dos passageiros
  - Concentração significativa entre 20-40 anos
- **Crianças (0-17)**: 113 passageiros (12.7%)
  - Proporção significativa de crianças e adolescentes
- **Idosos (65+)**: 11 passageiros (1.2%)
  - Presença muito reduzida de idosos

#### Insights Relevantes
1. **Perfil Predominante**
   - População majoritariamente jovem-adulta
   - Idade mediana de 28 anos sugere uma viagem popular entre jovens profissionais

2. **Distribuição Etária**
   - Presença significativa de famílias com crianças (12.7%)
   - Baixíssima representação de idosos (1.2%)
   - Concentração na faixa economicamente ativa

3. **Implicações**
   - O perfil etário sugere uma viagem possivelmente relacionada a migração/trabalho
   - A presença significativa de crianças indica viagens familiares
   - A baixa presença de idosos pode refletir os padrões de viagem da época

### Tarifas (Fare)

In [None]:
fare_stats = data['Fare'].describe()
fare_mode = data['Fare'].mode()[0]

print("Estatísticas da Distribuição das Tarifas:")
print(f"Número de registros: {fare_stats['count']:.0f}")
print(f"Média: £{fare_stats['mean']:.2f}")
print(f"Desvio Padrão: £{fare_stats['std']:.2f}")
print(f"Tarifa Mínima: £{fare_stats['min']:.2f}")
print(f"25º Percentil: £{fare_stats['25%']:.2f}")
print(f"Mediana: £{fare_stats['50%']:.2f}")
print(f"75º Percentil: £{fare_stats['75%']:.2f}")
print(f"Tarifa Máxima: £{fare_stats['max']:.2f}")
print(f"Moda: £{fare_mode:.2f}")

# Distribuição cruzada entre Tarifa e Classe
print("\n\nAnálise de Tarifas por Classe:")
for pclass, group in data.groupby('Pclass'):
    stats = group['Fare'].describe()
    pct_passengers = (len(group) / len(data)) * 100

    print(f"\nClasse {pclass}:")
    print(f"Número de passageiros: {len(group)} ({pct_passengers:.1f}%)")
    print(f"Tarifa média: £{stats['mean']:.2f}")
    print(f"Tarifa mediana: £{stats['50%']:.2f}")
    print(f"Tarifa máxima: £{stats['max']:.2f}")


In [None]:
# VISUALIZAÇÃO: Distribuição geral das tarifas
colors = plt.cm.tab20(np.linspace(0, 5, 20))
plt.figure(figsize=(12, 6), dpi=150)
sns.histplot(data=data, 
           x='Fare', 
           bins=50, 
           color=colors[0],
           alpha=0.7,
           edgecolor='white',
           linewidth=1)

plt.axvline(x=data['Fare'].mean(), 
           color=colors[2],
           linestyle='--', 
           linewidth=2,
           label=f'Média: £{data["Fare"].mean():.2f}')

plt.axvline(x=data['Fare'].median(), 
           color=colors[4],
           linestyle='--', 
           linewidth=2,
           label=f'Mediana: £{data["Fare"].median():.2f}')

plt.title('Distribuição das Tarifas', pad=20, fontsize=14, fontweight='bold')
plt.xlabel('Tarifa (£)', fontsize=12)
plt.ylabel('Número de Passageiros', fontsize=12)
plt.tick_params(axis='both', labelsize=10)
plt.legend(frameon=True, 
         facecolor='white', 
         edgecolor='none', 
         fontsize=10)
plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

# VISUALIZAÇÃO: Estatísticas de tarifa por classe
plt.figure(figsize=(12, 6), dpi=150)
x = np.arange(3)
width = 0.25

stats_by_class = data.groupby('Pclass')['Fare'].agg(['mean', 'median', 'max']).round(2)

plt.bar(x - width, stats_by_class['mean'], 
       width, 
       label='Média', 
       color=colors[0],
       edgecolor='white',
       linewidth=2)

plt.bar(x, stats_by_class['median'], 
       width, 
       label='Mediana', 
       color=colors[2],
       edgecolor='white',
       linewidth=2)

plt.bar(x + width, stats_by_class['max'], 
       width, 
       label='Máximo', 
       color=colors[4],
       edgecolor='white',
       linewidth=2)

plt.title('Estatísticas de Tarifas por Classe', 
        pad=20, 
        fontsize=14, 
        fontweight='bold')
plt.xlabel('Classe', fontsize=12)
plt.ylabel('Tarifa (£)', fontsize=12)
plt.xticks(x, ['1ª Classe', '2ª Classe', '3ª Classe'], fontsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.legend(frameon=True, 
         facecolor='white', 
         edgecolor='none', 
         fontsize=10)

# Adicionar valores nas barras
for i in x:
   plt.text(i - width, stats_by_class['mean'][i+1], 
            f'£{stats_by_class["mean"][i+1]:.0f}', 
            ha='center', va='bottom', fontsize=10)
   plt.text(i, stats_by_class['median'][i+1], 
            f'£{stats_by_class["median"][i+1]:.0f}', 
            ha='center', va='bottom', fontsize=10)
   plt.text(i + width, stats_by_class['max'][i+1], 
            f'£{stats_by_class["max"][i+1]:.0f}', 
            ha='center', va='bottom', fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

In [None]:
# VISUALIZAÇÃO: Densidade de Tarifas por Classe
colors = sns.color_palette('Set2', n_colors=3)
plt.figure(figsize=(12, 6), dpi=150)

# KDE para cada classe
for pclass, color in zip([1, 2, 3], colors):
    subset = data[data['Pclass'] == pclass]
    sns.kdeplot(
        subset['Fare'], 
        fill=True,
        label=f'{pclass}ª Classe', 
        color=color, 
        alpha=0.7, 
        bw_adjust=0.8
    )

plt.title('Distribuição de Densidade das Tarifas por Classe', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Tarifa (£)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)
plt.legend(title='Classes', frameon=True, fontsize=10)
plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()

plt.show()

#### **Observações sobre a Distribuição de Tarifas**

#### Estatísticas Gerais
- Tarifa média: £32.10
- Tarifa mediana: £14.45
- Grande disparidade entre média e mediana indica distribuição assimétrica
- Amplitude muito grande: £0.00 a £512.33

#### Análise por Classe
**1ª Classe**
- Tarifa média: £84.19
- Representa 24.1% dos passageiros
- Grande variabilidade nos preços (até £512.33)

**2ª Classe**
- Tarifa média: £20.66
- Representa 20.7% dos passageiros
- Preços mais consistentes (máximo £73.50)

**3ª Classe**
- Tarifa média: £13.68
- Representa 55.2% dos passageiros
- Menor variabilidade (máximo £69.55)

#### Insights Relevantes
1. **Estratificação Social**
   - Clara segregação de classes refletida nas tarifas
   - Primeira classe aproximadamente 6x mais cara que a terceira
   - Maior parte dos passageiros na classe mais económica

2. **Distribuição**
   - Fortemente assimétrica à direita
   - Presença de valores extremos na primeira classe
   - 75% dos passageiros pagaram menos de £31.00

3. **Implicações Económicas**
   - Grande desigualdade socioeconómica entre passageiros
   - Possível relação entre tarifa e localização da cabine no navio
   - Concentração de passageiros nas tarifas mais baixas

### Tamanho das Familias (FamilySize)

In [None]:
print("Estatísticas Gerais:")
family_stats = data['FamilySize'].describe()
print(f"Total de passageiros: {int(family_stats['count'])}")
print(f"Tamanho médio de familia: {family_stats['mean']:.2f} pessoas")
print(f"Desvio padrão: {family_stats['std']:.2f}")
print(f"Tamanho máximo: {int(family_stats['max'])} pessoas")

# Distribuição por tamanho de família
print("\n\nDistribuição por Tamanho de Família:")
family_dist = data['FamilySize'].value_counts().sort_index()
family_dist_pct = (family_dist / len(data) * 100).round(2)

for size in family_dist.index:
    count = family_dist[size]
    pct = family_dist_pct[size]
    if size == 0:
        print(f"Viajando sozinho: {count} passageiros ({pct:.2f}%)")
    elif size == 1:
        print(f"Com 1 familiar: {count} passageiros ({pct:.2f}%)")
    else:
        print(f"Com {size} familiares: {count} passageiros ({pct:.2f}%)")

# Distribuição cruzada entre Tamanho de Familia e Classe
print("\n\nDistribuição cruzada entre Tamanho de Familia e Classe:")
for pclass in sorted(data['Pclass'].unique()):
    class_data = data[data['Pclass'] == pclass]
    total_class = len(class_data)
    
    print(f"\nClasse {pclass}:")
    print(f"Total de passageiros: {total_class}")
    
    # Proporção de sozinhos vs com família na classe
    alone_count = len(class_data[class_data['FamilySize'] == 0])
    alone_pct = (alone_count / total_class * 100)
    print(f"Viajando sozinho: {alone_count} passageiros ({alone_pct:.2f}%)")
    print(f"Com família: {total_class - alone_count} passageiros ({(100 - alone_pct):.2f}%)")
    print(f"Maior família na classe: {int(class_data['FamilySize'].max())} pessoas")

In [None]:
# VISUALIZAÇÃO: Distribuição do tamanho das famílias
colors = plt.cm.tab20(np.linspace(0, 10, 20))
plt.figure(figsize=(12, 6), dpi=150)

family_dist = data['FamilySize'].value_counts().sort_index()

sns.barplot(x=family_dist.index, 
          y=family_dist.values, 
          color=colors[0],
          edgecolor='white',
          linewidth=2)

plt.title('Distribuição do Tamanho das Famílias', 
        pad=20, 
        fontsize=14, 
        fontweight='bold')
plt.xlabel('Tamanho da Família', fontsize=12)
plt.ylabel('Número de Passageiros', fontsize=12)
plt.tick_params(axis='both', labelsize=10)

# Adicionar valores nas barras
for i, v in enumerate(family_dist.values):
   plt.text(i, v, str(v), 
            ha='center', 
            va='bottom',
            fontsize=10,
            fontweight='bold')

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

# VISUALIZAÇÃO: Proporção de passageiros sozinhos vs. com família
plt.figure(figsize=(10, 6), dpi=150)

alone_vs_family = data['IsAlone'].value_counts()

wedges, texts, autotexts = plt.pie(alone_vs_family.values,
                                labels=['Sozinho', 'Com Família'],
                                autopct='%1.1f%%',
                                colors=[colors[0], colors[2]],
                                explode=(0.05, 0),
                                shadow=False,
                                textprops={'fontsize': 11},
                                pctdistance=0.85,
                                wedgeprops={'edgecolor': 'white',
                                          'linewidth': 2})

plt.title('Proporção de Passageiros: Sozinhos vs. Com Família',
       pad=20, 
       fontsize=14, 
       fontweight='bold')

# Personalizar os textos de porcentagem
for autotext in autotexts:
   autotext.set_color('black')
   autotext.set_fontweight('bold')
   autotext.set_fontsize(10)

# Personalizar as labels
for text in texts:
   text.set_fontsize(11)
   text.set_fontweight('bold')

plt.axis('equal')
plt.tight_layout()
plt.show()

#### **Observações sobre Tamanho das Famílias**

#### Estatísticas Gerais
- Média de familiares por passageiro: 0.91
- Maioria viajando sozinha (60.18%)
- Tamanho máximo de família: 10 pessoas
- Desvio padrão: 1.61

#### Padrões de Viagem
**Viajando Sozinho**
- 535 passageiros (60.18%)
- Maior proporção em todas as classes
- Particularmente comum na 3ª classe (65.99%)

**Pequenos Grupos (1-2 familiares)**
- 263 passageiros (29.58%)
- Distribuição mais equilibrada entre classes
- Padrão típico de casais ou pais com um filho

**Grupos Grandes (3+ familiares)**
- 91 passageiros (10.24%)
- Mais comum na 3ª classe
- Famílias muito grandes (7-10 pessoas) exclusivas da 3ª classe

#### Insights Relevantes
1. **Padrões de Viagem**
   - Predominância clara de viajantes solitários
   - Famílias tendem a ser pequenas quando presentes
   - Grupos muito grandes são exceção

2. **Diferenças entre Classes**
   - 1ª Classe: Distribuição mais equilibrada (50% sozinhos)
   - 2ª Classe: Leve predominância de sozinhos (56.52%)
   - 3ª Classe: Forte predominância de sozinhos (65.99%)

3. **Implicações Socioeconómicas**
   - Viagens individuais mais comuns nas classes mais baixas
   - Famílias grandes concentradas na 3ª classe
   - Possível indicativo de padrões migratórios da época

### Género (Sex)

In [None]:
print("Estatísticas Gerais:")
sex_dist = data['Sex'].value_counts()
sex_pct = (sex_dist / len(data) * 100)

print(f"Total de passageiros: {len(data)}")
for sex, count in sex_dist.items():
    pct = sex_pct[sex]
    sex_label = "Feminino" if sex == 1 else "Masculino"
    print(f"{sex_label}: {count} passageiros ({pct:.2f}%)")

# Distribuição cruzada entre Género e Faixa Etária
cross_dist = pd.crosstab(data['Sex'], data['FaixaEtaria'])
cross_pct = pd.crosstab(data['Sex'], data['FaixaEtaria'], normalize='all') * 100

print("\n\nDistribuição cruzada entre Género e Faixa Etária:")
for sex in sorted(data['Sex'].unique()):
    sex_label = "Feminino" if sex == 1 else "Masculino"
    print(f"\n{sex_label}:")
    for faixa in age_labels:
        count = cross_dist.loc[sex, faixa]
        pct = cross_pct.loc[sex, faixa]
        print(f"{faixa}: {count} passageiros ({pct:.2f}%)")

# Distribuição cruzada entre Género e Classe
print("\n\nDistribuição cruzada entre Género e Classe:")
for pclass in sorted(data['Pclass'].unique()):
    class_data = data[data['Pclass'] == pclass]
    total_class = len(class_data)
    
    print(f"\nClasse {pclass}:")
    print(f"Total de passageiros: {total_class}")
    
    class_sex_dist = class_data['Sex'].value_counts()
    class_sex_pct = (class_sex_dist / total_class * 100)
    
    for sex, count in class_sex_dist.items():
        pct = class_sex_pct[sex]
        sex_label = "Feminino" if sex == 1 else "Masculino"
        print(f"{sex_label}: {count} passageiros ({pct:.2f}%)")

In [None]:
# VISUALIZAÇÃO: Distribuição por Género
colors = plt.cm.tab20(np.linspace(0, 4, 20))
plt.figure(figsize=(10, 6), dpi=150)

gender_dist = data['Sex'].value_counts()
total_passengers = len(data)

wedges, texts, autotexts = plt.pie(gender_dist.values,
                                labels=['Masculino', 'Feminino'],
                                autopct=lambda pct: f'{pct:.1f}%\n({int(pct*total_passengers/100)})',
                                colors=[colors[0], colors[2]],
                                explode=(0.05, 0.05),
                                shadow=False,
                                textprops={'fontsize': 11},
                                pctdistance=0.85,
                                wedgeprops={'edgecolor': 'white', 
                                          'linewidth': 2})

plt.title('Distribuição de Passageiros por Género',
       pad=20, 
       fontsize=14, 
       fontweight='bold')

# Personalizar os textos de porcentagem
for autotext in autotexts:
   autotext.set_color('white')
   autotext.set_fontweight('bold')
   autotext.set_fontsize(10)

# Personalizar as labels
for text in texts:
   text.set_fontsize(11)
   text.set_fontweight('bold')

plt.axis('equal')
plt.tight_layout()
plt.show()

# VISUALIZAÇÃO: Distribuição de Género por classe
plt.figure(figsize=(12, 6), dpi=150)

class_gender_data = pd.crosstab(data['Pclass'], data['Sex'])
class_labels = ['1ª Classe', '2ª Classe', '3ª Classe']
x = np.arange(len(class_labels))
width = 0.35

plt.bar(x - width/2, class_gender_data[0], 
      width, 
      label='Masculino', 
      color=colors[0],
      edgecolor='white', 
      linewidth=2)

plt.bar(x + width/2, class_gender_data[1], 
      width, 
      label='Feminino', 
      color=colors[2],
      edgecolor='white', 
      linewidth=2)

plt.title('Distribuição de Género por Classe de Viagem',
       pad=20, 
       fontsize=14, 
       fontweight='bold')
plt.xlabel('Classe', fontsize=12)
plt.ylabel('Número de Passageiros', fontsize=12)
plt.xticks(x, class_labels, fontsize=10)
plt.tick_params(axis='y', labelsize=10)

# Adicionar valores nas barras
for i in range(len(class_labels)):
   plt.text(i - width/2, class_gender_data[0][i+1], 
            str(class_gender_data[0][i+1]),
            ha='center', 
            va='bottom', 
            fontweight='bold', 
            fontsize=10)
   plt.text(i + width/2, class_gender_data[1][i+1], 
            str(class_gender_data[1][i+1]),
            ha='center', 
            va='bottom', 
            fontweight='bold', 
            fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.legend(frameon=True, 
         facecolor='white', 
         edgecolor='none', 
         fontsize=10)
plt.tight_layout()
plt.show()

#### **Observações sobre a Distribuição de Género**

#### Estatísticas Gerais
- Total de homens: 577 (64.90%)
- Total de mulheres: 312 (35.10%)
- Razão aproximada de 2 homens para cada mulher

#### Análise por Classe
**1ª Classe**
- Homens: 122 (57.01%)
- Mulheres: 92 (42.99%)
- Distribuição mais equilibrada

**2ª Classe**
- Homens: 108 (58.70%)
- Mulheres: 76 (41.30%)
- Similaridade com primeira classe

**3ª Classe**
- Homens: 347 (70.67%)
- Mulheres: 144 (29.33%)
- Desequilíbrio mais acentuado

#### Insights Relevantes
1. **Desequilíbrio de Género**
   - Predominância masculina em todas as classes
   - Diferença mais pronunciada na terceira classe
   - Classes superiores mais equilibradas

2. **Padrões Socioeconómicos**
   - Classes mais altas com maior proporção de mulheres
   - Terceira classe com forte presença masculina
   - Possível reflexo de padrões migratórios da época

3. **Implicações Históricas**
   - Padrão consistente com migração económica masculina
   - Classes superiores possivelmente com mais viagens familiares

## Relações

### Sobrevivência Geral

In [None]:
survivors = data['Survived'].value_counts()
survival_rate = (survivors[1] / len(data)) * 100

print("Taxa de Sobrevivência Geral:")
print(f"Total de passageiros: {len(data)}")
print(f"Sobreviventes: {survivors[1]} ({survival_rate:.1f}%)")
print(f"Não sobreviventes: {survivors[0]} ({100-survival_rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Taxa geral de sobrevivência
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(10, 6), dpi=150)

survivors = data['Survived'].value_counts()
total_passengers = len(data)

wedges, texts, autotexts = plt.pie(survivors.values,
                                labels=['Não Sobreviveu', 'Sobreviveu'],
                                autopct=lambda pct: f'{pct:.1f}%\n({int(pct*total_passengers/100)})',
                                colors=[colors[3], colors[0]],  # Vermelho e Azul da Tab20
                                explode=(0.05, 0.05),
                                shadow=False,
                                startangle=90,
                                textprops={'fontsize': 11},
                                pctdistance=0.85,
                                wedgeprops={'edgecolor': 'white', 
                                          'linewidth': 2})

plt.title('Taxa de Sobrevivência dos Passageiros do Titanic',
       pad=20, 
       fontsize=14, 
       fontweight='bold')

for autotext in autotexts:
   autotext.set_color('black')
   autotext.set_fontweight('bold')
   autotext.set_fontsize(11)

for text in texts:
   text.set_fontsize(11)
   text.set_fontweight('bold')

plt.axis('equal')
plt.tight_layout()
plt.show()

### Sobrevivência por Faixa Etária

In [None]:
survival_by_age = pd.crosstab(data['FaixaEtaria'], data['Survived'])
survival_rate_age = pd.crosstab(data['FaixaEtaria'], data['Survived'], normalize='index') * 100

print("Taxa de Sobrevivência por Faixa Etária:")
for faixa in age_labels:
    rate = survival_rate_age.loc[faixa, 1]
    total = len(data[data['FaixaEtaria'] == faixa])
    survivors = survival_by_age.loc[faixa, 1]
    print(f"{faixa}: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por faixa etária
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(12, 6), dpi=150)

# Criar o gráfico de barras
bars = survival_rate_age.plot(kind='bar', 
                            color=[colors[3], colors[0]],  # Vermelho e Azul da Tab20
                            edgecolor='white',
                            linewidth=2,
                            width=0.8)

plt.title('Taxa de Sobrevivência por Faixa Etária', 
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.xlabel('Faixa Etária', fontsize=12)
plt.ylabel('Percentagem (%)', fontsize=12)
plt.legend(['Não Sobreviveu', 'Sobreviveu'],
         frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

plt.xticks(rotation=0, ha='center', fontsize=10)
plt.tick_params(axis='y', labelsize=10)

# Adicionar rótulos nas barras
for container in bars.containers:
   bars.bar_label(container, 
                 fmt='%.1f%%', 
                 label_type='center',
                 color='black',
                 fontweight='bold',
                 fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### Sobrevivência por Género

In [None]:
survival_by_sex = pd.crosstab(data['Sex'], data['Survived'])
survival_rate_sex = pd.crosstab(data['Sex'], data['Survived'], normalize='index') * 100

print("Taxa de Sobrevivência por Género:")
for sex in [0, 1]:  # 0=Male, 1=Female
    gender = "Masculino" if sex == 0 else "Feminino"
    rate = survival_rate_sex.loc[sex, 1]
    total = len(data[data['Sex'] == sex])
    survivors = survival_by_sex.loc[sex, 1]
    print(f"{gender}: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por Género
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(10, 6), dpi=150)

# Criar o gráfico de barras
bars = survival_rate_sex.plot(kind='bar', 
                           color=[colors[3], colors[0]],
                           edgecolor='white',
                           linewidth=2,
                           width=0.8)

plt.title('Taxa de Sobrevivência por Género', 
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.xlabel('Género', fontsize=12)
plt.ylabel('Percentagem (%)', fontsize=12)

plt.legend(['Não Sobreviveu', 'Sobreviveu'],
         frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

plt.xticks(range(2), ['Masculino', 'Feminino'], 
         rotation=0,
         fontsize=10)
plt.tick_params(axis='y', labelsize=10)

# Adicionar rótulos nas barras
for container in bars.containers:
   bars.bar_label(container, 
                 fmt='%.1f%%', 
                 label_type='center',
                 color='black',
                 fontweight='bold',
                 fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### Sobrevivência por Classe

In [None]:
survival_by_class = pd.crosstab(data['Pclass'], data['Survived'])
survival_rate_class = pd.crosstab(data['Pclass'], data['Survived'], normalize='index') * 100

print("Taxa de Sobrevivência por Classe:")
for pclass in [1, 2, 3]:
    rate = survival_rate_class.loc[pclass, 1]
    total = len(data[data['Pclass'] == pclass])
    survivors = survival_by_class.loc[pclass, 1]
    print(f"{pclass}ª Classe: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por classe
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(12, 6), dpi=150)
bars = survival_rate_class.plot(kind='bar', 
                             color=[colors[3], colors[0]],
                             edgecolor='white',
                             linewidth=2,
                             width=0.8)

plt.title('Taxa de Sobrevivência por Classe', 
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.xlabel('Classe', fontsize=12)
plt.ylabel('Percentagem (%)', fontsize=12)

plt.legend(['Não Sobreviveu', 'Sobreviveu'],
         frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

plt.xticks(range(3), 
         ['1ª Classe', '2ª Classe', '3ª Classe'],
         rotation=0,
         fontsize=10)
plt.tick_params(axis='y', labelsize=10)

# Adicionar rótulos nas barras
for container in bars.containers:
   bars.bar_label(container, 
                 fmt='%.1f%%', 
                 label_type='center',
                 color='black',
                 fontweight='bold',
                 fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### Sobrevivência por Tamanho de Familia

In [None]:
survival_by_family = pd.crosstab(data['FamilySize'], data['Survived'])
survival_rate_family = pd.crosstab(data['FamilySize'], data['Survived'], normalize='index') * 100

print("Taxa de Sobrevivência por Tamanho da Família:")
for size in sorted(data['FamilySize'].unique()):
    rate = survival_rate_family.loc[size, 1]
    total = len(data[data['FamilySize'] == size])
    survivors = survival_by_family.loc[size, 1]
    size_desc = "Sozinho" if size == 0 else f"{size} familiar(es)"
    print(f"{size_desc}: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por tamanho da familia
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(14, 6), dpi=150)
bars = survival_rate_family.plot(kind='bar',
                              color=[colors[3], colors[0]],
                              edgecolor='white',
                              linewidth=2,
                              width=0.8)

plt.title('Taxa de Sobrevivência por Tamanho da Família',
       pad=20, 
       fontsize=14, 
       fontweight='bold')

plt.xlabel('Número de Familiares', fontsize=12)
plt.ylabel('Percentagem (%)', fontsize=12)

plt.legend(['Não Sobreviveu', 'Sobreviveu'],
        frameon=True,
        facecolor='white', 
        edgecolor='none',
        fontsize=10)

plt.tick_params(axis='both', labelsize=10)
plt.xticks(rotation=0)

# Adicionar rótulos nas barras
for container in bars.containers:
   bars.bar_label(container, 
                 fmt='%.0f%%',
                 label_type='center',
                 color='black',
                 fontweight='bold',
                 fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### Sobrevivência por Porto de Embarque

In [None]:
survival_by_port = pd.crosstab(data['Embarked_S'].astype(bool) | 
                              data['Embarked_C'].astype(bool) | 
                              data['Embarked_Q'].astype(bool), 
                              data['Survived'])
survival_rate_port = survival_by_port.div(survival_by_port.sum(axis=1), axis=0) * 100

print("Taxa de Sobrevivência por Porto de Embarque:")
for port, code in [('Southampton (S)', 'Embarked_S'), 
                  ('Cherbourg (C)', 'Embarked_C'), 
                  ('Queenstown (Q)', 'Embarked_Q')]:
    port_passengers = data[data[code] == 1]
    survivors = port_passengers['Survived'].sum()
    total = len(port_passengers)
    rate = (survivors / total * 100)
    print(f"{port}: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por porto de embarque
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(12, 6), dpi=150)

# Preparar os dados
ports_data = pd.DataFrame({
   'Porto': ['Southampton (S)', 'Cherbourg (C)', 'Queenstown (Q)'],
   'Não Sobreviveu': [
       data[(data['Embarked_S'] == 1) & (data['Survived'] == 0)].shape[0] / data[data['Embarked_S'] == 1].shape[0] * 100,
       data[(data['Embarked_C'] == 1) & (data['Survived'] == 0)].shape[0] / data[data['Embarked_C'] == 1].shape[0] * 100,
       data[(data['Embarked_Q'] == 1) & (data['Survived'] == 0)].shape[0] / data[data['Embarked_Q'] == 1].shape[0] * 100
   ],
   'Sobreviveu': [
       data[(data['Embarked_S'] == 1) & (data['Survived'] == 1)].shape[0] / data[data['Embarked_S'] == 1].shape[0] * 100,
       data[(data['Embarked_C'] == 1) & (data['Survived'] == 1)].shape[0] / data[data['Embarked_C'] == 1].shape[0] * 100,
       data[(data['Embarked_Q'] == 1) & (data['Survived'] == 1)].shape[0] / data[data['Embarked_Q'] == 1].shape[0] * 100
   ]
}).set_index('Porto')

bars = ports_data.plot(kind='bar',
                     color=[colors[3], colors[0]],
                     edgecolor='white',
                     linewidth=2,
                     width=0.8)

plt.title('Taxa de Sobrevivência por Porto de Embarque',
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.xlabel('Porto', fontsize=12)
plt.ylabel('Percentagem (%)', fontsize=12)

plt.legend(['Não Sobreviveu', 'Sobreviveu'],
         frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

plt.xticks(rotation=0, 
         ha='center',
         fontsize=10)
plt.tick_params(axis='y', labelsize=10)

# Adicionar rótulos nas barras
for container in bars.containers:
   bars.bar_label(container,
                 fmt='%.1f%%',
                 label_type='center',
                 color='black',
                 fontweight='bold',
                 fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### Sobrevivência por Género e Classe

In [None]:
# Análise cruzada de sobrevivência (Género x Classe)
survival_by_sex_class = pd.crosstab([data['Sex'], data['Pclass']], 
                                   data['Survived'], 
                                   normalize='index') * 100

print("Taxa de Sobrevivência por Género e Classe:")
for sex in [0, 1]:
    gender = "Masculino" if sex == 0 else "Feminino"
    print(f"\n{gender}:")
    for pclass in [1, 2, 3]:
        rate = survival_by_sex_class.loc[(sex, pclass), 1]
        total = len(data[(data['Sex'] == sex) & (data['Pclass'] == pclass)])
        survivors = len(data[(data['Sex'] == sex) & 
                           (data['Pclass'] == pclass) & 
                           (data['Survived'] == 1)])
        print(f"Classe {pclass}: {survivors} de {total} ({rate:.1f}%)")

In [None]:
# VISUALIZAÇÃO: Sobrevivência por Género e classe
colors = plt.cm.tab20(np.linspace(0, 4, 20))
plt.figure(figsize=(12, 6), dpi=150)

classes = ['1ª Classe', '2ª Classe', '3ª Classe']
x = np.arange(len(classes))
width = 0.35

men_survival = [survival_by_sex_class.loc[(0, i), 1] for i in [1, 2, 3]]
women_survival = [survival_by_sex_class.loc[(1, i), 1] for i in [1, 2, 3]]
men_bars = plt.bar(x - width/2, men_survival, 
                 width, 
                 label='Masculino', 
                 color=colors[0],
                 edgecolor='white',
                 linewidth=2)

women_bars = plt.bar(x + width/2, women_survival, 
                   width, 
                   label='Feminino', 
                   color=colors[2],
                   edgecolor='white',
                   linewidth=2)

plt.title('Taxa de Sobrevivência por Género e Classe', 
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.xlabel('Classe', fontsize=12)
plt.ylabel('Taxa de Sobrevivência (%)', fontsize=12)

plt.xticks(x, classes, fontsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.legend(frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

# Adicionar rótulos nas barras
plt.bar_label(men_bars, 
            fmt='%.1f%%', 
            label_type='center',
            color='white',
            fontweight='bold',
            fontsize=10)

plt.bar_label(women_bars, 
            fmt='%.1f%%', 
            label_type='center',
            color='white',
            fontweight='bold',
            fontsize=10)

plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

### **Observações e Insights sobre a sobrevivência**

#### Taxa Geral de Sobrevivência
- Apenas 38.2% dos passageiros sobreviveram ao desastre
- De 889 passageiros, 340 sobreviveram e 549 não sobreviveram
- Demonstra a magnitude da tragédia, com mais de 60% de fatalidades

#### Análise por Faixa Etária
- **Crianças (0-17)**: Taxa de sobrevivência mais alta (54.0%)
  - Possível priorização de crianças nos botes salva-vidas
  - 61 das 113 crianças sobreviveram
- **Adultos (18-64)**: Taxa de sobrevivência moderada (36.3%)
  - Maior grupo demográfico, com 765 passageiros
  - 278 adultos sobreviveram
- **Idosos (65+)**: Taxa de sobrevivência extremamente baixa (9.1%)
  - Apenas 1 sobrevivente entre 11 idosos
  - Possível dificuldade de mobilidade e acesso aos botes

#### Análise por Género
- **Mulheres**: Taxa de sobrevivência significativamente alta (74.0%)
  - 231 das 312 mulheres sobreviveram
  - Clara evidência da política "mulheres e crianças primeiro"
- **Homens**: Taxa de sobrevivência muito baixa (18.9%)
  - Apenas 109 dos 577 homens sobreviveram
  - Demonstra sacrifício masculino durante o desastre

#### Análise por Classe
- **1ª Classe**: Maior taxa de sobrevivência (62.6%)
  - 134 de 214 passageiros sobreviveram
  - Possível acesso privilegiado aos botes salva-vidas
- **2ª Classe**: Taxa de sobrevivência intermediária (47.3%)
  - 87 de 184 passageiros sobreviveram
- **3ª Classe**: Taxa de sobrevivência muito baixa (24.2%)
  - Apenas 119 de 491 passageiros sobreviveram
  - Evidência clara de desigualdade social na tragédia

#### Análise por Tamanho da Família
- **Sozinhos**: Taxa de sobrevivência relativamente baixa (30.1%)
- **Pequenas famílias (1-3 familiares)**: Maiores taxas de sobrevivência
  - 1 familiar: 55.3%
  - 2 familiares: 57.8%
  - 3 familiares: 72.4% (maior taxa)
- **Famílias grandes (4+ familiares)**: Taxas muito baixas
  - 4-6 familiares: entre 13.6% e 33.3%
  - 7+ familiares: 0% de sobrevivência
  - Sugere maior dificuldade em manter famílias grandes unidas durante o desastre

#### Análise por Porto de Embarque
- **Cherbourg (C)**: Maior taxa de sobrevivência (55.4%)
  - Possivelmente relacionado ao maior número de passageiros de 1ª classe
- **Queenstown (Q)**: Taxa intermediária (39.0%)
- **Southampton (S)**: Menor taxa (33.7%)
  - Porto com maior número de passageiros de 3ª classe

#### Análise Cruzada (Género x Classe)
- **Mulheres de 1ª e 2ª Classes**: Taxas excepcionalmente altas
  - 1ª Classe: 96.7% (89 de 92)
  - 2ª Classe: 92.1% (70 de 76)
- **Mulheres de 3ª Classe**: Taxa moderada (50.0%)
  - 72 de 144 sobreviveram
  - Significativamente menor que outras classes
- **Homens**: Taxas decrescentes por classe
  - 1ª Classe: 36.9% (maior entre homens)
  - 2ª Classe: 15.7%
  - 3ª Classe: 13.5% (menor taxa geral)

#### Principais Conclusões
1. **Fatores Determinantes para Sobrevivência**
   - Género foi o fator mais influente
   - Classe teve forte impacto
   - Idade (especialmente crianças) foi relevante
   - Tamanho da família moderadamente importante

2. **Padrões de Desigualdade**
   - Clara discriminação por classe
   - Forte viés de Género nas chances de sobrevivência
   - Localização das cabines pode ter influenciado acesso aos botes

3. **Grupos mais Vulneráveis**
   - Homens da 3ª classe
   - Famílias muito grandes
   - Idosos
   - Passageiros do porto de Southampton

## Heatmaps

### Matriz de Correlação de Variáveis

In [None]:
# Calcular a matriz de correlação
numeric_vars = ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 
                'FamilySize', 'IsAlone']
correlation_data = data[numeric_vars]
correlation_matrix = correlation_data.corr()
survival_corr = correlation_matrix['Survived'].sort_values(ascending=False)

print("Correlações com a Sobrevivência (ordenadas):")
for var, corr in survival_corr.items():
    if var != 'Survived':
        print(f"{var}: {corr:.3f}")

print("\n\nPrincipais insights das correlações:")
print("\n1. Correlações Positivas Fortes (> 0.2):")
for var, corr in survival_corr.items():
    if corr > 0.2 and var != 'Survived':
        print(f"- {var}: {corr:.3f}")

print("\n2. Correlações Negativas Fortes (< -0.2):")
for var, corr in survival_corr.items():
    if corr < -0.2 and var != 'Survived':
        print(f"- {var}: {corr:.3f}")

print("\n3. Correlações Fracas (-0.2 < x < 0.2):")
for var, corr in survival_corr.items():
    if -0.2 < corr < 0.2 and var != 'Survived' and corr != 1:
        print(f"- {var}: {corr:.3f}")

In [None]:
# VISUALIZAÇÃO: Heatmap das correlações das variaveis
numeric_vars = ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 
                'FamilySize', 'IsAlone']
correlation_data = data[numeric_vars]

# Calcular a matriz de correlação
correlation_matrix = correlation_data.corr()


plt.figure(figsize=(12, 8), dpi=150)
sns.heatmap(correlation_matrix, 
            annot=True,
            cmap='RdYlBu_r',
            center=0,
            fmt='.2f',
            square=True,
            linewidths=0.5,
            cbar_kws={"shrink": .8, "label": "Correlação"})

plt.title('Matriz de Correlação entre Variáveis', pad=20, fontsize=14)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

### Análise das Correlações

#### Correlações com a Sobrevivência
1. **Correlações Positivas Fortes**
   - Sex (0.543): Maior correlação positiva, confirmando a forte influência do Género
   - Fare (0.257): Tarifa mais alta associada a maior chance de sobrevivência

2. **Correlações Negativas Fortes**
   - Pclass (-0.338): Classe mais baixa associada a menor chance de sobrevivência
   - IsAlone (-0.203): Viajar sozinho correlacionado negativamente com sobrevivência

3. **Correlações Moderadas/Fracas**
   - Age (-0.077): Correlação fraca negativa com idade
   - FamilySize (0.016): Correlação muito fraca com tamanho da família
   - SibSp (-0.035): Correlação fraca negativa com número de irmãos/cônjuges
   - Parch (0.081): Correlação fraca positiva com número de pais/filhos

#### Outras Correlações Relevantes
1. **Entre Variáveis Familiares**
   - FamilySize fortemente correlacionado com SibSp (0.747) e Parch (0.789)
   - IsAlone negativamente correlacionado com todas as variáveis familiares

2. **Correlações Socioeconómicas**
   - Pclass negativamente correlacionado com Fare (-0.549)
   - Classe mais alta associada a tarifas mais altas

3. **Correlações com Idade**
   - Correlações fracas com maioria das variáveis
   - Leve correlação negativa com variáveis familiares

#### Principais Insights
1. Género (Sex) é o preditor mais forte de sobrevivência
2. Classe (Pclass e Fare) tem impacto significativo
3. Viajar sozinho (IsAlone) reduz chances de sobrevivência
4. Idade tem impacto surpreendentemente baixo
5. Variáveis familiares mostram padrões complexos de interação

---
# 🤖 Modelação e Comparação de Modelos

## Divisão em Conjuntos de Treino e Teste

In [None]:
from sklearn.model_selection import train_test_split

# Features para o modelo
features = ['Pclass', 'Sex', 'Age', 'Fare', 'FamilySize', 'IsAlone', 
           'Embarked_C', 'Embarked_Q', 'Embarked_S']
X = data[features]
y = data['Survived']

# Dividir os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Dimensões dos conjuntos de dados:\n")
print(f"X_train: {X_train.shape}")
print(f"X_test: {X_test.shape}")
print(f"y_train: {y_train.shape}")
print(f"y_test: {y_test.shape}")

print("\n\nDistribuição da variável target:")
print("\nConjunto de Treino:")
print(y_train.value_counts(normalize=True).round(3) * 100)
print("\nConjunto de Teste:")
print(y_test.value_counts(normalize=True).round(3) * 100)

## Modelos Preditivos

In [None]:
# Importar bibliotecas necessarias
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score, classification_report
import seaborn as sns

### Árvore de Decisão

In [None]:
# Criar e treinar o modelo
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Fazer previsões
dt_pred = dt_model.predict(X_test)

# Calcular métricas
dt_accuracy = accuracy_score(y_test, dt_pred)
dt_f1 = f1_score(y_test, dt_pred)
dt_conf_matrix = confusion_matrix(y_test, dt_pred)

print(f"\nAcurácia: {dt_accuracy:.4f}")
print(f"F1-Score: {dt_f1:.4f}")
print("\nMatriz de Confusão:")
print(dt_conf_matrix)
print("\nRelatório de Classificação:")
print(classification_report(y_test, dt_pred))

In [None]:
# VISUALIZAÇÃO: Matriz de confusão para a Árvore de Decisão
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(8, 6), dpi=150)

sns.heatmap(dt_conf_matrix,
           annot=True, 
           fmt='d',
           cmap='RdYlBu_r',
           center=dt_conf_matrix.mean().mean(),
           square=True,
           cbar_kws={'label': 'Número de Casos',
                    'shrink': .8},
           linewidths=1,
           linecolor='white',
           annot_kws={'size': 12,
                     'weight': 'bold'})

plt.title('Matriz de Confusão - Árvore de Decisão',
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.ylabel('Valor Real', fontsize=12)
plt.xlabel('Valor Previsto', fontsize=12)
plt.tick_params(axis='both', labelsize=10)
labels = ['Não Sobreviveu', 'Sobreviveu']
plt.gca().set_xticklabels(labels)
plt.gca().set_yticklabels(labels)

plt.tight_layout()
plt.show()

### Árvore de Decisão - Análise das Variaveis

In [None]:
# VISUALIZAÇÃO: Análise da Importância das Variaveis na Árvore de Decisão
feature_importance = pd.DataFrame({
    'Feature': features,
    'Importance': dt_model.feature_importances_
}).sort_values('Importance', ascending=False)

plt.figure(figsize=(10, 6), dpi=150)
sns.barplot(x='Importance', 
            y='Feature',
            data=feature_importance,
            color='royalblue')

plt.title('Importância das Variaveis na Árvore de Decisão',
          pad=20, fontsize=14, fontweight='bold')
plt.xlabel('Importância', fontsize=12)
plt.ylabel('Variaveis', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

print("\nImportância das Variaveis:")
for idx, row in feature_importance.iterrows():
    print(f"{row['Feature']}: {row['Importance']:.4f}")

### K-Nearest Neighbors (KNN)

In [None]:
# Criar e treinar o modelo
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)

# Fazer previsões
knn_pred = knn_model.predict(X_test)

# Calcular métricas
knn_accuracy = accuracy_score(y_test, knn_pred)
knn_f1 = f1_score(y_test, knn_pred)
knn_conf_matrix = confusion_matrix(y_test, knn_pred)

print(f"\nAcurácia: {knn_accuracy:.4f}")
print(f"F1-Score: {knn_f1:.4f}")
print("\nMatriz de Confusão:")
print(knn_conf_matrix)
print("\nRelatório de Classificação:")
print(classification_report(y_test, knn_pred))

In [None]:
# VISUALIZAÇÃO: Matriz de confusão para o KNN
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(8, 6), dpi=150)

sns.heatmap(knn_conf_matrix,
           annot=True, 
           fmt='d',
           cmap='RdYlBu_r',
           center=knn_conf_matrix.mean().mean(),
           square=True,
           cbar_kws={'label': 'Número de Casos',
                    'shrink': .8},
           linewidths=1,
           linecolor='white',
           annot_kws={'size': 12,
                     'weight': 'bold'})

plt.title('Matriz de Confusão - KNN',
        pad=20,
        fontsize=14,
        fontweight='bold')

plt.ylabel('Valor Real', fontsize=12)
plt.xlabel('Valor Previsto', fontsize=12)
plt.tick_params(axis='both', labelsize=10)
labels = ['Não Sobreviveu', 'Sobreviveu']
plt.gca().set_xticklabels(labels)
plt.gca().set_yticklabels(labels)

plt.tight_layout()
plt.show()

### Comparação de Modelos

#### Visualização Cruzada dos Modelos

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

# Configurar a validação cruzada
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

models = {
    'Árvore de Decisão': dt_model,
    'KNN': knn_model
}

cv_results = {}
for name, model in models.items():
    cv_scores = cross_val_score(model, X_train, y_train, 
                              cv=kfold, scoring='accuracy')
    cv_results[name] = {
        'mean': cv_scores.mean(),
        'std': cv_scores.std(),
        'scores': cv_scores
    }
    print(f"\n{name} - Validação Cruzada (5-fold):")
    print(f"Acurácia média: {cv_scores.mean():.4f} (+/- {cv_scores.std()*2:.4f})")
    print(f"Scores individuais: {cv_scores}")

#### Otimização de Hiperparâmetros

In [None]:
from sklearn.model_selection import GridSearchCV

# Para Árvore de Decisão
dt_params = {
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

dt_grid = GridSearchCV(DecisionTreeClassifier(random_state=42),
                      dt_params,
                      cv=5,
                      scoring='accuracy',
                      n_jobs=-1)
dt_grid.fit(X_train, y_train)

print("\nMelhores parâmetros para Árvore de Decisão:")
print(dt_grid.best_params_)
print(f"Melhor score: {dt_grid.best_score_:.4f}")

# Para KNN
knn_params = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

knn_grid = GridSearchCV(KNeighborsClassifier(),
                       knn_params,
                       cv=5,
                       scoring='accuracy',
                       n_jobs=-1)
knn_grid.fit(X_train, y_train)

print("\nMelhores parâmetros para KNN:")
print(knn_grid.best_params_)
print(f"Melhor score: {knn_grid.best_score_:.4f}")

#### Curvas de Aprendizagem

In [None]:
# VISUALIZAÇÃO: Curvas de Aprendizagem
from sklearn.model_selection import learning_curve

def plot_learning_curve(estimator, title, X, y, cv=5):
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=-1,
        train_sizes=np.linspace(0.1, 1.0, 10))
    
    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    test_mean = np.mean(test_scores, axis=1)
    test_std = np.std(test_scores, axis=1)
    
    plt.figure(figsize=(10, 6), dpi=150)
    plt.plot(train_sizes, train_mean, label='Score treino',
             color='blue', marker='o')
    plt.fill_between(train_sizes, train_mean - train_std,
                     train_mean + train_std, alpha=0.15, color='blue')
    
    plt.plot(train_sizes, test_mean, label='Score validação',
             color='red', marker='o')
    plt.fill_between(train_sizes, test_mean - test_std,
                     test_mean + test_std, alpha=0.15, color='red')
    
    plt.title(title, pad=20, fontsize=14, fontweight='bold')
    plt.xlabel('Tamanho do Conjunto de Treino', fontsize=12)
    plt.ylabel('Score', fontsize=12)
    plt.grid(True, linestyle='--', alpha=0.7, color='#CCCCCC')
    plt.legend(loc='lower right')
    plt.tight_layout()
    plt.show()

plot_learning_curve(dt_model, "Curva de Aprendizagem - Árvore de Decisão",
                   X_train, y_train)
plot_learning_curve(knn_model, "Curva de Aprendizagem - KNN",
                   X_train, y_train)

#### Comparação dos Modelos final

In [None]:
print("Comparação dos Modelos:")
print("-" * 40)
comparison_df = pd.DataFrame({
    'Modelo': ['Árvore de Decisão', 'KNN'],
    'Acurácia': [dt_accuracy, knn_accuracy],
    'F1-Score': [dt_f1, knn_f1]
})
print(comparison_df.round(4))

In [None]:
# VISUALIZAÇÃO: Comparação de Modelos
colors = plt.cm.tab20(np.linspace(0, 1, 20))
plt.figure(figsize=(10, 6), dpi=150)

models = comparison_df['Modelo']
metrics = {
   'Acurácia': comparison_df['Acurácia'],
   'F1-Score': comparison_df['F1-Score']
}

x = np.arange(len(models))
width = 0.35

plt.bar(x - width/2, metrics['Acurácia'], 
       width, 
       label='Acurácia', 
       color=colors[0],
       edgecolor='white',
       linewidth=2)

plt.bar(x + width/2, metrics['F1-Score'], 
       width, 
       label='F1-Score', 
       color=colors[2],
       edgecolor='white',
       linewidth=2)

plt.title('Comparação de Performance dos Modelos', 
        pad=20, 
        fontsize=14,
        fontweight='bold')

plt.xlabel('Modelo', fontsize=12)
plt.ylabel('Score', fontsize=12)

plt.xticks(x, models, fontsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.ylim(0, 1)

for i in x:
   plt.text(i - width/2, metrics['Acurácia'][i], 
            f'{metrics["Acurácia"][i]:.3f}', 
            ha='center', 
            va='bottom', 
            fontsize=10,
            fontweight='bold')
   
   plt.text(i + width/2, metrics['F1-Score'][i], 
            f'{metrics["F1-Score"][i]:.3f}', 
            ha='center', 
            va='bottom', 
            fontsize=10,
            fontweight='bold')

plt.legend(frameon=True,
         facecolor='white',
         edgecolor='none',
         fontsize=10)

plt.grid(axis='y', linestyle='--', alpha=0.7, color='#CCCCCC')
plt.tight_layout()
plt.show()

#### **Observações sobre os resultados dos Modelos Preditivos**

#### Performance Global
- A Árvore de Decisão superou o KNN em todas as métricas avaliadas

#### Conclusões Principais
1. **Árvore de Decisão**:
   - Melhor modelo para este conjunto de dados
   - Mais equilibrado na previsão de ambas as classes
   - Maior capacidade de generalização

2. **Modelo KNN**:
   - Desempenho mais modesto
   - Dificuldade particular na previsão de sobreviventes
   - Maior taxa de falsos negativos

#### Recomendação
Com base nos resultados obtidos, recomenda-se a utilização do modelo de Árvore de Decisão para prever a sobrevivência dos passageiros do Titanic, pois apresenta métricas superiores e maior consistência nas previsões de ambas as classes.

---
# 📋 Conclusões e Observações Finais

## Análise dos Grupos mais Propensos à Sobrevivência

### Fatores Determinantes para Sobrevivência

#### 1. Género (Sex)
- **Mulheres**: Taxa de sobrevivência de 74.0%
  - Mulheres da 1ª classe: 96.7% sobreviveram
  - Mulheres da 2ª classe: 92.1% sobreviveram
  - Mulheres da 3ª classe: 50.0% sobreviveram
- **Homens**: Taxa de sobrevivência de apenas 18.9%
  - Principal grupo de risco durante o naufrágio
  - Reflexo direto da política "mulheres e crianças primeiro"

#### 2. Classe (Pclass)
- **1ª Classe**: 62.6% de sobrevivência
  - Acesso privilegiado aos botes salva-vidas
  - Melhor localização das cabines
  - Maior acesso a informações durante a emergência
- **2ª Classe**: 47.3% de sobrevivência
  - Taxa intermediária refletindo posição social média
- **3ª Classe**: 24.2% de sobrevivência
  - Localização desfavorável no navio
  - Menor acesso aos botes salva-vidas
  - Possível falta de comunicação ou tardia

#### 3. Idade (Age)
- **Crianças (0-17)**: 54.0% de sobrevivência
  - Prioridade nos botes salva-vidas
  - Maior probabilidade de serem acompanhadas por adultos
- **Adultos (18-64)**: 36.3% de sobrevivência
  - Taxa variável dependendo do género e classe
- **Idosos (65+)**: 9.1% de sobrevivência
  - Grupo mais vulnerável
  - Possíveis limitações de mobilidade

#### 4. Condição de Viagem (IsAlone)
- **Passageiros Sozinhos**: 30.1% de sobrevivência
  - Menor taxa de sobrevivência
  - Sem apoio familiar durante a emergência
- **Famílias Pequenas (1-3 membros)**:
  - Melhor taxa de sobrevivência (55-72%)
  - Suporte mútuo durante a evacuação
- **Famílias Grandes (4+ membros)**:
  - Taxa de sobrevivência reduzida
  - Dificuldade em manter o grupo unido

### Perfil dos Sobreviventes mais Prováveis

1. **Perfil de Alta Sobrevivência**:
   - Mulheres da 1ª ou 2ª classe
   - Crianças acompanhadas
   - Famílias pequenas da 1ª Classe
   - Passageiros embarcados em Cherbourg

2. **Perfil de Baixa Sobrevivência**:
   - Homens da 3ª classe
   - Idosos
   - Passageiros viajando sozinhos
   - Famílias muito numerosas
   - Passageiros embarcados em Southampton

### Conclusões Finais
- O género foi o fator mais determinante para a sobrevivência
- A classe teve forte impacto nas hipóteses de sobrevivência
- A idade foi relevante principalmente para crianças
- Viajar acompanhado aumentava as hipóteses de sobrevivência, desde que em grupos pequenos
- A combinação destes fatores criou disparidades significativas nas taxas de sobrevivência

Esta análise demonstra claramente como fatores sociais, demográficos e económicos influenciaram diretamente as hipóteses de sobrevivência durante o naufrágio do Titanic, revelando padrões significativos de desigualdade social na tragédia.

## Análise Comparativa dos Modelos

### Árvore de Decisão (Melhor Modelo)
- **Acurácia**: 77.53%
- **F1-Score**: 0.6923
- **Matriz de Confusão**:
  - Verdadeiros Negativos: 93
  - Falsos Positivos: 17
  - Falsos Negativos: 23
  - Verdadeiros Positivos: 45

### KNN (K-Nearest Neighbors)
- **Acurácia**: 67.42%
- **F1-Score**: 0.5323
- **Matriz de Confusão**:
  - Verdadeiros Negativos: 87
  - Falsos Positivos: 23
  - Falsos Negativos: 35
  - Verdadeiros Positivos: 33

## Justificação da Superioridade da Árvore de Decisão

### 1. Métricas de Desempenho Superiores
- **Diferença na Acurácia**: Supera o KNN em 10.11 pontos percentuais
- **Diferença no F1-Score**: Vantagem de 16 pontos percentuais
- **Melhor Equilíbrio**: Demonstra maior consistência entre precisão e sensibilidade

### 2. Análise dos Erros
- **Falsos Positivos**: 17 vs 23 do KNN
- **Falsos Negativos**: 23 vs 35 do KNN
- Apresenta menor taxa de erros em ambas as categorias
- Maior capacidade de discriminação entre as classes

### 3. Equilíbrio entre Classes
- **Classe 0 (Não Sobreviventes)**:
  - Precisão de 80% vs 71% do KNN
  - Melhor identificação dos não sobreviventes
- **Classe 1 (Sobreviventes)**:
  - Precisão de 73% vs 59% do KNN
  - Significativamente melhor na identificação de sobreviventes

### 4. Vantagens Práticas
- Maior interpretabilidade do modelo
- Melhor capacidade de generalização
- Maior robustez nas previsões
- Menor sensibilidade a ruídos nos dados

### 5. Adequação ao Problema
- Captura eficientemente relações não lineares nos dados
- Lida bem com variáveis categóricas e numéricas
- Adapta-se naturalmente às características do dataset do Titanic

## Conclusão

A Árvore de Decisão demonstra ser inequivocamente o melhor modelo para este problema específico, apresentando:
1. Métricas de desempenho consistentemente superiores
2. Menor taxa de erros em todas as categorias
3. Melhor equilíbrio na previsão de ambas as classes
4. Maior robustez e interpretabilidade

Esta superioridade justifica a sua escolha como o modelo mais adequado para prever a sobrevivência dos passageiros do Titanic, oferecendo uma base mais confiável para análises e conclusões sobre os padrões de sobrevivência no desastre.